溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

提升K8S故障排查效率的示例分析

發(fā)布時(shí)間:2021-12-15 18:38:13 來源:億速云 閱讀:114 作者:柒染 欄目:云計(jì)算

提升K8S故障排查效率的示例分析,針對(duì)這個(gè)問題,這篇文章詳細(xì)介紹了相對(duì)應(yīng)的分析和解答,希望可以幫助更多想解決這個(gè)問題的小伙伴找到更簡(jiǎn)單易行的方法。

作為領(lǐng)先的多集群Kubernetes管理平臺(tái),Rancher使運(yùn)維團(tuán)隊(duì)可以部署、管理和保護(hù)企業(yè)的Kubernetes集群。Rancher還為用戶提供了一系列容器網(wǎng)絡(luò)接口(CNI)選項(xiàng)可供選擇,包括開源項(xiàng)目Calico(https://www.projectcalico.org/)。Calico為Kubernetes Pod提供了原生Layer3路由功能,從而簡(jiǎn)化了網(wǎng)絡(luò)架構(gòu),提高了網(wǎng)絡(luò)性能,并提供了豐富的網(wǎng)絡(luò)策略模型,可以輕松地阻止通信。因此,只有你指定的流量才能流動(dòng)。

在部署Kubernetes過程一個(gè)常見的問題是獲取對(duì)集群環(huán)境的可見性,以有效監(jiān)控網(wǎng)絡(luò)和安全問題并進(jìn)行故障排除??梢娦院凸收吓挪槭俏覀?cè)赥igera上看到的3大Kubernetes用例之一。這在生產(chǎn)部署中尤其重要,因?yàn)殄礄C(jī)時(shí)間十分寶貴并且分布式應(yīng)用很難進(jìn)行故障排查。如果你是平臺(tái)團(tuán)隊(duì)的一員,你還需要承受SLA的壓力。如果你是DevOps團(tuán)隊(duì)的一員,則需要啟動(dòng)生產(chǎn)工作負(fù)載。對(duì)于兩個(gè)團(tuán)隊(duì)來說,共同的目標(biāo)都是盡快解決問題。

為什么K8S故障排查如此具有挑戰(zhàn)性?

由于Kubernetes工作負(fù)載是動(dòng)態(tài)的,因此連接問題十分難以解決。而常規(guī)的網(wǎng)絡(luò)監(jiān)控工具是為靜態(tài)環(huán)境設(shè)計(jì)的。它們無法理解Kubernetes上下文并且當(dāng)應(yīng)用到Kubernetes時(shí)并不高效。如果沒有特定的Kubernetes診斷工具,對(duì)于平臺(tái)團(tuán)隊(duì)而言,進(jìn)行故障排除會(huì)令人沮喪。例如,當(dāng)pod-to-pod的連接被拒絕時(shí),幾乎無法確定哪個(gè)網(wǎng)絡(luò)安全策略拒絕了流量。當(dāng)然,你可以手動(dòng)登錄到節(jié)點(diǎn)并查看系統(tǒng)日志,但這并不可行也無法擴(kuò)展到多個(gè)節(jié)點(diǎn)。

基于此,你十分需要一種方法來快速查明任何連接或安全問題的根源。或者更好的是,能夠有一些具備預(yù)見性的工具,從而避免出現(xiàn)問題。隨著Kubernetes部署規(guī)模的擴(kuò)大,圍繞可見性、監(jiān)控和日志記錄的限制可能導(dǎo)致無法診斷的系統(tǒng)故障,從而導(dǎo)致服務(wù)中斷并影響客戶滿意度和你的業(yè)務(wù)。

流量日志以及流量可見性

對(duì)在生產(chǎn)上運(yùn)行Rancher的用戶,Calico Enterprise(https://www.tigera.io/tigera-products/calico-enterprise/ )網(wǎng)絡(luò)流量日志可以為解決Kubernetes網(wǎng)絡(luò)和安全問題提供了堅(jiān)實(shí)的基礎(chǔ)。例如,流量日志可用于運(yùn)行queries以分析來自既定命名空間或工作負(fù)載標(biāo)簽的所有流量。但是,要有效地對(duì)Kubernetes環(huán)境進(jìn)行故障排查,你需要帶有Kubernetes特定數(shù)據(jù)的流量日志,例如pod、標(biāo)簽和命名空間,以及哪些策略接受或拒絕了連接。

提升K8S故障排查效率的示例分析

Calico Enterprise Flow Visualizer

Rancher用戶中有很大一部分屬于DevOps團(tuán)隊(duì)。盡管傳統(tǒng)的ITOps具有管理網(wǎng)絡(luò)和安全策略,但我們看到DevOps團(tuán)隊(duì)正在尋找能夠?qū)崿F(xiàn)自給自足并加快CI/CD流程的解決方案。對(duì)于在生產(chǎn)環(huán)境中運(yùn)行的Rancher用戶,Calico Enterprise包含F(xiàn)low Visualizer,這是一個(gè)功能強(qiáng)大的工具,可簡(jiǎn)化連接故障排查。這種方法可以直觀地與網(wǎng)絡(luò)流量進(jìn)行交互并對(duì)其進(jìn)行深入研究。DevOps可以使用此工具進(jìn)行故障排查和策略創(chuàng)建,而ITOps可以使用RBAC建立策略層次結(jié)構(gòu)以實(shí)施保護(hù),因此DevOps團(tuán)隊(duì)不會(huì)覆蓋任何企業(yè)范圍的策略。

防火墻可以為安全團(tuán)隊(duì)創(chuàng)建可見空間

Kubernetes工作負(fù)載大量使用網(wǎng)絡(luò)并產(chǎn)生大量東西流量。如果你在Kubernetes架構(gòu)中部署常規(guī)的防火墻,則將無法可視化流量以及故障排查。防火墻并不了解Kubernetes流量所需的上下文(命名空間、Pod、標(biāo)簽、container id等)。這樣就無法對(duì)網(wǎng)絡(luò)問題進(jìn)行故障排除,進(jìn)行取證分析或報(bào)告安全控制措施是否合規(guī)。

為了獲得所需的可見性,Rancher用戶可以部署Calico Enterprise,將基于區(qū)域的防火墻規(guī)則轉(zhuǎn)換為Kubernetes網(wǎng)絡(luò)策略,該策略將集群劃分為各個(gè)區(qū)域并應(yīng)用正確的防火墻規(guī)則。然后,可以使用現(xiàn)有的防火墻和防火墻管理器來定義區(qū)域并在Kubernetes中創(chuàng)建規(guī)則,就像創(chuàng)建所有其他規(guī)則一樣??梢詫⒘髁看┰絽^(qū)域發(fā)送到安全團(tuán)隊(duì)的安全信息和事件管理平臺(tái)(SIEM),從而為它們提供與常規(guī)防火墻相同的可見性,以進(jìn)行故障排除。

其他Kubernetes故障排除注意事項(xiàng)

對(duì)于使用Rancher平臺(tái)的平臺(tái)、網(wǎng)絡(luò)、DevOps和安全團(tuán)隊(duì),Tigera提供了其他可見性和監(jiān)控工具,可幫助你更快地進(jìn)行故障排除:

  • 可以向所有監(jiān)控的數(shù)據(jù)添加閾值和警報(bào)。例如,拒絕的流量激增會(huì)向你的DevOps團(tuán)隊(duì)或安全運(yùn)維中心(SOC)發(fā)出警報(bào),以進(jìn)行進(jìn)一步調(diào)查。

  • Filter使你能夠按命名空間、pod和視圖狀態(tài)(例如允許或拒絕的流量)進(jìn)行深入分析。

  • 能夠?qū)⑷罩敬鎯?chǔ)在EFK(Elasticsearch、Fluentd和Kibana)堆棧中以供將來訪問。

無論你是剛剛接觸Kubernetes,還是僅僅想簡(jiǎn)單了解集群意外行為的“原因”,亦或是處于生產(chǎn)環(huán)境中部署了大規(guī)模的工作負(fù)載狀態(tài),使用正確的工具進(jìn)行有效的故障排除將有助于你避免出現(xiàn)宕機(jī)和服務(wù)中斷的情況。

關(guān)于提升K8S故障排查效率的示例分析問題的解答就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關(guān)注億速云行業(yè)資訊頻道了解更多相關(guān)知識(shí)。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

k8s
AI