您好,登錄后才能下訂單哦!
這篇文章給大家介紹伸縮Kubernetes到2500個節(jié)點中遇到的問題和解決方法是什么,內(nèi)容非常詳細,感興趣的小伙伴們可以參考借鑒,希望對大家能有所幫助。
Kubernetes自從1.6起便號稱可以承載5000個以上的節(jié)點,但是從數(shù)十到5000的路上,難免會遇到問題。
問題:
kubectl 有時會出現(xiàn) timeout(p.s. kubectl -v=6
可以顯示所有API細節(jié)指令)
嘗試解決:
但是超過10個備份master的時候,發(fā)現(xiàn)問題不是因為kube-apiserver無法承受負載,GKE通過一臺32-core VM就可以承載500個節(jié)點
原因:
排除以上原因,開始排查master上剩下的幾個服務(etcd、kube-proxy)
開始嘗試調(diào)整etcd
通過使用datadog查看etcd吞吐量,發(fā)現(xiàn)有異常延遲(latency spiking ~100 ms)
通過Fio工具做性能評估,發(fā)現(xiàn)只用到10%的IOPS(Input/Output Per Second),由于寫入延遲(write latency 2ms)降低了性能
嘗試把SSD從網(wǎng)絡硬盤變?yōu)槊颗_機器有個local temp drive(SSD)
結果從~100ms —> 200us
問題:
發(fā)現(xiàn)kube-apiserver每秒從etcd上讀取500mb
嘗試解決:
通過Prometheus查看container之間的網(wǎng)絡流量
原因:
發(fā)現(xiàn)Fluentd和Datadog抓取每個節(jié)點上資料過于頻繁
調(diào)低兩個服務的抓取頻率,網(wǎng)絡性能從500mb/s降低到幾乎沒有
etcd小技巧:通過--etcd-servers-overrides
可以將Kubernetes Event的資料寫入作為切割,分不同機器處理,如下所示
--etcd-servers-overrides=/events#https://0.example.com:2381;https://1.example.com:2381;https://2.example.com:2381
問題:
無法再寫入數(shù)據(jù),報錯cascading failure
kubernetes-ec2-autoscaler在全部的etcd都停掉以后才回傳問題,并且關閉所有的etcd
嘗試解決:
猜測是etcd硬盤滿了,但是檢查SSD依舊有很多空間
檢查是否有預設的空間限制,發(fā)現(xiàn)有2GB大小限制
解決方法:
在etcd啟動參數(shù)中加入--quota-backend-bytes
修改kubernetes-ec2-autoscaler邏輯——如果超過50%出現(xiàn)問題,關閉集群
一般來說,我們的架構是一個kube-master(主要的 Kubernetes 服務提供組件,上面有kube-apiserver、kube-scheduler 和kube-control-manager)加上多個slave。但是要達到高可用,要參考一下方式實現(xiàn):
kube-apiserver要設置多個服務,并且通過參數(shù)--apiserver-count
重啟并且設定
kubernetes-ec2-autoscaler可以幫助我們自動關閉idle的資源,但是這跟Kubernetes scheduler的原則相悖,不過通過這些設定,可以幫助我們盡量集中資源。
{ "kind" : "Policy", "apiVersion" : "v1", "predicates" : [ {"name" : "GeneralPredicates"}, {"name" : "MatchInterPodAffinity"}, {"name" : "NoDiskConflict"}, {"name" : "NoVolumeZoneConflict"}, {"name" : "PodToleratesNodeTaints"} ], "priorities" : [ {"name" : "MostRequestedPriority", "weight" : 1}, {"name" : "InterPodAffinityPriority", "weight" : 2} ] }
以上為調(diào)整kubernetes scheduler范例,通過調(diào)高InterPodAffinityPriority的權重,達到我們的目的。更多示范參考范例.
需要注意的是,目前Kubernetes Scheduler Policy并不支持動態(tài)切換,需要重啟kube-apiserver(issue: 41600)
OpenAI使用了KubeDNS ,但不久后發(fā)現(xiàn)——
問題:
經(jīng)常出現(xiàn)DNS查詢不到的情況(隨機發(fā)生)
超過 ~200QPS domain lookup
嘗試解決:
嘗試查看為何有這種狀態(tài),發(fā)現(xiàn)有些node上跑了超過10個KuberDNS
解決方法:
由于scheduler policy造成了許多POD的集中
KubeDNS很輕量,容易被分配到同一節(jié)點上,造成domain lookup的集中
需要修改POD affinity(相關介紹),盡量讓KubeDNS分配到不同的node之上
affinity: podAntiAffinity: requiredDuringSchedulingIgnoredDuringExecution: - weight: 100 labelSelector: matchExpressions: - key: k8s-app operator: In values: - kube-dns topologyKey: kubernetes.io/hostname
問題:
每次新節(jié)點建立起來,docker image pull都要花30分鐘
嘗試解決:
有一個很大的container image Dota,差不多17GB,影響了整個節(jié)點的image pulling
開始檢查kubelet是否有其他image pull選項
解決方法:
在kubelet增加選項--serialize-image-pulls=false
來啟動image pulling,讓其他服務可以更早地pull(參考:kubelet啟動選項)
這個選項需要docker storgae切換到overlay2(可以參考docker教學文章)
并且把docker image存放到SSD,可以讓image pull更快一些
補充:source trace
// serializeImagePulls when enabled, tells the Kubelet to pull images one // at a time. We recommend *not* changing the default value on nodes that // run docker daemon with version < 1.9 or an Aufs storage backend. // Issue #10959 has more details. SerializeImagePulls *bool `json:"serializeImagePulls"`
此外,還可以通過以下方式來提高pull的速度
kubelet參數(shù)--image-pull-progress-deadline
要提高到30mins docker daemon參數(shù)max-concurrent-download
調(diào)整到10才能多線程下載
Flannel性能限制
OpenAI節(jié)點間的網(wǎng)絡流量,可以達到10-15GBit/s,但是由于Flannel所以導致流量會降到 ~2GBit/s
解決方式是拿掉Flannel,使用實際的網(wǎng)絡
hostNetwork: true
dnsPolicy: ClusterFirstWithHostNet
關于伸縮Kubernetes到2500個節(jié)點中遇到的問題和解決方法是什么就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。
免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權內(nèi)容。