K8s動(dòng)態(tài)調(diào)度器怎么配置

發(fā)布時(shí)間：2022-01-11 17:41:12 來(lái)源：億速云閱讀：174 作者：iii 欄目：云計(jì)算

這篇文章主要講解了“K8s動(dòng)態(tài)調(diào)度器怎么配置”，文中的講解內(nèi)容簡(jiǎn)單清晰，易于學(xué)習(xí)與理解，下面請(qǐng)大家跟著小編的思路慢慢深入，一起來(lái)研究和學(xué)習(xí)“K8s動(dòng)態(tài)調(diào)度器怎么配置”吧！

引言

在 K8s 集群運(yùn)營(yíng)過(guò)程中，常常會(huì)被節(jié)點(diǎn) CPU 和內(nèi)存的高使用率所困擾，既影響了節(jié)點(diǎn)上 Pod 的穩(wěn)定運(yùn)行，也會(huì)增加節(jié)點(diǎn)故障的幾率。為了應(yīng)對(duì)集群節(jié)點(diǎn)高負(fù)載的問(wèn)題，平衡各個(gè)節(jié)點(diǎn)之間的資源使用率，應(yīng)該基于節(jié)點(diǎn)的實(shí)際資源利用率監(jiān)控信息，從以下兩個(gè)策略入手：

在 Pod 調(diào)度階段，應(yīng)當(dāng)優(yōu)先將 Pod 調(diào)度到資源利用率低的節(jié)點(diǎn)上運(yùn)行，不調(diào)度到資源利用率已經(jīng)很高的節(jié)點(diǎn)上
在監(jiān)控到節(jié)點(diǎn)資源率較高時(shí)，可以自動(dòng)干預(yù)，遷移節(jié)點(diǎn)上的一些 Pod 到利用率低的節(jié)點(diǎn)上

為此，我們提供 動(dòng)態(tài)調(diào)度器 + Descheduler 的方案來(lái)實(shí)現(xiàn)，目前在公有云 TKE 集群內(nèi)【組件管理】- 【調(diào)度】分類下已經(jīng)提供這兩個(gè)插件的安裝入口，文末還針對(duì)具體的客戶案例提供了最佳實(shí)踐的例子。

動(dòng)態(tài)調(diào)度器

原生的 Kubernetes 調(diào)度器有一些很好的調(diào)度策略用來(lái)應(yīng)對(duì)節(jié)點(diǎn)資源分配不均的問(wèn)題，比如 BalancedResourceAllocation，但是存在一個(gè)問(wèn)題是這樣的資源分配是靜態(tài)的，不能代表資源真實(shí)使用情況，節(jié)點(diǎn)的 CPU/內(nèi)存利用率 經(jīng)常處于不均衡的狀態(tài)。所以，需要有一種策略可以基于節(jié)點(diǎn)的實(shí)際資源利用率進(jìn)行調(diào)度。動(dòng)態(tài)調(diào)度器所做的就是這樣的工作。

K8s動(dòng)態(tài)調(diào)度器怎么配置

技術(shù)原理

原生 K8s 調(diào)度器提供了 scheduler extender 機(jī)制來(lái)提供調(diào)度擴(kuò)展的能力。相比修改原生 scheduler 代碼添加策略，或者實(shí)現(xiàn)一個(gè)自定義的調(diào)度器，使用 scheduler extender 的方式侵入性更少，實(shí)現(xiàn)更加靈活。所以我們選擇基于 scheduler extender 的方式來(lái)添加基于節(jié)點(diǎn)的實(shí)際資源利用率進(jìn)行調(diào)度的策略。

scheduler extender 可以在原生調(diào)度器的預(yù)選和優(yōu)選階段加入自定義的邏輯，提供和原生調(diào)度器內(nèi)部策略同樣的效果。

架構(gòu)

K8s動(dòng)態(tài)調(diào)度器怎么配置

node-annotator：負(fù)責(zé)拉取 Prometheus 中的監(jiān)控?cái)?shù)據(jù)，定期同步到 Node 的 annotation 里面，同時(shí)負(fù)責(zé)其他邏輯，如動(dòng)態(tài)調(diào)度器調(diào)度有效性衡量指標(biāo)，防止調(diào)度熱點(diǎn)等邏輯。
dynamic-scheduler：負(fù)責(zé) scheduler extender 的優(yōu)選和預(yù)選接口邏輯實(shí)現(xiàn)，在預(yù)選階段過(guò)濾掉資源利用率高于閾值的節(jié)點(diǎn)，在優(yōu)選階段優(yōu)先選擇資源利用率低的節(jié)點(diǎn)進(jìn)行調(diào)度。

實(shí)現(xiàn)細(xì)節(jié)

動(dòng)態(tài)調(diào)度器的策略在優(yōu)選階段的權(quán)重如何配置？

原生調(diào)度器的調(diào)度策略在優(yōu)選階段有一個(gè)權(quán)重配置，每個(gè)策略的評(píng)分乘以權(quán)重得到該策略的總得分。對(duì)權(quán)重越高的策略，符合條件的節(jié)點(diǎn)越容易調(diào)度上。默認(rèn)所有策略配置權(quán)重為 1，為了提升動(dòng)態(tài)調(diào)度器策略的效果，我們把動(dòng)態(tài)調(diào)度器優(yōu)選策略的權(quán)重設(shè)置為 2。

動(dòng)態(tài)調(diào)度器如何防止調(diào)度熱點(diǎn)？

在集群中，如果出現(xiàn)一個(gè)新增的節(jié)點(diǎn)，為了防止新增的節(jié)點(diǎn)調(diào)度上過(guò)多的節(jié)點(diǎn)，我們會(huì)通過(guò)監(jiān)聽(tīng)調(diào)度器調(diào)度成功事件，獲取調(diào)度結(jié)果，標(biāo)記每個(gè)節(jié)點(diǎn)過(guò)去一段時(shí)間的調(diào)度 Pod 數(shù),比如 1min、5min、30min 內(nèi)的調(diào)度 Pod 數(shù)量，衡量節(jié)點(diǎn)的熱點(diǎn)值然后補(bǔ)償?shù)焦?jié)點(diǎn)的優(yōu)選評(píng)分中。

產(chǎn)品能力

組件依賴

組件依賴較少，僅依賴基礎(chǔ)的節(jié)點(diǎn)監(jiān)控組件 node-exporter 和 Prometheus。Prometheus 支持托管和自建兩種方式，使用托管方式可以一鍵安裝動(dòng)態(tài)調(diào)度器，而使用自建 Prometheus 也提供了監(jiān)控指標(biāo)配置方法。

K8s動(dòng)態(tài)調(diào)度器怎么配置

組件配置

調(diào)度策略目前可以基于 CPU 和內(nèi)存兩種資源利用率。

預(yù)選階段

K8s動(dòng)態(tài)調(diào)度器怎么配置

配置節(jié)點(diǎn) 5分鐘內(nèi) CPU 利用率、1小時(shí)內(nèi)最大 CPU 利用率，5分鐘內(nèi)平均內(nèi)存利用率，1小時(shí)內(nèi)最大內(nèi)存利用率的閾值，超過(guò)了就會(huì)在預(yù)選階段過(guò)濾節(jié)點(diǎn)。

優(yōu)選階段

K8s動(dòng)態(tài)調(diào)度器怎么配置

動(dòng)態(tài)調(diào)度器優(yōu)選階段的評(píng)分根據(jù)截圖中 6個(gè)指標(biāo)綜合評(píng)分得出，6個(gè)指標(biāo)各自的權(quán)重表示優(yōu)選時(shí)更側(cè)重于哪個(gè)指標(biāo)的值，使用 1h 和 1d 內(nèi)最大利用率的意義是要記錄節(jié)點(diǎn) 1h 和 1d 內(nèi)的利用率峰值，因?yàn)橛械臉I(yè)務(wù) Pod 的峰值周期可能是按照小時(shí)或者天，避免調(diào)度新的 Pod 時(shí)導(dǎo)致在峰值時(shí)間節(jié)點(diǎn)的負(fù)載進(jìn)一步升高。

產(chǎn)品效果

為了衡量動(dòng)態(tài)調(diào)度器對(duì)增強(qiáng) Pod 調(diào)度到低負(fù)載節(jié)點(diǎn)的提升效果，結(jié)合調(diào)度器的實(shí)際調(diào)度結(jié)果，獲取所有調(diào)度到的節(jié)點(diǎn)在調(diào)度時(shí)刻的的 CPU/內(nèi)存利用率以后統(tǒng)計(jì)以下幾個(gè)指標(biāo)：

cpu_utilization_total_avg ：所有調(diào)度到的節(jié)點(diǎn) CPU 利用率平均值。
memory_utilization_total_avg ：所有調(diào)度到的節(jié)點(diǎn)內(nèi)存利用率平均值。
effective_dynamic_schedule_count ：有效調(diào)度次數(shù)，當(dāng)調(diào)度到節(jié)點(diǎn)的 CPU 利用率小于當(dāng)前所有節(jié)點(diǎn) CPU 利用率的中位數(shù)，我們認(rèn)為這是一次有效調(diào)度，effective_dynamic_schedule_count 加 0.5分，對(duì)內(nèi)存也是同理。
total_schedule_count ：所有調(diào)度次數(shù)，每次新的調(diào)度累加1。
effective_schedule_ratio ：有效調(diào)度比率，即 effective_dynamic_schedule_count/total_schedule_count 下面是在同一集群中不開(kāi)啟動(dòng)態(tài)調(diào)度和開(kāi)啟動(dòng)態(tài)調(diào)度各自運(yùn)行一周的指標(biāo)變化，可以看到對(duì)于集群調(diào)度的增強(qiáng)效果。

指標(biāo)	未開(kāi)啟動(dòng)態(tài)調(diào)度	開(kāi)啟動(dòng)態(tài)調(diào)度
cpu_utilization_total_avg	0.30	0.17
memory_utilization_total_avg	0.28	0.23
effective_dynamic_schedule_count	2160	3620
total_schedule_count	7860	7470
effective_schedule_ratio	0.273	0.486

Descheduler

現(xiàn)有的集群調(diào)度場(chǎng)景都是一次性調(diào)度，即一錘子買賣。后續(xù)出現(xiàn)節(jié)點(diǎn) CPU 和內(nèi)存利用率過(guò)高，也無(wú)法自動(dòng)調(diào)整 Pod 的分布，除非觸發(fā)節(jié)點(diǎn)的 eviction manager 后驅(qū)逐，或者人工干預(yù)。這樣在節(jié)點(diǎn) CPU/內(nèi)存利用率高時(shí)，影響了節(jié)點(diǎn)上所有 Pod 的穩(wěn)定性，而且負(fù)載低的節(jié)點(diǎn)資源還被浪費(fèi)。

針對(duì)此場(chǎng)景，借鑒 K8s 社區(qū) Descheduler 重調(diào)度的設(shè)計(jì)思想，給出基于各節(jié)點(diǎn) CPU/內(nèi)存實(shí)際利用率進(jìn)行驅(qū)逐的策略。