溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

如何理解RuntimeClass與 Pod Overhead

發(fā)布時間:2021-11-22 16:32:47 來源:億速云 閱讀:238 作者:柒染 欄目:云計(jì)算

本篇文章為大家展示了如何理解RuntimeClass與 Pod Overhead,內(nèi)容簡明扼要并且容易理解,絕對能使你眼前一亮,通過這篇文章的詳細(xì)介紹希望你能有所收獲。

一、RuntimeClass 需求來源

容器運(yùn)行時的演進(jìn)過程

我們首先了解一下容器運(yùn)行時的演進(jìn)過程,整個過程大致分為三個階段:

如何理解RuntimeClass與 Pod Overhead

  • 第一個階段:2014 年 6 月

Kubernetes 正式開源,Docker 是當(dāng)時唯一的、也是默認(rèn)的容器運(yùn)行時;

  • 第二個階段:Kubernetes v1.3

rkt 合入 Kubernetes 主干,成為了第二個容器運(yùn)行時。

  • 第三個階段:Kubernetes v.15

與此同時,越來越多的容器運(yùn)行時也想接入到 Kubernetes 中。如果還是按 rkt 和 Docker 一樣內(nèi)置支持的話,會給 Kubernetes 的代碼維護(hù)和質(zhì)量保障帶來嚴(yán)重挑戰(zhàn)。

社區(qū)也意識到了這一點(diǎn),所以在 1.5 版本時推出了 CRI,它的全稱是 Container Runtime Interface。這樣做的好處是:實(shí)現(xiàn)了運(yùn)行時和 Kubernetes 的解耦,社區(qū)不必再為各種運(yùn)行時做適配工作,也不用擔(dān)心運(yùn)行時和 Kubernetes 迭代周期不一致所帶來的版本維護(hù)問題。比較典型的,比如 containerd 中的 cri-plugin 就實(shí)現(xiàn)了 CRI、kata-containers、gVisor 這樣的容器運(yùn)行時只需要對接 containerd 就可以了。

隨著越來越多的容器運(yùn)行時的出現(xiàn),不同的容器運(yùn)行時也有不同的需求場景,于是就有了多容器運(yùn)行時的需求。但是,如何來運(yùn)行多容器運(yùn)行時還需要解決以下幾個問題:

  • 集群里有哪些可用的容器運(yùn)行時?

  • 如何為 Pod 選擇合適的容器運(yùn)行時?

  • 如何讓 Pod 調(diào)度到裝有指定容器運(yùn)行時的節(jié)點(diǎn)上?

  • 容器運(yùn)行時在運(yùn)行容器時會產(chǎn)生有一些業(yè)務(wù)運(yùn)行以外的額外開銷,這種「額外開銷」需要怎么統(tǒng)計(jì)?

RuntimeClass 的工作流程

為了解決上述提到的問題,社區(qū)推出了 RuntimeClass。它其實(shí)在 Kubernetes v1.12 中就已被引入,不過最初是以 CRD 的形式引入的。v1.14 之后,它又作為一種內(nèi)置集群資源對象 RuntimeClas 被引入進(jìn)來。v1.16 又在 v1.14 的基礎(chǔ)上擴(kuò)充了 Scheduling 和 Overhead 的能力。

如何理解RuntimeClass與 Pod Overhead

下面以 v1.16 版本為例,講解一下 RuntimeClass 的工作流程。如上圖所示,左側(cè)是它的工作流程圖,右側(cè)是一個 YAML 文件。

YAML 文件包含兩個部分:上部分負(fù)責(zé)創(chuàng)建一個名字叫 runv 的 RuntimeClass 對象,下部分負(fù)責(zé)創(chuàng)建一個 Pod,該P(yáng)od 通過 spec.runtimeClassName 引用了 runv 這個 RuntimeClass。

RuntimeClass 對象中比較核心的是 handler,它表示一個接收創(chuàng)建容器請求的程序,同時也對應(yīng)一個容器運(yùn)行時。比如示例中的 Pod 最終會被 runv 容器運(yùn)行時創(chuàng)建容器;scheduling 決定 Pod 最終會被調(diào)度到哪些節(jié)點(diǎn)上。

結(jié)合左圖來說明一下 RuntimeClass 的工作流程:

  1. K8s-master 接收到創(chuàng)建 Pod 的請求;

  2. 方格部分表示三種類型的節(jié)點(diǎn)。每個節(jié)點(diǎn)上都有 Label 標(biāo)識當(dāng)前節(jié)點(diǎn)支持的容器運(yùn)行時,節(jié)點(diǎn)內(nèi)會有一個或多個 handler,每個 handler 對應(yīng)一種容器運(yùn)行時。比如第二個方格表示節(jié)點(diǎn)內(nèi)有支持 runc 和 runv 兩種容器運(yùn)行時的 handler;第三個方格表示節(jié)點(diǎn)內(nèi)有支持 runhcs 容器運(yùn)行時的 handler;

  3. 根據(jù) scheduling.nodeSelector, Pod 最終會調(diào)度到中間方格節(jié)點(diǎn)上,并最終由 runv handler 來創(chuàng)建 Pod。

二、RuntimeClass 功能介紹

RuntimeClass 的結(jié)構(gòu)體定義

如何理解RuntimeClass與 Pod Overhead

我們還是以 Kubernetes v1.16 版本中的 RuntimeClass 為例。首先介紹一下 RuntimeClass 的結(jié)構(gòu)體定義。

一個 RuntimeClass 對象代表了一個容器運(yùn)行時,它的結(jié)構(gòu)體中主要包含 Handler、Overhead、Scheduling 三個字段。

  • 在之前的例子中我們也提到過 Handler,它表示一個接收創(chuàng)建容器請求的程序,同時也對應(yīng)一個容器運(yùn)行時;

  • Overhead 是 v1.16 中才引入的一個新的字段,它表示 Pod 中的業(yè)務(wù)運(yùn)行所需資源以外的額外開銷;

  • 第三個字段Scheduling 也是在 v1.16 中被引入的,該 Scheduling 配置會被自動注入到 Pod 的 nodeSelector 中。

RuntimeClass 資源定義例子

如何理解RuntimeClass與 Pod Overhead
如何理解RuntimeClass與 Pod Overhead

在 Pod 中引用 RuntimeClass 的用法非常簡單,只要在 runtimeClassName 字段中配置好 RuntimeClass 的名字,就可以把這個 RuntimeClass 引入進(jìn)來。

Scheduling 結(jié)構(gòu)體的定義

顧名思義,Scheduling 表示調(diào)度,但這里的調(diào)度不是說 RuntimeClass 對象本身的調(diào)度,而是會影響到引用了 RuntimeClass 的 Pod 的調(diào)度。

如何理解RuntimeClass與 Pod Overhead

Scheduling 中包含了兩個字段,NodeSelector 和 Tolerations。這兩個和 Pod 本身所包含的 NodeSelector 和 Tolerations 是極為相似的。

NodeSelector 代表的是支持該 RuntimeClass 的節(jié)點(diǎn)上應(yīng)該有的 label 列表。一個 Pod 引用了該 RuntimeClass 后,RuntimeClass admission 會把該 label 列表與 Pod 中的 label 列表做一次合并。如果這兩個 label 中有沖突的,會被 admission 拒絕。這里的沖突是指它們的 key 相同,但是 value 不相同,這種情況就會被 admission 拒絕。另外需要注意的是,RuntimeClass 并不會自動為 Node 設(shè)置 label,需要用戶在使用前提前設(shè)置好。

Tolerations 表示 RuntimeClass 的容忍列表。一個 Pod 引用該 RuntimeClass 之后,admission 也會把 toleration 列表與 Pod 中的 toleration 列表做一個合并。如果這兩處的 Toleration 有相同的容忍配置,就會將其合并成一個。

為什么引入 Pod Overhead?

如何理解RuntimeClass與 Pod Overhead

上圖左邊是一個 Docker Pod,右邊是一個 Kata Pod。我們知道,Docker Pod 除了傳統(tǒng)的 container 容器之外,還有一個 pause 容器,但我們在計(jì)算它的容器開銷的時候會忽略 pause 容器。對于 Kata Pod,除了 container 容器之外,kata-agent, pause, guest-kernel 這些開銷都是沒有被統(tǒng)計(jì)進(jìn)來的。像這些開銷,多的時候甚至能超過 100MB,這些開銷我們是沒法忽略的。

這就是我們引入 Pod Overhead 的初衷。它的結(jié)構(gòu)體定義如下:

如何理解RuntimeClass與 Pod Overhead

它的定義非常簡單,只有一個字段 PodFixed。它這里面也是一個映射,它的 key 是一個 ResourceName,value 是一個 Quantity。每一個 Quantity 代表的是一個資源的使用量。因此 PodFixed 就代表了各種資源的占用量,比如 CPU、內(nèi)存的占用量,都可以通過 PodFixed 進(jìn)行設(shè)置。

Pod Overhead 的使用場景與限制

Pod Overhead 的使用場景主要有三處:

  • Pod 調(diào)度

在沒有引入 Overhead 之前,只要一個節(jié)點(diǎn)的資源可用量大于等于 Pod 的 requests 時,這個 Pod 就可以被調(diào)度到這個節(jié)點(diǎn)上。引入 Overhead 之后,只有節(jié)點(diǎn)的資源可用量大于等于 Overhead 加上 requests 的值時才能被調(diào)度上來。

  • ResourceQuota

它是一個 namespace 級別的資源配額。假設(shè)我們有這樣一個 namespace,它的內(nèi)存使用量是 1G,我們有一個 requests 等于 500 的 Pod,那么這個 namespace 之下,最多可以調(diào)度兩個這樣的 Pod。而如果我們?yōu)檫@兩個 Pod 增添了 200MB 的 Overhead 之后,這個 namespace 下就最多只可調(diào)度一個這樣的 Pod。

  • Kubelet Pod 驅(qū)逐

引入 Overhead 之后,Overhead 就會被統(tǒng)計(jì)到節(jié)點(diǎn)的已使用資源中,從而增加已使用資源的占比,最終會影響到 Kubelet Pod 的驅(qū)逐。

以上是 Pod Overhead 的使用場景。除此之外,Pod Overhead 還有一些使用限制和注意事項(xiàng):

  • Pod Overhead 最終會永久注入到 Pod 內(nèi)并且不可手動更改。即便是將 RuntimeClass 刪除或者更新,Pod Overhead 依然存在并且有效;

  • Pod Overhead 只能由 RuntimeClass admission 自動注入(至少目前是這樣的),不可手動添加或更改。如果這么做,會被拒絕;

  • HPA 和 VPA 是基于容器級別指標(biāo)數(shù)據(jù)做聚合,Pod Overhead 不會對它們造成影響。

三、多容器運(yùn)行時示例

如何理解RuntimeClass與 Pod Overhead

目前阿里云 ACK 安全沙箱容器已經(jīng)支持了多容器運(yùn)行時,我們以上圖所示環(huán)境為例來說明一下多容器運(yùn)行時是怎么工作的。

如上圖所示有兩個 Pod,左側(cè)是一個 runc 的 Pod,對應(yīng)的 RuntimeClass 是 runc,右側(cè)是一個 runv 的Pod,引用的 RuntimeClass 是 runv。對應(yīng)的請求已用不同的顏色標(biāo)識了出來,藍(lán)色的代表是 runc 的,紅色的代表是 runv 的。圖中下半部分,其中比較核心的部分是 containerd,在 containerd 中可以配置多個容器運(yùn)行時,最終上面的請求也會到達(dá)這里進(jìn)行請求的轉(zhuǎn)發(fā)。

我們先來看一下 runc 的請求,它先到達(dá) kube-apiserver,然后 kube-apiserver 請求轉(zhuǎn)發(fā)給 kubelet,最終 kubelet 將請求發(fā)至 cri-plugin(它是一個實(shí)現(xiàn)了 CRI 的插件),cri-plugin 在 containerd 的配置文件中查詢 runc 對應(yīng)的 Handler,最終查到是通過 Shim API runtime v1 請求 containerd-shim,然后由它創(chuàng)建對應(yīng)的容器。這是 runc 的流程。

runv 的流程與 runc 的流程類似。也是先將請求到達(dá) kube-apiserver,然后再到達(dá) kubelet,再把請求到達(dá) cri-plugin,cri-plugin 最終還回去匹配 containerd 的配置文件,最終會找到通過 Shim API runtime v2 去創(chuàng)建 containerd-shim-kata-v2,然后由它創(chuàng)建一個 Kata Pod。

下面我們再看一下 containerd 的具體配置。

如何理解RuntimeClass與 Pod Overhead

containerd 默認(rèn)放在 file:///etc/containerd/config.toml 這個位置下。比較核心的配置是在 plugins.cri.containerd 目錄下。其中 runtimes 的配置都有相同的前綴 plugins.cri.containerd.runtimes,后面有 runc, runv 兩種 RuntimeClass。這里面的 runc 和 runv 和前面 RuntimeClass 對象中 Handler 的名字是相對應(yīng)的。除此之外,還有一個比較特殊的配置 plugins.cri.containerd.runtimes.default_runtime,它的意思是說,如果一個 Pod 沒有指定 RuntimeClass,但是被調(diào)度到當(dāng)前節(jié)點(diǎn)的話,那么就默認(rèn)使用 runc 容器運(yùn)行時。

下面的例子是創(chuàng)建 runc 和 runv 這兩個 RuntimeClass 對象,我們可以通過 kubectl get runtimeclass 看到當(dāng)前所有可用的容器運(yùn)行時。

如何理解RuntimeClass與 Pod Overhead

下圖從左至右分別是一個 runc 和 runv 的 Pod,比較核心的地方就是在 runtimeClassName 字段中分別引用了 runc 和 runv 的容器運(yùn)行時。

如何理解RuntimeClass與 Pod Overhead

最終將 Pod 創(chuàng)建起來之后,我們可以通過 kubectl 命令來查看各個 Pod 容器的運(yùn)行狀態(tài)以及 Pod 所使用的容器運(yùn)行時。我們可以看到現(xiàn)在集群中有兩個 Pod:一個是 runc-pod,另一個是 runv-pod,分別引用的是 runc 和 runv 的 RuntimeClass,并且它們的狀態(tài)都是 Running。

如何理解RuntimeClass與 Pod Overhead

  • RuntimeClass 是 Kubernetes 一種內(nèi)置的集群資源,主要用來解決多個容器運(yùn)行時混用的問題;

  • RuntimeClass 中配置 Scheduling 可以讓 Pod 自動調(diào)度到運(yùn)行了指定容器運(yùn)行時的節(jié)點(diǎn)上。但前提是需要用戶提前為這些 Node 設(shè)置好 label;

  • RuntimeClass 中配置 Overhead,可以把 Pod 中業(yè)務(wù)運(yùn)行所需以外的開銷統(tǒng)計(jì)進(jìn)來,讓調(diào)度、ResourceQuota、Kubelet Pod 驅(qū)逐等行為更準(zhǔn)確。

上述內(nèi)容就是如何理解RuntimeClass與 Pod Overhead,你們學(xué)到知識或技能了嗎?如果還想學(xué)到更多技能或者豐富自己的知識儲備,歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI