溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Docker容器監(jiān)控方案怎么選

發(fā)布時(shí)間:2021-10-13 14:17:41 來(lái)源:億速云 閱讀:159 作者:柒染 欄目:數(shù)據(jù)庫(kù)

本篇文章給大家分享的是有關(guān)Docker容器監(jiān)控方案怎么選,小編覺(jué)得挺實(shí)用的,因此分享給大家學(xué)習(xí),希望大家閱讀完這篇文章后可以有所收獲,話不多說(shuō),跟著小編一起來(lái)看看吧。

隨著線上服務(wù)的全面docker化,對(duì)docker容器的監(jiān)控就很重要了。SA的監(jiān)控系統(tǒng)是物理機(jī)的監(jiān)控,在一個(gè)物理機(jī)跑多個(gè)容器的情況下,我們是沒(méi)法從一個(gè)監(jiān)控圖表里面區(qū)分各個(gè)容器的資源占用情況的。為了更好的監(jiān)控容器運(yùn)行情況,更重要的是為了后續(xù)的容器動(dòng)態(tài)調(diào)度算法需要的大量運(yùn)行時(shí)數(shù)據(jù)的搜集,經(jīng)過(guò)調(diào)研后,基于CAdvisor + InfluxDB + Grafana搭建了這套容器監(jiān)控系統(tǒng)。

1、容器監(jiān)控方案選擇

在調(diào)研容器監(jiān)控系統(tǒng)的時(shí)候,其實(shí)是有很多選擇的,比如docker自帶的docker stats命令,Scout,Data Dog,Sysdig Cloud,Sensu Monitoring Framework,CAdvisor等。通過(guò)docker stats命令可以很方便的看到當(dāng)前宿主機(jī)上所有容器的CPU,內(nèi)存以及網(wǎng)絡(luò)流量等數(shù)據(jù)。但是docker stats命令的缺點(diǎn)就是統(tǒng)計(jì)的只是當(dāng)前宿主機(jī)的所有容器,而獲取的監(jiān)控?cái)?shù)據(jù)是實(shí)時(shí)的,沒(méi)有地方存儲(chǔ),也沒(méi)有報(bào)警功能。

而Scout(鏈接:https://scoutapp.com/)、Sysdig Cloud,Data Dog雖然都提供了較完善的服務(wù),但是它們都是托管的服務(wù)而且都收費(fèi),于是也不在考慮范圍之內(nèi)。Sensu Monitoring Framework(鏈接:https://sensu.io/)集成度較高,也免費(fèi),但是部署過(guò)于復(fù)雜。最后,我們選擇了CAdvisor做容器監(jiān)控工具。CAdvisor谷歌出品,優(yōu)點(diǎn)是開(kāi)源產(chǎn)品,監(jiān)控指標(biāo)齊全,部署方便,而且有官方的docker鏡像。缺點(diǎn)是集成度不高,默認(rèn)只在本地保存2分鐘數(shù)據(jù)。不過(guò)在調(diào)研之后發(fā)現(xiàn)可以加上InfluxDB存儲(chǔ)數(shù)據(jù),對(duì)接Grafana展示圖表,比較便利地搭建好了容器監(jiān)控系統(tǒng),數(shù)據(jù)收集和圖表展示效果良好,對(duì)系統(tǒng)性能也幾乎沒(méi)有什么影響。

2、容器資源監(jiān)控-CAdvisor

2.1 部署與運(yùn)行

CAdvisor是一個(gè)容器資源監(jiān)控工具,包括容器的內(nèi)存,CPU,網(wǎng)絡(luò)IO,磁盤IO等監(jiān)控,同時(shí)提供了一個(gè)WEB頁(yè)面用于查看容器的實(shí)時(shí)運(yùn)行狀態(tài)。CAdvisor默認(rèn)存儲(chǔ)2分鐘的數(shù)據(jù),而且只是針對(duì)單物理機(jī)。不過(guò),CAdvisor提供了很多數(shù)據(jù)集成接口,支持InfluxDB,Redis,Kafka,Elasticsearch等集成,可以加上對(duì)應(yīng)配置將監(jiān)控?cái)?shù)據(jù)發(fā)往這些數(shù)據(jù)庫(kù)存儲(chǔ)起來(lái)。

由于CAdvisor已經(jīng)容器化,部署和運(yùn)行很簡(jiǎn)單,執(zhí)行如下命令即可:

運(yùn)行之后,就可以在瀏覽器打開(kāi)http://ip:8080查看宿主機(jī)的容器監(jiān)控?cái)?shù)據(jù)了。

2.2 集成InfluxDB

如前面說(shuō)到,CAdvisor默認(rèn)只在本機(jī)保存最近2分鐘的數(shù)據(jù),為了持久化存儲(chǔ)數(shù)據(jù)和統(tǒng)一收集展示監(jiān)控?cái)?shù)據(jù),需要將數(shù)據(jù)存儲(chǔ)到InfluxDB中。InfluxDB是一個(gè)時(shí)序數(shù)據(jù)庫(kù),專門用于存儲(chǔ)時(shí)序相關(guān)數(shù)據(jù),很適合存儲(chǔ)CAdvisor的數(shù)據(jù)。而且,CAdvisor本身已經(jīng)提供了InfluxDB的集成方法,在啟動(dòng)容器時(shí)指定配置即可。我們使用了管理容器來(lái)管理CAdvisor,修改后的啟動(dòng)配置如下。主要指定了存儲(chǔ)引擎為InfluxDB,以及指定InfluxDB的HTTP API的地址(這里用到了自建DNS的域名 influxdb.service.consul以避免暴露外部端口),還有對(duì)應(yīng)的數(shù)據(jù)庫(kù)和用戶名密碼。

{    "binds": [          "/:/rootfs:ro",          "/var/run:/var/run:rw",          "/sys:/sys:ro",          "/home/docker/var/lib/docker/:/var/lib/docker:ro"    ],    "image": "forum-cadvisor",    "labels": {        "type": "cadvisor"    },    "command": " -docker_only=true -storage_driver=influxdb  -storage_driver_db=cadvisor  -storage_driver_host=influxdb.service.consul:8086  -storage_driver_user=testuser  -storage_driver_password=testpwd",    "tag": "latest",    "hostname": "cadvisor-{{lan_ip}}"}

注意到我們使用了一個(gè)自己的forum-cadvisor鏡像來(lái)代替官方的cadvisor鏡像,這是為了修復(fù)cadvisor一些問(wèn)題以及基于管理方便性的考慮。

2.3 CAdvisor存在的問(wèn)題

1)運(yùn)行報(bào)錯(cuò)問(wèn)題

運(yùn)行最新的CAdvisor容器的時(shí)候,發(fā)現(xiàn)容器有如下的錯(cuò)誤日志:

這個(gè)問(wèn)題是因?yàn)闆](méi)有安裝 findutils 工具導(dǎo)致的。

2)統(tǒng)計(jì)不到容器內(nèi)存數(shù)據(jù)

Debian默認(rèn)沒(méi)有開(kāi)啟 CGroup Memory的支持,CAdvisor默認(rèn)情況下無(wú)法統(tǒng)計(jì)到容器內(nèi)存數(shù)據(jù),需要修改GRUB啟動(dòng)參數(shù),修改文件/etc/default/grub,加入下面這行:

GRUB_CMDLINE_LINUX=" cgroup_enable=memory"

然后更新grub2重啟即可。

3)網(wǎng)絡(luò)流量監(jiān)控?cái)?shù)據(jù)錯(cuò)誤問(wèn)題

在CAdvisor上線一段時(shí)間后,順安發(fā)現(xiàn)容器的網(wǎng)絡(luò)數(shù)據(jù)跟實(shí)際情況不符,并查找資料后發(fā)現(xiàn)問(wèn)題是因?yàn)镃Advisor默認(rèn)只統(tǒng)計(jì)第一個(gè)網(wǎng)卡的流量,而在我們的容器中是有多個(gè)overlay網(wǎng)絡(luò)的,需要統(tǒng)計(jì)容器中所有的網(wǎng)卡流量。于是我修改了CAdvisor統(tǒng)計(jì)網(wǎng)絡(luò)流量部分的代碼并重新編譯了一個(gè)版本在線上使用,修改的代碼在這里。

最后,我們自定義的鏡像文件 forum-cadvisor.Dockerfile 是這樣的(src/cadvisor是修改后重新編譯的cadvisor可執(zhí)行文件):

2.4 CAdvisor原理簡(jiǎn)介

CAdvisor運(yùn)行時(shí)掛載了宿主機(jī)根目錄,docker根目錄等多個(gè)目錄,由此可以從中讀取容器的運(yùn)行時(shí)信息。docker基礎(chǔ)技術(shù)有Linux namespace,Control Group(CGroup),AUFS等,其中CGroup用于系統(tǒng)資源限制和優(yōu)先級(jí)控制的。

宿主機(jī)的/sys/fs/cgroup/目錄下面存儲(chǔ)的就是CGroup的內(nèi)容了,CGroup包括多個(gè)子系統(tǒng),如對(duì)塊設(shè)備的blkio,cpu,內(nèi)存,網(wǎng)絡(luò)IO等限制。Docker在CGroup里面的各個(gè)子系統(tǒng)中創(chuàng)建了docker目錄,而CAdvisor運(yùn)行時(shí)掛載了宿主機(jī)根目錄和 /sys目錄,從而CAdvisor可以讀取到容器的資源使用記錄。

比如下面可以看到容器b1f257當(dāng)前時(shí)刻的CPU的使用統(tǒng)計(jì)。CGroup詳細(xì)介紹可以參見(jiàn)DOCKER基礎(chǔ)技術(shù):LINUX CGROUP(鏈接https://coolshell.cn/articles/17049.html)

# cat /sys/fs/cgroup/cpu/docker/b1f25723c5c3a17df5026cb60e1d1e1600feb293911362328bd17f671802dd31/cpuacct.statuser 95191system 5028

而容器網(wǎng)絡(luò)流量CAdvisor是從/proc/PID/net/dev中讀取的,如上面的容器b1f257進(jìn)程在宿主機(jī)的PID為6748,可以看到容器所有網(wǎng)卡的接收和發(fā)送流量以及錯(cuò)誤數(shù)等。CAdvisor定期讀取對(duì)應(yīng)目錄下面的數(shù)據(jù)并定期發(fā)送到指定的存儲(chǔ)引擎存儲(chǔ),而本地會(huì)默認(rèn)存儲(chǔ)最近2分鐘的數(shù)據(jù)并提供UI界面查看。

# cat /proc/6748/net/devInter-|   Receive                                                |  Transmit face |bytes    packets errs drop fifo frame compressed multicast|bytes    packets errs drop fifo colls carrier compressed  eth0: 6266314     512    0    0    0     0          0         0    22787     292    0    0    0     0       0          0  eth2:       0       0    0    0    0     0          0         0        0       0    0    0    0     0       0          0    lo: 5926805    5601    0    0    0     0          0         0  5926805    5601    0    0    0     0       0          0

3 、容器監(jiān)控?cái)?shù)據(jù)存儲(chǔ)-InfluxDB

InfluxDB(鏈接:https://docs.influxdata.com/influxdb/v1.3/)是一個(gè)開(kāi)源的分布式時(shí)序數(shù)據(jù)庫(kù),使用GO語(yǔ)言開(kāi)發(fā)。特別適合用于時(shí)序類型數(shù)據(jù)存儲(chǔ),CAdvisor搜集的容器監(jiān)控?cái)?shù)據(jù)用InfluxDB存儲(chǔ)就很合適,而且CAdvisor本身就提供了InfluxDB的支持,集成起來(lái)非常方便。

由于線上服務(wù)都docker化了,所以InfluxDB我們也是選擇用容器來(lái)跑,通過(guò)容器管理系統(tǒng)統(tǒng)一管理。容器運(yùn)行時(shí)的核心配置如下,主要掛載了數(shù)據(jù)庫(kù)目錄,以及配置了consul的服務(wù)注冊(cè),這樣,CAdvisor由于和InfluxDB處于同一個(gè)overlay子網(wǎng)中,不需要再開(kāi)放端口給外部訪問(wèn),CAdvisor直接通過(guò)influxdb.service.consul:8086即可連接到InfluxDB。

為了存儲(chǔ)CAdvisor的數(shù)據(jù),需要預(yù)先創(chuàng)建好數(shù)據(jù)庫(kù)并配置用戶名密碼以及相關(guān)權(quán)限。InfluxDB提供了一套influx的CLI,跟mysql client很相似。另外,InfluxDB的數(shù)據(jù)庫(kù)操作語(yǔ)言InfluxQL跟SQL語(yǔ)法也基本一致。進(jìn)入InfluxDB容器,運(yùn)行下面命令創(chuàng)建數(shù)據(jù)庫(kù)和用戶密碼并授權(quán)。

# influxConnected to http://localhost:8086 version 1.3.5InfluxDB shell version: 1.3.5> create database cadvisor  ## 創(chuàng)建數(shù)據(jù)庫(kù)cadvisor> show databasesname: databasesname----_internalcadvisor> CREATE USER testuser WITH PASSWORD 'testpwd' ## 創(chuàng)建用戶和設(shè)置密碼> GRANT ALL PRIVILEGES ON cadvisor TO testuser ## 授權(quán)數(shù)據(jù)庫(kù)給指定用戶> CREATE RETENTION POLICY "cadvisor_retention" ON "cadvisor" DURATION 30d REPLICATION 1 DEFAULT ## 創(chuàng)建默認(rèn)的數(shù)據(jù)保留策略,設(shè)置保存時(shí)間30天,副本為1

配置成功后,可以看到CAdvisor會(huì)通過(guò)InfluxDB的HTTP API自動(dòng)創(chuàng)建好數(shù)據(jù)表,并將數(shù)據(jù)發(fā)送到InfluxDB存儲(chǔ)起來(lái)。

3.2 InfluxDB重要概念

influxdb有一些重要概念:database,timestamp,field key, field value, field set,tag key,tag value,tag set,measurement, retention policy ,series,point,下面簡(jiǎn)要說(shuō)明一下:database:數(shù)據(jù)庫(kù),如之前創(chuàng)建的數(shù)據(jù)庫(kù) cadvisor。InfluxDB不是CRUD數(shù)據(jù)庫(kù),更像是一個(gè)CR-ud數(shù)據(jù)庫(kù),它優(yōu)先考慮的是增加和讀取數(shù)據(jù)而不是更新刪除數(shù)據(jù)的性能。timestamp:時(shí)間戳,因?yàn)镮nfluxDB是時(shí)序數(shù)據(jù)庫(kù),它的數(shù)據(jù)里面都有一列名為time的列,存儲(chǔ)記錄生成時(shí)間。如 rx_bytes 中的 time 列,存儲(chǔ)的就是時(shí)間戳。fields: 包括field key,field value和field set幾個(gè)概念。field key是字段名,在rx_bytes表中,字段名為 value。field value是字段值,如 17858781633,1359398等。而field set是字段集合,由field key和field value構(gòu)成,如rx_bytes中的字段集合如下:

value = 17858781633value

tags:包括tag key, tag value, tag set幾個(gè)概念。tag key是標(biāo)簽名,在rx_bytes表中container_name,game,machine,namespace,type都是標(biāo)簽。tag value就是標(biāo)簽的值了。tag set就是標(biāo)簽集合,由tag key和tag value構(gòu)成。InfluxDB中標(biāo)簽是可選的,不過(guò)標(biāo)簽是有索引的。如果查詢中經(jīng)常用的字段,建議設(shè)置為標(biāo)簽而不是字段。標(biāo)簽相當(dāng)于傳統(tǒng)數(shù)據(jù)庫(kù)中有索引的列。retention policy: 數(shù)據(jù)保留策略,cadvisor的保留策略為cadvisor_retention,存儲(chǔ)30天,副本為1。一個(gè)數(shù)據(jù)庫(kù)可以有多個(gè)保留策略。measurement:類似傳統(tǒng)數(shù)據(jù)看的表,是字段,標(biāo)簽以及time列的集合。series:共享同一個(gè)retention policy,measurement以及tag set的數(shù)據(jù)集合。

3.3 InfluxDB的特色功能

InfluxDB作為時(shí)序數(shù)據(jù)庫(kù),相比傳統(tǒng)數(shù)據(jù)庫(kù)它有很多特色功能,比如獨(dú)有的一些特色函數(shù)和連續(xù)查詢功能。關(guān)于InfluxDB的更多詳細(xì)內(nèi)容可以參見(jiàn)官方文檔。

    特色函數(shù):有一些聚合類函數(shù)如FILL()用于填充數(shù)據(jù), INTEGRAL()計(jì)算字段所覆蓋的曲面面積,SPREAD()計(jì)算表中最大與最小值的差值, STDDEV()計(jì)算字段標(biāo)準(zhǔn)差,MEAN()計(jì)算平均值, MEDIAN()計(jì)算中位數(shù),SAMPLE()函數(shù)用于隨機(jī)取樣以及DERIVATIVE()計(jì)算數(shù)據(jù)變化比等。

    連續(xù)查詢:InfluxDB獨(dú)有的連續(xù)查詢功能可以定期的縮小取樣,就原數(shù)據(jù)庫(kù)的數(shù)據(jù)縮小取樣后存儲(chǔ)到指定的新的數(shù)據(jù)庫(kù)或者新的數(shù)據(jù)表中,在歷史數(shù)據(jù)統(tǒng)計(jì)整理時(shí)特別有用。

4 、容器監(jiān)控?cái)?shù)據(jù)可視化-Grafana

通過(guò)CAdvisor搜集容器的監(jiān)控?cái)?shù)據(jù),存儲(chǔ)到InfluxDB中,接下來(lái)就剩數(shù)據(jù)可視化的問(wèn)題了。畢竟,一個(gè)可視化的圖表可以很方便快速的看到容器的一些問(wèn)題。圖表展示我選擇的是Grafana。Grafana是一個(gè)開(kāi)源的數(shù)據(jù)監(jiān)控分析可視化平臺(tái),支持多種數(shù)據(jù)源配置(支持的數(shù)據(jù)源包括InfluxDB,MySQL,Elasticsearch,OpenTSDB,Graphite等)和豐富的插件及模板功能,支持圖表權(quán)限控制和報(bào)警。Grafana同樣也是以容器方式運(yùn)行,容器啟動(dòng)配置如下,主要是掛載了grafana的數(shù)據(jù)和日志目錄,設(shè)置了管理員的密碼,并開(kāi)放了8888端口作為grafana的訪問(wèn)端口:

啟動(dòng)之后就可以在http://IP:8888/頁(yè)面去配置數(shù)據(jù)源了,一個(gè)示例如下:

配置完數(shù)據(jù)源,就可以添加Panel來(lái)實(shí)現(xiàn)數(shù)據(jù)可視化了。Grafana的圖表功能十分強(qiáng)大,在配置數(shù)據(jù)查詢語(yǔ)句的時(shí)候也是十分智能,會(huì)對(duì)數(shù)據(jù)源,數(shù)據(jù)表,數(shù)據(jù)字段自動(dòng)提示,而且對(duì)InfluxDB的所有函數(shù)都有分類可以直接選取配置。需要注意的一點(diǎn)就是在配置字節(jié)類數(shù)據(jù)(比如網(wǎng)卡接收流量 rx_bytes 和 內(nèi)存使用量 memory_usage)的時(shí)候單位要選 data(IEC)這個(gè)類別。


使用CAdvisor+InfluxDB+Grafana構(gòu)建容器資源監(jiān)控系統(tǒng),是可行而且是較為簡(jiǎn)便的方式。這三個(gè)組件全部以容器的方式運(yùn)行,也符合我們線上服務(wù)皆為容器的理念。目前已經(jīng)全面上線該監(jiān)控系統(tǒng),運(yùn)行正常,數(shù)據(jù)可視化效果良好。除了用于可視化監(jiān)控之外,這些數(shù)據(jù)后續(xù)還會(huì)用于系統(tǒng)異常檢測(cè)算法和容器智能調(diào)度算法中。

以上就是Docker容器監(jiān)控方案怎么選,小編相信有部分知識(shí)點(diǎn)可能是我們?nèi)粘9ぷ鲿?huì)見(jiàn)到或用到的。希望你能通過(guò)這篇文章學(xué)到更多知識(shí)。更多詳情敬請(qǐng)關(guān)注億速云行業(yè)資訊頻道。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI