溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

怎樣使用Prometheus-Operator監(jiān)控Calico

發(fā)布時間:2021-10-12 11:54:12 來源:億速云 閱讀:162 作者:柒染 欄目:云計算

本篇文章給大家分享的是有關怎樣使用Prometheus-Operator監(jiān)控Calico,小編覺得挺實用的,因此分享給大家學習,希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。

Calico 中最核心的組件就是 Felix,它負責設置路由表和 ACL 規(guī)則等,以便為該主機上的 endpoints 資源正常運行提供所需的網(wǎng)絡連接。同時它還負責提供有關網(wǎng)絡健康狀況的數(shù)據(jù)(例如,報告配置其主機時發(fā)生的錯誤和問題),這些數(shù)據(jù)會被寫入 etcd,以使其對網(wǎng)絡中的其他組件和操作人員可見。

由此可見,對于我們的監(jiān)控來說,監(jiān)控 Calico 的核心便是監(jiān)控 Felix,Felix 就相當于 Calico 的大腦。本文將學習如何使用 Prometheus-Operator 來監(jiān)控 Calico。

1. 配置 Calico 以啟用指標

默認情況下 Felix 的指標是被禁用的,必須通過命令行管理工具 calicoctl 手動更改 Felix 配置才能開啟,需要提前配置好命令行管理工具。

本文使用的 Calico 版本是 v3.15.0,其他版本類似。先下載管理工具:

$ wget https://github.com/projectcalico/calicoctl/releases/download/v3.15.0/calicoctl -O /usr/local/bin/calicoctl
$ chmod +x /usr/local/bin/calicoctl

接下來需要設置 calicoctl 配置文件(默認是 /etc/calico/calicoctl.cfg)。如果你的 Calico 后端存儲使用的是 Kubernetes API,那么配置文件內(nèi)容如下:

apiVersion: projectcalico.org/v3
kind: CalicoAPIConfig
metadata:
spec:
  datastoreType: "kubernetes"
  kubeconfig: "/root/.kube/config"

如果 Calico 后端存儲使用的是 etcd,那么配置文件內(nèi)容如下:

apiVersion: projectcalico.org/v3
kind: CalicoAPIConfig
metadata:
spec:
  datastoreType: "etcdv3"
  etcdEndpoints: https://192.168.57.51:2379,https://192.168.57.52:2379,https://192.168.57.53:2379
  etcdKeyFile: /opt/kubernetes/ssl/server-key.pem
  etcdCertFile: /opt/kubernetes/ssl/server.pem
  etcdCACertFile: /opt/kubernetes/ssl/ca.pem

你需要將其中的證書路徑換成你的 etcd 證書路徑。

配置好了 calicoctl 之后就可以查看或修改 Calico 的配置了,先來看一下默認的 Felix 配置:

$ calicoctl get felixConfiguration default -o yaml

apiVersion: projectcalico.org/v3
kind: FelixConfiguration
metadata:
  creationTimestamp: "2020-06-25T14:37:28Z"
  name: default
  resourceVersion: "269031"
  uid: 52146c95-ff97-40a9-9ba7-7c3b4dd3ba57
spec:
  bpfLogLevel: ""
  ipipEnabled: true
  logSeverityScreen: Info
  reportingInterval: 0s

可以看到默認的配置中沒有啟用指標,需要手動修改配置,命令如下:

$ calicoctl patch felixConfiguration default  --patch '{"spec":{"prometheusMetricsEnabled": true}}'

Felix 暴露指標的端口是 9091,可通過檢查監(jiān)聽端口來驗證是否開啟指標:

$ ss -tulnp|grep 9091
tcp    LISTEN     0      4096   [::]:9091               [::]:*                   users:(("calico-node",pid=13761,fd=9))

$ curl -s http://localhost:9091/metrics
# HELP felix_active_local_endpoints Number of active endpoints on this host.
# TYPE felix_active_local_endpoints gauge
felix_active_local_endpoints 1
# HELP felix_active_local_policies Number of active policies on this host.
# TYPE felix_active_local_policies gauge
felix_active_local_policies 0
# HELP felix_active_local_selectors Number of active selectors on this host.
# TYPE felix_active_local_selectors gauge
felix_active_local_selectors 0
...

2. Prometheus 采集 Felix 指標

啟用了 Felix 的指標后,就可以通過 Prometheus-Operator 來采集指標數(shù)據(jù)了。Prometheus-Operator 在部署時會創(chuàng)建 Prometheus、PodMonitorServiceMonitor、AlertManagerPrometheusRule 這 5 個 CRD 資源對象,然后會一直監(jiān)控并維持這 5 個資源對象的狀態(tài)。其中 Prometheus 這個資源對象就是對 Prometheus Server 的抽象。而 PodMonitorServiceMonitor 就是 exporter 的各種抽象,是用來提供專門提供指標數(shù)據(jù)接口的工具,Prometheus 就是通過 PodMonitorServiceMonitor 提供的指標數(shù)據(jù)接口去 pull 數(shù)據(jù)的。

ServiceMonitor 要求被監(jiān)控的服務必須有對應的 Service,而 PodMonitor 則不需要,本文選擇使用 PodMonitor 來采集 Felix 的指標。

PodMonitor 雖然不需要應用創(chuàng)建相應的 Service,但必須在 Pod 中指定指標的端口和名稱,因此需要先修改 DaemonSet calico-node 的配置,指定端口和名稱。先用以下命令打開 DaemonSet calico-node 的配置:

$ kubectl -n kube-system edit ds calico-node

然后在線修改,在 spec.template.sepc.containers 中加入以下內(nèi)容:

        ports:
        - containerPort: 9091
          name: http-metrics
          protocol: TCP

創(chuàng)建 Pod 對應的 PodMonitor

# prometheus-podMonitorCalico.yaml
apiVersion: monitoring.coreos.com/v1
kind: PodMonitor
metadata:
  labels:
    k8s-app: calico-node
  name: felix
  namespace: monitoring
spec:
  podMetricsEndpoints:
  - interval: 15s
    path: /metrics
    port: http-metrics
  namespaceSelector:
    matchNames:
    - kube-system
  selector:
    matchLabels:
      k8s-app: calico-node
$ kubectl apply -f prometheus-podMonitorCalico.yaml

有幾個參數(shù)需要注意:

  • PodMonitor 的 name 最終會反應到 Prometheus 的配置中,作為 job_name

  • podMetricsEndpoints.port 需要和被監(jiān)控的 Pod 中的 ports.name 相同,此處為 http-metrics。

  • namespaceSelector.matchNames 需要和被監(jiān)控的 Pod 所在的 namespace 相同,此處為 kube-system。

  • selector.matchLabels 的標簽必須和被監(jiān)控的 Pod 中能唯一標明身份的標簽對應。

最終 Prometheus-Operator 會根據(jù) PodMonitor 來修改 Prometheus 的配置文件,以實現(xiàn)對相關的 Pod 進行監(jiān)控??梢源蜷_ Prometheus 的 UI 查看監(jiān)控目標:

怎樣使用Prometheus-Operator監(jiān)控Calico

注意 Labels 中有 pod="calico-node-xxx",表明監(jiān)控的是 Pod。

3. 可視化監(jiān)控指標

采集完指標之后,就可以通過 Grafana 的儀表盤來展示監(jiān)控指標了。Prometheus-Operator 中部署的 Grafana 無法實時修改儀表盤的配置(必須提前將儀表盤的 json 文件掛載到 Grafana Pod 中),而且也不是最新版(7.0 以上版本),所以我選擇刪除 Prometheus-Operator 自帶的 Grafana,自行部署 helm 倉庫中的 Grafana。先進入 kube-prometheus 項目的 manifests 目錄,然后將 Grafana 相關的部署清單都移到同一個目錄下,再刪除 Grafana:

$ cd kube-prometheus/manifests
$ mkdir grafana
$ mv grafana-* grafana/
$ kubectl delete -f grafana/

然后通過 helm 部署最新的 Grafana:

$ helm install grafana stable/grafana -n monitoring

訪問 Grafana 的密碼保存在 Secret 中,可以通過以下命令查看:

$ kubectl -n monitoring get secret grafana -o yaml

apiVersion: v1
data:
  admin-password: MnpoV3VaMGd1b3R3TDY5d3JwOXlIak4yZ3B2cTU1RFNKcVY0RWZsUw==
  admin-user: YWRtaW4=
  ldap-toml: ""
kind: Secret
metadata:
...

對密碼進行解密:

$ echo -n "MnpoV3VaMGd1b3R3TDY5d3JwOXlIak4yZ3B2cTU1RFNKcVY0RWZsUw=="|base64 -d

解密出來的信息就是訪問密碼。用戶名是 admin。通過用戶名和密碼登錄 Grafana 的 UI:

怎樣使用Prometheus-Operator監(jiān)控Calico

添加 Prometheus-Operator 的數(shù)據(jù)源:

怎樣使用Prometheus-Operator監(jiān)控Calico

Calico 官方?jīng)]有單獨 dashboard json,而是將其放到了 ConfigMap 中,我們需要從中提取需要的 json,提取出 felix-dashboard.json 的內(nèi)容,然后將其中的 datasource 值替換為 prometheus。你可以用 sed 替換,也可以用編輯器,大多數(shù)編輯器都有全局替換的功能。如果你實在不知道如何提取,可以使用我提取好的 json:

修改完了之后,將 json 內(nèi)容導入到 Grafana:

怎樣使用Prometheus-Operator監(jiān)控Calico

最后得到的 Felix 儀表盤如下圖所示:

怎樣使用Prometheus-Operator監(jiān)控Calico

Kubernetes 1.18.2 1.17.5 1.16.9 1.15.12離線安裝包發(fā)布地址http://store.lameleg.com ,歡迎體驗。 使用了最新的sealos v3.3.6版本。 作了主機名解析配置優(yōu)化,lvscare 掛載/lib/module解決開機啟動ipvs加載問題, 修復lvscare社區(qū)netlink與3.10內(nèi)核不兼容問題,sealos生成百年證書等特性。更多特性 https://github.com/fanux/sealos 。歡迎掃描下方的二維碼加入釘釘群 ,釘釘群已經(jīng)集成sealos的機器人實時可以看到sealos的動態(tài)。

以上就是怎樣使用Prometheus-Operator監(jiān)控Calico,小編相信有部分知識點可能是我們?nèi)粘9ぷ鲿姷交蛴玫降摹OM隳芡ㄟ^這篇文章學到更多知識。更多詳情敬請關注億速云行業(yè)資訊頻道。

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI