溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

淺談可量化的數(shù)據(jù)中心監(jiān)控服務及運營方法

發(fā)布時間:2020-04-06 16:20:13 來源:網(wǎng)絡 閱讀:842 作者:lauchee 欄目:數(shù)據(jù)安全

淺談可量化的數(shù)據(jù)中心監(jiān)控服務及運營方法

經(jīng)過十多年的建設和發(fā)展,不管是老的數(shù)據(jù)中心或者新建的數(shù)據(jù)中心,后期的運維管理方法及手段已經(jīng)考慮的比較成熟,當然運維管理工具已經(jīng)成為必備的產(chǎn)品。說起數(shù)據(jù)中心運維,其中的理論、方案、方法和工具會有很多很多中說法,今天主要討論主動監(jiān)控工具所面臨的問題,以及解決之道。

監(jiān)控系統(tǒng)面臨的主要問題是告警量過多的問題,導致用戶認為系統(tǒng)不可信,雖然這些告警都是用戶自己配置出來的,但是用戶渾然不知。第二個問題是監(jiān)控系統(tǒng)如何使用,值班團隊如何進行考核,讓物盡其用,人盡其才。第三個問題是如何量化監(jiān)控服務,體現(xiàn)監(jiān)控服務的價值。

關于告警過多的問題,基于我之前項目的經(jīng)驗,引起告警量高的兩個主因是監(jiān)控策略過多和監(jiān)控范圍過細。解決方法主要是通過定向配置策略和限制重復告警兩種方法來優(yōu)化告警,這樣使得嚴重告警信息的準確率提高到80%左右,但是對于預警類的信息還是比較多,因為不可能把閾值定制到一個恰到好處的數(shù)值、也不能能完全限制住網(wǎng)絡中頻繁發(fā)生的trap信息(trap是網(wǎng)絡設備和各OS都會觸發(fā)的信息),當然對于大多產(chǎn)品還是可以通過限制性策略限制無效trap的接收。而這幾種手段需要長期性的系統(tǒng)維護來完成。

對于監(jiān)控系統(tǒng)的考核主要是看系統(tǒng)功能、設備類型的覆蓋率、監(jiān)控頻率粒度和穩(wěn)定性等指標。當然對于故障的準確率這一個指標大家覺得非常重要,如果考慮工具是運維團隊自身的工具后,這個指標的定義意義就不大了,看后面對于工具的持續(xù)優(yōu)化說明,可能就比較好理解。準確率和運維團隊的態(tài)度和能力相關,根據(jù)我做過的眾多項目總結(jié),運維團隊對監(jiān)控工具的重視程度,直接影響這個數(shù)據(jù)。

業(yè)內(nèi)對于監(jiān)控團隊的考核沒有明確的約定,主要還是長期運維的一個經(jīng)驗總結(jié),普遍認可監(jiān)控服務考核的主要指標在于響應時間,告警數(shù)量;告警數(shù)量主要是核算工作量和成本,數(shù)量會成為核算服務的基數(shù)。我們在不同的生產(chǎn)環(huán)境中,設備的負荷、運營時間、環(huán)境和業(yè)務系統(tǒng)等是千差萬別的,出現(xiàn)故障的數(shù)量和時間是不確定的,比如在思科高端交換機較多的網(wǎng)絡中,負載也很低,網(wǎng)絡全年不會出現(xiàn)任何問題。但對于網(wǎng)絡建設年限比較舊,設備比較陳舊的網(wǎng)絡,出現(xiàn)故障的頻率就比較高了。

監(jiān)控服務考核指標主要定義是漏報率、誤報率和上報率(15分鐘內(nèi)),前兩個指標是考核團隊對監(jiān)控系統(tǒng)的運營能力,在下面告警質(zhì)量的問題里講。不能因有監(jiān)控系統(tǒng)后運維團隊就高枕無憂,運維團隊需要不停的優(yōu)化和改進監(jiān)控系統(tǒng),同時在網(wǎng)絡、業(yè)務系統(tǒng)發(fā)生變更后,對監(jiān)控持續(xù)的優(yōu)化。第三個指標是考核團隊的執(zhí)行能力,有告警是必須及時分析上報的。這樣從整個團隊的工作態(tài)度和能力兩個緯度進行考核。

監(jiān)控服務價值統(tǒng)計主要是核算服務的費用,這個是量化現(xiàn)代化服務的一個普遍觀點,不管是甲方還是乙方,數(shù)字說話是普遍認可的一個觀點,根據(jù)上面提到的以告警量做為核算成本的一個基數(shù),再根據(jù)告警的嚴重等級和相關業(yè)務項的等級,進行加權(quán)計算,例如同樣嚴重等級的告警,對于不通等級的業(yè)務系統(tǒng),發(fā)現(xiàn)該告警的的價值是不一樣的。再在以上幾個指標考慮的基礎上,增加響應時間的計算,基本上可以計算服務的價值量。計算公式為(需要CMDB的支撐):


M=pw1*a1*b1*r1+w2*a2*b2*r2+……wn*an*bn*rn+基本服務價格(驗證誤報、巡檢等工作)

基本價格服務包括:網(wǎng)元數(shù)量*單價;網(wǎng)元是網(wǎng)絡管理中可以監(jiān)視和管理的最小單位,包括軟件、硬件和應用等服務。這里就包括常規(guī)告警監(jiān)控和性能報告等。

用以上兩種緯度計算,主要是從服務團隊的態(tài)度和能力兩個緯度進行激勵。


簡稱

字符描述

Mmoney

服務價值

wwork

告警項

aalert

告警級別

b business

業(yè)務系統(tǒng)級別

rresponse

響應時間

pprice

基本價格



例如:

告警級別:業(yè)務系統(tǒng)級別:響應時間:

嚴重告警

1.5


XX生產(chǎn)系統(tǒng)

1.5


5分鐘

1.5

高級告警

1.2


OA系統(tǒng)

1.2


10分鐘

1.2

初級告警

1.0


公司門戶系統(tǒng)

1.0


15分鐘

1.0

警告告警

1.0


XX測試系統(tǒng)

1.0


30分鐘

0.9

初級告警

0.8


內(nèi)部論壇

0.8


60分鐘

-1


在目前了解到的國內(nèi)幾家互聯(lián)網(wǎng)公司中,數(shù)據(jù)中心運維的成熟度比較高,運維考核主要從五個緯度考慮,即響應時間、準備度(預防機制)、處理態(tài)度與能力、處理結(jié)果和后續(xù)措施。前三個跟監(jiān)控相關,及時上報體現(xiàn)響應時間;對監(jiān)控工具持續(xù)優(yōu)化、巡檢和演練等體現(xiàn)準備度和能力。

告警常見問題

1、監(jiān)控存在局限,存在監(jiān)控盲點。規(guī)避方法:在網(wǎng)絡層、應用層、系統(tǒng)層建立監(jiān)控策略,盡可能的掃除盲點。防止漏報。

2、告警延時,在產(chǎn)生告警到接受告警的過程中,系統(tǒng)會經(jīng)過告警轉(zhuǎn)換接口,郵件或短信接口,容易出現(xiàn)排隊和阻塞。規(guī)避方法:拓寬渠道、減少擁塞,嚴重告警發(fā)送短信,其他預警類告警發(fā)送郵件或頁面顯示等。防止漏報。

3、告警質(zhì)量問題。提升監(jiān)控策略和質(zhì)量在運維過程中會一直延續(xù)。規(guī)避方法:核心思想是運營,通過規(guī)劃和統(tǒng)籌能力,既要全局規(guī)劃告警分類、告警模型、告警策略,還要持續(xù)按業(yè)務和人的告警數(shù)量、告警分布持續(xù)優(yōu)化。防止誤報

告警模型

1、告警分類,便于建立告警模型、方便歸納和分析定位外,最重要的是有一個完整、系統(tǒng)的故障檢測、告警響應機制。

2告警模型,具備一定規(guī)則的預處理程序,比如定義一個閾值或多維度的組合條件。例如連續(xù)多次超過某個閾值后,產(chǎn)生告警,可以避免性能瞬時高而產(chǎn)生的告警。

告警優(yōu)化

1、按照頻率收斂告警,按照頻率和次數(shù)設計告警策略

2、根據(jù)責任人、設備類型或時間來收斂告警、合并告警。

3、告警關聯(lián),讓有相關關系的模塊之間不要產(chǎn)生重復告警。(在一些互聯(lián)網(wǎng)中心的自開發(fā)系統(tǒng)中有這樣的功能)

4、告警分析,還是主要是講運營過程中對告警的持續(xù)性分析,跟蹤,優(yōu)化策略,使得告警數(shù)量保持在一個合理范圍。


向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI