溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

一個(gè)優(yōu)雅的報(bào)警處理系統(tǒng)范例

發(fā)布時(shí)間:2020-07-05 00:53:48 來(lái)源:網(wǎng)絡(luò) 閱讀:874 作者:superbigsea 欄目:網(wǎng)絡(luò)安全

做運(yùn)維的同學(xué)都知道,運(yùn)維一定離不開(kāi)Zabbix、Nagios之類(lèi)的監(jiān)控軟件。目前,類(lèi)似的軟件在監(jiān)控和數(shù)據(jù)采集方面已經(jīng)做到了極致,但是在報(bào)警處理上并沒(méi)有很完美的解決方案,比如,經(jīng)常出現(xiàn)高質(zhì)量報(bào)警湮沒(méi)在海量報(bào)警之中等情況。

本文不探討監(jiān)控系統(tǒng)的配置優(yōu)化,只探討監(jiān)控系統(tǒng)按照它的邏輯發(fā)出報(bào)警之后我們?cè)撟鳇c(diǎn)什么。

報(bào)警遇到的痛點(diǎn)  

  1. 報(bào)警風(fēng)暴,高質(zhì)量報(bào)警湮沒(méi)在海量報(bào)警之中;

  2. 出現(xiàn)報(bào)警后沒(méi)人認(rèn)領(lǐng),需要在在工作的IM群中溝通;

  3. 運(yùn)維人員進(jìn)行運(yùn)維操作必定會(huì)引起某些報(bào)警,會(huì)給不知道真相的同學(xué)帶來(lái)困惑;

  4. 海量報(bào)警恢復(fù)之后,運(yùn)維人員很難在第一時(shí)間知道還剩下哪些報(bào)警沒(méi)有恢復(fù);

  5. MySQL出現(xiàn)了慢查詢(xún)報(bào)警,DBA還需要登錄數(shù)據(jù)庫(kù)去查看;

  6. 有些報(bào)警優(yōu)先級(jí)不高,明明可以白天處理的,卻在晚上第一時(shí)間發(fā)出來(lái);

  7. 同一個(gè)報(bào)警會(huì)反復(fù)報(bào)出來(lái)。

背景現(xiàn)狀  

云極星創(chuàng)作為綜合性云服務(wù)提供者,既要做公有云的監(jiān)控,也要負(fù)責(zé)私有云的監(jiān)控。我們的研發(fā)團(tuán)隊(duì)已經(jīng)建立了比較完善的OpenStack監(jiān)控體系,并且使用了多種監(jiān)控工具;因?yàn)樵茦O星創(chuàng)的運(yùn)維團(tuán)隊(duì)和客戶(hù)分布在全國(guó)各地,所以該監(jiān)控體系的物理位置也是分散。

在公有云場(chǎng)景下,報(bào)警需要按照物理位置或者應(yīng)用類(lèi)型發(fā)給不同的運(yùn)維同學(xué)、運(yùn)營(yíng)同學(xué)和管理層。在私有云場(chǎng)景下,報(bào)警也需要推送給相應(yīng)的客戶(hù)。當(dāng)前,我們主要采用微信為主,短信為輔的報(bào)警方式。

使用微信的優(yōu)缺點(diǎn)  

使用微信的優(yōu)點(diǎn)

   基本免費(fèi);

   圖文并茂、字節(jié)數(shù)限制較為寬裕;

   微信客戶(hù)端和服務(wù)器端交互方便。

使用微信的缺點(diǎn)

   可用度依賴(lài)騰訊的服務(wù)器:

為此特意增加了對(duì)微信服務(wù)器接口的監(jiān)控,發(fā)現(xiàn)接口有問(wèn)題之后會(huì)發(fā)短信報(bào)警;

   客戶(hù)端需要保持聯(lián)網(wǎng),沒(méi)有送達(dá)報(bào)告:

因此系統(tǒng)提供匯總表功能(詳見(jiàn)后文)。

優(yōu)秀報(bào)警處理系統(tǒng)的三要素  

  1. 在合適的時(shí)間發(fā)給合適的人;

  2. 盡可能的提供更多的信息,使得接警人員在不開(kāi)電腦情況下第一時(shí)間能大概知道哪里出了問(wèn)題;

  3. 減少?lài)@報(bào)警的人員溝通成本。

實(shí)施方案  

架構(gòu)概覽

 一個(gè)優(yōu)雅的報(bào)警處理系統(tǒng)范例

報(bào)警分類(lèi)

普通報(bào)警:根據(jù)排班表發(fā)送給值班的運(yùn)維同學(xué),低級(jí)別的報(bào)警會(huì)延時(shí)發(fā)給對(duì)應(yīng)的應(yīng)用開(kāi)發(fā)。

 一個(gè)優(yōu)雅的報(bào)警處理系統(tǒng)范例

ELK日志報(bào)警:用戶(hù)在微信端可以查看

收到報(bào)警:確認(rèn)、反饋和匯總

報(bào)警確認(rèn):當(dāng)用戶(hù)點(diǎn)擊確認(rèn)按鈕之后,對(duì)應(yīng)的人會(huì)收到確認(rèn)信息。

報(bào)警處理結(jié)果反饋

匯總表:提供批量確認(rèn)功能

報(bào)警收斂

基于關(guān)鍵字、主機(jī)名、Tag的復(fù)合報(bào)警收斂

報(bào)警升級(jí)

如果報(bào)警在一定時(shí)間沒(méi)被確認(rèn)也沒(méi)有自動(dòng)回復(fù),會(huì)有一個(gè)報(bào)警升級(jí)動(dòng)作

 一個(gè)優(yōu)雅的報(bào)警處理系統(tǒng)范例

微信 vs 短信 兩個(gè)平臺(tái)

所有微信接口做了加密處理,防止非授權(quán)用戶(hù)訪問(wèn)和關(guān)注公眾號(hào)。短信平臺(tái)主要用來(lái)發(fā)送災(zāi)難級(jí)別的報(bào)警、微信API接口的報(bào)警,系統(tǒng)本身可用度的報(bào)警。

總結(jié)      系統(tǒng)使用的成果

云極星創(chuàng)之前使用的報(bào)警方案是郵件加短信的方式,在報(bào)警觸發(fā)之后,運(yùn)維交流群會(huì)有大量圍繞報(bào)警的溝通,并且經(jīng)常發(fā)生報(bào)警風(fēng)暴,將短信發(fā)送平臺(tái)堵塞,在本系統(tǒng)投入使用之后,基本上所有的溝通都在系統(tǒng)內(nèi)進(jìn)行。隨著豐富的報(bào)警附加信息,減少了二線運(yùn)維工程師在處理故障時(shí)候開(kāi)機(jī)登錄系統(tǒng)的次數(shù)。

    研發(fā)歷程

本系統(tǒng)開(kāi)發(fā)歷時(shí)半年左右,基本上隨著云極星創(chuàng)的發(fā)展而發(fā)展壯大起來(lái),初期的想法是因?yàn)楦骷叶绦虐l(fā)送平臺(tái)隨著國(guó)家打擊電信詐騙的政策影響,變得越來(lái)越不好用,所以誕生了使用普及率非常高的微信來(lái)替代短信的想法。

第一個(gè)版本就是原封不動(dòng)的推送Zabbix報(bào)警信息,隨著公有云規(guī)模的不斷擴(kuò)大,報(bào)警不斷增多,另外私有云客戶(hù)也在不斷的增加,需要接受報(bào)警的人員也越來(lái)越分散,圍繞報(bào)警的溝通成本越來(lái)越高。

因此本系統(tǒng)的功能點(diǎn)都是圍繞著我們運(yùn)維同學(xué)在處理報(bào)警時(shí)候遇到的痛點(diǎn)進(jìn)行開(kāi)發(fā)而成。經(jīng)過(guò)半年的發(fā)展,在我們內(nèi)部已經(jīng)將運(yùn)維報(bào)警做成了運(yùn)營(yíng)的報(bào)警。

    未來(lái)發(fā)展

  • 報(bào)警系統(tǒng)和工單系統(tǒng)以及CMDB做關(guān)聯(lián);

  • 快速實(shí)現(xiàn)故障根因定位;

  • 告警排行分析報(bào)表;

(備注:文中截圖來(lái)自于預(yù)發(fā)布環(huán)境下的運(yùn)維測(cè)試)


重點(diǎn)在最后,代碼已經(jīng)托管到github

https://github.com/superbigsea/zabbix-wechat

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI