溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

數(shù)據(jù)中心監(jiān)控管理系統(tǒng)設(shè)計(jì)(之一)

發(fā)布時(shí)間:2020-03-01 18:07:16 來源:網(wǎng)絡(luò) 閱讀:1199 作者:yangruosong 欄目:數(shù)據(jù)安全

 

數(shù)據(jù)中心監(jiān)控管理系統(tǒng)設(shè)計(jì)
 
3.1引言
數(shù)據(jù)中心經(jīng)歷了四個(gè)功能階段的發(fā)展和演進(jìn),從早期的“數(shù)據(jù)存儲(chǔ)中心”階段,經(jīng)過“數(shù)據(jù)處理中心”和“數(shù)據(jù)應(yīng)用中心”兩個(gè)階段,如今已經(jīng)進(jìn)入“數(shù)據(jù)運(yùn)營服務(wù)中心”階段。現(xiàn)階段的數(shù)據(jù)中心已經(jīng)成為絕大部分企業(yè)或組織滿足基本業(yè)務(wù)運(yùn)營和實(shí)現(xiàn)業(yè)務(wù)戰(zhàn)略的不可或缺的一部分。簡單的說,無論你是什么行業(yè),傳統(tǒng)制造業(yè),還是新興服務(wù)業(yè),你的數(shù)據(jù)中心已經(jīng)緊緊地和你的主業(yè)捆綁在一起了。數(shù)據(jù)中心的運(yùn)行狀況、規(guī)劃發(fā)展直接影響著企業(yè)或組織的業(yè)務(wù)開發(fā)和業(yè)務(wù)運(yùn)營。
依據(jù)基礎(chǔ)設(shè)施在數(shù)據(jù)中心的邏輯位置(如圖1),數(shù)據(jù)中心的基礎(chǔ)設(shè)施的運(yùn)行狀態(tài)也是反映數(shù)據(jù)中心運(yùn)行狀況的關(guān)鍵面之一。國內(nèi)外數(shù)據(jù)中心建設(shè)規(guī)范要求對(duì)數(shù)據(jù)中心基礎(chǔ)設(shè)施進(jìn)行監(jiān)控;目的是確保數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)行狀態(tài)滿足數(shù)據(jù)中心所支撐和服務(wù)的各種應(yīng)用系統(tǒng)正常運(yùn)營和業(yè)務(wù)連續(xù)。如果由于數(shù)據(jù)中心基礎(chǔ)設(shè)施故障造成數(shù)據(jù)中心發(fā)生癱瘓,將造成機(jī)構(gòu)業(yè)務(wù)停頓。近幾年,銀行、保險(xiǎn)、證券、民航等行業(yè)相繼出現(xiàn)了一些數(shù)據(jù)中心故障,造成了很大的社會(huì)影響和經(jīng)濟(jì)損失。
                              圖1:基礎(chǔ)實(shí)施在數(shù)據(jù)中心架構(gòu)中的定位
數(shù)據(jù)中心基礎(chǔ)設(shè)施監(jiān)控管理系統(tǒng)是一個(gè)以計(jì)算機(jī)軟件技術(shù)為基礎(chǔ),利用網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)庫技術(shù)、通信技術(shù)、嵌入式技術(shù)、工業(yè)自動(dòng)控制技術(shù)、新型傳感技術(shù)等構(gòu)成的專業(yè)化、自動(dòng)化、智能化的綜合監(jiān)控管理系統(tǒng)。該系統(tǒng)可實(shí)時(shí)收集各種被監(jiān)控設(shè)備的運(yùn)行參數(shù)、工作狀態(tài)及告警信息、能對(duì)智能型和非智能型的設(shè)備進(jìn)行監(jiān)控,準(zhǔn)確的實(shí)現(xiàn)遙信、遙調(diào)、遙控及遙調(diào)等功能,確保數(shù)據(jù)中心各種基礎(chǔ)設(shè)施運(yùn)行正常和快速恢復(fù)。另外,在設(shè)施監(jiān)控的基礎(chǔ)上,能夠?yàn)镮T服務(wù)管理提供基礎(chǔ)數(shù)據(jù)和流程支持。
本文主要描述一般數(shù)據(jù)中心基礎(chǔ)設(shè)施監(jiān)控管理系統(tǒng)的建設(shè)目標(biāo)、設(shè)計(jì)原則、監(jiān)控范圍、軟硬件架構(gòu)、系統(tǒng)組成和功能,以及監(jiān)控管理系統(tǒng)關(guān)鍵技術(shù)等。
 
.2設(shè)計(jì)目標(biāo)
數(shù)據(jù)中心基礎(chǔ)設(shè)施的監(jiān)控工作是數(shù)據(jù)中心運(yùn)維管理工作的一個(gè)既基礎(chǔ)又核心的內(nèi)容,這是因?yàn)橐环矫婊A(chǔ)設(shè)施為數(shù)據(jù)中心運(yùn)維提供基本的和底層的物理環(huán)境資源保障,另一方面,對(duì)基礎(chǔ)設(shè)施運(yùn)行的監(jiān)控?cái)?shù)據(jù)和監(jiān)控信息將成為數(shù)據(jù)中心服務(wù)管理(ITSM)的某些流程的輸入(如:ITIL事件管理、容量管理等)。因此,站在IT服務(wù)的高度,對(duì)基礎(chǔ)設(shè)施監(jiān)控系統(tǒng)進(jìn)行設(shè)計(jì)是非常必要的。
(一)設(shè)計(jì)目標(biāo)
      設(shè)計(jì)目標(biāo)來源于對(duì)用戶的戰(zhàn)略性需求和當(dāng)前使用需求的平衡。不同的客戶在設(shè)計(jì)目標(biāo)上存在差異。確定設(shè)計(jì)目標(biāo),與其說是一個(gè)技術(shù)問題,不如說是一個(gè)管理決策問題。但是一般來講,首先應(yīng)該緊緊抓住用戶面臨的問題和迫切需求,確立它的最低建設(shè)(設(shè)計(jì))目標(biāo)。
根據(jù)我的經(jīng)驗(yàn),以下幾點(diǎn)應(yīng)該作為基礎(chǔ)設(shè)施監(jiān)控管理系統(tǒng)的最低設(shè)計(jì)目標(biāo):
(1)     能夠?qū)λ袛?shù)據(jù)中心機(jī)房的基礎(chǔ)設(shè)施提供實(shí)時(shí)的狀態(tài)監(jiān)測
要確保監(jiān)控覆蓋范圍滿足數(shù)據(jù)中心管理的要求,盡可能地全覆蓋對(duì)所有支持企業(yè)或組織業(yè)務(wù)連續(xù)運(yùn)行的動(dòng)力、環(huán)境等系統(tǒng)的在線實(shí)時(shí)監(jiān)測。
(2)     最大可能地降低人工監(jiān)控和管理引入漏檢和誤報(bào)的風(fēng)險(xiǎn)
    最好在監(jiān)控系統(tǒng)上線后,人工現(xiàn)場監(jiān)測操作從常態(tài)工作轉(zhuǎn)變成非常態(tài)工作,例如:只是人工(維護(hù)人員或設(shè)備廠商)定期(月/季度)現(xiàn)場巡(抽)檢。同時(shí),監(jiān)控事件以自動(dòng)化的方式通知(分派),杜絕人工誤報(bào)和延誤處理。
(3)     提供一個(gè)監(jiān)測-控制(管控)-再監(jiān)測的閉環(huán)管理
    監(jiān)測不是目的,也不是監(jiān)控系統(tǒng)的運(yùn)行終點(diǎn)。當(dāng)被監(jiān)控對(duì)象處于非正常狀態(tài)時(shí),干預(yù)控制(人工或系統(tǒng)聯(lián)動(dòng))是必須的。同時(shí),干預(yù)控制的有效性和結(jié)果,也必須通過再監(jiān)測來判斷。這是一個(gè)閉環(huán)管理的過程,系統(tǒng)應(yīng)該滿足。例如:空調(diào)系統(tǒng)的監(jiān)控。
(4)     相對(duì)提高運(yùn)維團(tuán)隊(duì)的工作效率
數(shù)據(jù)中心的人力資源配備在絕大多數(shù)企業(yè)或組織從來都是“捉襟見肘”的。因?yàn)樗?ldquo;歷史上”不是一線業(yè)務(wù)部門,不直接創(chuàng)造企業(yè)價(jià)值和利潤。所以,常常面臨“事多人少”的工作局面。采用集中監(jiān)控管理、遠(yuǎn)程監(jiān)控管理、無人值守、自動(dòng)巡檢等技術(shù),可以相對(duì)地提高基礎(chǔ)設(shè)施維護(hù)人員的工作效率。這一點(diǎn)是最得人心的項(xiàng)目收益。
(5)     能夠記錄被監(jiān)控對(duì)象的歷史運(yùn)行數(shù)據(jù)
歷史數(shù)據(jù)的價(jià)值之一就像病人的既往病例,它為新的問題解決提供參考。另外一方面,它可以“還原真相”,是系統(tǒng)安全審計(jì)的基本要求。這個(gè)設(shè)計(jì)目標(biāo)將會(huì)帶出大數(shù)據(jù)存儲(chǔ)、處理與訪問的問題。
(6)     定義和報(bào)告被監(jiān)控對(duì)象乃至整個(gè)數(shù)據(jù)中心基礎(chǔ)設(shè)施的運(yùn)行狀態(tài)指標(biāo)和健康指標(biāo)
數(shù)據(jù)中心的基礎(chǔ)設(shè)施包括的子系統(tǒng)多,設(shè)備種類多,如果不能事先定義好(或者是可定義的)監(jiān)控指標(biāo)和健康指標(biāo),那么,維護(hù)人員一定會(huì)被淹沒在廢數(shù)據(jù)的海洋,無法準(zhǔn)確判斷基礎(chǔ)實(shí)施的整體運(yùn)行狀態(tài)。
在數(shù)據(jù)中心基礎(chǔ)設(shè)施的生命周期里,基礎(chǔ)設(shè)施的健康指標(biāo)應(yīng)該被定義(比如:平均設(shè)備使用年限、平均設(shè)備故障覆蓋率等等),以此來量化衡量基礎(chǔ)設(shè)施的剩余使用能力。
(7)     最大可能地預(yù)測被監(jiān)控對(duì)象的運(yùn)行趨勢,預(yù)防問題發(fā)生
    大家可以想見,一旦數(shù)據(jù)中心基礎(chǔ)設(shè)施出現(xiàn)重大故障,企業(yè)或組織的業(yè)務(wù)必然馬上受到影響甚至中斷,損失即刻發(fā)生。(2011年國內(nèi)某保險(xiǎn)公司因?yàn)楣╇娤到y(tǒng)問題,導(dǎo)致業(yè)務(wù)停止,損失約3個(gè)億)。所以,監(jiān)控系統(tǒng)如果能夠根據(jù)被監(jiān)控對(duì)象的歷史運(yùn)行情況,推演問題趨勢,就可以提前采取措施排除問題隱患。從這個(gè)意義上看,最有價(jià)值的監(jiān)控系統(tǒng)就是可以預(yù)防問題發(fā)生的監(jiān)控系統(tǒng)。
(8)     提供基礎(chǔ)設(shè)施突發(fā)問題的預(yù)案
    現(xiàn)實(shí)中問題總會(huì)發(fā)生,哪怕等上幾年!所以,為你的監(jiān)控系統(tǒng)買個(gè)“保險(xiǎn)”,開發(fā)各種問題處理預(yù)案。
(9)     監(jiān)控系統(tǒng)自身無障礙運(yùn)行
    這個(gè)不說了,就像交通電子眼一旦壞了,怎么知道誰闖了紅燈?
 另外,近年來,隨著數(shù)據(jù)中心行業(yè)的蓬勃發(fā)展和面向IT 服務(wù)的功能轉(zhuǎn)變,機(jī)房數(shù)量劇增、規(guī)模擴(kuò)大、結(jié)構(gòu)更加復(fù)雜、監(jiān)控業(yè)務(wù)增長,新的監(jiān)控管理需求不斷出現(xiàn),因此,新一代監(jiān)控管理系統(tǒng)還應(yīng)該把以下幾點(diǎn)作為設(shè)計(jì)目標(biāo):
(10) 滿足數(shù)據(jù)中心快速擴(kuò)容的要求
(11) 滿足跨區(qū)域聯(lián)網(wǎng)監(jiān)控的要求
(12) 滿足分級(jí)分區(qū)域管理的要求
(13) 滿足異地災(zāi)備的要求
(14) 能夠與數(shù)據(jù)中心其他信息系統(tǒng)集成
與數(shù)據(jù)中心資產(chǎn)管理系統(tǒng)的集成,或者與ITIL框架下CMDB、知識(shí)管理系統(tǒng)的集成。與ITIL框架下服務(wù)運(yùn)維模塊中的問題管理的集成。與數(shù)據(jù)中心統(tǒng)一的身份認(rèn)證系統(tǒng)集成。等等。
(15) 能夠?qū)?shù)據(jù)中心基礎(chǔ)設(shè)施進(jìn)行科學(xué)評(píng)價(jià)
在對(duì)基礎(chǔ)設(shè)施監(jiān)控的基礎(chǔ)上,進(jìn)一步對(duì)其等級(jí)和持續(xù)可用性進(jìn)行評(píng)價(jià),作為數(shù)據(jù)中心基礎(chǔ)設(shè)施維護(hù)的依據(jù)。比如:數(shù)據(jù)中心能耗評(píng)估。通過監(jiān)控系統(tǒng)采集的用電量計(jì)算電能使用效率PUE(Power Usage Effectiveness)。再比如:成本平均。
向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI