您好,登錄后才能下訂單哦!
對于數(shù)據(jù)中心,運維工作的重要性不言而喻,在數(shù)據(jù)中心生命周期中運維管理是歷時時間最長的一個階段。數(shù)據(jù)中心運維的工作主要是對數(shù)據(jù)中心各項管理對象進行系統(tǒng)的計劃、組織、協(xié)調與控制,是信息系統(tǒng)服務有關各項管理工作的總稱,具體包括對機房環(huán)境基礎設施部分的維護,系統(tǒng)與數(shù)據(jù)維護,管理工具的使用,人員的管理等方面。投資巨大的數(shù)據(jù)中心,為了能夠盡快得到收益,就需要在運維的工作上多下工夫,切勿進入“一流設備、二流設計、三流運維”的不良運營之中,高品質數(shù)據(jù)中心運維的工作至關重要。那么如何才能提升數(shù)據(jù)中心的運維水平,本文提出了數(shù)據(jù)中心運維工作制勝的四大法寶,做好這四個方面的工作將使數(shù)據(jù)中心一直運行于最佳狀態(tài),為數(shù)據(jù)中心創(chuàng)造最大的受益。
法寶1:工程文檔
文檔對數(shù)據(jù)中心運維的工作非常重要。包括數(shù)據(jù)中心的安裝、配置、優(yōu)化、組網(wǎng)、設備互連等方方面面,通過這些文檔可以對數(shù)據(jù)中心的運營了如指掌,在出現(xiàn)故障時迅速排查,找到故障點。文檔還有一個重要的作用就是工作的傳承,當有人員離開時,他只要留下工作的文檔,其它人交接工作就很容易。還有就是工作經(jīng)驗的積累文檔。雖然各種數(shù)據(jù)中心大同小異,基本是靠服務器、網(wǎng)絡和存儲三大件打天下,但每個數(shù)據(jù)中心又都有自己的風格,自己的優(yōu)勢與劣勢。通過對數(shù)據(jù)中心運維而輸出的各種技術文檔,將為后來人提供方便,并且可以提升數(shù)據(jù)中心整體的運維能力。數(shù)據(jù)中心的文檔五華八門,你不知道什么時候其中的哪些文檔就會派上用場。根據(jù)以往經(jīng)驗,數(shù)據(jù)中心的文檔主要集中于三類:一是數(shù)據(jù)中心內部架構文檔,比如:組網(wǎng)介紹、設備互連關系、IP分配情況、空調系統(tǒng)、機電系統(tǒng)、布線系統(tǒng)等的基本狀況;二是數(shù)據(jù)中心管理文檔,比如:機房管理制度、機房值班和交接制度、機房巡檢制度、設備操作規(guī)范制度,安全防護制度等等。三是數(shù)據(jù)中心改造,優(yōu)化工程文檔。比如:升級指導書、網(wǎng)絡變更計劃書、應急措施指導、軟件回退方案等等。四是數(shù)據(jù)中心運維的經(jīng)驗文檔。比如:網(wǎng)絡中斷問題分析、現(xiàn)有機房環(huán)境評估、如果進行業(yè)務不丟包切換等等。利用這些文檔,即使一個新人來做數(shù)據(jù)中心維護,也可以迅速上手。其實不僅對于數(shù)據(jù)中心這個行業(yè),其它任何行業(yè),任何工作都是如此,養(yǎng)成輸出文檔的好習慣,為自己也為別人提供方便,可以大大提升工作效率。
法寶2:業(yè)務備份
數(shù)據(jù)中心的業(yè)務要求全年24小時連續(xù)運行,然而數(shù)據(jù)中心一個故障都不出是不可能的,甚至一些數(shù)據(jù)中心幾乎天天都在上演各種故障。擁有數(shù)十萬臺設備的數(shù)據(jù)中心,每天壞一臺服務器或一個端口都是在正常不過的事情了,這就要求我們對數(shù)據(jù)業(yè)務有備份。小到服務器、網(wǎng)絡到存儲,大到數(shù)據(jù)中心,都需要有備份,包含軟件的備份和硬件的備份。通過備份,可以在數(shù)據(jù)中心運行出問題時,及時做業(yè)務調整,確保業(yè)務無中斷或者短時中斷。如今的數(shù)據(jù)中心可以做到多數(shù)據(jù)中心互為備份,就算其中一個數(shù)據(jù)中心癱掉,業(yè)務也可以順利由其它數(shù)據(jù)中心接管,繼續(xù)正常運行,所以只要不是世界末日到來,在不同地方建設多個數(shù)據(jù)中心,就能保證數(shù)據(jù)中心業(yè)務的長期穩(wěn)態(tài)運行。業(yè)務備份是龐大的系統(tǒng)工程,涉及到方方面面,任何一個環(huán)節(jié)都有一些備份技術,在數(shù)據(jù)中心里不可能任何地方都部署備份技術,那將使得數(shù)據(jù)中心成本過高,設計過于復雜,但是沒有備份肯定是不行的,這就需要在兩者之間找到一個平衡點。不管怎樣,業(yè)務備份在數(shù)據(jù)中心里不可缺少。
法寶3:在線監(jiān)測
數(shù)據(jù)中心運行是動態(tài)的,每時每刻都在變化。我們無法預知未來會發(fā)生哪些突發(fā)故障,就算是每個環(huán)節(jié)都有備份,也需要有監(jiān)測的手段,來保證業(yè)務切換到運行正常的設備上來。對于數(shù)據(jù)中心在線監(jiān)測必不可少。在線監(jiān)測包括網(wǎng)管的監(jiān)測,服務器運行狀態(tài)的監(jiān)測,空調系統(tǒng)的監(jiān)測,機房環(huán)境的監(jiān)測等等,當發(fā)現(xiàn)異常時,即使將告警通知運維人員,或者軟件自動啟用備用系統(tǒng),確保數(shù)據(jù)中心繼續(xù)穩(wěn)定運行。在線監(jiān)測是確保數(shù)據(jù)中心無故障運行的保證,有效的在線監(jiān)測可以減少數(shù)據(jù)中心故障發(fā)生時,對業(yè)務造成影響。
法寶4:周期巡檢
俗話說“防患于未然”,對于數(shù)據(jù)中心日常的周期巡檢是不可缺少的。通過周期巡檢,及時發(fā)現(xiàn)一些運行隱患,然后排除,可以大大降低數(shù)據(jù)中心發(fā)生嚴重故障的可能性。周期巡檢可以包括對各種設備的檢查,環(huán)境的檢查,電源、空調設備的檢查,填寫日常巡檢記錄表,檢修記錄,作業(yè)操作表等等。通過以往記錄的數(shù)據(jù)進行綜合分析,一旦某些數(shù)據(jù)有波動或者異常,應該及時采取有效措施,避免隱患引發(fā)故障。通過周期巡檢也可以對整個數(shù)據(jù)中心有個全面的了解,一旦要進行系統(tǒng)改造或者擴容等工作,有了前期這些巡檢數(shù)據(jù)參考,制定的改造或擴容方案才更有針對性。千萬不要以為周期巡檢只是記錄一些設備運行的基本參數(shù),通過這些參數(shù)可以看到整個數(shù)據(jù)中心的運行狀態(tài)。對于一個剛從事運維的新手來說,通過周期巡檢可以迅速了解到數(shù)據(jù)中心的各個環(huán)節(jié),獨立展開維護工作。
工程文檔、業(yè)務備份、在線監(jiān)測、周期巡檢是數(shù)據(jù)中心運維工作的四個重要方面,只有做好這四個方面的工作,才能讓數(shù)據(jù)中心保持長期穩(wěn)定運行,并能產(chǎn)生良好的效益,是數(shù)據(jù)中心運維水平高低的主要體現(xiàn),擁有這四大法寶,將使數(shù)據(jù)中心終身受益。技術交流加Q;451114649
免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng)、轉載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權內容。