您好,登錄后才能下訂單哦!
近年來運維技術(shù)飛速發(fā)展,運維團隊大多建設(shè)好了各種系統(tǒng):虛擬化、容器化、持續(xù)集成等等。但是如何有效的利用這些系統(tǒng)最終實現(xiàn)站點的高可用、高性能和高可擴展?隨著智能化技術(shù)的發(fā)展,為了解決上述運維領(lǐng)域的問題,智能運維的呼聲越來越高。在**日志易**產(chǎn)品總監(jiān)饒琛琳(**@三斗室**)看來,目前國內(nèi)智能運維發(fā)展還處于一個探索階段,要想盡快在智能運維領(lǐng)域有所突破,首先要重點做好監(jiān)控系統(tǒng)和告警系統(tǒng),并利用機器學(xué)習(xí)算法進行快速監(jiān)控和排障。
br/>在**日志易**產(chǎn)品總監(jiān)饒琛琳(**@三斗室**)看來,目前國內(nèi)智能運維發(fā)展還處于一個探索階段,要想盡快在智能運維領(lǐng)域有所突破,首先要重點做好監(jiān)控系統(tǒng)和告警系統(tǒng),并利用機器學(xué)習(xí)算法進行快速監(jiān)控和排障。
1、對國內(nèi)運維領(lǐng)域現(xiàn)狀的看法
簡單來講,目前國內(nèi)運維界在自動化方面已經(jīng)達(dá)到了一定的水平,就現(xiàn)階段而言,自動化和監(jiān)控兩部分還是有一定距離。例如,你拿到了監(jiān)控類的報警,可能不能立即清楚去做哪一項自動化的部署。如果能把自動化和監(jiān)控這兩部分有機的結(jié)合起來,運維的工作會更加便捷。
2、移動端和微服務(wù)給運維工作帶來的挑戰(zhàn)
在 PC 端的時代,運維的很多工作受限于瀏覽器,在運維人員拿不到用戶端真實數(shù)據(jù)的情況下,大家普遍會去采購一些第三方服務(wù),嘗試獲取終端數(shù)據(jù)。而在移動端時期,我們都有自己的客戶端,可以把一些采點的邏輯放在自己的客戶端里,然后獲取到更準(zhǔn)確、更真實的客戶數(shù)據(jù)。相對于挑戰(zhàn)來說,這其實是移動端帶來的好處。
微服務(wù)的出現(xiàn)給運維工作帶來一些難題。沒有出現(xiàn)微服務(wù)之前,運維人員在一臺或者兩三臺機器中就可以完成問題排查。到了微服務(wù)的時代,這些問題可能出現(xiàn)在分布式系統(tǒng)幾十乃至成百上千個節(jié)點的任意位置。系統(tǒng)中單個服務(wù)的啟停和遷移很方便,也很頻繁,各自的數(shù)據(jù)輸出就變得很混亂,這意味著運維要查找問題就麻煩了很多,而解決這些麻煩就需要智能運維。
3、在大數(shù)據(jù)時代,智能運維與數(shù)據(jù)、自動化運維之間的關(guān)系
智能運維的理想狀態(tài)就是把運維工作的三大部分(監(jiān)控、管理和故障定位),利用一些機器學(xué)習(xí)的方法有機結(jié)合起來。
在大數(shù)據(jù)時代,智能運維是基于大數(shù)據(jù)之上的。目前看來,運維想要把監(jiān)控、管理和故障定位這三部分有機結(jié)合起來,就不可避免的需要用到智能算法,而智能算法發(fā)揮價值有一個前提:智能算法需要大量的數(shù)據(jù)去做支撐。
自動化運維這幾年處在一個良性發(fā)展的狀態(tài),包括像 Puppet 這種配置管理的自動化,像 Docker 這種部署的自動化。進一步的發(fā)展就是需要把這三部分融合起來。目前能夠把這三部分融合起來的辦法就是利用人工智能的手段,最后達(dá)到一種智能運維的狀態(tài)。
4、智能運維當(dāng)下的狀況及智能運維發(fā)展的預(yù)測
智能運維當(dāng)下還是一個初步探索的階段??梢耘e幾個時間數(shù)字,我所看到的一個和智能運維相關(guān)的開源項目是在 2013 年,第一個主動出來宣講智能運維相關(guān)內(nèi)容的國內(nèi)企業(yè)是百度,時間是 2015 年,智能運維大量出現(xiàn)在宣講上的時間是在 2016 年下半年。這些宣講都還在嘗試階段,這些嘗試的效果還需要更多思維碰撞,尋找達(dá)到更好效果的辦法,因為我們現(xiàn)在用的是普通的機器學(xué)習(xí)算法,還沒有用到像 AlphaGo 的深度神經(jīng)網(wǎng)絡(luò)那樣的算法。實現(xiàn)智能運維是一個需要大量投入和學(xué)習(xí)的過程。
想盡快在智能運維領(lǐng)域有所突破,更實際一點的辦法就是重點做好監(jiān)控系統(tǒng)和告警系統(tǒng)。傳統(tǒng)的 IT 運維需要管理大量的告警,極大地分散了企業(yè)的注意力,消耗運維人員大量的時間和創(chuàng)新力。想辦法高效地解決一天收到幾千封告警郵件的問題,把運維人員從紛繁復(fù)雜的告警和噪音中解脫出來,這是一個能夠迅速產(chǎn)生價值的思路。
現(xiàn)在比較明確的是大家會朝著智能運維方向發(fā)展,并且智能運維的發(fā)展一定是一個長期演進的過程。
對于智能運維的發(fā)展預(yù)測,我的簡單看法如下:
智能運維會首先體現(xiàn)出其在告警系統(tǒng)上的價值。
第一階段,做到智能地判斷告警,而不是現(xiàn)在靠人的經(jīng)驗去設(shè)定一個閾值。設(shè)定告警閾值是一項耗時耗力的工作,需要運維人員在充分了解業(yè)務(wù)的前提下才能進行,還得考慮業(yè)務(wù)是不是平穩(wěn)發(fā)展?fàn)顟B(tài),否則一兩周改動一次,運維工程師絕對疲于奔命。
第二階段,做到智能地定位故障?,F(xiàn)在的故障定位完全依賴于人的經(jīng)驗和 CMDB 的完備性,但維護一個復(fù)雜的 CMDB 本身又是大難題。智能運維應(yīng)該可以從相關(guān)性分析等方面,輔助運維人員快速定位故障。
第三階段,利用一些 NLP(自然語言處理)技術(shù),對自然語言寫成的故障報告進行處理,自動反饋到智能運維系統(tǒng)里。這一點可能是更遙遠(yuǎn)的一個設(shè)想,但是目前來看會是將來發(fā)展的一條道路。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。