您好,登錄后才能下訂單哦!
本篇內(nèi)容介紹了“AIOps的工作原理是什么”的有關(guān)知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細閱讀,能夠?qū)W有所成!
Intellyx公司首席分析師Jason English曾表示過,混合IT帶來的復(fù)雜性、超高速交付以及自動化等挑戰(zhàn)已經(jīng)卷起一股難以擺脫的事件與警告風(fēng)暴。而目前興起的AIOps平臺雖然遠稱不上完善,但已經(jīng)能夠為站點可靠性工程師(SRE)、運營人員以及開發(fā)人員提供應(yīng)對這股風(fēng)暴的重要助力。
David Lithicum在GIgaOm發(fā)表的《Key Criteria for AIOps》報告中寫道,“這些AIOps工具全部圍繞數(shù)據(jù)展開?!盠ithicum強調(diào),在系統(tǒng)監(jiān)控過程中,真正能夠暴露問題的永遠是數(shù)據(jù)。對于專門負責(zé)預(yù)測故障或其他潛在問題/趨勢的解決方案,一切AI系統(tǒng)都必然高度依賴于模型訓(xùn)練階段的數(shù)據(jù)供應(yīng)。
那么,AIOps是如何運作起效的?機器學(xué)習(xí)與人工(或應(yīng)用)智能又怎么使用數(shù)據(jù)幫助忙碌的SRE與DevOps團隊優(yōu)化故障排查、解決實際問題?下面我們就一起說道說道。
先來看幾條基本定義。
AI是什么?人工智能(AI)屬于以機器模擬人類智能的技術(shù)的總稱,而且絕不像大家想象中那么可怕。AI技術(shù)的目標非常簡單——讓軟件具有學(xué)習(xí)、反應(yīng)、發(fā)展、識別與自動化能力。
機器學(xué)習(xí)是什么?機器學(xué)習(xí)(ML)算法是在數(shù)據(jù)集上訓(xùn)練而成的。這些算法能夠通過經(jīng)驗與“學(xué)習(xí)”實現(xiàn)自我調(diào)整以改善輸出結(jié)果。機器學(xué)習(xí)算法往往能夠從數(shù)據(jù)當中發(fā)現(xiàn)人類永遠意識不到的未知數(shù)值、模式與連接。例如,在AIOps當中,機器學(xué)習(xí)能夠顯著增強事件響應(yīng)能力。機器學(xué)習(xí)屬于人工智能定義下的一個子集。
要理解AIOps的工作原理,我們先來看一個大多數(shù)開發(fā)團隊可能都非常熟悉的示例。
在當今高度復(fù)雜的系統(tǒng)當中,無數(shù)團隊往往被快速淹沒在未知變量與警報噪聲當中。開發(fā)者與工程師們一次又一次陷入信息泥潭,而且基本不可能逐一排查每一項警報、每一個事件。由此引發(fā)的警報疲勞,也導(dǎo)致真正緊急的警報遭到埋沒和忽略。
我們不可能調(diào)遣一位擁有20年經(jīng)驗的優(yōu)秀工程師專職篩查警報內(nèi)容,這實在是對人才的嚴重浪費。這時候,就輪到AIOps出場了。
AIOps是一種新型工具,能夠?qū)I與機器學(xué)習(xí)的強大能力引入遙測數(shù)據(jù),借此幫助團隊快速評估數(shù)據(jù)內(nèi)容、采取應(yīng)對行動并減少人力勞動需求。
簡而言之,AIOps的主要負責(zé)在于數(shù)據(jù)智能與數(shù)據(jù)充實。它無法取代開發(fā)者角色;相反,它是要把寶貴的時間節(jié)約下來,提高信息的可觀察性,最終協(xié)助開發(fā)者打造出更完美的成品。
AIOps能夠為DevOps及站點可靠性工程團隊提供豐富的洞見與自動化支持,幫助他們快速發(fā)現(xiàn)并解決問題。
其中智能要素的存在,正是AIOps平臺與其他監(jiān)控工具間的核心區(qū)別。也正是這一關(guān)鍵因素,讓AIOps得以在現(xiàn)代工作場景下發(fā)揮出重要作用。
大多數(shù)企業(yè)已經(jīng)意識到自身生產(chǎn)系統(tǒng)復(fù)雜性的快速提升。此外,軟件功能的極大豐富也釋放出新的增長機會,開始在增強客戶體驗、壓制競爭對手方面扮演更為重要的角色。為此,開發(fā)人員不得不承受起巨大的壓力,在創(chuàng)紀錄的極短時間內(nèi)無差錯部署軟件以快速解決未來事件。
機器學(xué)習(xí)與AI能夠為待命團隊提供必要支持,幫助他們在快節(jié)奏的環(huán)境中發(fā)現(xiàn)問題、確定問題優(yōu)先級并快速實施故障排查與補救。AIOps平臺還增強了現(xiàn)有事件管理團隊及工作流程的運作方式,縮短了平均解決時間(MTTR)、降低人力勞動量,最終給員工及最終用戶帶來更好的體驗。
AIOps的價值當然不會僅限于噪聲篩選。下面來看AIOps工具使用AI、機器學(xué)習(xí)與自動化技術(shù)增強事件響應(yīng)流程的三種可行方式:
第一,主動異常檢測:AIOps工具可自動檢測環(huán)境中的異常,并觸發(fā)其他監(jiān)控解決方案及團隊協(xié)作工具,例如Slack,通知以幫助開發(fā)者找出未知變量。
第二,事件關(guān)聯(lián)與充實:AIOps工具能夠?qū)⑾嚓P(guān)警報、事件與對應(yīng)優(yōu)先級關(guān)聯(lián)起來,幫助我們快速關(guān)注最核心的問題;此外,AIOps還可利用歷史數(shù)據(jù)或棧內(nèi)其他工具的上下文信息對警報、事件進行充實,引導(dǎo)團隊高效發(fā)現(xiàn)根本原因。目前最先進的AIOps工具已經(jīng)能夠使用機器生成,基于時間的聚類、相似性算法及其他機器學(xué)習(xí)模型與人工生成的決策增強相關(guān)邏輯,幫助用戶自動排除異常噪聲或低優(yōu)先級警報。
第三,智能警報與通報:AIOps工具能夠自動將事件數(shù)據(jù)路由至相應(yīng)的事件響應(yīng)個人或團隊處,借此節(jié)約寶貴時間。特別是面對分布較為分散的自助服務(wù)團隊而言,這種方式能夠極大減少成員接收到的噪聲警報數(shù)量、加快關(guān)鍵事件的數(shù)據(jù)發(fā)送效率,最終降低工作量。
AIOps工具運行機器學(xué)習(xí)以評估事件管理與監(jiān)控工具中的數(shù)據(jù),并結(jié)合以往類似情況將問題移交給相應(yīng)職能個人/團隊或?qū)iT的技術(shù)專家。
積極擁抱AIOps,SRE與DevOps團隊有望更深入地了解造成問題的根本原因、快速加以緩解、降低警報疲勞,保證團隊能夠?qū)⒕性谧罹邇r值的工作——創(chuàng)造性與戰(zhàn)略性思考當中。
“AIOps的工作原理是什么”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識可以關(guān)注億速云網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實用文章!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。