您好,登錄后才能下訂單哦!
寫(xiě)在前面
隨著越來(lái)越多企業(yè)應(yīng)用上云,云上應(yīng)用的規(guī)模與復(fù)雜度日趨增長(zhǎng),對(duì)云上應(yīng)用的運(yùn)維,也提出了新的挑戰(zhàn)。華為云AOM服務(wù)面向大規(guī)模企業(yè)應(yīng)用的運(yùn)維,在實(shí)踐中演進(jìn)并構(gòu)建了一套完整的面向云上應(yīng)用的立體化運(yùn)維系統(tǒng)。
一、常見(jiàn)云上應(yīng)用的架構(gòu)
云上應(yīng)用早期較多的是購(gòu)買(mǎi)云服務(wù)I層資源(多為基礎(chǔ)設(shè)施如主機(jī)等計(jì)算資源)自建各種集群,運(yùn)維人員多以主機(jī)監(jiān)控為中心進(jìn)行運(yùn)維,同時(shí)自己搭建應(yīng)用及數(shù)據(jù)庫(kù)等監(jiān)控系統(tǒng)進(jìn)行應(yīng)用層和業(yè)務(wù)層運(yùn)維。隨著容器技術(shù)的普及,越來(lái)越多的企業(yè)轉(zhuǎn)向CaaS和PaaS來(lái)管理應(yīng)用,通過(guò)微服務(wù)框架開(kāi)發(fā),業(yè)務(wù)的實(shí)現(xiàn)也更多的使用云上服務(wù),如分布式中間件,函數(shù)服務(wù),AI服務(wù)等,同時(shí)運(yùn)維也轉(zhuǎn)向云上的運(yùn)維服務(wù)。
一個(gè)典型的現(xiàn)代云上應(yīng)用架構(gòu):
經(jīng)過(guò)域名解析階段后,靜態(tài)資源命中CDN后直接返回,無(wú)命中時(shí)會(huì)回源去拉取,動(dòng)態(tài)請(qǐng)求直接訪問(wèn)WEB服務(wù),在請(qǐng)求到達(dá)四層和七層ELB之前,多數(shù)企業(yè)應(yīng)用也會(huì)選擇WAF來(lái)清洗異常流量。
經(jīng)過(guò)ELB后,請(qǐng)求到達(dá)業(yè)務(wù)應(yīng)用服務(wù)器,業(yè)務(wù)實(shí)例多為分布式構(gòu)架,微服務(wù)之間相互調(diào)用,一般情況下企業(yè)運(yùn)維人員較多的關(guān)注點(diǎn)是應(yīng)用實(shí)例這一層,多為企業(yè)自行開(kāi)發(fā)的服務(wù)。
持久化層當(dāng)前各CSP提供的中間件不一樣,華為云上用戶(hù)使用較多的如分布式緩存,分布式數(shù)據(jù)庫(kù)等。由于提供動(dòng)態(tài)擴(kuò)容及較高級(jí)別的SLA,越來(lái)越多的企業(yè)不再需要專(zhuān)業(yè)的DBA,轉(zhuǎn)而使用云上的服務(wù),開(kāi)發(fā)上也更加敏捷。
如此多的云服務(wù)和各種資源,任何一個(gè)環(huán)節(jié)出現(xiàn)問(wèn)題,都將導(dǎo)致應(yīng)用KPI異常,用戶(hù)體驗(yàn)下降,進(jìn)而導(dǎo)致企業(yè)運(yùn)營(yíng)受到影響,而每個(gè)使用公有云服務(wù)的企業(yè),如果投入大量人力去自建運(yùn)維系統(tǒng)并且將整個(gè)請(qǐng)求的各個(gè)環(huán)節(jié)關(guān)聯(lián)起來(lái),成本會(huì)非常高。因此華為云AOM在幫助企業(yè)對(duì)應(yīng)用運(yùn)維的過(guò)程中,通過(guò)實(shí)踐構(gòu)建了一套立體運(yùn)維體系,幫助企業(yè)更好的進(jìn)行一站式運(yùn)維。下面章節(jié)將為您介紹立體運(yùn)維的定位及架構(gòu)。
二、立體運(yùn)維的定位及架構(gòu)
立體運(yùn)維定位 :
立體化運(yùn)維主要是圍繞用戶(hù)應(yīng)用進(jìn)行監(jiān)控,一站式完成用戶(hù)體驗(yàn)監(jiān)控,應(yīng)用性能監(jiān)控,基礎(chǔ)設(shè)施監(jiān)控。
參考以上典型云應(yīng)用架構(gòu),通過(guò)將業(yè)務(wù)請(qǐng)求路徑上經(jīng)過(guò)的不同資源進(jìn)行分層,圍繞分層設(shè)計(jì)不同的專(zhuān)業(yè)運(yùn)維服務(wù)子系統(tǒng),將不同數(shù)據(jù)在不同子系統(tǒng)上串聯(lián)協(xié)同、關(guān)聯(lián)分析,構(gòu)筑一個(gè)云上的運(yùn)維平臺(tái),從而最大化的實(shí)現(xiàn)數(shù)據(jù)價(jià)值,為運(yùn)維人員提供一個(gè)統(tǒng)一的運(yùn)維中心,達(dá)到一站式立體化運(yùn)維的目的。如下為立體運(yùn)維分層:
立體運(yùn)維分層
構(gòu)建立體運(yùn)維,除了要覆蓋應(yīng)用的端到端資源以外,重點(diǎn)還要通過(guò)多種運(yùn)維數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,通過(guò)多種可視化手段進(jìn)行友好的界面展示。因此立體運(yùn)維體系建設(shè)包括以下工作:
資源模型化
其實(shí)就是將應(yīng)用依賴(lài)的資源接入CMDB,但是云上業(yè)務(wù)的CMDB與自建數(shù)據(jù)中心運(yùn)維有所區(qū)別,后者多對(duì)應(yīng)的是SRE(網(wǎng)站可靠性工程師)層面的CMDB,而應(yīng)用運(yùn)維管理所需要的CMDB是面向云資源的量身打造的CMDB。主要有以下特征
· 分離業(yè)務(wù)模型與存量資源模型(后續(xù)文章后詳細(xì)解讀)
· 存量模型能表述不同的云服務(wù)下的不同云資源
· 支持對(duì)云服務(wù)內(nèi)云資源建立映射關(guān)系
· 支持對(duì)跨云服務(wù)的資源建立映射關(guān)系
· 支持云資源標(biāo)簽管理(打標(biāo)簽,同步標(biāo)簽,按標(biāo)簽查詢(xún))
· 支持歷史資源快照
資源模型化這一步是所有數(shù)據(jù)關(guān)聯(lián)及運(yùn)維平臺(tái)化的基礎(chǔ),通過(guò)統(tǒng)一的模型將不同資源關(guān)聯(lián)起來(lái)后,可以幫助用戶(hù)快速的找到故障的根因,也能通過(guò)關(guān)聯(lián)關(guān)系對(duì)大量告警進(jìn)行分析,抑制重復(fù)告警等。
數(shù)據(jù)可視 化
良好的可視化界面不但能提高運(yùn)維人員運(yùn)維效率,還可以通過(guò)直觀的展示查看各種資源消耗趨勢(shì),幫助企業(yè)分析運(yùn)營(yíng)走勢(shì),預(yù)測(cè)未來(lái)資源使用情況等。應(yīng)用運(yùn)維管理數(shù)據(jù)可視化遵從以下原則進(jìn)行設(shè)計(jì)
· 建立左右逢源的資源拓?fù)鋱D
資源拓?fù)涫侵敢粋€(gè)資源與其他資源的關(guān)聯(lián)關(guān)系,如云主機(jī)與ELB及VPC,CDN的關(guān)系,通過(guò)一個(gè)資源拓?fù)鋱D進(jìn)行展示。如下
所謂左右逢源是指以一個(gè)資源為中心,拓?fù)鋱D展示其上下各一層的關(guān)聯(lián)資源即可,避免拓?fù)溥^(guò)大,但又能通過(guò)一個(gè)資源找到上層或者下層資源。
· 關(guān)聯(lián)資源下鉆
建立拓?fù)浜?,通過(guò)圖上的資源鏈接,可以跳轉(zhuǎn)到選中的另一個(gè)資源的拓?fù)鋱D中去,而新的拓?fù)鋱D是以新的資源為中心,如此來(lái)達(dá)到通過(guò)關(guān)聯(lián)資源不斷下鉆的目標(biāo),方便運(yùn)維人員查找問(wèn)題。
· 云資源快速跳轉(zhuǎn)
一個(gè)云資源可能涉及到多個(gè)云服務(wù),如ELB實(shí)例,涉及ELB服務(wù)本身,VPC,CDN,ECS,而各個(gè)云服務(wù)入口較分散,需要在資源名稱(chēng)增加超鏈接快速跳轉(zhuǎn)到云服務(wù)console。
· 視圖模板化
各資源監(jiān)控?cái)?shù)據(jù)的展示,由AOM默認(rèn)提供模板,但同時(shí)要支持用戶(hù)自定義模板,由于運(yùn)維人員關(guān)注的指標(biāo)或其他數(shù)據(jù)側(cè)重點(diǎn)不一樣,因此要能通過(guò)模板支持同一個(gè)資源不同視角的查看方式。
· 功能向?qū)Щ?
復(fù)雜功能需要通過(guò)向?qū)Э焖僦笇?dǎo)用戶(hù)進(jìn)行設(shè)置或配置,以減少用戶(hù)學(xué)習(xí)文檔或者視頻的時(shí)間成本。
服務(wù)平臺(tái) 化
平臺(tái)化目標(biāo)要支持用戶(hù)通過(guò)各子系統(tǒng)通過(guò)開(kāi)放API實(shí)現(xiàn)自動(dòng)化運(yùn)維。指標(biāo),日志,事件告警等數(shù)據(jù)要支持用戶(hù)通過(guò)接口訂閱,轉(zhuǎn)發(fā)到外部系統(tǒng)供用戶(hù)運(yùn)維平臺(tái)進(jìn)行分析,分析結(jié)果通過(guò)API輸入立體運(yùn)維平臺(tái)并通過(guò)事件驅(qū)動(dòng)平臺(tái)業(yè)務(wù)持續(xù)分析。
也就是通過(guò)數(shù)據(jù)流,實(shí)現(xiàn)平臺(tái)與用戶(hù)運(yùn)維系統(tǒng)的協(xié)同, 實(shí)現(xiàn)流程化自動(dòng)化 。
自動(dòng)化將會(huì)協(xié)助用戶(hù)實(shí)現(xiàn)故障自動(dòng)恢復(fù),如通過(guò)數(shù)據(jù)分析后發(fā)現(xiàn)需要擴(kuò)容,可以通過(guò)事件觸發(fā)或者API調(diào)用彈性伸縮子系統(tǒng)進(jìn)行實(shí)例擴(kuò)容。還可以在資源空閑時(shí)縮容以節(jié)省企業(yè)運(yùn)營(yíng)成本。
分析智能 化
針對(duì)指標(biāo)數(shù)據(jù)提供動(dòng)態(tài)閾值計(jì)算能力,無(wú)需用戶(hù)設(shè)置閾值,通過(guò)機(jī)器學(xué)習(xí)進(jìn)行異常檢測(cè),對(duì)于大型系統(tǒng)的運(yùn)維可以有效的降低人工配置成本。同時(shí)也避免靜態(tài)閾值設(shè)置不合理需要不斷調(diào)整的重復(fù)工作。
針對(duì)日志數(shù)據(jù),智能提取模板,分析可變參數(shù)與靜態(tài)文本,通過(guò)日志關(guān)鍵字監(jiān)控,實(shí)時(shí)掌握應(yīng)用異常情況。
應(yīng)用運(yùn)維管理的整體架構(gòu) :
以下為應(yīng)用運(yùn)維管理整體的架構(gòu),主要分為五個(gè)子系統(tǒng),每個(gè)子系統(tǒng)通過(guò)多個(gè)微服務(wù)提供不同功能,整體協(xié)同實(shí)現(xiàn)立體運(yùn)維目標(biāo)。
ALM 模塊負(fù)責(zé)事件告警的管理及相關(guān)性分析,支持用戶(hù)配置通知策略以及時(shí)將告警發(fā)送給運(yùn)維人員。
ALS 模塊負(fù)責(zé)分析日志。
INV 模塊即CMDB模塊,實(shí)現(xiàn)資源的管理及資源的映射及查詢(xún)等能力。
AMS 模塊主要負(fù)責(zé)指標(biāo)數(shù)據(jù)的管理,提供閾值配置能力。
DPA 模塊主要負(fù)責(zé)大數(shù)據(jù)計(jì)算及智能化能力,在線和離線分析數(shù)據(jù),以事件驅(qū)動(dòng)各子系統(tǒng)運(yùn)行。
更多信息可查看: https://www.huaweicloud.com/product/aom.html
另外架構(gòu)圖中的底座環(huán)境,展示了AOM運(yùn)維范圍,從基礎(chǔ)設(shè)施到PaaS層應(yīng)用及容器和VM應(yīng)用,覆蓋了應(yīng)用運(yùn)行所依賴(lài)各層資源。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。