您好,登錄后才能下訂單哦!
這期內(nèi)容當(dāng)中小編將會給大家?guī)碛嘘P(guān)MaxCompute在高德大數(shù)據(jù)上的應(yīng)用是怎樣的,文章內(nèi)容豐富且以專業(yè)的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。
一、高德的業(yè)務(wù)和數(shù)據(jù)
地圖描繪需要很多支撐數(shù)據(jù),包括現(xiàn)實(shí)中的道路信息、路形以及路況等。下面的軌跡熱力圖展示了高德地圖顯示的北京聯(lián)合大學(xué)的周邊路況,描繪了點(diǎn)、線和面三種信息。通過地圖信息和軌跡數(shù)據(jù)疊加形成區(qū)域熱力。其中,不同顏色的軌跡展示了該區(qū)域一天內(nèi)不同時間段的路況。
cdn.com/3de6b7d7a84b37d1a5945f5f3bb28734a8162022.png">
下面展示了高德的一些業(yè)務(wù)場景。第一個場景是大家日常使用的高德APP。高德地圖是蘋果中國的戰(zhàn)略合作伙伴,第二個場景展示了高德為蘋果提供的出行服務(wù)。高德向整個互聯(lián)網(wǎng)行業(yè)開放了其生態(tài)能力,第三個場景是高德為APP應(yīng)用開放者提供的位置服務(wù)接口,目前使用該接口進(jìn)行開發(fā)的移動應(yīng)用包括手機(jī)淘寶、今日頭條和小米運(yùn)動等。另外,第四個場景是高德為車載設(shè)備提供的完善的位置服務(wù)方案。
高德地圖的業(yè)務(wù)架構(gòu)可以用“442陣型”來形容,即分為客戶端、中間層、服務(wù)引擎以及基礎(chǔ)地理信息等4層,同時包含AppleMaps、高德App、第三方App以及車載設(shè)備等4個業(yè)務(wù)入口。另外,數(shù)字“2”是指高德地圖依賴于兩個數(shù)據(jù)源,即自采數(shù)據(jù)、行業(yè)合作數(shù)據(jù)組成的基礎(chǔ)地理信息和軌跡數(shù)據(jù)、行車數(shù)據(jù)等服務(wù)引擎產(chǎn)生的數(shù)據(jù)。“442陣型”的業(yè)務(wù)架構(gòu)給高德的發(fā)展帶來了質(zhì)的飛躍。
下圖是高德總裁劉振飛先生正在慶祝高德十一DAU突破一個億的歷史時刻。十一期間,高德為全網(wǎng)用戶提供導(dǎo)航的總里程超過135億公里,相當(dāng)于在太陽和地球之間往返45次。高德提供海量服務(wù)的背后是高德強(qiáng)大的大數(shù)據(jù)計算能力、超過數(shù)千臺的高德集群節(jié)點(diǎn)和承載超過百 PB數(shù)據(jù)的集群存儲容量。
二、如何管好數(shù)據(jù)
SPA架構(gòu)
高德的數(shù)據(jù)架構(gòu)稱為“SPA架構(gòu)”?!癝”指代Source,即數(shù)據(jù)源層,收容了高德內(nèi)部所有的位置、地圖和圖像數(shù)據(jù)?!癙”指代Platform,即數(shù)據(jù)平臺,提供了數(shù)據(jù)倉庫、數(shù)據(jù)適配和數(shù)據(jù)挖掘能力來支撐上層的數(shù)據(jù)應(yīng)用層,也就是Application(“A”)。在“SPA架構(gòu)”中,高德最關(guān)注獲取數(shù)據(jù)的權(quán)限,即要求所有數(shù)據(jù)操作都應(yīng)該符合安全規(guī)范。此外,高德還要求所有部門都明確其開發(fā)目標(biāo),并且使用統(tǒng)一的平臺工具進(jìn)行開發(fā)。
數(shù)據(jù)研發(fā)
數(shù)據(jù)研發(fā)的全鏈路過程包括數(shù)據(jù)集成、數(shù)據(jù)開發(fā)、運(yùn)維中心、數(shù)據(jù)質(zhì)量、數(shù)據(jù)地圖、數(shù)據(jù)安全以及數(shù)據(jù)服務(wù)等。高德對數(shù)據(jù)平臺的要求不僅僅是以上全鏈路都 All in One,還希望都能以可視化的方式進(jìn)行用戶交互,以提高開發(fā)效率。以運(yùn)維中心為例,希望所使用的工具能夠?qū)⒄{(diào)度節(jié)點(diǎn)可視化,并方便進(jìn)行不同時間粒度的任務(wù)依賴。同時,我們還希望擁有可視化的數(shù)據(jù)地圖用于管理元數(shù)據(jù)信息,方便上下游即時查看。MaxCompute正是符合高德數(shù)據(jù)業(yè)務(wù)訴求的給力產(chǎn)品。
MaxCompute平臺特點(diǎn)
高德使用的MaxCompute平臺具有以下三個特點(diǎn):
第一, 易用性,具有零學(xué)習(xí)成本和完善的IDE等優(yōu)勢。
第二, 效率,高德內(nèi)部迄今為止最大的公共項(xiàng)目“魔方”就是運(yùn)用阿里云和MaxCompute實(shí)現(xiàn)的。
第三, 彈性,高德于十一期間的流量遠(yuǎn)遠(yuǎn)超出想象。
易用-上云
2014年,高德的數(shù)據(jù)架構(gòu)依賴Flume進(jìn)行數(shù)據(jù)采集,依賴一個僅含幾百臺機(jī)器的hadoop集群和Hive等軟件實(shí)現(xiàn)數(shù)據(jù)處理。2014年9月份高德內(nèi)部提出“上云”,即將數(shù)據(jù)遷移到阿里云,使非流程化的作業(yè)得到流程化的管理。與其他復(fù)雜的數(shù)據(jù)遷移工作相比,2014年高德實(shí)現(xiàn)了“一鍵”上云,將源數(shù)據(jù)的同步從Flume切換成TimeTunnel,后續(xù)再可配置化地切換數(shù)據(jù)。此外,遷移還伴隨著代碼修改,2014年高德“上云”僅修改了非常少的代碼,比如修改老版本M2中的接口等。上方的數(shù)據(jù)存儲層將數(shù)據(jù)介質(zhì)替換成OTS等云端產(chǎn)品,以支持更加穩(wěn)定的前臺應(yīng)用。高德將所有集群數(shù)據(jù)都遷移到“云上”僅花了兩個月時間。
“上云”為高德帶來的收益不可估量。圖1展示了“上云”后由云端管理所有代碼;圖2展示了一鍵式運(yùn)維管理;圖3展示了可計量的計算資源管理,量化地顯示各個任務(wù)的資源使用情況;圖4展示了流程化的可視化安全審批操作。從2014年“上云”到如今2018年,高德經(jīng)歷了飛速的發(fā)展,同時也暴露出了一些問題。
效率-魔方
煙囪過多是數(shù)據(jù)倉庫中比較麻煩的問題,高德同樣存在該問題。數(shù)據(jù)使用者可能需要花費(fèi)一個月尋找數(shù)據(jù)所在部門、數(shù)據(jù)的相關(guān)產(chǎn)品負(fù)責(zé)人以及研發(fā)人員以索要數(shù)據(jù)。2017年高德盤點(diǎn)數(shù)據(jù)倉庫時發(fā)現(xiàn),高德內(nèi)部存在二十個數(shù)據(jù)倉庫項(xiàng)目,并且各個數(shù)據(jù)倉庫間的數(shù)據(jù)冗余度高達(dá)百分之三十,嚴(yán)重影響了團(tuán)隊(duì)工作效率。此外,高德數(shù)據(jù)倉庫還存在高時延缺點(diǎn),核心數(shù)據(jù)無法保證每天“7點(diǎn)產(chǎn)出”。基于以上兩個問題,高德發(fā)起了“魔方”項(xiàng)目,將二十個倉庫合并成一個以實(shí)現(xiàn)全集團(tuán)的數(shù)據(jù)治理。
顯而易見,要實(shí)現(xiàn)全集團(tuán)的數(shù)據(jù)治理項(xiàng)目存在嚴(yán)峻的挑戰(zhàn)。首先,數(shù)據(jù)量非常大,“魔方”項(xiàng)目要求實(shí)現(xiàn)百PB級數(shù)據(jù)的全域數(shù)據(jù)治理。其次,參與人員眾多,“魔方”項(xiàng)目涉及到高德全產(chǎn)線的所有數(shù)據(jù)開發(fā)人員,項(xiàng)目團(tuán)隊(duì)超過百人。最后,排期緊,為了使數(shù)據(jù)架構(gòu)升級不影響正常業(yè)務(wù),高德要求“魔方”項(xiàng)目的主體開發(fā)工作應(yīng)在兩個半月內(nèi)完成。此外,數(shù)據(jù)遷移工作在越短時間內(nèi)完成對企業(yè)的收益就越大,因此高德要求“魔方”項(xiàng)目應(yīng)在盡量短的時間內(nèi)完成。應(yīng)對這幾個挑戰(zhàn)的主體思路就是引入高效率的研發(fā)工具,在規(guī)范化的流程中實(shí)現(xiàn)協(xié)同開發(fā),提高團(tuán)隊(duì)的工作效率。
為此,高德首先統(tǒng)一了工具平臺,引入了MaxCompute,下圖藍(lán)色部分皆為MaxCompute 為我們帶來的業(yè)務(wù)收益。在數(shù)百人的團(tuán)隊(duì)中統(tǒng)一規(guī)范無疑是困難的,而MaxCompute提供了代碼編寫規(guī)范、調(diào)度配置規(guī)范以及研發(fā)自測規(guī)范等規(guī)范化模塊。其中,代碼編寫規(guī)范模塊使用 SQL Scan 工具自動化地檢查代碼是否符合規(guī)范,調(diào)度配置規(guī)范模塊提供了完善的用戶手冊及各種模板輔助開發(fā)人員完成配置。統(tǒng)一流程要求實(shí)現(xiàn)定制化地管理數(shù)據(jù)開發(fā)流程,包括研發(fā)測試、開發(fā)自測、調(diào)度測試、QA測試以及最后的上線部署等流程。此外,統(tǒng)一建模和語言、統(tǒng)一數(shù)據(jù)核定標(biāo)準(zhǔn)也非常重要。
阿里云提供了一些優(yōu)秀工具以構(gòu)建規(guī)范化流程。第一,提供了數(shù)據(jù)血緣可視化工具,幫助數(shù)據(jù)開發(fā)團(tuán)隊(duì)及時地跟蹤源數(shù)據(jù)、數(shù)據(jù)的上游和下游等信息。第二,提供了開發(fā)/測試流程并行的能力,以支持完善的協(xié)同開發(fā)和高效運(yùn)轉(zhuǎn)的工作。第三,提供了代碼云端版本管理工具,允許實(shí)時查看代碼變更、代碼管理狀態(tài)并支持回滾。第四,提供了一鍵數(shù)據(jù)探查工具,允許數(shù)據(jù)開發(fā)人員通過簡單的配置探查海量數(shù)據(jù)的字段空值率,有效值率,表重復(fù)率等信息,極大地提高了數(shù)據(jù)開發(fā)人員的工作效率。
在規(guī)范化的流程以及眾多效率工具的幫助下,高德在規(guī)定時間內(nèi)完成了“魔方”項(xiàng)目開發(fā),得到了一致好評。高德最終統(tǒng)一了數(shù)據(jù)倉庫,將內(nèi)部所有百P級數(shù)據(jù)的月增速降低了40%,同時數(shù)據(jù)計算效率提升了30%。即使在2018年十一的流量轟炸時期,高德仍然實(shí)現(xiàn)了核心數(shù)據(jù)的“5點(diǎn)產(chǎn)出”目標(biāo)(5點(diǎn)到7點(diǎn)需完成核心數(shù)據(jù)計算任務(wù))。
彈性-十一
2018年十一期間,高德的數(shù)據(jù)處理量隨業(yè)務(wù)快速增長,數(shù)據(jù)計算任務(wù)的性能和平臺的穩(wěn)定性都受到了極大的考驗(yàn)。
數(shù)據(jù)血緣可視化工具允許數(shù)據(jù)開發(fā)人員可視化地查看系統(tǒng)資源配置,下圖展示了高德在2018年9月2日的系統(tǒng)實(shí)際使用計算水位,其中,藍(lán)線是系統(tǒng)配額水位,黃線是系統(tǒng)的實(shí)際計算水位。阿里云提供的彈性計算能力允許在一定彈性數(shù)據(jù)量范圍內(nèi)保證系統(tǒng)資源的正常計算和輸出。此外,阿里云還提供了穩(wěn)定的計算環(huán)境,保證計算任務(wù)高效地運(yùn)轉(zhuǎn),同時避免資源競爭問題。另外,為了更好地利用系統(tǒng)計算資源,高德團(tuán)隊(duì)提出了“提高藍(lán)線、打散黃線”方案,申請擴(kuò)大集群資源配額提升算力空間,通過調(diào)度錯峰打散實(shí)際資源水位。在擴(kuò)容方面,MaxCompute為高德帶來了一鍵資源擴(kuò)容能力,使得集群擴(kuò)容在小時級別的時間內(nèi)完成。最后,高德還實(shí)現(xiàn)了計算優(yōu)化,提供了人員在線值守等保障。下圖同時展示了高德在2018年10月2日的系統(tǒng)計算水位,藍(lán)線代表的“系統(tǒng)配額水位”遠(yuǎn)高于9月2日的,說明集群擴(kuò)容工作已順利完成。同時,黃色代表的“實(shí)際資源配額水位”已完全被藍(lán)線cover,更好地保障了資源計算任務(wù)。此外,黃色高峰被明顯打散,一些重要非核心數(shù)據(jù)被錯峰調(diào)度到7點(diǎn),說明計算資源的錯峰調(diào)度工作也已順利完成。阿里云提供的一鍵運(yùn)維調(diào)度工具能夠保證系統(tǒng)方便的進(jìn)行調(diào)度錯峰,節(jié)省人力。MaxCompute為高德帶來的彈性能力使得高德于2018年10月2日實(shí)現(xiàn)了核心數(shù)據(jù)“3點(diǎn)產(chǎn)出”的驕人成果。
業(yè)務(wù)成果
下圖展示了中國的路網(wǎng)覆蓋圖,華東、華北和華南地區(qū)基本實(shí)現(xiàn)了道路全網(wǎng)覆蓋,西部等偏遠(yuǎn)地區(qū)的道路交通還不夠發(fā)達(dá),許多道路仍在建設(shè)。路網(wǎng)覆蓋對高德而言非常重要,高德需要用盡可能少的成本自動地發(fā)掘新路和過期路。
高德將軌跡數(shù)據(jù)資產(chǎn)和地圖建設(shè)能力結(jié)合起來構(gòu)建軌跡熱力圖,輔以現(xiàn)有路網(wǎng)和數(shù)據(jù)挖掘算法以自動化地發(fā)現(xiàn)新路和過期路。此外,高德還結(jié)合區(qū)域通車流量和該區(qū)域相關(guān)的用戶上報事件來動態(tài)地發(fā)現(xiàn)封路、交通事件,更好地實(shí)現(xiàn)路網(wǎng)挖掘。
路況預(yù)測是高德的另一個重要業(yè)務(wù),即實(shí)時預(yù)測道路的通車狀況、道路是否擁堵等。左圖展示了高德對右圖路段從早到晚的平均車速預(yù)測,紅線表示數(shù)據(jù)累計得到的歷史均值,藍(lán)線表示模型預(yù)測值,黑線表示真實(shí)數(shù)據(jù)值。藍(lán)線和黑線基本重合,有力地說明了高德應(yīng)用的數(shù)據(jù)挖掘能力和統(tǒng)一數(shù)據(jù)倉庫建設(shè)取得的成果。
此外,高德還面向全網(wǎng)用戶開放了一個城市級數(shù)據(jù)產(chǎn)品,允許用戶隨時查看城市的道路擁堵狀況和城市擁堵指數(shù)等相關(guān)數(shù)據(jù),該產(chǎn)品可在http://report.amap.com/ 頁面訪問。
上述就是小編為大家分享的MaxCompute在高德大數(shù)據(jù)上的應(yīng)用是怎樣的了,如果剛好有類似的疑惑,不妨參照上述分析進(jìn)行理解。如果想知道更多相關(guān)知識,歡迎關(guān)注億速云行業(yè)資訊頻道。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。