溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

最新2.7版本丨DataPipeline數(shù)據(jù)融合產(chǎn)品最新版本

發(fā)布時間:2020-03-03 14:22:20 來源:網(wǎng)絡(luò) 閱讀:277 作者:DataPipeline 欄目:大數(shù)據(jù)

最新2.7版本丨DataPipeline數(shù)據(jù)融合產(chǎn)品最新版本


此次發(fā)布的2.7版本在進一步優(yōu)化產(chǎn)品底層數(shù)據(jù)處理邏輯的同時更加注重提升用戶在數(shù)據(jù)融合任務(wù)的日常管理、運行監(jiān)控及資源分配等管理方面的功能增強與優(yōu)化,力求幫助大家更為直觀、便捷、穩(wěn)定地管理數(shù)據(jù)融合任務(wù),提升系統(tǒng)的易用性與穩(wěn)定性。


一、新增功能


1.?在待處理列表中查看或配置重要任務(wù)、故障任務(wù)、待完善任務(wù)、性能關(guān)注任務(wù)


功能背景:


對于大多數(shù)數(shù)據(jù)工程師而言,每天需要配置、管理、監(jiān)控的任務(wù)數(shù)以百計,任務(wù)的重要程度、時效性要求與性能要求也都千差萬別,其中既包括為線上產(chǎn)品提供實時計算數(shù)據(jù)的任務(wù),也有數(shù)據(jù)備份等優(yōu)先級較低的任務(wù)。同時,為了應(yīng)對不停變化的市場與業(yè)務(wù)需求,新的數(shù)據(jù)融合任務(wù)需求也會連續(xù)不斷地涌現(xiàn),數(shù)據(jù)工程師在保證現(xiàn)有任務(wù)穩(wěn)定運行的同時,還需不斷地新增數(shù)據(jù)任務(wù)。


大量不同類型、不同狀態(tài)的任務(wù)平鋪在客戶端首頁,導(dǎo)致重要任務(wù)難以得到優(yōu)先關(guān)注,待完善任務(wù)可能被遺漏,性能較差的任務(wù)無法被發(fā)現(xiàn),查找任務(wù)、管理任務(wù)、處理問題占用了較多工作時間。


新版本上線后,用戶可以對重要任務(wù)添加標識,平臺也會對任務(wù)按照重要程度、配置完成情況及運行狀態(tài)、運行效率進行評估及管理,用戶可以通過待處理列表非常直觀地看到所關(guān)注的重要任務(wù)、運行出現(xiàn)問題的故障任務(wù)、配置未完成待完善的任務(wù)及性能較低需要關(guān)注的任務(wù),幫助數(shù)據(jù)工程師在日常任務(wù)監(jiān)控與新需求處理中提高效率,同時對運行效率有直觀的了解,保障業(yè)務(wù)連續(xù)性。


功能詳情:


(1)重要任務(wù)


工作事務(wù)通常帶有自身的優(yōu)先級屬性,數(shù)據(jù)同步任務(wù)亦如此。針對重要任務(wù),DataPipeline提供星標設(shè)置,于主頁優(yōu)先展示。用戶可實時關(guān)注重要任務(wù)狀態(tài),保證重要任務(wù)穩(wěn)定運行。


(2)故障任務(wù)


集中展示出現(xiàn)故障的任務(wù),保障問題不被遺漏,任務(wù)故障處理全面有序。


(3)非激活狀態(tài)


集中展示處于非激活狀態(tài)的任務(wù),明確列示需要進一步完善配置或需要修改配置的任務(wù),保證數(shù)據(jù)工程師的任務(wù)配置工作全面有序。


(4)性能關(guān)注


性能關(guān)注部分會根據(jù)系統(tǒng)對任務(wù)效率評估分別展示傳輸速率較低的10個批量任務(wù)和實時任務(wù),通過查看性能關(guān)注,可以及時發(fā)現(xiàn)運行狀態(tài)不良的任務(wù),提前做出處理,防止由于性能問題導(dǎo)致更嚴重的問題發(fā)生。

最新2.7版本丨DataPipeline數(shù)據(jù)融合產(chǎn)品最新版本


2. 可按照項目對任務(wù)進行分組管理


功能背景:
DataPipeline在之前的版本中幫助用戶實現(xiàn)了多種來源,不同結(jié)構(gòu)數(shù)據(jù)的同步處理。但隨著產(chǎn)品不斷被深度使用,系統(tǒng)用戶和數(shù)據(jù)任務(wù)數(shù)量的不斷增加,多個項目的數(shù)據(jù)融合任務(wù)混雜在一起,導(dǎo)致任務(wù)配置、監(jiān)控及管理有些不便。


我們了解到,一個數(shù)據(jù)工程師可能同時需要管理多個項目,每個項目可能包含數(shù)十個上百個數(shù)據(jù)融合任務(wù),在不能按照項目對數(shù)據(jù)融合任務(wù)進行分組管理的時候,只能憑借記憶通過名稱、數(shù)據(jù)節(jié)點等信息進行搜索,耗時費力。


因此,DataPipeline新增了根據(jù)項目進行任務(wù)分組的功能,用戶可以根據(jù)任務(wù)所屬項目,對上百個任務(wù)進行分組管理,大大提高了效率。


功能詳情:


(1)支持通過自定義創(chuàng)建項目,對任務(wù)進行分組;


(2)支持通過勾選任務(wù),改變多個任務(wù)的任務(wù)分組。



最新2.7版本丨DataPipeline數(shù)據(jù)融合產(chǎn)品最新版本


3. 可以為任務(wù)配置特定資源組


功能背景:

雖然DataPipeline數(shù)據(jù)融合產(chǎn)品基于并行計算框架,從基礎(chǔ)架構(gòu)層面支持任務(wù)級高可用,但在資源組管理方面一直未對用戶開放,用戶在使用之前版本的DataPipeline時,所有數(shù)據(jù)任務(wù)均在一個默認資源組中運行,無法根據(jù)任務(wù)的重要程度來分配任務(wù)運行資源。


這就要求用戶只能針對重要任務(wù)配置單獨的集群以保證任務(wù)的穩(wěn)定、高效運行。這種方式在實際操作過程中存在很多客觀限制,如系統(tǒng)資源申請困難,成本預(yù)算控制等,也給我們的數(shù)據(jù)工程師用戶們造成了很大的困擾。


因此我們決定在新版本中開放系統(tǒng)資源組配置和分配功能,同時計劃在未來的版本中開放動態(tài)資源調(diào)配功能。


例如,當前系統(tǒng)資源為一臺16C64G的服務(wù)器,在無法分配資源組時任務(wù)運行狀態(tài)如下:


最新2.7版本丨DataPipeline數(shù)據(jù)融合產(chǎn)品最新版本


資源組配置開放以后,用戶可以配置一個重要任務(wù)資源組和一個一般任務(wù)資源組,任務(wù)運行狀態(tài)如下:


最新2.7版本丨DataPipeline數(shù)據(jù)融合產(chǎn)品最新版本


重要任務(wù)相較于其他普通任務(wù)雖然啟動時間較晚。但由于被分配在獨立的資源組中,仍然可以保證有足夠的資源保障任務(wù)平穩(wěn)運行。


功能詳情:


(1)資源組配置


在部署DataPipeline時,通過修改配置文件,可以將數(shù)據(jù)源端/目的地端的服務(wù)器資源劃分為多個資源組,實現(xiàn)業(yè)務(wù)資源組解耦。


資源組配置文件路徑:
/data/datapipeline/dpconfig/resource_group_config.json


源端與目的地端均有兩個資源組的配置文件,資源組配置文件樣例如下:

最新2.7版本丨DataPipeline數(shù)據(jù)融合產(chǎn)品最新版本


置詳細說明如下:


最新2.7版本丨DataPipeline數(shù)據(jù)融合產(chǎn)品最新版本

注:修改配置文件后需要重啟服務(wù)使資源組配置生效

(2)為任務(wù)的讀取與寫入分配資源組

用戶在任務(wù)設(shè)置過程中可以針對每個任務(wù)的數(shù)據(jù)讀取和數(shù)據(jù)寫入分別選擇支撐任務(wù)運行的資源組。


最新2.7版本丨DataPipeline數(shù)據(jù)融合產(chǎn)品最新版本



二、優(yōu)化功能


1. 數(shù)據(jù)傳輸消息隊列粒度拆分優(yōu)化


功能背景:


DataPipeline為更好地支持高效數(shù)據(jù)融合任務(wù),對數(shù)據(jù)傳輸消息隊列粒度進行了進一步的拆分優(yōu)化。

功能詳情:


首先,我們來看一下數(shù)據(jù)在DataPipeline是如何流轉(zhuǎn)的:

最新2.7版本丨DataPipeline數(shù)據(jù)融合產(chǎn)品最新版本


在此需求的用戶場景中,源端數(shù)據(jù)節(jié)點為DB1,DB1中包含三張數(shù)據(jù)表分別為T1、T2和T3。目的地端數(shù)據(jù)節(jié)點為DB2,DB2中包含三張數(shù)據(jù)表分別為T4、T5和T6。??數(shù)據(jù)融合要求為,將T1、T2、T3中的數(shù)據(jù)進行合并后寫入到T4中,將T2中的數(shù)據(jù)同步到T5中,將T3中的數(shù)據(jù)同步到T6中。


在之前的處理邏輯中(如圖1),按照目的地寫入要求的粒度來建立消息隊列,即將T1、T2、T3的數(shù)據(jù)寫入1個消息隊列進行緩存,也就是圖1中的消息隊列1。

最新2.7版本丨DataPipeline數(shù)據(jù)融合產(chǎn)品最新版本

圖1


該緩存機制可以很好地支持T4的數(shù)據(jù)同步,由于數(shù)據(jù)進入了1個消息隊列,所以在同步T5、T6的數(shù)據(jù)時需要將緩存中的T1、T2、T3數(shù)據(jù)進行拆分,處理效率較低。

DataPipeline針對數(shù)據(jù)傳輸中消息隊列緩存粒度進行了拆分優(yōu)化(如圖2),按照數(shù)據(jù)源數(shù)據(jù)表的粒度,進行消息隊列拆分,即將數(shù)據(jù)源T1、T2、T3的數(shù)據(jù)分別寫入三個消息隊列進行緩存。

最新2.7版本丨DataPipeline數(shù)據(jù)融合產(chǎn)品最新版本

圖2

同步至T4的數(shù)據(jù)會讀取T1、T2、T3分別對應(yīng)的消息隊列,進行合并后寫入合并消息隊列,再供T4對應(yīng)的消費單元進行消費,同步至T5、T6的任務(wù)可以分別讀取T2與T3對應(yīng)的消息隊列進行數(shù)據(jù)寫入。


這樣,我們便可同時支持源端多表合一同步與其中一張表的單獨同步。由于拆分多個并發(fā)來讀取數(shù)據(jù),T2至T5、T3至T6的數(shù)據(jù)同步速率會明顯提升。而對于將T1、T2、T3的數(shù)據(jù)進行合并同步至T4的流程,雖然添加了一步消息隊列內(nèi)部的合并操作,但速率影響較小,可以較好地支持上述場景。


2. 支持在任一數(shù)據(jù)同步任務(wù)中靈活修改數(shù)據(jù)源/目的地配置信息

通過支持在任一數(shù)據(jù)同步任務(wù)中靈活修改數(shù)據(jù)源/目的地配置信息,可使數(shù)據(jù)節(jié)點配置在全局生效,提升任務(wù)配置效率。


最新2.7版本丨DataPipeline數(shù)據(jù)融合產(chǎn)品最新版本


除數(shù)據(jù)源/目的地類型之外均可修改,當數(shù)據(jù)源有其他任務(wù)正在運行時不允許修改,修改后數(shù)據(jù)源/目的地節(jié)點的配置即全局生效。


三、其他功能增強與問題修復(fù)


除上述功能之外,DataPipeline還分別從以下幾方面對產(chǎn)品進行了功能增強與問題修復(fù):

1. 支持對用戶注冊信息中郵箱的修改


2. 為數(shù)據(jù)任務(wù)頁面復(fù)制、編輯、刪除等按鈕添加文字注釋


3. 優(yōu)化線程實時任務(wù)心跳,支撐運維監(jiān)控


4. 優(yōu)化元數(shù)據(jù)查詢SQL和相關(guān)邏輯,修復(fù)索引查詢


5. Hive數(shù)據(jù)源重構(gòu)優(yōu)化


6. Hive Kerberos的驗證優(yōu)化


7. 優(yōu)化由于JDBC連接造成的任務(wù)卡頓問題


DataPipeline的每一次版本迭代都凝聚了團隊對企業(yè)數(shù)據(jù)管理需求的深入思考和積極探索,希望在這個特殊時期,新版本能夠切實幫助大家更敏捷高效地融合數(shù)據(jù)、使用數(shù)據(jù)、分析數(shù)據(jù)。


向AI問一下細節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI