<samp id="a7i9s"><dfn id="a7i9s"></dfn></samp>

<table id="a7i9s"></table>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

最新2.7版本丨DataPipeline數(shù)據(jù)融合產(chǎn)品最新版本

發(fā)布時間：2020-03-03 14:22:20 來源：網(wǎng)絡(luò) 閱讀：277 作者：DataPipeline 欄目：大數(shù)據(jù)

最新2.7版本丨DataPipeline數(shù)據(jù)融合產(chǎn)品最新版本

此次發(fā)布的2.7版本在進一步優(yōu)化產(chǎn)品底層數(shù)據(jù)處理邏輯的同時更加注重提升用戶在數(shù)據(jù)融合任務(wù)的日常管理、運行監(jiān)控及資源分配等管理方面的功能增強與優(yōu)化，力求幫助大家更為直觀、便捷、穩(wěn)定地管理數(shù)據(jù)融合任務(wù)，提升系統(tǒng)的易用性與穩(wěn)定性。

一、新增功能

1.?在待處理列表中查看或配置重要任務(wù)、故障任務(wù)、待完善任務(wù)、性能關(guān)注任務(wù)

功能背景：

對于大多數(shù)數(shù)據(jù)工程師而言，每天需要配置、管理、監(jiān)控的任務(wù)數(shù)以百計，任務(wù)的重要程度、時效性要求與性能要求也都千差萬別，其中既包括為線上產(chǎn)品提供實時計算數(shù)據(jù)的任務(wù)，也有數(shù)據(jù)備份等優(yōu)先級較低的任務(wù)。同時，為了應(yīng)對不停變化的市場與業(yè)務(wù)需求，新的數(shù)據(jù)融合任務(wù)需求也會連續(xù)不斷地涌現(xiàn)，數(shù)據(jù)工程師在保證現(xiàn)有任務(wù)穩(wěn)定運行的同時，還需不斷地新增數(shù)據(jù)任務(wù)。

大量不同類型、不同狀態(tài)的任務(wù)平鋪在客戶端首頁，導(dǎo)致重要任務(wù)難以得到優(yōu)先關(guān)注，待完善任務(wù)可能被遺漏，性能較差的任務(wù)無法被發(fā)現(xiàn)，查找任務(wù)、管理任務(wù)、處理問題占用了較多工作時間。

新版本上線后，用戶可以對重要任務(wù)添加標識，平臺也會對任務(wù)按照重要程度、配置完成情況及運行狀態(tài)、運行效率進行評估及管理，用戶可以通過待處理列表非常直觀地看到所關(guān)注的重要任務(wù)、運行出現(xiàn)問題的故障任務(wù)、配置未完成待完善的任務(wù)及性能較低需要關(guān)注的任務(wù)，幫助數(shù)據(jù)工程師在日常任務(wù)監(jiān)控與新需求處理中提高效率，同時對運行效率有直觀的了解，保障業(yè)務(wù)連續(xù)性。

功能詳情：

（1）重要任務(wù)

工作事務(wù)通常帶有自身的優(yōu)先級屬性，數(shù)據(jù)同步任務(wù)亦如此。針對重要任務(wù)，DataPipeline提供星標設(shè)置，于主頁優(yōu)先展示。用戶可實時關(guān)注重要任務(wù)狀態(tài)，保證重要任務(wù)穩(wěn)定運行。

（2）故障任務(wù)

集中展示出現(xiàn)故障的任務(wù)，保障問題不被遺漏，任務(wù)故障處理全面有序。

（3）非激活狀態(tài)

集中展示處于非激活狀態(tài)的任務(wù)，明確列示需要進一步完善配置或需要修改配置的任務(wù)，保證數(shù)據(jù)工程師的任務(wù)配置工作全面有序。

（4）性能關(guān)注

性能關(guān)注部分會根據(jù)系統(tǒng)對任務(wù)效率評估分別展示傳輸速率較低的10個批量任務(wù)和實時任務(wù)，通過查看性能關(guān)注，可以及時發(fā)現(xiàn)運行狀態(tài)不良的任務(wù)，提前做出處理，防止由于性能問題導(dǎo)致更嚴重的問題發(fā)生。

最新2.7版本丨DataPipeline數(shù)據(jù)融合產(chǎn)品最新版本

2. 可按照項目對任務(wù)進行分組管理

功能背景：
DataPipeline在之前的版本中幫助用戶實現(xiàn)了多種來源，不同結(jié)構(gòu)數(shù)據(jù)的同步處理。但隨著產(chǎn)品不斷被深度使用，系統(tǒng)用戶和數(shù)據(jù)任務(wù)數(shù)量的不斷增加，多個項目的數(shù)據(jù)融合任務(wù)混雜在一起，導(dǎo)致任務(wù)配置、監(jiān)控及管理有些不便。

我們了解到，一個數(shù)據(jù)工程師可能同時需要管理多個項目，每個項目可能包含數(shù)十個上百個數(shù)據(jù)融合任務(wù)，在不能按照項目對數(shù)據(jù)融合任務(wù)進行分組管理的時候，只能憑借記憶通過名稱、數(shù)據(jù)節(jié)點等信息進行搜索，耗時費力。

因此，DataPipeline新增了根據(jù)項目進行任務(wù)分組的功能，用戶可以根據(jù)任務(wù)所屬項目，對上百個任務(wù)進行分組管理，大大提高了效率。

功能詳情：

（1）支持通過自定義創(chuàng)建項目，對任務(wù)進行分組；

（2）支持通過勾選任務(wù)，改變多個任務(wù)的任務(wù)分組。

最新2.7版本丨DataPipeline數(shù)據(jù)融合產(chǎn)品最新版本

3. 可以為任務(wù)配置特定資源組

功能背景：

雖然DataPipeline數(shù)據(jù)融合產(chǎn)品基于并行計算框架，從基礎(chǔ)架構(gòu)層面支持任務(wù)級高可用，但在資源組管理方面一直未對用戶開放，用戶在使用之前版本的DataPipeline時，所有數(shù)據(jù)任務(wù)均在一個默認資源組中運行，無法根據(jù)任務(wù)的重要程度來分配任務(wù)運行資源。

這就要求用戶只能針對重要任務(wù)配置單獨的集群以保證任務(wù)的穩(wěn)定、高效運行。這種方式在實際操作過程中存在很多客觀限制，如系統(tǒng)資源申請困難，成本預(yù)算控制等，也給我們的數(shù)據(jù)工程師用戶們造成了很大的困擾。

因此我們決定在新版本中開放系統(tǒng)資源組配置和分配功能，同時計劃在未來的版本中開放動態(tài)資源調(diào)配功能。

例如，當前系統(tǒng)資源為一臺16C64G的服務(wù)器，在無法分配資源組時任務(wù)運行狀態(tài)如下：

最新2.7版本丨DataPipeline數(shù)據(jù)融合產(chǎn)品最新版本

資源組配置開放以后，用戶可以配置一個重要任務(wù)資源組和一個一般任務(wù)資源組，任務(wù)運行狀態(tài)如下：

最新2.7版本丨DataPipeline數(shù)據(jù)融合產(chǎn)品最新版本

重要任務(wù)相較于其他普通任務(wù)雖然啟動時間較晚。但由于被分配在獨立的資源組中，仍然可以保證有足夠的資源保障任務(wù)平穩(wěn)運行。

功能詳情：

（1）資源組配置

在部署DataPipeline時，通過修改配置文件，可以將數(shù)據(jù)源端/目的地端的服務(wù)器資源劃分為多個資源組，實現(xiàn)業(yè)務(wù)資源組解耦。

資源組配置文件路徑：
/data/datapipeline/dpconfig/resource_group_config.json

源端與目的地端均有兩個資源組的配置文件，資源組配置文件樣例如下：

最新2.7版本丨DataPipeline數(shù)據(jù)融合產(chǎn)品最新版本

配置詳細說明如下：

最新2.7版本丨DataPipeline數(shù)據(jù)融合產(chǎn)品最新版本

注：修改配置文件后需要重啟服務(wù)使資源組配置生效

（2）為任務(wù)的讀取與寫入分配資源組

用戶在任務(wù)設(shè)置過程中可以針對每個任務(wù)的數(shù)據(jù)讀取和數(shù)據(jù)寫入分別選擇支撐任務(wù)運行的資源組。

最新2.7版本丨DataPipeline數(shù)據(jù)融合產(chǎn)品最新版本

二、優(yōu)化功能

1. 數(shù)據(jù)傳輸消息隊列粒度拆分優(yōu)化

功能背景：

DataPipeline為更好地支持高效數(shù)據(jù)融合任務(wù)，對數(shù)據(jù)傳輸消息隊列粒度進行了進一步的拆分優(yōu)化。

功能詳情：

首先，我們來看一下數(shù)據(jù)在DataPipeline是如何流轉(zhuǎn)的：

最新2.7版本丨DataPipeline數(shù)據(jù)融合產(chǎn)品最新版本

在此需求的用戶場景中，源端數(shù)據(jù)節(jié)點為DB1，DB1中包含三張數(shù)據(jù)表分別為T1、T2和T3。目的地端數(shù)據(jù)節(jié)點為DB2，DB2中包含三張數(shù)據(jù)表分別為T4、T5和T6。??數(shù)據(jù)融合要求為，將T1、T2、T3中的數(shù)據(jù)進行合并后寫入到T4中，將T2中的數(shù)據(jù)同步到T5中，將T3中的數(shù)據(jù)同步到T6中。

在之前的處理邏輯中（如圖1），按照目的地寫入要求的粒度來建立消息隊列，即將T1、T2、T3的數(shù)據(jù)寫入1個消息隊列進行緩存，也就是圖1中的消息隊列1。

最新2.7版本丨DataPipeline數(shù)據(jù)融合產(chǎn)品最新版本

圖1

該緩存機制可以很好地支持T4的數(shù)據(jù)同步，由于數(shù)據(jù)進入了1個消息隊列，所以在同步T5、T6的數(shù)據(jù)時需要將緩存中的T1、T2、T3數(shù)據(jù)進行拆分，處理效率較低。

DataPipeline針對數(shù)據(jù)傳輸中消息隊列緩存粒度進行了拆分優(yōu)化（如圖2），按照數(shù)據(jù)源數(shù)據(jù)表的粒度，進行消息隊列拆分，即將數(shù)據(jù)源T1、T2、T3的數(shù)據(jù)分別寫入三個消息隊列進行緩存。

最新2.7版本丨DataPipeline數(shù)據(jù)融合產(chǎn)品最新版本

圖2

同步至T4的數(shù)據(jù)會讀取T1、T2、T3分別對應(yīng)的消息隊列，進行合并后寫入合并消息隊列，再供T4對應(yīng)的消費單元進行消費，同步至T5、T6的任務(wù)可以分別讀取T2與T3對應(yīng)的消息隊列進行數(shù)據(jù)寫入。

這樣，我們便可同時支持源端多表合一同步與其中一張表的單獨同步。由于拆分多個并發(fā)來讀取數(shù)據(jù)，T2至T5、T3至T6的數(shù)據(jù)同步速率會明顯提升。而對于將T1、T2、T3的數(shù)據(jù)進行合并同步至T4的流程，雖然添加了一步消息隊列內(nèi)部的合并操作，但速率影響較小，可以較好地支持上述場景。

2. 支持在任一數(shù)據(jù)同步任務(wù)中靈活修改數(shù)據(jù)源/目的地配置信息

通過支持在任一數(shù)據(jù)同步任務(wù)中靈活修改數(shù)據(jù)源/目的地配置信息，可使數(shù)據(jù)節(jié)點配置在全局生效，提升任務(wù)配置效率。

最新2.7版本丨DataPipeline數(shù)據(jù)融合產(chǎn)品最新版本

除數(shù)據(jù)源/目的地類型之外均可修改，當數(shù)據(jù)源有其他任務(wù)正在運行時不允許修改，修改后數(shù)據(jù)源/目的地節(jié)點的配置即全局生效。

三、其他功能增強與問題修復(fù)

除上述功能之外，DataPipeline還分別從以下幾方面對產(chǎn)品進行了功能增強與問題修復(fù)：

1. 支持對用戶注冊信息中郵箱的修改

2. 為數(shù)據(jù)任務(wù)頁面復(fù)制、編輯、刪除等按鈕添加文字注釋

3. 優(yōu)化線程實時任務(wù)心跳，支撐運維監(jiān)控

4. 優(yōu)化元數(shù)據(jù)查詢SQL和相關(guān)邏輯，修復(fù)索引查詢

5. Hive數(shù)據(jù)源重構(gòu)優(yōu)化

6. Hive Kerberos的驗證優(yōu)化

7. 優(yōu)化由于JDBC連接造成的任務(wù)卡頓問題

DataPipeline的每一次版本迭代都凝聚了團隊對企業(yè)數(shù)據(jù)管理需求的深入思考和積極探索，希望在這個特殊時期，新版本能夠切實幫助大家更敏捷高效地融合數(shù)據(jù)、使用數(shù)據(jù)、分析數(shù)據(jù)。

向AI問一下細節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
組策略無法按安全組篩選應(yīng)用問題解決
下一篇新聞：
MYSQL行為

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機網(wǎng)站二維碼