怎么使用Apache?Hudi加速傳統(tǒng)的批處理模式

發(fā)布時間：2022-04-24 10:13:41 來源：億速云閱讀：150 作者：zzz 欄目：開發(fā)技術(shù)

這篇文章主要講解了“怎么使用Apache Hudi加速傳統(tǒng)的批處理模式”，文中的講解內(nèi)容簡單清晰，易于學(xué)習(xí)與理解，下面請大家跟著小編的思路慢慢深入，一起來研究和學(xué)習(xí)“怎么使用Apache Hudi加速傳統(tǒng)的批處理模式”吧！

Apache Hudi(簡稱：Hudi)使得您能在hadoop兼容的存儲之上存儲大量數(shù)據(jù)，同時它還提供兩種原語，使得除了經(jīng)典的批處理之外，還可以在數(shù)據(jù)湖上進行流處理。

1. 現(xiàn)狀說明

1.1 數(shù)據(jù)湖攝取和計算過程 - 處理更新

在我們的用例中1-10% 是對歷史記錄的更新。當記錄更新時，我們需要從之前的 updated_date 分區(qū)中刪除之前的條目，并將條目添加到最新的分區(qū)中，在沒有刪除和更新功能的情況下，我們必須重新讀取整個歷史表分區(qū) -> 去重數(shù)據(jù) -> 用新的去重數(shù)據(jù)覆蓋整個表分區(qū)

1.2 當前批處理過程中的挑戰(zhàn)

這個過程有效，但也有其自身的缺陷：

時間和成本——每天都需要覆蓋整個歷史表
數(shù)據(jù)版本控制——沒有開箱即用的數(shù)據(jù)和清單版本控制（回滾、并發(fā)讀取和寫入、時間點查詢、時間旅行以及相關(guān)功能不存在）
寫入放大——日常歷史數(shù)據(jù)覆蓋場景中的外部（或自我管理）數(shù)據(jù)版本控制增加了寫入放大，從而占用更多的 S3 存儲

借助Apache Hudi，我們希望在將數(shù)據(jù)攝取到數(shù)據(jù)湖中的同時，找到更好的重復(fù)數(shù)據(jù)刪除和數(shù)據(jù)版本控制優(yōu)化解決方案。

2. Hudi 數(shù)據(jù)湖 — 查詢模式

當我們開始在我們的數(shù)據(jù)湖上實現(xiàn) Apache Hudi 的旅程時，我們根據(jù)表的主要用戶的查詢模式將表分為 2 類。

面向ETL ：這是指我們從各種生產(chǎn)系統(tǒng)攝取到數(shù)據(jù)湖中的大多數(shù)原始/基本快照表。如果這些表被 ETL 作業(yè)廣泛使用，那么我們將每日數(shù)據(jù)分區(qū)保持在 updated_date，這樣下游作業(yè)可以簡單地讀取最新的 updated_at 分區(qū)并（重新）處理數(shù)據(jù)。
面向分析師：通常包括維度表和業(yè)務(wù)分析師查詢的大部分計算 OLAP，分析師通常需要查看基于事務(wù)（或事件）created_date 的數(shù)據(jù)，而不太關(guān)心 updated_date。

這是一個示例電子商務(wù)訂單數(shù)據(jù)流，從攝取到數(shù)據(jù)湖到創(chuàng)建 OLAP，最后到業(yè)務(wù)分析師查詢它

怎么使用Apache?Hudi加速傳統(tǒng)的批處理模式

由于兩種類型的表的日期分區(qū)列不同，我們采用不同的策略來解決這兩個用例。

2.1 面向分析師的表/OLAP（按 created_date 分區(qū)）

在 Hudi 中，我們需要指定分區(qū)列和主鍵列，以便 Hudi 可以為我們處理更新和刪除。
以下是我們?nèi)绾翁幚砻嫦蚍治鰩煹谋碇械母潞蛣h除的邏輯：

讀取上游數(shù)據(jù)的 D-n 個 updated_date 分區(qū)。
應(yīng)用數(shù)據(jù)轉(zhuǎn)換。現(xiàn)在這個數(shù)據(jù)將只有新的插入和很少的更新記錄。
發(fā)出 hudi upsert 操作，將處理后的數(shù)據(jù) upsert 到目標 Hudi 表。

由于主鍵和 created_date 對于退出和傳入記錄保持相同，Hudi 通過使用來自傳入記錄 created_date 和 primary_key 列的此信息獲取現(xiàn)有記錄的分區(qū)和分區(qū)文件路徑。

2.2 面向ETL（按更新日期分區(qū)）

當我們開始使用 Hudi 時，在閱讀了許多博客和文檔之后，在 created_date 上對面向 ETL 的表進行分區(qū)似乎是合乎邏輯的。
此外 Hudi 提供增量消費功能，允許我們在 created_date 上對表進行分區(qū)，并僅獲取在 D-1 或 D-n 上插入（插入或更新）的那些記錄。

1. “created_date”分區(qū)的挑戰(zhàn)

這種方法在理論上效果很好，但在改造傳統(tǒng)的日常批處理過程中的增量消費時，它帶來了其他一系列挑戰(zhàn)：
Hudi 維護了在不同時刻在表上執(zhí)行的所有操作的時間表，這些提交包含有關(guān)作為 upsert 的一部分插入或重寫的部分文件的信息，我們將此 Hudi 表稱為 Commit Timeline。
這里要注意的重要信息是增量查詢基于提交時間線，而不依賴于數(shù)據(jù)記錄中存在的實際更新/創(chuàng)建日期信息。

冷啟動：當我們將現(xiàn)有的上游表遷移到 Hudi 時，D-1 Hudi 增量查詢將獲取完整的表，而不僅僅是 D-1 更新。發(fā)生這種情況是因為在開始時，整個表是通過在 D-1 提交時間線內(nèi)發(fā)生的單個初始提交或多個提交創(chuàng)建的，并且缺少真正的增量提交信息。
歷史數(shù)據(jù)重新攝?。涸诿總€常規(guī)增量 D-1 拉取中，我們期望僅在 D-1 上更新的記錄作為輸出。但是在重新攝取歷史數(shù)據(jù)的情況下，會再次出現(xiàn)類似于前面描述的冷啟動問題的問題，并且下游作業(yè)也會出現(xiàn) OOM。

歷史數(shù)據(jù)重新攝?。涸诿總€常規(guī)增量 D-1 拉取中，我們期望僅在 D-1 上更新的記錄作為輸出。但是在重新攝取歷史數(shù)據(jù)的情況下，會再次出現(xiàn)類似于前面描述的冷啟動問題的問題，并且下游作業(yè)也會出現(xiàn) OOM。

作為面向 ETL 的作業(yè)的解決方法，我們嘗試將數(shù)據(jù)分區(qū)保持在 updated_date 本身，然而這種方法也有其自身的挑戰(zhàn)。

2. “updated_date”分區(qū)的挑戰(zhàn)

我們知道 Hudi 表的本地索引，Hudi 依靠索引來獲取存儲在數(shù)據(jù)分區(qū)本地目錄中的 Row-to-Part_file 映射。因此，如果我們的表在 updated_date 進行分區(qū)，Hudi 無法跨分區(qū)自動刪除重復(fù)記錄。
Hudi 的全局索引策略要求我們保留一個內(nèi)部或外部索引來維護跨分區(qū)的數(shù)據(jù)去重。對于大數(shù)據(jù)量，每天大約 2 億條記錄，這種方法要么運行緩慢，要么因 OOM 而失敗。
因此，為了解決更新日期分區(qū)的數(shù)據(jù)重復(fù)挑戰(zhàn)，我們提出了一種全新的重復(fù)數(shù)據(jù)刪除策略，該策略也具有很高的性能。

3. “新”重復(fù)數(shù)據(jù)刪除策略

查找更新 - 從每日增量負載中，僅過濾掉更新（1-10% 的 DI 數(shù)據(jù)）（其中 updated_date> created_date）（快速，僅映射操作）
找到過時更新 - 將這些“更新”與下游 Hudi 基表廣播連接。由于我們只獲取更新的記錄（僅占每日增量的 1-10%），因此可以實現(xiàn)高性能的廣播連接。這為我們提供了與更新記錄相對應(yīng)的基礎(chǔ) Hudi 表中的所有現(xiàn)有記錄
刪除過時更新——在基本 Hudi 表路徑上的這些“過時更新”上發(fā)出 Hudi 刪除命令
插入 - 在基本 hudi 表路徑上的完整每日增量負載上發(fā)出 hudi insert 命令

進一步優(yōu)化用 true 填充陳舊更新中的 _hoodie_is_deleted 列，并將其與每日增量負載結(jié)合。通過基本 hudi 表路徑發(fā)出此數(shù)據(jù)的 upsert 命令。它將在單個操作（和單個提交）中執(zhí)行插入和刪除。

4. Apache Hudi 的優(yōu)勢

時間和成本——Hudi 在重復(fù)數(shù)據(jù)刪除時不會覆蓋整個表。它只是重寫接收更新的部分文件。因此較小的 upsert 工作
數(shù)據(jù)版本控制——Hudi 保留表版本（提交歷史），因此提供實時查詢（時間旅行）和表版本回滾功能。
寫入放大——由于只有部分文件被更改并保留用于數(shù)據(jù)清單版本控制，我們不需要保留完整數(shù)據(jù)的版本。因此整體寫入放大是最小的。

作為數(shù)據(jù)版本控制的另一個好處，它解決了并發(fā)讀取和寫入問題，因為數(shù)據(jù)版本控制使并發(fā)讀取器可以讀取數(shù)據(jù)文件的版本控制副本，并且當并發(fā)寫入器用新數(shù)據(jù)覆蓋同一分區(qū)時不會拋出 FileNotFoundException 文件。

感謝各位的閱讀，以上就是“怎么使用Apache Hudi加速傳統(tǒng)的批處理模式”的內(nèi)容了，經(jīng)過本文的學(xué)習(xí)后，相信大家對怎么使用Apache Hudi加速傳統(tǒng)的批處理模式這一問題有了更深刻的體會，具體使用情況還需要大家實踐驗證。這里是億速云，小編將為大家推送更多相關(guān)知識點的文章，歡迎關(guān)注！

向AI問一下細節(jié)

怎么使用Apache?Hudi加速傳統(tǒng)的批處理模式

1. 現(xiàn)狀說明

1.1 數(shù)據(jù)湖攝取和計算過程 - 處理更新

1.2 當前批處理過程中的挑戰(zhàn)

2. Hudi 數(shù)據(jù)湖 &mdash; 查詢模式

2.1 面向分析師的表/OLAP（按 created_date 分區(qū)）

2.2 面向ETL（按更新日期分區(qū)）

1. “created_date”分區(qū)的挑戰(zhàn)

2. “updated_date”分區(qū)的挑戰(zhàn)

3. “新”重復(fù)數(shù)據(jù)刪除策略

4. Apache Hudi 的優(yōu)勢

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標簽

2. Hudi 數(shù)據(jù)湖 — 查詢模式