網(wǎng)易數(shù)據(jù)湖Iceberg的示例分析

發(fā)布時間：2021-12-16 15:02:53 來源：億速云閱讀：219 作者：小新欄目：云計算

小編給大家分享一下網(wǎng)易數(shù)據(jù)湖Iceberg的示例分析，相信大部分人都還不怎么了解，因此分享這篇文章給大家參考一下，希望大家閱讀完這篇文章后大有收獲，下面讓我們一起去了解一下吧！

01 數(shù)據(jù)倉庫平臺建設的痛點

痛點一：

我們凌晨一些大的離線任務經(jīng)常會因為一些原因出現(xiàn)延遲，這種延遲會導致核心報表的產(chǎn)出時間不穩(wěn)定，有些時候會產(chǎn)出比較早，但是有時候就可能會產(chǎn)出比較晚，業(yè)務很難接受。

為什么會出現(xiàn)這種現(xiàn)象的發(fā)生呢？目前來看大致有這么幾點要素：

任務本身要請求的數(shù)據(jù)量會特別大。通常來說一天原始的數(shù)據(jù)量可能在幾十TB。幾百個分區(qū)，甚至上千個分區(qū)，五萬+的文件數(shù)這樣子。如果說全量讀取這些文件的話，幾百個分區(qū)就會向NameNode發(fā)送幾百次請求，我們知道離線任務在凌晨運行的時候，NameNode的壓力是非常大的。所以就很有可能出現(xiàn)Namenode響應很慢的情況，如果請求響應很慢就會導致任務初始化時間很長。
任務本身的ETL效率是相對低效的，這個低效并不是說Spark引擎低效，而是說我們的存儲在這塊支持的不是特別的好。比如目前我們查一個分區(qū)的話是需要將所有文件都掃描一遍然后進行分析，而實際上我可能只對某些文件感興趣。所以相對而言這個方案本身來說就是相對低效的。
這種大的離線任務一旦遇到磁盤壞盤或者機器宕機，就需要重試，重試一次需要耗費很長的時間比如幾十分鐘。如果說重試一兩次的話這個延遲就會比較大了。

痛點二：

網(wǎng)易數(shù)據(jù)湖Iceberg的示例分析

針對一些細瑣的一些問題而言的。這里簡單列舉了三個場景來分析：

不可靠的更新操作。我們經(jīng)常在ETL過程中執(zhí)行一些insert overwrite之類的操作，這類操作會先把相應分區(qū)的數(shù)據(jù)刪除，再把生成的文件加載到分區(qū)中去。在我們移除文件的時候，很多正在讀取這些文件的任務就會發(fā)生異常，這就是不可靠的更新操作。
表Schema變更低效。目前我們在對表做一些加字段、更改分區(qū)的操作其實是非常低效的操作，我們需要把所有的原始數(shù)據(jù)讀出來，然后在重新寫回去。這樣就會非常耗時，并且低效。
數(shù)據(jù)可靠性缺乏保障。主要是我們對于分區(qū)的操作，我們會把分區(qū)的信息分為兩個地方，HDFS和Metastore，分別存儲一份。在這種情況下，如果進行更新操作，就可能會出現(xiàn)一個更新成功而另一個更新失敗，會導致數(shù)據(jù)不可靠。

痛點三：

網(wǎng)易數(shù)據(jù)湖Iceberg的示例分析

基于Lambda架構(gòu)建設的實時數(shù)倉存在較多的問題。如上圖的這個架構(gòu)圖，第一條鏈路是基于kafka中轉(zhuǎn)的一條實時鏈路（延遲要求小于5分鐘），另一條是離線鏈路（延遲大于1小時），甚至有些公司會有第三條準實時鏈路（延遲要求5分鐘～一小時），甚至更復雜的場景。

兩條鏈路對應兩份數(shù)據(jù)，很多時候?qū)崟r鏈路的處理結(jié)果和離線鏈路的處理結(jié)果對不上。
Kafka無法存儲海量數(shù)據(jù)，無法基于當前的OLAP分析引擎高效查詢Kafka中的數(shù)據(jù)。
Lambda維護成本高。代碼、數(shù)據(jù)血緣、Schema等都需要兩套。運維、監(jiān)控等成本都非常高。

痛點四：

網(wǎng)易數(shù)據(jù)湖Iceberg的示例分析

不能友好地支持高效更新場景。大數(shù)據(jù)的更新場景一般有兩種，一種是CDC ( Change Data Capture ) 的更新，尤其在電商的場景下，將binlog中的更新刪除同步到HDFS上。另一種是延遲數(shù)據(jù)帶來的聚合后結(jié)果的更新。目前HDFS只支持追加寫，不支持更新。因此業(yè)界很多公司引入了Kudu。但是Kudu本身是有一些局限的，比如計算存儲沒有做到分離。這樣整個數(shù)倉系統(tǒng)中引入了HDFS、Kafka以及Kudu，運維成本不可謂不大。

網(wǎng)易數(shù)據(jù)湖Iceberg的示例分析

上面就是針對目前數(shù)倉所涉及到的四個痛點的大致介紹，因此我們也是通過對數(shù)據(jù)湖的調(diào)研和實踐，希望能在這四個方面對數(shù)倉建設有所幫助。接下來重點講解下對數(shù)據(jù)湖的一些思考。

02 數(shù)據(jù)湖Iceberg核心原理

1. 數(shù)據(jù)湖開源產(chǎn)品調(diào)研

數(shù)據(jù)湖大致是從19年開始慢慢火起來的，目前市面上核心的數(shù)據(jù)湖開源產(chǎn)品大致有這么幾個：

DELTA LAKE，在17年的時候DataBricks就做了DELTA LAKE的商業(yè)版。主要想解決的也是基于Lambda架構(gòu)帶來的存儲問題，它的初衷是希望通過一種存儲來把Lambda架構(gòu)做成kappa架構(gòu)。
Hudi ( Uber開源 ) 可以支持快速的更新以及增量的拉取操作。這是它最大的賣點之一。
Iceberg的初衷是想做標準的Table Format以及高效的ETL。

網(wǎng)易數(shù)據(jù)湖Iceberg的示例分析

上圖是來自阿里Flink團體針對數(shù)據(jù)湖方案的一些調(diào)研對比，總體來看這些方案的基礎功能相對都還是比較完善的。我說的基礎功能主要包括：

高效Table Schema的變更，比如針對增減分區(qū)，增減字段等功能
ACID語義保證
同時支持流批讀寫，不會出現(xiàn)臟讀等現(xiàn)象
支持OSS這類廉價存儲

2. 當然還有一些不同點：

Hudi的特性主要是支持快速的更新刪除和增量拉取。
Iceberg的特性主要是代碼抽象程度高，不綁定任何的Engine。它暴露出來了非常核心的表層面的接口，可以非常方便的與Spark/Flink對接。然而Delta和Hudi基本上和spark的耦合很重。如果想接入flink，相對比較難。

3. 我們選擇Iceberg的原因：

現(xiàn)在國內(nèi)的實時數(shù)倉建設圍繞flink的情況會多一點。所以能夠基于flink擴展生態(tài)，是我們選擇iceberg一個比較重要的點。
國內(nèi)也有很多基于Iceberg開發(fā)的重要力量，比如騰訊團隊、阿里Flink官方團隊，他們的數(shù)據(jù)湖選型也是Iceberg。目前他們在社區(qū)分別主導update以及flink的生態(tài)對接。

4. 接下來我們重點介紹一下Iceberg：

這是來自官方對于Iceberg的一段介紹，大致就是Iceberg是一個開源的基于表格式的數(shù)據(jù)湖。關于table format再給大家詳細介紹下：

網(wǎng)易數(shù)據(jù)湖Iceberg的示例分析

左側(cè)圖是一個抽象的數(shù)據(jù)處理系統(tǒng)，分別由SQL引擎、table format、文件集合以及分布式文件系統(tǒng)構(gòu)成。右側(cè)是對應的現(xiàn)實中的組件，SQL引擎比如HiveServer、Impala、Spark等等，table format比如Metastore或者Iceberg，文件集合主要有Parquet文件等，而分布式文件系統(tǒng)就是HDFS。

對于table format，我認為主要包含4個層面的含義，分別是表schema定義（是否支持復雜數(shù)據(jù)類型），表中文件的組織形式，表相關統(tǒng)計信息、表索引信息以及表的讀寫API實現(xiàn)。詳述如下：

表schema定義了一個表支持字段類型，比如int、string、long以及復雜數(shù)據(jù)類型等。
表中文件組織形式最典型的是Partition模式，是Range Partition還是Hash Partition。
Metadata數(shù)據(jù)統(tǒng)計信息。
封裝了表的讀寫API。上層引擎通過對應的API讀取或者寫入表中的數(shù)據(jù)。

和Iceberg差不多相當?shù)囊粋€組件是Metastore。不過Metastore是一個服務，而Iceberg就是一個jar包。這里就Metastore 和 Iceberg在表格式的4個方面分別進行一下對比介紹：

① 在schema層面上沒有任何區(qū)別：

網(wǎng)易數(shù)據(jù)湖Iceberg的示例分析

都支持int、string、bigint等類型。

② partition實現(xiàn)完全不同：

兩者在partition上有很大的不同：

網(wǎng)易數(shù)據(jù)湖Iceberg的示例分析

metastore中partition字段不能是表字段，因為partition字段本質(zhì)上是一個目錄結(jié)構(gòu)，不是用戶表中的一列數(shù)據(jù)?；趍etastore，用戶想定位到一個partition下的所有數(shù)據(jù)，首先需要在metastore中定位出該partition對應的所在目錄位置信息，然后再到HDFS上執(zhí)行l(wèi)ist命令獲取到這個分區(qū)下的所有文件，對這些文件進行掃描得到這個partition下的所有數(shù)據(jù)。

iceberg中partition字段就是表中的一個字段。Iceberg中每一張表都有一個對應的文件元數(shù)據(jù)表，文件元數(shù)據(jù)表中每條記錄表示一個文件的相關信息，這些信息中有一個字段是partition字段，表示這個文件所在的partition。

很明顯，iceberg表根據(jù)partition定位文件相比metastore少了一個步驟，就是根據(jù)目錄信息去HDFS上執(zhí)行l(wèi)ist命令獲取分區(qū)下的文件。

試想，對于一個二級分區(qū)的大表來說，一級分區(qū)是小時時間分區(qū)，二級分區(qū)是一個枚舉字段分區(qū)，假如每個一級分區(qū)下有30個二級分區(qū)，那么這個表每天就會有24 * 30 = 720個分區(qū)?；贛etastore的partition方案，如果一個SQL想基于這個表掃描昨天一天的數(shù)據(jù)的話，就需要向Namenode下發(fā)720次list請求，如果掃描一周數(shù)據(jù)或者一個月數(shù)據(jù)，請求數(shù)就更是相當夸張。這樣，一方面會導致Namenode壓力很大，一方面也會導致SQL請求響應延遲很大。而基于Iceberg的partition方案，就完全沒有這個問題。

③ 表統(tǒng)計信息實現(xiàn)粒度不同：

Metastore中一張表的統(tǒng)計信息是表/分區(qū)級別粒度的統(tǒng)計信息，比如記錄一張表中某一列的記錄數(shù)量、平均長度、為null的記錄數(shù)量、最大值\最小值等。

Iceberg中統(tǒng)計信息精確到文件粒度，即每個數(shù)據(jù)文件都會記錄所有列的記錄數(shù)量、平均長度、最大值\最小值等。

很明顯，文件粒度的統(tǒng)計信息對于查詢中謂詞（即where條件）的過濾會更有效果。

④ 讀寫API實現(xiàn)不同：

metastore模式下上層引擎寫好一批文件，調(diào)用metastore的add partition接口將這些文件添加到某個分區(qū)下。

Iceberg模式下上層業(yè)務寫好一批文件，調(diào)用iceberg的commit接口提交本次寫入形成一個新的snapshot快照。這種提交方式保證了表的ACID語義。同時基于snapshot快照提交可以實現(xiàn)增量拉取實現(xiàn)。

總結(jié)下Iceberg相對于Metastore的優(yōu)勢：

新partition模式：避免了查詢時n次調(diào)用namenode的list方法，降低namenode壓力，提升查詢性能
新metadata模式：文件級別列統(tǒng)計信息可以用來根據(jù)where字段進行文件過濾，很多場景下可以大大減少掃描文件數(shù)，提升查詢性能
新API模式：存儲批流一體
1. 流式寫入-增量拉?。ɑ贗ceberg統(tǒng)一存儲模式可以同時滿足業(yè)務批量讀取以及增量訂閱需求）
2. 支持批流同時讀寫同一張表，統(tǒng)一表schema，任務執(zhí)行過程中不會出現(xiàn)FileNotFoundException

Iceberg的提升體現(xiàn)在：

網(wǎng)易數(shù)據(jù)湖Iceberg的示例分析

03 數(shù)據(jù)湖Iceberg社區(qū)現(xiàn)狀

目前Iceberg主要支持的計算引擎包括Spark2.4.5、Spark 3.x以及Presto。同時，一些運維工作比如snapshot過期、小文件合并、增量訂閱消費等功能都可以實現(xiàn)。

在此基礎上，目前社區(qū)正在開發(fā)的功能主要有Hive集成、Flink集成以及支持Update/Delete功能。相信下一個版本就可以看到Hive/Flink集成的相關功能。

04 網(wǎng)易數(shù)據(jù)湖Iceberg實踐之路

Iceberg針對目前的大數(shù)量的情況下，可以大大提升ETL任務執(zhí)行的效率，這主要得益于新Partition模式下不再需要請求NameNode分區(qū)信息，同時得益于文件級別統(tǒng)計信息模式下可以過濾很多不滿足條件的數(shù)據(jù)文件。

當前iceberg社區(qū)僅支持Spark2.4.5，我們在這個基礎上做了更多計算引擎的適配工作。主要包括如下：

集成Hive。可以通過Hive創(chuàng)建和刪除iceberg表，通過HiveSQL查詢Iceberg表中的數(shù)據(jù)。
集成Impala。用戶可以通過Impala新建iceberg內(nèi)表\外表，并通過Impala查詢Iceberg表中的數(shù)據(jù)。目前該功能已經(jīng)貢獻給Impala社區(qū)。
集成Flink。已經(jīng)實現(xiàn)了Flink到Iceberg的sink實現(xiàn)，業(yè)務可以消費kafka中的數(shù)據(jù)將結(jié)果寫入到Iceberg中。同時我們基于Flink引擎實現(xiàn)了小文件異步合并的功能，這樣可以實現(xiàn)Flink一邊寫數(shù)據(jù)文件，一邊執(zhí)行小文件的合并?；贗ceberg的小文件合并通過commit的方式提交，不需要刪除合并前的小文件，也就不會引起讀取任務的任何異常。

以上是“網(wǎng)易數(shù)據(jù)湖Iceberg的示例分析”這篇文章的所有內(nèi)容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內(nèi)容對大家有所幫助，如果還想學習更多知識，歡迎關注億速云行業(yè)資訊頻道！

向AI問一下細節(jié)

網(wǎng)易數(shù)據(jù)湖Iceberg的示例分析

01 數(shù)據(jù)倉庫平臺建設的痛點

02 數(shù)據(jù)湖Iceberg核心原理

03 數(shù)據(jù)湖Iceberg社區(qū)現(xiàn)狀

04 網(wǎng)易數(shù)據(jù)湖Iceberg實踐之路

猜你喜歡

最新資訊

相關推薦

相關標簽