溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

Apache Hudi 0.5.2版本有哪些特性

發(fā)布時間:2022-05-18 11:44:01 來源:億速云 閱讀:168 作者:iii 欄目:大數(shù)據(jù)

本文小編為大家詳細介紹“Apache Hudi 0.5.2版本有哪些特性”,內(nèi)容詳細,步驟清晰,細節(jié)處理妥當,希望這篇“Apache Hudi 0.5.2版本有哪些特性”文章能幫助大家解決疑惑,下面跟著小編的思路慢慢深入,一起來學(xué)習(xí)新知識吧。

1. 遷移指南

  • Write Client模塊組織結(jié)構(gòu)進行了重構(gòu),具體參見HUDI-554。現(xiàn)在client包包含所有事務(wù)管理的類,func包被重命名為execution,一些幫助類被移動到了client/utils中,之前所有在io包下和壓縮(compaction)相關(guān)代碼已經(jīng)被移動到table/compact下。table/rollback包放置了和回滾(Rollback)操作相關(guān)代碼,一些通用類放在了table包下。上述變更僅影響依賴hudi-client模塊的用戶,使用deltastreamer/datasource的用戶不受影響,不需要做任何變更。 

2. 關(guān)鍵特性

  • 支持在hoodie.properties指定hoodie.compaction.payload.class配置項來重寫palyload實現(xiàn),在此之前一旦在hoodie.properties中設(shè)置了payload類便不可更改。但是在一些情況下,比如進行代碼重構(gòu)后jar包更新,可能需要傳遞新的payload實現(xiàn),如果你有這種需求,不妨嘗試使用這個特性。

  • TimestampBasedKeyGenerator支持CharSequence類型,之前TimestampBasedKeyGenerator只支持DoubleLong,FloatString四種分區(qū)字段類型,現(xiàn)在擴展到可以支持CharSequence的分區(qū)字段類型。

  • Hudi現(xiàn)在支持通過hoodie.datasource.read.incr.path.glob配置項來指定分區(qū)進行增量拉取,一些場景下用戶只需要增量拉取部分分區(qū),這樣通過只加載相關(guān)Parquet數(shù)據(jù)文件來加速數(shù)據(jù)拉取。

  • 0.5.2版本支持在GLOBAL_BLOOM索引下,允許分區(qū)路徑更新。在此之前設(shè)置GLOBAL_BLOOM索引,更新的記錄有不同的分區(qū)路徑時,Hudi會忽略新的分區(qū)路徑并在之前舊分區(qū)更新記錄,現(xiàn)在Hudi支持在新的分區(qū)插入數(shù)據(jù)并且刪除老的分區(qū)數(shù)據(jù),通過hoodie.index.bloom.update.partition.path=true配置項可以開啟這個特性。

  • 0.5.2版本通過提供JdbcbasedSchemaProvider來支持通過JDBC獲取元數(shù)據(jù)。這對于一些想從MySQL同步數(shù)據(jù)并且想從數(shù)據(jù)庫中獲取schema的用戶非常有用。

  • 0.5.2版本對于HoodieBloomIndex索引已不再有2GB大小的限制,在spark 2.4.0版本之前,每個spark分區(qū)有2GB大小的限制,在Hudi 0.5.1時將spark的版本升級到了2.4.4,現(xiàn)在便不再有任何限制,因此移除了HoodieBloomIndex中對于安全并行度的計算邏輯。

  • CLI相關(guān)變更

  1. 允許用戶指定配置項來打印附加的commit元數(shù)據(jù),比如Log Block總數(shù),Rollback Block總數(shù),壓縮、更新總條數(shù)等等。

  2. 支持temp_querytemp_delete來查詢和刪除臨時視圖,該命令會創(chuàng)建一個臨時表,用戶可以通過HiveQL來查詢該表數(shù)據(jù),如

java temp_query --sql "select Instant, NumInserts, NumWrites from satishkotha_debug where FileId='ed33bd99-466f-4417-bd92-5d914fa58a8f' and Instant > '20200123211217' order by Instant"

讀到這里,這篇“Apache Hudi 0.5.2版本有哪些特性”文章已經(jīng)介紹完畢,想要掌握這篇文章的知識點還需要大家自己動手實踐使用過才能領(lǐng)會,如果想了解更多相關(guān)內(nèi)容的文章,歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI