Apache Hudi怎么安裝配置Alluxio

發(fā)布時間：2022-05-18 11:36:51 來源：億速云閱讀：615 作者：iii 欄目：大數據

今天小編給大家分享一下Apache Hudi怎么安裝配置Alluxio的相關知識點，內容詳細，邏輯清晰，相信大部分人都還太了解這方面的知識，所以分享這篇文章給大家參考一下，希望大家閱讀完這篇文章后有所收獲，下面我們一起來了解一下吧。

1. 什么是Alluxio

Alluxio為數據驅動型應用和存儲系統(tǒng)構建了橋梁, 將數據從存儲層移動到距離數據驅動型應用更近的位置從而能夠更容易被訪問。這還使得應用程序能夠通過一個公共接口連接到許多存儲系統(tǒng)。Alluxio內存至上的層次化架構使得數據的訪問速度能比現有方案快幾個數量級。

對于用戶應用程序和計算框架，Alluxio提供了快速存儲，促進了作業(yè)之間的數據共享和局部性。當數據位于本地時，Alluxio可以以內存速度提供數據；當數據位于Alluxio時，Alluxio可以以計算集群網絡的速度提供數據。第一次訪問數據時，只從存儲系統(tǒng)上讀取一次數據。為了得到更好的性能，Alluxio推薦部署在計算集群上。

對于存儲系統(tǒng)，Alluxio彌補了大數據應用與傳統(tǒng)存儲系統(tǒng)之間的差距，擴大了可用的數據工作負載集。當同時掛載多個數據源時，Alluxio可以作為任意數量的不同數據源的統(tǒng)一層。

Alluxio可以被分為三個部分：masters、workers以及clients。一個典型的設置由一個主服務器、多個備用服務器和多個worker組成?？蛻舳擞糜谕ㄟ^Spark或MapReduce作業(yè)、Alluxio命令行等與Alluxio服務器通信。

2. 什么是Apache Hudi

Apache Hudi使得您能在hadoop兼容的存儲之上存儲大量數據，同時它還提供兩種原語，使得除了經典的批處理之外，還可以在數據湖上進行流處理。這兩種原語分別是：

Update/Delete記錄：Hudi使用細粒度的文件/記錄級別索引來支持Update/Delete記錄，同時還提供寫操作的事務保證。查詢會處理最后一個提交的快照，并基于此輸出結果。
變更流：Hudi對獲取數據變更提供了一流的支持：可以從給定的時間點獲取給定表中已updated/inserted/deleted的所有記錄的增量流，并解鎖新的查詢姿勢（類別）

3. 步驟

3.1 環(huán)境準備

參考官網安裝搭建alluxio環(huán)境

3.2 執(zhí)行

在hudi可以加載到的cores-site.xml 文件里面追加此配置

<property>
  <name>fs.alluxio.impl</name>
  <value>alluxio.hadoop.FileSystem</value>
</property>

將此依賴添加進工程pom.xml

<dependency>
  <groupId>org.alluxio</groupId>
  <artifactId>alluxio-shaded-client</artifactId>
  <version>2.2.1</version>
</dependency>

用戶可以把jar包放在spark可以加載的地方或者通過以下方式引入

--jars alluxio-shaded-client-2.2.1.jar

這時只需要把數據寫入alluxio即可，使用deltastreamer的使用需要如下配置

--target-base-path alluxio://........

完成上述步驟就已經完成了把hudi數據寫入了alluxio的工作。事實上這個時候數據還未從hdfs加載到alluxio，需要查詢一次即可；查詢不同的hudi視圖方式

可以使用hive sql查詢。使用命令查詢hive表結構發(fā)現loaction已經指向了alluxio
可以使用spark sql查詢。 spark.read.format("org.apache.hudi").option(xxx).load("alluxio://")

3.3 驗證

驗證在未進行查詢的時候數據不會加載進alluxio，in-alluxio是0%，當進行一次查詢之后數據從hdfs加載進alluxio，in-alluxio大于0%。

以上就是“Apache Hudi怎么安裝配置Alluxio”這篇文章的所有內容，感謝各位的閱讀！相信大家閱讀完這篇文章都有很大的收獲，小編每天都會為大家更新不同的知識，如果還想學習更多的知識，請關注億速云行業(yè)資訊頻道。

向AI問一下細節(jié)

Apache Hudi怎么安裝配置Alluxio

1. 什么是Alluxio

2. 什么是Apache Hudi

3. 步驟

3.1 環(huán)境準備

3.2 執(zhí)行

3.3 驗證

猜你喜歡

最新資訊

相關推薦

相關標簽