溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

Apache Hudi中云數(shù)據(jù)湖的解決方案是什么

發(fā)布時(shí)間:2021-12-10 09:57:58 來(lái)源:億速云 閱讀:171 作者:柒染 欄目:大數(shù)據(jù)

Apache Hudi中云數(shù)據(jù)湖的解決方案是什么,相信很多沒(méi)有經(jīng)驗(yàn)的人對(duì)此束手無(wú)策,為此本文總結(jié)了問(wèn)題出現(xiàn)的原因和解決方法,通過(guò)這篇文章希望你能解決這個(gè)問(wèn)題。

1. 引入

開(kāi)源Apache Hudi項(xiàng)目為Uber等大型組織提供流處理能力,每天可處理數(shù)據(jù)湖上的數(shù)十億條記錄。

隨著世界各地的組織采用該技術(shù),Apache開(kāi)源數(shù)據(jù)湖項(xiàng)目已經(jīng)日漸成熟。

Apache Hudi(Hadoop Upserts Deletes and Incrementals)是一個(gè)數(shù)據(jù)湖項(xiàng)目,可在與Apache Hadoop兼容的云存儲(chǔ)系統(tǒng)(包括Amazon S3、Aliyun OSS)上進(jìn)行流數(shù)據(jù)處理。

該項(xiàng)目最初于2016年在Uber開(kāi)發(fā),于2017年成為開(kāi)源,并于2019年1月進(jìn)入Apache孵化器。作為開(kāi)源的結(jié)果反饋,Hudi已被阿里巴巴,騰訊,AWS,Uber和Kyligence等主要技術(shù)供應(yīng)商的采用。

6月4日,Hudi(發(fā)音為"Hoodie")正式成為Apache軟件基金會(huì)(ASF)的頂級(jí)項(xiàng)目,這是一個(gè)里程碑,標(biāo)志著該項(xiàng)目已經(jīng)達(dá)到了較高的代碼成熟度和開(kāi)發(fā)人員社區(qū)的參與。ASF是Hadoop,Spark,Kafka和其他廣泛使用的數(shù)據(jù)庫(kù)和數(shù)據(jù)管理程序的地方。

 

2. Hudi如何實(shí)現(xiàn)Uber的云數(shù)據(jù)湖

Hudi現(xiàn)在是被多個(gè)組織使用的開(kāi)源項(xiàng)目,其中Uber一直是堅(jiān)定的用戶(hù)。

Uber數(shù)據(jù)工程經(jīng)理Tanvi Kothari表示,Uber使用Hudi每天處理超過(guò)150PB數(shù)據(jù)湖中的5,000億條記錄。

Kothari運(yùn)營(yíng)著Uber全球數(shù)據(jù)倉(cāng)庫(kù)團(tuán)隊(duì),該團(tuán)隊(duì)負(fù)責(zé)為Uber的所有業(yè)務(wù)提供核心數(shù)據(jù)表。她指出,Hudi支持Uber對(duì)10,000多個(gè)表和數(shù)千個(gè)數(shù)據(jù)管道的讀寫(xiě)進(jìn)行增量處理。

Kothari說(shuō):”Hudi消除了處理大數(shù)據(jù)中的許多挑戰(zhàn),它可以幫助您擴(kuò)展ETL [Extract,Transform,Load]管道并提高數(shù)據(jù)保真度?!?/p> 

3. Hudi作為云數(shù)據(jù)湖分析的基石

大數(shù)據(jù)分析供應(yīng)商Kyligence Solutions將Apache Hudi作為產(chǎn)品的一部分,該公司在中國(guó)上海和加利福尼亞州圣何塞設(shè)有辦事處,Kyligence的合伙人兼首席架構(gòu)師史少鋒說(shuō)道,他的公司使用許多Apache開(kāi)源項(xiàng)目,包括Apache Kylin,Hadoop和Spark技術(shù),來(lái)幫助企業(yè)管理數(shù)據(jù)。

史少鋒表示,Apache Hudi為Kyligence提供了一種直接在Hadoop分布式文件系統(tǒng)(HDFS)或Amazon S3上管理更改數(shù)據(jù)集的方法。

Kyligence于2019年開(kāi)始為美國(guó)客戶(hù)使用Hudi,同時(shí)在此期間,AWS推出了與Hudi和Amazon Elastic MapReduce(EMR)服務(wù)的集成。Kyligence Cloud服務(wù)現(xiàn)在還支持Hudi作為其所有用戶(hù)進(jìn)行在線(xiàn)分析處理的數(shù)據(jù)源格式。

史表示很高興看到Hudi畢業(yè)成為Apache的頂級(jí)項(xiàng)目的成就,他說(shuō),“Hudi有一個(gè)開(kāi)放而熱情的社區(qū),甚至將一系列Hudi文章翻譯成中文,使中國(guó)用戶(hù)更容易了解該技術(shù)?!?/p> 

4. Hudi如何賦能云數(shù)據(jù)湖流處理

ASF Apache Hudi的共同創(chuàng)始人兼VP Vinoth Chandar說(shuō),Hudi提供了使用數(shù)據(jù)流的功能,并使用戶(hù)能夠更新數(shù)據(jù)集。

Chandar將Hudi啟用的流處理視為一種數(shù)據(jù)處理方式,在這種方式中,數(shù)據(jù)湖管理員可以處理增量數(shù)據(jù),然后可以使用該數(shù)據(jù)。

Chandar說(shuō):“真正考慮Hudi的一個(gè)好方法是作為一個(gè)數(shù)據(jù)存儲(chǔ)或數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)在[AWS] S3、[Aliyun] OSS中存儲(chǔ)的數(shù)據(jù)之上提供事務(wù)處理功能。”

Chandar接著說(shuō),Hudi成為頂級(jí)項(xiàng)目也反映了該項(xiàng)目的成熟度。但是,盡管Hudi現(xiàn)在是Apache的頂級(jí)項(xiàng)目,但這項(xiàng)工作尚未達(dá)到1.0版本,最新的更新是3月25日發(fā)布的0.5.2里程碑(畢業(yè)后又發(fā)布了0.5.3版本)。

Hudi開(kāi)發(fā)人員目前正在開(kāi)發(fā)0.6.0版本,Chandar表示該版本將于6月底發(fā)布。Chandar說(shuō),該版本將是一個(gè)重要的里程碑,它將具有性能增強(qiáng)和改進(jìn)的數(shù)據(jù)遷移功能,以幫助用戶(hù)將數(shù)據(jù)帶入Hudi數(shù)據(jù)湖。他說(shuō):“我們的計(jì)劃是至少每個(gè)季度發(fā)布一個(gè)主要版本,然后希望每個(gè)月在主要版本之上發(fā)布bugfix版本。”


看完上述內(nèi)容,你們掌握Apache Hudi中云數(shù)據(jù)湖的解決方案是什么的方法了嗎?如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注億速云行業(yè)資訊頻道,感謝各位的閱讀!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI