溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

混合數(shù)據(jù)湖的好處是什么

發(fā)布時(shí)間:2022-01-15 17:35:06 來(lái)源:億速云 閱讀:155 作者:柒染 欄目:大數(shù)據(jù)

這篇文章主要為大家分析了混合數(shù)據(jù)湖的好處是什么的相關(guān)知識(shí)點(diǎn),內(nèi)容詳細(xì)易懂,操作細(xì)節(jié)合理,具有一定參考價(jià)值。如果感興趣的話,不妨跟著跟隨小編一起來(lái)看看,下面跟著小編一起深入學(xué)習(xí)“混合數(shù)據(jù)湖的好處是什么”的知識(shí)吧。

在存儲(chǔ)大數(shù)據(jù)時(shí),數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)都是既定術(shù)語(yǔ),但是這兩個(gè)術(shù)語(yǔ)不是同義詞。數(shù)據(jù)湖是尚未確定用途的大量原始數(shù)據(jù)。另一方面,數(shù)據(jù)倉(cāng)庫(kù)是用于特定目的的結(jié)構(gòu)化過(guò)濾數(shù)據(jù)的存儲(chǔ)庫(kù)。

共同點(diǎn)

數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖代表了一個(gè)中央數(shù)據(jù)庫(kù)系統(tǒng),可以在公司中用于分析目的。該系統(tǒng)從各種異構(gòu)數(shù)據(jù)源中提取,收集和保存相關(guān)數(shù)據(jù),并提供給下游系統(tǒng)。

數(shù)據(jù)倉(cāng)庫(kù)可以分為四個(gè)子過(guò)程:

  • 數(shù)據(jù)獲取:從各種數(shù)據(jù)存儲(chǔ)庫(kù)中獲取和提取數(shù)據(jù)。

  • 數(shù)據(jù)存儲(chǔ):包括長(zhǎng)期歸檔在內(nèi)的數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)存儲(chǔ)。

  • 數(shù)據(jù)提供:向下游系統(tǒng)提供所需的數(shù)據(jù),提供數(shù)據(jù)集市。

  • 數(shù)據(jù)評(píng)估:對(duì)數(shù)據(jù)庫(kù)存的分析和評(píng)估。

差異性

數(shù)據(jù)倉(cāng)庫(kù)將經(jīng)典的ETL流程與關(guān)系數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù)結(jié)合使用,而數(shù)據(jù)湖則使用諸如ELT的范式和讀取模式以及經(jīng)常使用的非結(jié)構(gòu)化數(shù)據(jù)[2]。

混合數(shù)據(jù)湖的好處是什么

> Differences Data Warehouse vs. Lake

在上方,您可以看到主要區(qū)別。您使用的技術(shù)也完全不同。對(duì)于數(shù)據(jù)倉(cāng)庫(kù),您將使用SQL和關(guān)系數(shù)據(jù)庫(kù),而對(duì)于數(shù)據(jù)湖,您可能將使用NoSQL或兩者的混合。

將兩者結(jié)合在混合數(shù)據(jù)湖中

那么如何將這兩個(gè)概念結(jié)合起來(lái)?在下圖中,您可以從高角度查看架構(gòu)。

該過(guò)程是將非結(jié)構(gòu)化和未轉(zhuǎn)換的數(shù)據(jù)加載到數(shù)據(jù)湖中。從這里,一方面可以將數(shù)據(jù)用于ML和Data  Science任務(wù)。另一方面,數(shù)據(jù)也可以轉(zhuǎn)換為結(jié)構(gòu)化形式并加載到數(shù)據(jù)倉(cāng)庫(kù)中。從這里,可以實(shí)現(xiàn)通過(guò)數(shù)據(jù)集市和(自助服務(wù))BI工具進(jìn)行的經(jīng)典數(shù)據(jù)倉(cāng)庫(kù)分發(fā)。

混合數(shù)據(jù)湖的好處是什么

> Hybrid Data Lake Concept — Image from Author

可以用于此體系結(jié)構(gòu)的主要技術(shù)例如:

  • 通過(guò)talend,Google Dataflow,AWS Data Pipeline進(jìn)行ELT / ETL流程

  • 通過(guò)Data Lake-HDFS,AWS Athena和S3,Google Cloud Storage

  • 數(shù)據(jù)倉(cāng)庫(kù)通過(guò)-Google BigQuery,AWS Redshift,Snowflake

注意:諸如Google的BiqQuery或AWS  Redshift之類的技術(shù)通常被視為數(shù)據(jù)倉(cāng)庫(kù)技術(shù)與數(shù)據(jù)湖技術(shù)之間的混合體,因?yàn)樗鼈兺ǔR呀?jīng)具有NoSQL的某些特征。

關(guān)于“混合數(shù)據(jù)湖的好處是什么”就介紹到這了,更多相關(guān)內(nèi)容可以搜索億速云以前的文章,希望能夠幫助大家答疑解惑,請(qǐng)多多支持億速云網(wǎng)站!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI