溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Data Lake架構(gòu)是怎么樣的

發(fā)布時(shí)間:2021-12-10 09:51:11 來源:億速云 閱讀:143 作者:柒染 欄目:大數(shù)據(jù)

Data Lake架構(gòu)是怎么樣的,很多新手對(duì)此不是很清楚,為了幫助大家解決這個(gè)難題,下面小編將為大家詳細(xì)講解,有這方面需求的人可以來學(xué)習(xí)下,希望你能有所收獲。

1. 引入

為在組織的數(shù)據(jù)環(huán)境中創(chuàng)造最大價(jià)值,傳統(tǒng)的決策支持系統(tǒng)架構(gòu)難以滿足該需求。需要開發(fā)新的架構(gòu)模式以釋放數(shù)據(jù)的價(jià)值。為了充分利用大數(shù)據(jù)的價(jià)值,組織需要擁有靈活的數(shù)據(jù)架構(gòu),并能夠從其數(shù)據(jù)生態(tài)系統(tǒng)中獲取最大價(jià)值。

Data Lake概念已經(jīng)存在了一段時(shí)間。但是,我還是看到很多組織結(jié)構(gòu)很難理解這個(gè)概念,因?yàn)樗麄儗?duì)其的理解仍然禁錮在傳統(tǒng)的企業(yè)數(shù)據(jù)倉庫范式中。

本文將深入研究Data Lake架構(gòu)模式的概念并設(shè)計(jì)一個(gè)架構(gòu)模式。

 

2. 傳統(tǒng)數(shù)倉(DWH)架構(gòu)

Data Lake架構(gòu)是怎么樣的

傳統(tǒng)的企業(yè)DWH架構(gòu)模式已經(jīng)使用了很多年。包括數(shù)據(jù)源、數(shù)據(jù)提取、轉(zhuǎn)換和加載(ETL),并且在此過程中,會(huì)進(jìn)行某種結(jié)構(gòu)的創(chuàng)建,清理等。在EDW中需要預(yù)先定義數(shù)據(jù)模型(尺寸模型或3NF模型),然后創(chuàng)建數(shù)據(jù)集市,以用于OLAP多維數(shù)據(jù)分析以及自助式BI。

這種架構(gòu)已經(jīng)服務(wù)了很多年。

但是,這種架構(gòu)存在一些固有的挑戰(zhàn),并且在大數(shù)據(jù)時(shí)代無法解決。其中一些如下:

  • 這種架構(gòu)需要我們先了解數(shù)據(jù)。源系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)是什么,它擁有什么樣的數(shù)據(jù),基數(shù)是什么,應(yīng)該如何根據(jù)業(yè)務(wù)需求對(duì)其進(jìn)行建模,數(shù)據(jù)中是否存在異常等等?這是一項(xiàng)繁瑣而復(fù)雜的工作,進(jìn)行需求分析或數(shù)據(jù)分析都需要花費(fèi)數(shù)月時(shí)間。并且項(xiàng)目期限往往需要幾個(gè)月甚至幾年。

  • 我們還必須對(duì)要存儲(chǔ)的數(shù)據(jù)和要丟棄的數(shù)據(jù)做出選擇和權(quán)衡。前期花費(fèi)大量時(shí)間來決定引入什么,如何引入,如何存儲(chǔ),如何轉(zhuǎn)換等。只有較少的時(shí)間花費(fèi)在實(shí)際執(zhí)行數(shù)據(jù)發(fā)現(xiàn),數(shù)據(jù)挖掘以及增值業(yè)務(wù)上。

 

3. 數(shù)據(jù)定義

Data Lake架構(gòu)是怎么樣的

現(xiàn)在讓我們簡要地討論一下對(duì)數(shù)據(jù)定義是如何變化的。大數(shù)據(jù)的4V已經(jīng)眾所周知,即Volume,Velocity,Variety和veracity。其背景如下:

  • 自iPhone革命以來,數(shù)據(jù)量激增。全球有60億部智能手機(jī),每天創(chuàng)建近1PB的數(shù)據(jù)。

  • 數(shù)據(jù)不僅僅是靜止的。有流數(shù)據(jù),支持IoT的設(shè)備。

  • 還與數(shù)據(jù)的多樣性有關(guān)。視頻,照片都成為需要分析和利用的數(shù)據(jù)。

  • 數(shù)據(jù)的爆炸式增長對(duì)數(shù)據(jù)質(zhì)量也帶來了挑戰(zhàn)。在大數(shù)據(jù)時(shí)代,哪一個(gè)應(yīng)該被信任而哪個(gè)不應(yīng)該被信任是一個(gè)更大的挑戰(zhàn)。

    簡而言之,可分析的數(shù)據(jù)定義在變化。現(xiàn)在不僅是結(jié)構(gòu)化的數(shù)據(jù),還包括各種非結(jié)構(gòu)化數(shù)據(jù)。面臨的挑戰(zhàn)是如何將這些數(shù)據(jù)融合在一起并使得它們變得更有意義。

 

4. 摩爾定律

Data Lake架構(gòu)是怎么樣的

自2000年以來,處理能力,存儲(chǔ)和相應(yīng)的成本結(jié)構(gòu)發(fā)生了巨大變化,它受到了摩爾定律的約束。關(guān)鍵點(diǎn)如下:

  • 自2000年以來,處理能力提高了約10,000倍。這意味著有效分析更多數(shù)據(jù)的能力得到了提高。

  • 存儲(chǔ)成本下降了很多。自2000年以來,存儲(chǔ)成本下降了1000倍以上。

 

5. 數(shù)據(jù)湖比喻

Data Lake架構(gòu)是怎么樣的

用一個(gè)類比來解釋Data Lake的概念。
游覽大湖總是一種非常愉快的感覺。湖中的水以其最純凈的形式存在,不同的人在湖上進(jìn)行不同的活動(dòng)。有些人在釣魚,有些人喜歡乘船游覽,這個(gè)湖還為生活在安大略省的人們提供飲用水。簡而言之,同一個(gè)湖有多種用途。

隨著數(shù)據(jù)范例的變化,出現(xiàn)了一種新的架構(gòu)模式。它被稱為數(shù)據(jù)湖架構(gòu)。就像湖中的水一樣,數(shù)據(jù)湖中的數(shù)據(jù)也采用最原始的形式存放。就像湖泊一樣,它滿足了不同人的需要,那些想要釣魚的人或者想要乘船游覽的人,或者想要從湖中喝水的人,一個(gè)數(shù)據(jù)湖架構(gòu)都可以滿足。它為數(shù)據(jù)科學(xué)家提供了探索數(shù)據(jù)和創(chuàng)建假設(shè)的途徑。它為業(yè)務(wù)用戶提供了探索數(shù)據(jù)的途徑。它為數(shù)據(jù)分析人員提供了分析數(shù)據(jù)和尋找模式的途徑。它為報(bào)告分析師提供了創(chuàng)建報(bào)告并呈現(xiàn)給利益相關(guān)者的途徑。

數(shù)據(jù)湖與數(shù)據(jù)倉庫或數(shù)據(jù)集市進(jìn)行如下比較:

Data Lake以最原始的形式存儲(chǔ)數(shù)據(jù),可以滿足多個(gè)利益相關(guān)者的需求,也可以用于打包數(shù)據(jù),以供最終用戶使用。另一方面,數(shù)據(jù)倉庫是已經(jīng)經(jīng)過蒸餾和包裝(礦泉水)以用于特定目的數(shù)據(jù)存儲(chǔ)。

 

6. 數(shù)據(jù)湖架構(gòu)

Data Lake架構(gòu)是怎么樣的

通過前面的背景介紹,現(xiàn)在讓我們了解數(shù)據(jù)湖的概念體系結(jié)構(gòu)。數(shù)據(jù)湖體系結(jié)構(gòu)中的關(guān)鍵組件有可以結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)源,它們都集成到原始數(shù)據(jù)存儲(chǔ)中,以最原始的方式存放數(shù)據(jù),即不進(jìn)行任何轉(zhuǎn)換。它是一種廉價(jià)的持久性存儲(chǔ),可以大規(guī)模存儲(chǔ)數(shù)據(jù)。然后,我們使用分析沙箱來理解數(shù)據(jù)、創(chuàng)建原型、進(jìn)行數(shù)據(jù)科學(xué)并探索數(shù)據(jù)以建立新的假設(shè)和用例。

然后我們有了批處理引擎,該引擎將原始數(shù)據(jù)處理成可被用戶直接使用的數(shù)據(jù),即可以用于向最終用戶出報(bào)告的數(shù)據(jù)結(jié)構(gòu)。我們稱其為已處理數(shù)據(jù)存儲(chǔ)。有一個(gè)實(shí)時(shí)處理引擎,可以獲取流數(shù)據(jù)并對(duì)其進(jìn)行處理。此體系結(jié)構(gòu)中的所有數(shù)據(jù)均已分類并整理。

下面讓我們了解此體系結(jié)構(gòu)中的每個(gè)組件組。

 

7. Lambda架構(gòu)

Data Lake架構(gòu)是怎么樣的

第一個(gè)組件組用于處理數(shù)據(jù)。它遵循Lambda架構(gòu),一般Lambda架構(gòu)會(huì)采用兩條處理路徑:批處理層和實(shí)時(shí)處理層。批處理層以可能的最原始形式存儲(chǔ)數(shù)據(jù),即原始數(shù)據(jù)存儲(chǔ)和實(shí)時(shí)處理層幾乎實(shí)時(shí)地處理數(shù)據(jù)。實(shí)時(shí)處理層將數(shù)據(jù)存儲(chǔ)到原始數(shù)據(jù)存儲(chǔ)中,并且可以在加載到已處理的數(shù)據(jù)存儲(chǔ)之前存儲(chǔ)瞬態(tài)數(shù)據(jù)。

 

8. 分析沙箱

Data Lake架構(gòu)是怎么樣的

分析沙箱是數(shù)據(jù)湖架構(gòu)中的關(guān)鍵組件之一。這些是數(shù)據(jù)科學(xué)家的探索性領(lǐng)域,他們可以在其中開發(fā)和測(cè)試新的假設(shè)、合并和探索數(shù)據(jù)以形成新的用例,創(chuàng)建快速的原型以驗(yàn)證這些用例并意識(shí)到可以采取哪些措施從中提取價(jià)值。

簡單來說,它是數(shù)據(jù)科學(xué)家可以發(fā)現(xiàn)數(shù)據(jù),提取價(jià)值并幫助轉(zhuǎn)變業(yè)務(wù)的地方。

 

9. 數(shù)據(jù)編錄(Catalog)和治理

數(shù)據(jù)編錄在傳統(tǒng)商業(yè)架構(gòu)中經(jīng)常被忽略。在大數(shù)據(jù)領(lǐng)域,編錄是非常重要的方面。讓我們舉個(gè)例子來說明它的重要性。

當(dāng)我要求我的客戶在不提供編錄信息的情況下猜測(cè)這幅畫的潛在成本時(shí),答案從100美元到100,000美元不等。當(dāng)我提供目錄信息時(shí),答案更接近于實(shí)際情況。順便說一句,這幅畫被巴勃羅·畢加索(Pablo Picasso)稱為“舊吉他手”,創(chuàng)作于1903年。估計(jì)造價(jià)超過1億美元。

數(shù)據(jù)編錄非常相似。不同的數(shù)據(jù)塊具有不同的值,并且該值根據(jù)數(shù)據(jù)的沿襲(lineage)、數(shù)據(jù)的質(zhì)量、·創(chuàng)建的來源等而變化。需要對(duì)數(shù)據(jù)進(jìn)行分類,以便數(shù)據(jù)分析師或數(shù)據(jù)科學(xué)家可以自己決定指向哪個(gè)數(shù)據(jù)用于特定分析。

 

10. 數(shù)據(jù)編錄圖

Data Lake架構(gòu)是怎么樣的

編錄圖提供了可以分類的元數(shù)據(jù)。編錄是捕獲有價(jià)值的元數(shù)據(jù)的過程,因此可以將其用于確定數(shù)據(jù)的特征并決定是否使用它?;旧嫌袃煞N類型的元數(shù)據(jù):業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)。業(yè)務(wù)元數(shù)據(jù)更多地與定義、邏輯數(shù)據(jù)模型、邏輯實(shí)體等有關(guān);而技術(shù)元數(shù)據(jù)則是捕獲與數(shù)據(jù)結(jié)構(gòu)的物理實(shí)現(xiàn)有關(guān)的元數(shù)據(jù)。它包括數(shù)據(jù)庫、質(zhì)量得分、列、架構(gòu)等。

根據(jù)編錄信息,分析人員可以選擇在正確的上下文中使用特定的數(shù)據(jù)點(diǎn)。舉個(gè)例子,想象一下,數(shù)據(jù)科學(xué)家想要對(duì)庫存周轉(zhuǎn)率及其在ERP和庫存系統(tǒng)中的定義方式進(jìn)行探索性分析。如果對(duì)術(shù)語進(jìn)行了分類,則數(shù)據(jù)科學(xué)家可以根據(jù)上下文決定使用來自ERP還是清單系統(tǒng)中的列。

 

11. 數(shù)據(jù)湖和傳統(tǒng)數(shù)倉對(duì)比

Data Lake架構(gòu)是怎么樣的

上圖表格試圖解釋差異

  • 首先,哲學(xué)不同。在數(shù)據(jù)湖體系結(jié)構(gòu)中,我們首先要原始加載數(shù)據(jù),然后決定應(yīng)如何處理。在傳統(tǒng)的DWH體系結(jié)構(gòu)中,我們必須首先了解數(shù)據(jù),對(duì)其進(jìn)行建模,然后再將其加載。

  • 數(shù)據(jù)湖中的數(shù)據(jù)以原始格式存儲(chǔ),而DWH中的數(shù)據(jù)以結(jié)構(gòu)化格式存儲(chǔ),類比湖水和蒸餾水。

  • Data Lake支持各種用戶。

  • 分析項(xiàng)目確實(shí)是敏捷項(xiàng)目。這些項(xiàng)目的本質(zhì)是,一旦你看到輸出,便會(huì)思考更多并想要更多。Data Lake本質(zhì)上是敏捷的。由于他們將所有數(shù)據(jù)存儲(chǔ)在編錄中,因此可以確保在出現(xiàn)新需求時(shí)可以輕松地進(jìn)行調(diào)整。

 

12. AZURE上數(shù)據(jù)湖架構(gòu)

Data Lake架構(gòu)是怎么樣的

云平臺(tái)最適合實(shí)施數(shù)據(jù)湖架構(gòu).它們具有大量可組合的服務(wù),可以將它們組合在一起以實(shí)現(xiàn)所需的可伸縮性。微軟的Cortana Intelligence Suite提供了一個(gè)或多個(gè)組件,可以將其映射為實(shí)現(xiàn)數(shù)據(jù)湖架構(gòu)的組件。

Data Lake架構(gòu)是怎么樣的

  • 數(shù)據(jù)湖是大數(shù)據(jù)架構(gòu)的新范式。

  • 數(shù)據(jù)湖可以滿足各種數(shù)據(jù)的需求。以原始格式存儲(chǔ)數(shù)據(jù),可以滿足用戶的廣泛需求,并能提供更快的洞察力。

  • 細(xì)致的數(shù)據(jù)編錄和管理是成功實(shí)施數(shù)據(jù)湖的關(guān)鍵。

  • 云平臺(tái)為實(shí)施經(jīng)濟(jì)、可擴(kuò)展的數(shù)據(jù)湖架構(gòu)提供了端到端的端解決方案。

看完上述內(nèi)容是否對(duì)您有幫助呢?如果還想對(duì)相關(guān)知識(shí)有進(jìn)一步的了解或閱讀更多相關(guān)文章,請(qǐng)關(guān)注億速云行業(yè)資訊頻道,感謝您對(duì)億速云的支持。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI