溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

大數(shù)據(jù)為什么需要數(shù)據(jù)湖

發(fā)布時間:2022-01-18 11:00:01 來源:億速云 閱讀:186 作者:柒染 欄目:大數(shù)據(jù)

這篇文章跟大家分析一下“大數(shù)據(jù)為什么需要數(shù)據(jù)湖”。內(nèi)容詳細易懂,對“大數(shù)據(jù)為什么需要數(shù)據(jù)湖”感興趣的朋友可以跟著小編的思路慢慢深入來閱讀一下,希望閱讀后能夠?qū)Υ蠹矣兴鶐椭?。下面跟著小編一起深入學習“大數(shù)據(jù)為什么需要數(shù)據(jù)湖”的知識吧。

自2011年“數(shù)據(jù)湖”概念被提出,業(yè)界便對數(shù)據(jù)湖一直有著廣泛而不同的理解和定義。

“數(shù)據(jù)湖是一個集中化存儲海量的、多個來源,多種類型數(shù)據(jù),并可以對數(shù)據(jù)進行快速加工,分析的平臺,本質(zhì)上是一套先進的企業(yè)數(shù)據(jù)架構(gòu)?!薄@是對數(shù)據(jù)湖比較清晰且完整的定義。然而,從定義上看不出數(shù)據(jù)湖對企業(yè)的重要性,下面從數(shù)據(jù)湖架構(gòu)的發(fā)展,數(shù)據(jù)平臺對企業(yè)的重要性,華為數(shù)據(jù)湖方案等角度闡明數(shù)據(jù)湖的對企業(yè)的價值。

一、   數(shù)據(jù)湖架構(gòu)的發(fā)展

數(shù)據(jù)湖架構(gòu)一直在不斷變革和發(fā)展,很多場景下,大家很容易將數(shù)據(jù)湖與數(shù)據(jù)倉庫進行混淆,數(shù)據(jù)湖方案最初確實是為解決數(shù)據(jù)倉庫笨重,高成本,冗長的分析周期等問題而生,但是二者又有著明顯的不同,同時伴隨著云計算、大數(shù)據(jù)、人工智能技術(shù)的發(fā)展,數(shù)據(jù)湖與之不斷融合,數(shù)據(jù)湖的架構(gòu)也在不斷完善。

大數(shù)據(jù)為什么需要數(shù)據(jù)湖


數(shù)據(jù)湖與數(shù)據(jù)倉庫的區(qū)別

數(shù)據(jù)湖與數(shù)據(jù)倉庫之間的異同點有很多,很容易混淆,但是最重要的區(qū)別有兩個:

  1. 存儲數(shù)據(jù)類型:數(shù)據(jù)倉庫是存儲數(shù)據(jù),進行建模,存儲的是結(jié)構(gòu)化數(shù)據(jù);數(shù)據(jù)湖以其本源格式保存大量原始數(shù)據(jù),包括結(jié)構(gòu)化的、半結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)。在需要數(shù)據(jù)之前,沒有定義數(shù)據(jù)結(jié)構(gòu)和需求。

  2. 數(shù)據(jù)處理模式:在我們可以加載到數(shù)據(jù)倉庫中的數(shù)據(jù),我們首先需要定義好它,這叫做寫時模式(Schema-On-Write)。而對于數(shù)據(jù)湖,您只需加載原始數(shù)據(jù),然后,當您準備使用數(shù)據(jù)時,就給它一個定義,這叫做讀時模式(Schema-On-Read)。這是兩種截然不同的數(shù)據(jù)處理方法。因為數(shù)據(jù)湖是在數(shù)據(jù)到使用時再定義模型結(jié)構(gòu),因此提高了數(shù)據(jù)模型定義的靈活性,可滿足更多不同上層業(yè)務的高效率分析訴求。

大數(shù)據(jù)為什么需要數(shù)據(jù)湖


數(shù)據(jù)湖與新技術(shù)的融合與發(fā)展

  1、數(shù)據(jù)湖與大數(shù)據(jù)技術(shù)的融合

Hadoop技術(shù)已經(jīng)經(jīng)歷了十幾年的發(fā)展,而數(shù)據(jù)湖作為第二數(shù)據(jù)平面最重要的數(shù)據(jù)平臺,與Hadoop技術(shù)的融合越來越緊密,相輔相成,相得益彰。例如:HBase可以讓數(shù)據(jù)湖保存海量數(shù)據(jù);Spark 使得數(shù)據(jù)湖可以更快的批量分析海量數(shù)據(jù);Storm,F(xiàn)link,NiFi等使數(shù)據(jù)湖能夠?qū)崟r接入和處理IOT數(shù)據(jù)。Hadoop本身更多的聚焦于數(shù)據(jù)的處理與應用,但是對于底層的數(shù)據(jù)存儲工作則并未過多的關(guān)注。例如:傳統(tǒng)的Hadoop使用三副本技術(shù)保存數(shù)據(jù),數(shù)據(jù)利用率只有33%,數(shù)據(jù)保存成本較高;同時客戶對于Hadoop承載的數(shù)據(jù)可靠性要求也越來越高,數(shù)據(jù)保護(備份、容災等)需求越來越明顯,Hadoop3.x 開啟了存儲和計算分離的趨勢,但這些還不能完全滿足用戶需求,數(shù)據(jù)湖需要從數(shù)據(jù)存儲、數(shù)據(jù)治理等方面繼續(xù)發(fā)展。

 2、數(shù)據(jù)湖與云計算技術(shù)的融合

云計算采用虛擬化、多租戶等技術(shù)滿足業(yè)務對服務器、網(wǎng)絡、存儲等基礎資源的最大化利用,降低企業(yè)對IT基礎設施的成本,為企業(yè)帶來了巨大的經(jīng)濟性;同時云計算技術(shù)實現(xiàn)了主機、存儲等資源快速申請、使用,則同樣為企業(yè)帶來了更多的管理便捷性。在傳統(tǒng)建設模式下,大數(shù)據(jù)采用的都是物理機部署模式,在應對多業(yè)務類型彈性計算資源需求以及計算性能和存儲容量增幅差異化較大的情況下,計算和存儲一體化的部署模式,既不夠靈活,同時也不能提供最優(yōu)性價比。這時利用云化技術(shù),將大數(shù)據(jù)計算部署在云上,把存儲資源與計算資源獨立開來,實現(xiàn)計算和數(shù)據(jù)各自獨立擴展,彈性伸縮。當前數(shù)據(jù)湖架構(gòu)已經(jīng)在公有云上得到了教完美的實現(xiàn)和應用,例如:Microsoft Azure 在2016年就推出了Data Lake云服務,Amazon AWS 可以基于S3、Glue等多個基本云服務快速構(gòu)建出一套數(shù)據(jù)湖服務,Google內(nèi)部對海量數(shù)據(jù)集的管理和搜索系統(tǒng)也為數(shù)據(jù)湖的數(shù)據(jù)管理指明了道路(詳情參見《Managing Google’s data lake: an overview of the GOODS system》,一篇關(guān)于Google內(nèi)部的海量數(shù)據(jù)集搜索與管理的論文)。

  3、數(shù)據(jù)湖與人工智能技術(shù)的融合

近些年,人工智能技術(shù)再一次飛速發(fā)展,訓練和推理等需要同時處理超大的,甚至是多個數(shù)據(jù)集,這些數(shù)據(jù)集通常是視頻、圖片、文本等非結(jié)構(gòu)化數(shù)據(jù),來源于多個行業(yè)、組織、項目,對這些數(shù)據(jù)的采集、存儲、清洗、轉(zhuǎn)換、特征提取等工作是一個系列復雜、漫長的工程。數(shù)據(jù)湖需要為人工智能程序提供數(shù)據(jù)快速收集、治理、分析的平臺,同時提供極高的帶寬、海量小文件存取、多協(xié)議互通、數(shù)據(jù)共享的能力,可以極大加速數(shù)據(jù)挖掘、深度學習等過程。

二、   數(shù)據(jù)湖對企業(yè)的重要性

很多人都說:“數(shù)據(jù)湖是新瓶裝舊酒”,只不過是一個概念的拼湊罷了,本質(zhì)上并沒有什么技術(shù)創(chuàng)新。其實“數(shù)據(jù)湖”這一名詞并不重要,重要的是它能不能在數(shù)字化浪潮下,真正幫助企業(yè)實現(xiàn)技術(shù)轉(zhuǎn)型,應對快速發(fā)展的商業(yè)環(huán)境下層出不窮的新問題。

數(shù)據(jù)湖的核心價值是為企業(yè)帶來了數(shù)據(jù)平臺化運營機制。當前很多企業(yè)尚未意識到數(shù)據(jù)平臺化為企業(yè)帶來的好處。當今的商業(yè)環(huán)境,在日新月異的技術(shù)變革驅(qū)動下,正發(fā)生著劇烈的變化,傳統(tǒng)行業(yè)不停的被互聯(lián)網(wǎng)公司顛覆,給很多公司造成了極大的生存壓力。互聯(lián)網(wǎng)公司之所以能不斷顛覆傳統(tǒng)行業(yè),本身除了商業(yè)模式的變革,同時也是因為這些公司很多都是采用平臺化戰(zhàn)略,將最新的技術(shù)與競爭力整合在平臺中,去賦能公司的運營,使公司的業(yè)務發(fā)生跳躍式發(fā)展,跨界擠壓其他企業(yè)的發(fā)展空間。傳統(tǒng)企業(yè)急需變革,需要像互聯(lián)網(wǎng)公司一樣,利用信息化、數(shù)字化、新技術(shù)的利器形成平臺化系統(tǒng),賦能公司的人員和業(yè)務,快速應對挑戰(zhàn)。

三、   華為數(shù)據(jù)湖解決方案

華為數(shù)據(jù)湖解決方案緊扣時代脈搏,幫助企業(yè)利用數(shù)據(jù)平臺化利器——數(shù)據(jù)湖,助力業(yè)務飛速發(fā)展。華為數(shù)據(jù)湖解決方案基于先進的云上系統(tǒng)架構(gòu),著力解決線下企業(yè)數(shù)字化轉(zhuǎn)型中,數(shù)據(jù)無法驅(qū)動業(yè)務發(fā)展、成本高昂、計算存儲等基礎設施資源浪費等復雜問題。

大數(shù)據(jù)為什么需要數(shù)據(jù)湖

華為數(shù)據(jù)湖解決方案基本架構(gòu)

下文從數(shù)據(jù)集中存儲與共享、數(shù)據(jù)治理、計算側(cè)Cache,快速數(shù)據(jù)分析這四個維度詳細介紹華為數(shù)據(jù)湖解決方案。

  • 數(shù)據(jù)集中存儲與共享

許多企業(yè)通常忽略數(shù)據(jù)積累的價值,數(shù)據(jù)需要從企業(yè)的各個方面持續(xù)的收集、存儲,才有可能基于這些數(shù)據(jù)挖掘出價值信息,指導業(yè)務決策,驅(qū)動公司發(fā)展。華為數(shù)據(jù)湖解決方案實現(xiàn)數(shù)據(jù)集中存儲與共享是基于華為大數(shù)據(jù)解決方案FunsionInsight和華為海量對象存儲架構(gòu),實現(xiàn)萬億級數(shù)據(jù)可靠存儲與高效分析。

使用一套數(shù)據(jù)存儲資源池,可有效解決企業(yè)中的數(shù)據(jù)煙囪問題,提供統(tǒng)一的命名空間,多協(xié)議互通訪問,實現(xiàn)數(shù)據(jù)資源的高效共享,減少數(shù)據(jù)移動。例如:很多的汽車制造企業(yè)都在進行無人駕駛/自動駕駛研究,車輛上的傳感器、雷達等IOT設備產(chǎn)生的文件,通過離線批量導入或者高速訪問網(wǎng)絡進入到存儲集群后通過Hadoop (HDFS)進行分析處理,再進入HPC集群(NFS)進行仿真計算,也可以讀取到GPU集群進行訓練(S3)。整個過程中,數(shù)據(jù)無需拷貝和移動,實現(xiàn)高效數(shù)據(jù)共享。

數(shù)據(jù)集中存儲與共享實際上是將存儲資源池化,將計算和數(shù)據(jù)進行分離。當前仍然有不少人不能接受大數(shù)據(jù)的計算和數(shù)據(jù)分離架構(gòu),認為一旦采用分離架構(gòu),必然會導致性能的降低。但實際上,分離后可極大降低存儲成本,有效提高計算資源利用率,增強計算和存儲集群的靈活性。但不是所有情況下都要分離,根據(jù)我們在政府、運營商、金融、企業(yè)等多個行業(yè)多個項目的經(jīng)驗,如下情況適合分離:

1.隨著數(shù)據(jù)量的增長,存儲和計算資源的使用率嚴重不均衡,比如:用戶行為分析中的用戶留存分析,存儲數(shù)據(jù)量不斷增長,但計算資源基本不變;

2.業(yè)務部門向平臺部門單獨申請計算或存儲資源,分離架構(gòu)可以更靈活的分配資源。

另外從數(shù)據(jù)生命周期的維度也可以找到適合的階段,綠色部分表示的數(shù)據(jù)的清洗、加工整合和歸檔備份場景適合存儲和計算的分離。

大數(shù)據(jù)為什么需要數(shù)據(jù)湖

注意:存儲和計算分離往往伴隨大數(shù)據(jù)的服務化,需要從云化、資源彈性調(diào)度的角度管理資源。

  • 數(shù)據(jù)治理

數(shù)據(jù)不僅要存下來,更要治理好,否則數(shù)據(jù)湖將變成數(shù)據(jù)沼澤,浪費大量的IT資源。平臺化的數(shù)據(jù)湖架構(gòu)能否驅(qū)動企業(yè)業(yè)務發(fā)展,數(shù)據(jù)治理至關(guān)重要。企業(yè)中收集的數(shù)據(jù)或從其他行業(yè)中采集數(shù)據(jù)種類多樣,格式不一,多數(shù)以原始格式存儲,企業(yè)需要不斷對這些原始數(shù)據(jù)進行整合加工,根據(jù)各業(yè)務組織、場景、需求形成容易分析的干凈數(shù)據(jù),盡可能多的讓更多的人訪問分析數(shù)據(jù)。數(shù)據(jù)治理是個一系列復雜的工作,這里重點介紹下元數(shù)據(jù)的管理。

華為數(shù)據(jù)湖解決方案為企業(yè)中海量的數(shù)據(jù)集提供了一套集中的元數(shù)據(jù)管理系統(tǒng),提供全局的數(shù)據(jù)資源目錄、完整的數(shù)據(jù)元數(shù)據(jù)描述、數(shù)據(jù)血緣關(guān)系,方便員工快速查找了解數(shù)據(jù),更好的支撐數(shù)據(jù)分析,元數(shù)據(jù)管理異步的從數(shù)據(jù)服務中抽取元數(shù)據(jù),盡量不影響原系統(tǒng)的運行。

  • 計算側(cè)Cache

計算和數(shù)據(jù)分離后必然會帶來一定的網(wǎng)絡I/O開銷,計算側(cè)Cache可有效減少頻繁的網(wǎng)絡I/O次數(shù)。同時萬兆網(wǎng)絡已經(jīng)得以普及,甚至更高,網(wǎng)絡對計算影響已經(jīng)非常有限。計算側(cè)Cache采用多種算法,將數(shù)據(jù)緩存在計算側(cè),可以使得很多場景下計算與數(shù)據(jù)分離方案的性能甚至高于一體化方式。

  • 數(shù)據(jù)快速分析

前述的大量工作實際上都是為了加速數(shù)據(jù)分析的過程。數(shù)據(jù)快速分析需要提供多種數(shù)據(jù)分析引擎,基于華為FusionInsight 大數(shù)據(jù)方案提供Spark、HBase、ES、LibrA(一種融合數(shù)據(jù)的基于SQL的分布式數(shù)據(jù)關(guān)系型數(shù)據(jù)庫)等多種分析方式,快速分析不僅是能在已經(jīng)被整合后變干凈的保存在LibrA中的數(shù)據(jù),還能直接訪問海量對象存儲中的數(shù)據(jù),無需數(shù)據(jù)抽取,減少數(shù)據(jù)的轉(zhuǎn)換,支持高并發(fā)讀取,提升實時分析效率。同時可支持自助式的數(shù)據(jù)探索式分析。

華為數(shù)據(jù)湖解決方案提供了完整的數(shù)據(jù)架構(gòu)支持,為企業(yè)構(gòu)建一站式數(shù)據(jù)處理體驗,目前已在多個行業(yè)和客戶中使用。例如:華為數(shù)據(jù)湖解決方案支撐平安城市“一云一湖一平臺”系統(tǒng)架構(gòu),為公安客戶構(gòu)建了物理分散(分散在各地市、區(qū)縣的數(shù)據(jù))、邏輯統(tǒng)一的數(shù)據(jù)治理架構(gòu)。

關(guān)于大數(shù)據(jù)為什么需要數(shù)據(jù)湖就分享到這里啦,希望上述內(nèi)容能夠讓大家有所提升。如果想要學習更多知識,請大家多多留意小編的更新。謝謝大家關(guān)注一下億速云網(wǎng)站!

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI