<strike id="vfdil"></strike>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

Hadoop與數(shù)據(jù)倉庫的關系是什么

發(fā)布時間：2021-08-05 18:13:36 來源：億速云閱讀：667 作者：Leah 欄目：大數(shù)據(jù)

Hadoop與數(shù)據(jù)倉庫的關系是什么，針對這個問題，這篇文章詳細介紹了相對應的分析和解答，希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。

RDBMS福利包

全球已經(jīng)在基礎設施上投資了數(shù)十億美元，以運行這些數(shù)據(jù)庫，并由人們進行操作和完善以適應各種垂直市場應用。對于交易處理，他們仍然是無可爭議的王者。

RDBMS的其他好處包括：

從故障中恢復的能力非常好，在大多數(shù)情況下可以恢復到最新狀態(tài)
RDBMS可以輕松地分布在多個物理位置
RDBMS實際上保證了高度的數(shù)據(jù)一致性
SQL很容易學習
有大量熟悉RDBMS的IT人才已安裝
用戶可以執(zhí)行相當復雜的數(shù)據(jù)查詢

缺點是什么?事實是，只要所管理的數(shù)據(jù)具有結構性和關系性，就沒有什么弊端?？缮炜s性是一個問題，因為大多數(shù)這些系統(tǒng)都是專有的，而且核心存儲非常昂貴，尤其是隨著數(shù)據(jù)庫的增長。但是，這些古老的數(shù)據(jù)庫及其隨行的工具和應用程序在每家《財富》 1000強公司中都是顯而易見的，這有充分的理由：它們可以帶來價值。

但是隨后出現(xiàn)了大數(shù)據(jù)，其中很多來自非結構化的腹地。它包含來自點擊流，網(wǎng)站日志，照片，視頻，音頻剪輯，XML文檔，電子郵件，推文等的數(shù)據(jù)。

最初對IT部門而言，大多數(shù)數(shù)據(jù)類似于從宇宙深處發(fā)出的背景噪聲-只是很多噪聲。但是請記住這一點：一個名叫阿諾·彭齊亞斯(Arno Penzias)的人在1964年破譯了深空背景噪聲，最終將其解釋為已得到驗證的宇宙大爆炸理論的證明。他獲得了諾貝爾獎。

大數(shù)據(jù)也是如此。事實證明，鎖定在所有這些不同的大數(shù)據(jù)源中的是對客戶行為，市場趨勢，服務需求以及許多其他方面的寶貴見解。這是信息技術的大爆炸。

大數(shù)據(jù)已經(jīng)成為數(shù)據(jù)量整體增長中最大的組成部分，并且傳統(tǒng)分析平臺和解決方案相對無法有效地處理非結構化數(shù)據(jù)，因此分析領域正在發(fā)生深刻的變化。

IT演進，而非革命

但是這里要牢記重要的事情。大數(shù)據(jù)分析不會取代傳統(tǒng)的結構化數(shù)據(jù)分析，當然在可預見的將來也不會。

恰恰相反。正如《The Executive’s Guide to Big Data & Apache Hadoop》所述，“當您將大數(shù)據(jù)與傳統(tǒng)信息源相結合以提出可產生巨大業(yè)務價值的創(chuàng)新解決方案時，一切都會令人著迷?！?/p>

因此，您可能會看到制造商將其庫存系統(tǒng)(在RDBMS中)與基于文檔商店的產品目錄中的圖像和視頻說明聯(lián)系在一起。這將幫助客戶幫助自己立即選擇并訂購合適的零件。

或者，一家連鎖酒店可以將基于Web的房地產搜索結果及其自身的歷史入住指標加入RDBMS中，以優(yōu)化夜間定價并通過更好的收益管理來增加收入。

共存，而不是替代。這是查看基于Hadoop的大數(shù)據(jù)分析與RDBMS和MPP世界之間關系的正確方法。因此，組織明智地專注于Hadoop發(fā)行版，以優(yōu)化基于Hadoop的數(shù)據(jù)湖與傳統(tǒng)系統(tǒng)之間的數(shù)據(jù)流。換句話說，保留舊的，并用新的創(chuàng)新。

使用哪個平臺?

共有三種常用的基本數(shù)據(jù)架構：數(shù)據(jù)倉庫，大規(guī)模并行處理系統(tǒng)(MPP)和Hadoop。每個都以不同的方式容納SQL。

數(shù)據(jù)倉庫本質上是大型數(shù)據(jù)庫管理系統(tǒng)，已針對跨結構化數(shù)據(jù)的只讀查詢進行了優(yōu)化。它們是關系數(shù)據(jù)庫，因此對SQL非常友好。它們提供了快速的性能和相對容易的管理，這在很大程度上是因為它們的對稱多處理(SMP)體系結構共享內存和操作系統(tǒng)等資源，并通過單個處理節(jié)點路由所有操作。

最大的缺點是成本和靈活性。大多數(shù)數(shù)據(jù)倉庫都建立在專有硬件上，并且比其他方法貴了多個數(shù)量級。在Wikibon進行的一次財務比較中，發(fā)現(xiàn)傳統(tǒng)數(shù)據(jù)倉庫的收支平衡時間是數(shù)據(jù)湖實施時間的六倍以上。

傳統(tǒng)的數(shù)據(jù)倉庫也只能對他們知道的數(shù)據(jù)進行操作。它們具有固定的模式，并且在處理非結構化數(shù)據(jù)時不太靈活。它們對于事務分析很有用，在事務分析中，必須根據(jù)一組定義的數(shù)據(jù)元素快速做出決策，但在關系不明確的應用程序(例如推薦引擎)中效率較低。

MPP數(shù)據(jù)倉庫是傳統(tǒng)倉庫的發(fā)展，它利用了通過公共互連捆綁在一起的多個處理器。SMP架構在處理器之間共享所有內容，而MPP架構則不共享任何內容。每個服務器都有自己的操作系統(tǒng)，處理器，內存和存儲。多個處理器的活動由主處理器協(xié)調，該主處理器跨節(jié)點分布數(shù)據(jù)并協(xié)調動作和結果。

MPP數(shù)據(jù)倉庫具有高度可伸縮性，因為添加處理器會導致性能幾乎呈線性增長，并且其成本通常低于單節(jié)點數(shù)據(jù)倉庫所需的成本。MPP體系結構也非常適合同時在多個數(shù)據(jù)庫上工作。這使它們比傳統(tǒng)的數(shù)據(jù)倉庫更具靈活性。但是，就像數(shù)據(jù)倉庫一樣，它們通常只能處理以模式組織的結構化數(shù)據(jù)。

但是，MPP體系結構具有與SMP數(shù)據(jù)倉庫相同的局限性。因為它們需要復雜的工程，所以大多數(shù)都是個體供應商專有的，這使它們成本高昂且相對缺乏靈活性。它們還受到與傳統(tǒng)數(shù)據(jù)倉庫相同的ETL要求。

從SQL的角度看，MPP數(shù)據(jù)倉庫具有一個主要的體系結構差異：為了實現(xiàn)最大的性能提升，行在處理器之間順序分布。這意味著查詢必須考慮多個表的存在。幸運的是，大多數(shù)MPP供應商在其SQL實例中隱藏了此詳細信息。

Hadoop在架構上與MPP數(shù)據(jù)倉庫相似，但有一些顯著差異。處理器不是由并行架構嚴格定義的，而是跨Hadoop集群松散耦合的，并且每個處理器都可以在不同的數(shù)據(jù)源上工作。數(shù)據(jù)操作引擎，數(shù)據(jù)目錄和存儲引擎可以彼此獨立工作，而Hadoop作為收集點。至關重要的是，Hadoop可以輕松容納結構化和非結構化數(shù)據(jù)。這使其成為進行迭代查詢的理想環(huán)境。企業(yè)用戶不必嘗試根據(jù)架構定義的狹窄結構來定義分析輸出，而是可以嘗試查找對他們最重要的查詢。然后可以提取相關數(shù)據(jù)并將其加載到數(shù)據(jù)倉庫中以進行快速查詢。

讓我們看一下數(shù)據(jù)湖和數(shù)據(jù)倉庫(從KDNuggets總結)之間的主要區(qū)別：

數(shù)據(jù)：雖然數(shù)據(jù)是在數(shù)據(jù)倉庫中進行結構化的，但數(shù)據(jù)湖支持所有數(shù)據(jù)類型：結構化，半結構化或非結構化。
處理：數(shù)據(jù)在數(shù)據(jù)倉庫中是寫模式，而在數(shù)據(jù)湖中是讀模式。
存儲：將大量數(shù)據(jù)存儲在數(shù)據(jù)倉庫中可能會很昂貴，而數(shù)據(jù)湖則是為低成本存儲而設計的。
敏捷性：在數(shù)據(jù)倉庫中，數(shù)據(jù)采用固定配置，敏捷性低得多，而數(shù)據(jù)湖中的數(shù)據(jù)易于根據(jù)需要進行配置。
用戶：數(shù)據(jù)湖方法支持所有用戶(數(shù)據(jù)科學家，業(yè)務專業(yè)人員)，而數(shù)據(jù)倉庫主要由業(yè)務專業(yè)人員使用。

Hadoop的最主要用例仍然是“數(shù)據(jù)湖”，因為它存儲了許多非結構化數(shù)據(jù)以進行提煉和提取到關系“數(shù)據(jù)集市”或數(shù)據(jù)倉庫中。實際上，Gartner表示，他們看到客戶對數(shù)據(jù)湖的查詢大大增加，如下所示：

只是看著數(shù)字。@Gartner_inc從2014年到2015年對數(shù)據(jù)湖的查詢增加了72%。

— Nick Heudecker(@nheudecker)

為了將SQL的功能帶入Hadoop，需要進行許多并行的工作，但是這些項目都面臨著相同的結構性障礙，即Hadoop是無模式的，數(shù)據(jù)是非結構化的。將“結構化”查詢語言應用于非結構化數(shù)據(jù)有點不自然，但是這些項目正在迅速成熟。下面的體系結構圖顯示了這些不同方法中的一些如何在現(xiàn)代數(shù)據(jù)體系結構中融合在一起。

Hadoop與數(shù)據(jù)倉庫的關系是什么

關于Hadoop與數(shù)據(jù)倉庫的關系是什么問題的解答就分享到這里了，希望以上內容可以對大家有一定的幫助，如果你還有很多疑惑沒有解開，可以關注億速云行業(yè)資訊頻道了解更多相關知識。

向AI問一下細節(jié)

推薦閱讀：

免責聲明：本站發(fā)布的內容（圖片、視頻和文字）以原創(chuàng)、轉載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
OpenIndiana與illumos的關系是什么
下一篇新聞：
如何解決某些HTML字符打不出來的問題

猜你喜歡

AI
助
手

產品服務

地區(qū)劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網(wǎng)站二維碼