<strike id="7fyp6"></strike>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

Hadoop技術(shù)體系的示例分析

發(fā)布時間：2021-12-08 10:46:13 來源：億速云閱讀：134 作者：小新欄目：云計算

這篇文章主要介紹了Hadoop技術(shù)體系的示例分析，具有一定借鑒價值，感興趣的朋友可以參考下，希望大家閱讀完這篇文章之后大有收獲，下面讓小編帶著大家一起了解一下。

Hadoop的兩大核心就是HDFS和MapReduce，而整個Hadoop的體系結(jié)構(gòu)主要是通過HDFS的分布式存儲作為底層數(shù)據(jù)支持的。并且會通過MapReduce來進行計算分析。

Hadoop1.x的核心：

1. Hadoop Common

2. Hadoop Distributed File System（HDFS）

3. Hadoop MapReduce

Hadoop2.x的核心：

1. Hadoop Common

2. Hadoop Distributed File System（HDFS）

3. Hadoop MapReduce

4. Hadoop YARN

Hadoop1.x生態(tài)系統(tǒng)：

Hadoop技術(shù)體系的示例分析

Hadoop2.x生態(tài)系統(tǒng)圖：

Hadoop技術(shù)體系的示例分析

那么我們從理解的角度來看，自底而上，分別是數(shù)據(jù)存儲，數(shù)據(jù)整合管理，數(shù)據(jù)計算，數(shù)據(jù)挖掘處理這么幾個過程。而各層之間貫穿著ETL和日志收集工具。這就是Hadoop粗略的一個知識架構(gòu)。下面我們一個個的來看，整個Hadoop的技術(shù)生態(tài)體系板塊是怎樣的。

1. HDFS

分布式文件系統(tǒng)，將一個文件分成多個塊，分別存儲(拷貝)到不同的節(jié)點上.它是Hadoop體系中數(shù)據(jù)存儲管理的基礎(chǔ)。它是一個高度容錯的系統(tǒng)，能檢測和應對硬件故障，用于在低成本的通用硬件上運行。HDFS簡化了文件的一致性模型，通過流式數(shù)據(jù)訪問，提供高吞吐量應用程序數(shù)據(jù)訪問功能，適合帶有大型數(shù)據(jù)集的應用程序。提供了hadoop運算過程中的數(shù)據(jù)存儲、數(shù)據(jù)備份、數(shù)據(jù)錯誤校驗等功能。

2. MapReduce

分布式計算框架，它是一種分布式計算處理模型和執(zhí)行環(huán)境，用于進行大數(shù)據(jù)量的計算。共包括Map和Reduce部分。其中Map接受一個鍵值對（key-value），產(chǎn)生一組中間鍵值對。MapReduce框架會將map函數(shù)產(chǎn)生的中間鍵值對里鍵相同的值傳遞給一個reduce函數(shù)。Reduce函數(shù)：接受一個鍵，以及相關(guān)的一組值，將這組值進行合并產(chǎn)生一組規(guī)模更小的值（通常只有一個或零個值）。

3. hive

基于Hadoop的數(shù)據(jù)倉庫工具，可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表，并提供類似SQL一樣的查詢語言HiveQL來管理這些數(shù)據(jù)。Hive定義了一種類似SQL的查詢語言(HQL),將SQL轉(zhuǎn)化為MapReduce任務在Hadoop上執(zhí)行。通常用于離線分析。

4. Pig

Pig是一個基于Hadoop的大數(shù)據(jù)分析平臺，它提供了一個叫PigLatin的高級語言來表達大數(shù)據(jù)分析程序，將腳本轉(zhuǎn)換為MapReduce任務在Hadoop上執(zhí)行。通常用于進行離線分析。

5. Mahoutt

數(shù)據(jù)挖掘算法庫，Mahout起源于2008年，最初是Apache Lucent的子項目，它在極短的時間內(nèi)取得了長足的發(fā)展，現(xiàn)在是Apache的頂級項目。Mahout的主要目標是創(chuàng)建一些可擴展的機器學習領(lǐng)域經(jīng)典算法的實現(xiàn)，旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應用程序。Mahout現(xiàn)在已經(jīng)包含了聚類、分類、推薦引擎（協(xié)同過濾）和頻繁集挖掘等廣泛使用的數(shù)據(jù)挖掘方法。除了算法，Mahout還包含數(shù)據(jù)的輸入/輸出工具、與其他存儲系統(tǒng)（如數(shù)據(jù)庫、MongoDB 或Cassandra）集成等數(shù)據(jù)挖掘支持架構(gòu)。

6. ZooKeeper

分布式協(xié)作服務，是一個針對大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng)，提供包括配置維護，名字服務，分布式同步和組服務等功能。Hadoop的管理就是用的ZooKeeper

7. HBase

HBase是一個分布式列存數(shù)據(jù)庫，它基于Hadoop之上提供了類似BigTable的功能。HBase是一個針對結(jié)構(gòu)化數(shù)據(jù)的可伸縮、高可靠、高性能、分布式和面向列的動態(tài)模式數(shù)據(jù)庫。和傳統(tǒng)關(guān)系數(shù)據(jù)庫不同，HBase采用了BigTable的數(shù)據(jù)模型：增強的稀疏排序映射表（Key/Value），其中，鍵由行關(guān)鍵字、列關(guān)鍵字和時間戳構(gòu)成。HBase提供了對大規(guī)模數(shù)據(jù)的隨機、實時讀寫訪問，同時，HBase中保存的數(shù)據(jù)可以使用MapReduce來處理，它將數(shù)據(jù)存儲和并行計算完美地結(jié)合在一起。

8. Sqoop

數(shù)據(jù)同步工具，SQL-to-Hadoop的縮寫。Sqoop是一個Hadoop和關(guān)系型數(shù)據(jù)庫之間的數(shù)據(jù)轉(zhuǎn)移工具。可將關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)導入到Hadoop的HDFS中，也可將HDFS中的數(shù)據(jù)導進到關(guān)系型數(shù)據(jù)庫中主要用于傳統(tǒng)數(shù)據(jù)庫和Hadoop之前傳輸數(shù)據(jù)。數(shù)據(jù)的導入和導出本質(zhì)上是Mapreduce程序，充分利用了MR的并行化和容錯性。

9. Flume

日志收集工具，Cloudera開源的日志收集系統(tǒng)，具有分布式、高可靠、高容錯、易于定制和擴展的特點。它將數(shù)據(jù)從產(chǎn)生、傳輸、處理并最終寫入目標的路徑的過程抽象為數(shù)據(jù)流，在具體的數(shù)據(jù)流中，數(shù)據(jù)源支持在Flume中定制數(shù)據(jù)發(fā)送方，從而支持收集各種不同協(xié)議數(shù)據(jù)。同時，F(xiàn)lume數(shù)據(jù)流提供對日志數(shù)據(jù)進行簡單處理的能力，如過濾、格式轉(zhuǎn)換等。此外，F(xiàn)lume還具有能夠?qū)⑷罩緦懲鞣N數(shù)據(jù)目標（可定制）的能力?？偟膩碚f，F(xiàn)lume是一個可擴展、適合復雜環(huán)境的海量日志收集系統(tǒng)。

10. Ambari

是一個對Hadoop集群進行監(jiān)控和管理的基于Web的系統(tǒng)。目前已經(jīng)支持HDFS，MapReduce，Hive，HCatalog，HBase，ZooKeeper，Oozie，Pig和Sqoop等組件。

11.Apache Spark

Apache Spark是提供大數(shù)據(jù)集上快速進行數(shù)據(jù)分析的計算引擎。它建立在HDFS之上，卻繞過了MapReduce使用自己的數(shù)據(jù)處理框架。Spark常用于實時查詢、流處理、迭代算法、復雜操作運算和機器學習。

感謝你能夠認真閱讀完這篇文章，希望小編分享的“Hadoop技術(shù)體系的示例分析”這篇文章對大家有幫助，同時也希望大家多多支持億速云，關(guān)注億速云行業(yè)資訊頻道，更多相關(guān)知識等著你來學習!

向AI問一下細節(jié)

推薦閱讀：

免責聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
Hadoop中Map-Reduce如何配置、測試和調(diào)試
下一篇新聞：
Hadoop,HBase和Hive知識點的示例分析

猜你喜歡

AI
助
手

產(chǎn)品服務

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機網(wǎng)站二維碼

<center id="3h3aa"></center>

<th id="3h3aa"><delect id="3h3aa"><dfn id="3h3aa"></dfn></delect></th>