您好,登錄后才能下訂單哦!
這篇文章主要介紹了Hadoop技術(shù)體系的示例分析,具有一定借鑒價值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。
Hadoop的兩大核心就是HDFS和MapReduce,而整個Hadoop的體系結(jié)構(gòu)主要是通過HDFS的分布式存儲作為底層數(shù)據(jù)支持的。并且會通過MapReduce來進行計算分析。
1. Hadoop Common
2. Hadoop Distributed File System(HDFS)
3. Hadoop MapReduce
1. Hadoop Common
2. Hadoop Distributed File System(HDFS)
3. Hadoop MapReduce
4. Hadoop YARN
那么我們從理解的角度來看,自底而上,分別是數(shù)據(jù)存儲,數(shù)據(jù)整合管理,數(shù)據(jù)計算,數(shù)據(jù)挖掘處理這么幾個過程。而各層之間貫穿著ETL和日志收集工具。這就是Hadoop粗略的一個知識架構(gòu)。下面我們一個個的來看,整個Hadoop的技術(shù)生態(tài)體系板塊是怎樣的。
分布式文件系統(tǒng),將一個文件分成多個塊,分別存儲(拷貝)到不同的節(jié)點上.它是Hadoop體系中數(shù)據(jù)存儲管理的基礎(chǔ)。它是一個高度容錯的系統(tǒng),能檢測和應對硬件故障,用于在低成本的通用硬件上運行。HDFS簡化了文件的一致性模型,通過流式數(shù)據(jù)訪問,提供高吞吐量應用程序數(shù)據(jù)訪問功能,適合帶有大型數(shù)據(jù)集的應用程序。提供了hadoop運算過程中的數(shù)據(jù)存儲、數(shù)據(jù)備份、數(shù)據(jù)錯誤校驗等功能。
分布式計算框架,它是一種分布式計算處理模型和執(zhí)行環(huán)境,用于進行大數(shù)據(jù)量的計算。共包括Map和Reduce部分。其中Map接受一個鍵值對(key-value),產(chǎn)生一組中間鍵值對。MapReduce框架會將map函數(shù)產(chǎn)生的中間鍵值對里鍵相同的值傳遞給一個reduce函數(shù)。Reduce函數(shù):接受一個鍵,以及相關(guān)的一組值,將這組值進行合并產(chǎn)生一組規(guī)模更小的值(通常只有一個或零個值)。
基于Hadoop的數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供類似SQL一樣的查詢語言HiveQL來管理這些數(shù)據(jù)。Hive定義了一種類似SQL的查詢語言(HQL),將SQL轉(zhuǎn)化為MapReduce任務在Hadoop上執(zhí)行。通常用于離線分析。
Pig是一個基于Hadoop的大數(shù)據(jù)分析平臺,它提供了一個叫PigLatin的高級語言來表達大數(shù)據(jù)分析程序,將腳本轉(zhuǎn)換為MapReduce任務在Hadoop上執(zhí)行。通常用于進行離線分析。
數(shù)據(jù)挖掘算法庫,Mahout起源于2008年,最初是Apache Lucent的子項目,它在極短的時間內(nèi)取得了長足的發(fā)展,現(xiàn)在是Apache的頂級項目。Mahout的主要目標是創(chuàng)建一些可擴展的機器學習領(lǐng)域經(jīng)典算法的實現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應用程序。Mahout現(xiàn)在已經(jīng)包含了聚類、分類、推薦引擎(協(xié)同過濾)和頻繁集挖掘等廣泛使用的數(shù)據(jù)挖掘方法。除了算法,Mahout還包含數(shù)據(jù)的輸入/輸出工具、與其他存儲系統(tǒng)(如數(shù)據(jù)庫、MongoDB 或Cassandra)集成等數(shù)據(jù)挖掘支持架構(gòu)。
分布式協(xié)作服務,是一個針對大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng),提供包括配置維護,名字服務,分布式同步和組服務等功能。Hadoop的管理就是用的ZooKeeper
HBase是一個分布式列存數(shù)據(jù)庫,它基于Hadoop之上提供了類似BigTable的功能。HBase是一個針對結(jié)構(gòu)化數(shù)據(jù)的可伸縮、高可靠、高性能、分布式和面向列的動態(tài)模式數(shù)據(jù)庫。和傳統(tǒng)關(guān)系數(shù)據(jù)庫不同,HBase采用了BigTable的數(shù)據(jù)模型:增強的稀疏排序映射表(Key/Value),其中,鍵由行關(guān)鍵字、列關(guān)鍵字和時間戳構(gòu)成。HBase提供了對大規(guī)模數(shù)據(jù)的隨機、實時讀寫訪問,同時,HBase中保存的數(shù)據(jù)可以使用MapReduce來處理,它將數(shù)據(jù)存儲和并行計算完美地結(jié)合在一起。
數(shù)據(jù)同步工具,SQL-to-Hadoop的縮寫。Sqoop是一個Hadoop和關(guān)系型數(shù)據(jù)庫之間的數(shù)據(jù)轉(zhuǎn)移工具。可將關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)導入到Hadoop的HDFS中,也可將HDFS中的數(shù)據(jù)導進到關(guān)系型數(shù)據(jù)庫中主要用于傳統(tǒng)數(shù)據(jù)庫和Hadoop之前傳輸數(shù)據(jù)。數(shù)據(jù)的導入和導出本質(zhì)上是Mapreduce程序,充分利用了MR的并行化和容錯性。
日志收集工具,Cloudera開源的日志收集系統(tǒng),具有分布式、高可靠、高容錯、易于定制和擴展的特點。它將數(shù)據(jù)從產(chǎn)生、傳輸、處理并最終寫入目標的路徑的過程抽象為數(shù)據(jù)流,在具體的數(shù)據(jù)流中,數(shù)據(jù)源支持在Flume中定制數(shù)據(jù)發(fā)送方,從而支持收集各種不同協(xié)議數(shù)據(jù)。同時,F(xiàn)lume數(shù)據(jù)流提供對日志數(shù)據(jù)進行簡單處理的能力,如過濾、格式轉(zhuǎn)換等。此外,F(xiàn)lume還具有能夠?qū)⑷罩緦懲鞣N數(shù)據(jù)目標(可定制)的能力??偟膩碚f,F(xiàn)lume是一個可擴展、適合復雜環(huán)境的海量日志收集系統(tǒng)。
是一個對Hadoop集群進行監(jiān)控和管理的基于Web的系統(tǒng)。目前已經(jīng)支持HDFS,MapReduce,Hive,HCatalog,HBase,ZooKeeper,Oozie,Pig和Sqoop等組件。
Apache Spark是提供大數(shù)據(jù)集上快速進行數(shù)據(jù)分析的計算引擎。它建立在HDFS之上,卻繞過了MapReduce使用自己的數(shù)據(jù)處理框架。Spark常用于實時查詢、流處理、迭代算法、復雜操作運算和機器學習。
感謝你能夠認真閱讀完這篇文章,希望小編分享的“Hadoop技術(shù)體系的示例分析”這篇文章對大家有幫助,同時也希望大家多多支持億速云,關(guān)注億速云行業(yè)資訊頻道,更多相關(guān)知識等著你來學習!
免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。