溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

hadoop有什么優(yōu)點(diǎn)

發(fā)布時(shí)間:2021-12-08 11:18:38 來(lái)源:億速云 閱讀:408 作者:小新 欄目:云計(jì)算

這篇文章主要為大家展示了“hadoop有什么優(yōu)點(diǎn)”,內(nèi)容簡(jiǎn)而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領(lǐng)大家一起研究并學(xué)習(xí)一下“hadoop有什么優(yōu)點(diǎn)”這篇文章吧。

首先,Hadoop是一個(gè)由Apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。

Hadoop是一個(gè)能夠讓用戶輕松架構(gòu)和使用的分布式計(jì)算平臺(tái)。用戶可以輕松地在Hadoop上開發(fā)和運(yùn)行處理海量數(shù)據(jù)的應(yīng)用程序。它主要有以下幾個(gè)優(yōu)點(diǎn):

1.   高可靠性。Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴。

2.   高擴(kuò)展性。Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。

3.   高效性。Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,因此處理速度非常快。

4.   高容錯(cuò)性。Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配。

5.   低成本。與一體機(jī)、商用數(shù)據(jù)倉(cāng)庫(kù)以及QlikView、Yonghong Z-Suite等數(shù)據(jù)集市相比,hadoop是開源的,項(xiàng)目的軟件成本因此會(huì)大大降低。

Hadoop帶有用Java語(yǔ)言編寫的框架,因此運(yùn)行在 Linux 生產(chǎn)平臺(tái)上是非常理想的。

其實(shí)我們要知道大數(shù)據(jù)的實(shí)質(zhì)特性:針對(duì)增量中海量的結(jié)構(gòu)化,非結(jié)構(gòu)化,半結(jié)構(gòu)數(shù)據(jù),在這種情況下,如何快速反復(fù)計(jì)算挖掘出高效益的市場(chǎng)數(shù)據(jù)??帶著這 個(gè)問(wèn)題滲透到業(yè)務(wù)中去分析,就知道hadoop需要應(yīng)用到什么業(yè)務(wù)場(chǎng)景了?。?!如果關(guān)系型數(shù)據(jù)庫(kù)都能應(yīng)付的工作還需要hadoop嗎?

關(guān)于hadoop,我映像比較深刻的是知乎中有人提到的一個(gè)“秒級(jí)營(yíng)銷”,什么是“秒級(jí)營(yíng)銷”呢?說(shuō)白了就是:

1.通過(guò)大數(shù)據(jù)計(jì)算你的個(gè)人信息;

2.然后進(jìn)行精準(zhǔn)推送。

hadoop還能夠做什么呢?

例如:

·        大數(shù)據(jù)量存儲(chǔ):分布式存儲(chǔ)

·        日志處理: Hadoop擅長(zhǎng)這個(gè)

·        海量計(jì)算: 并行計(jì)算

·        ETL:數(shù)據(jù)抽取到oracle、mysql、DB2、mongdb及主流數(shù)據(jù)庫(kù)

·        使用HBase做數(shù)據(jù)分析: 用擴(kuò)展性應(yīng)對(duì)大量的寫操作—Facebook構(gòu)建了基于HBase的實(shí)時(shí)數(shù)據(jù)分析系統(tǒng)

·        搜索引擎:hadoop + lucene實(shí)現(xiàn)

·        數(shù)據(jù)挖掘:目前比較流行的廣告推薦

·        大量地從文件中順序讀。HDFS對(duì)順序讀進(jìn)行了優(yōu)化,代價(jià)是對(duì)于隨機(jī)的訪問(wèn)負(fù)載較高。

·        任何一臺(tái)服務(wù)器都有可能失效,需要通過(guò)大量的數(shù)據(jù)復(fù)制使得性能不會(huì)受到大的影響。

·        個(gè)性化廣告推薦

說(shuō)了這么多,如果沒(méi)有理解沒(méi)有明白,沒(méi)關(guān)系。我們挑其核心講唄

Hadoop最核心的設(shè)計(jì)就是HDFSMapReduce

1.Hdfs提供海量的數(shù)據(jù)存儲(chǔ)。

具體的可參看HDFS詳解(個(gè)人推薦,該博客擁有比較多的文檔支撐)

2.MapReduce提供了對(duì)數(shù)據(jù)的計(jì)算。

2.1MapReduce編程模型

MapReduce采用"分而治之"的思想,把對(duì)大規(guī)模數(shù)據(jù)集的操作,分發(fā)給一個(gè)主節(jié)點(diǎn)管理下的各個(gè)分節(jié)點(diǎn)共同完成,然后通過(guò)整合各個(gè)節(jié)點(diǎn)的中間結(jié)果,得到最終結(jié)果。簡(jiǎn)單地說(shuō),MapReduce就是"任務(wù)的分解與結(jié)果的匯總"。

在Hadoop中,用于執(zhí)行MapReduce任務(wù)的機(jī)器角色有兩個(gè):一個(gè)是JobTracker;另一個(gè)是TaskTracker,JobTracker是用于調(diào)度工作的,TaskTracker是用于執(zhí)行工作的。一個(gè)Hadoop集群中只有一臺(tái)JobTracker。

在分布式計(jì)算中,MapReduce框架負(fù)責(zé)處理了并行編程中分布式存儲(chǔ)、工作調(diào)度、負(fù)載均衡、容錯(cuò)均衡、容錯(cuò)處理以及網(wǎng)絡(luò)通信等復(fù)雜問(wèn)題,把處理過(guò)程高度抽象為兩個(gè)函數(shù):map和reduce,map負(fù)責(zé)把任務(wù)分解成多個(gè)任務(wù),reduce負(fù)責(zé)把分解后多任務(wù)處理的結(jié)果匯總起來(lái)。

需要注意的是,用MapReduce來(lái)處理的數(shù)據(jù)集(或任務(wù))必須具備這樣的特點(diǎn):待處理的數(shù)據(jù)集可以分解成許多小的數(shù)據(jù)集,而且每一個(gè)小數(shù)據(jù)集都可以完全并行地進(jìn)行處理。

2.2MapReduce處理過(guò)程

在Hadoop中,每個(gè)MapReduce任務(wù)都被初始化為一個(gè)Job,每個(gè)Job又可以分為兩種階段:map階段和reduce階段。這兩個(gè)階段分別用兩個(gè)函數(shù)表示,即map函數(shù)和reduce函數(shù)。map函數(shù)接收一個(gè)<key,value>形式的輸入,然后同樣產(chǎn)生一個(gè)<key,value>形式的中間輸出,Hadoop函數(shù)接收一個(gè)如<key,(list of values)>形式的輸入,然后對(duì)這個(gè)value集合進(jìn)行處理,每個(gè)reduce產(chǎn)生0或1個(gè)輸出,reduce的輸出也是<key,value>形式的。

hadoop有什么優(yōu)點(diǎn)

MapReduce處理大數(shù)據(jù)集的過(guò)程

以上是“hadoop有什么優(yōu)點(diǎn)”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI