溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

hadoop有什么優(yōu)點(diǎn)

發(fā)布時(shí)間：2021-12-08 11:18:38 來(lái)源：億速云閱讀：408 作者：小新欄目：云計(jì)算

這篇文章主要為大家展示了“hadoop有什么優(yōu)點(diǎn)”，內(nèi)容簡(jiǎn)而易懂，條理清晰，希望能夠幫助大家解決疑惑，下面讓小編帶領(lǐng)大家一起研究并學(xué)習(xí)一下“hadoop有什么優(yōu)點(diǎn)”這篇文章吧。

首先，Hadoop是一個(gè)由Apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。

Hadoop是一個(gè)能夠讓用戶輕松架構(gòu)和使用的分布式計(jì)算平臺(tái)。用戶可以輕松地在Hadoop上開發(fā)和運(yùn)行處理海量數(shù)據(jù)的應(yīng)用程序。它主要有以下幾個(gè)優(yōu)點(diǎn)：

1. 高可靠性。Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴。

2. 高擴(kuò)展性。Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的，這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。

3. 高效性。Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù)，并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡，因此處理速度非常快。

4. 高容錯(cuò)性。Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本，并且能夠自動(dòng)將失敗的任務(wù)重新分配。

5. 低成本。與一體機(jī)、商用數(shù)據(jù)倉(cāng)庫(kù)以及QlikView、Yonghong Z-Suite等數(shù)據(jù)集市相比，hadoop是開源的，項(xiàng)目的軟件成本因此會(huì)大大降低。

Hadoop帶有用Java語(yǔ)言編寫的框架，因此運(yùn)行在 Linux 生產(chǎn)平臺(tái)上是非常理想的。

其實(shí)我們要知道大數(shù)據(jù)的實(shí)質(zhì)特性：針對(duì)增量中海量的結(jié)構(gòu)化，非結(jié)構(gòu)化，半結(jié)構(gòu)數(shù)據(jù)，在這種情況下，如何快速反復(fù)計(jì)算挖掘出高效益的市場(chǎng)數(shù)據(jù)？？帶著這個(gè)問(wèn)題滲透到業(yè)務(wù)中去分析，就知道hadoop需要應(yīng)用到什么業(yè)務(wù)場(chǎng)景了?。?！如果關(guān)系型數(shù)據(jù)庫(kù)都能應(yīng)付的工作還需要hadoop嗎？

關(guān)于hadoop,我映像比較深刻的是知乎中有人提到的一個(gè)“秒級(jí)營(yíng)銷”，什么是“秒級(jí)營(yíng)銷”呢？說(shuō)白了就是：

1.通過(guò)大數(shù)據(jù)計(jì)算你的個(gè)人信息；

2.然后進(jìn)行精準(zhǔn)推送。

hadoop還能夠做什么呢？

例如：

· 大數(shù)據(jù)量存儲(chǔ)：分布式存儲(chǔ)

· 日志處理: Hadoop擅長(zhǎng)這個(gè)

· 海量計(jì)算: 并行計(jì)算

· ETL:數(shù)據(jù)抽取到oracle、mysql、DB2、mongdb及主流數(shù)據(jù)庫(kù)

· 使用HBase做數(shù)據(jù)分析: 用擴(kuò)展性應(yīng)對(duì)大量的寫操作—Facebook構(gòu)建了基于HBase的實(shí)時(shí)數(shù)據(jù)分析系統(tǒng)

· 搜索引擎:hadoop + lucene實(shí)現(xiàn)

· 數(shù)據(jù)挖掘：目前比較流行的廣告推薦

· 大量地從文件中順序讀。HDFS對(duì)順序讀進(jìn)行了優(yōu)化，代價(jià)是對(duì)于隨機(jī)的訪問(wèn)負(fù)載較高。

· 任何一臺(tái)服務(wù)器都有可能失效，需要通過(guò)大量的數(shù)據(jù)復(fù)制使得性能不會(huì)受到大的影響。

· 個(gè)性化廣告推薦

說(shuō)了這么多，如果沒(méi)有理解沒(méi)有明白，沒(méi)關(guān)系。我們挑其核心講唄

Hadoop最核心的設(shè)計(jì)就是HDFS和MapReduce

1.Hdfs提供海量的數(shù)據(jù)存儲(chǔ)。

具體的可參看HDFS詳解（個(gè)人推薦,該博客擁有比較多的文檔支撐）

2.MapReduce提供了對(duì)數(shù)據(jù)的計(jì)算。

2.1MapReduce編程模型

MapReduce采用"分而治之"的思想，把對(duì)大規(guī)模數(shù)據(jù)集的操作，分發(fā)給一個(gè)主節(jié)點(diǎn)管理下的各個(gè)分節(jié)點(diǎn)共同完成，然后通過(guò)整合各個(gè)節(jié)點(diǎn)的中間結(jié)果，得到最終結(jié)果。簡(jiǎn)單地說(shuō)，MapReduce就是"任務(wù)的分解與結(jié)果的匯總"。

在Hadoop中，用于執(zhí)行MapReduce任務(wù)的機(jī)器角色有兩個(gè)：一個(gè)是JobTracker；另一個(gè)是TaskTracker，JobTracker是用于調(diào)度工作的，TaskTracker是用于執(zhí)行工作的。一個(gè)Hadoop集群中只有一臺(tái)JobTracker。

在分布式計(jì)算中，MapReduce框架負(fù)責(zé)處理了并行編程中分布式存儲(chǔ)、工作調(diào)度、負(fù)載均衡、容錯(cuò)均衡、容錯(cuò)處理以及網(wǎng)絡(luò)通信等復(fù)雜問(wèn)題，把處理過(guò)程高度抽象為兩個(gè)函數(shù)：map和reduce，map負(fù)責(zé)把任務(wù)分解成多個(gè)任務(wù)，reduce負(fù)責(zé)把分解后多任務(wù)處理的結(jié)果匯總起來(lái)。

需要注意的是，用MapReduce來(lái)處理的數(shù)據(jù)集（或任務(wù)）必須具備這樣的特點(diǎn)：待處理的數(shù)據(jù)集可以分解成許多小的數(shù)據(jù)集，而且每一個(gè)小數(shù)據(jù)集都可以完全并行地進(jìn)行處理。

2.2MapReduce處理過(guò)程

在Hadoop中，每個(gè)MapReduce任務(wù)都被初始化為一個(gè)Job，每個(gè)Job又可以分為兩種階段：map階段和reduce階段。這兩個(gè)階段分別用兩個(gè)函數(shù)表示，即map函數(shù)和reduce函數(shù)。map函數(shù)接收一個(gè)<key,value>形式的輸入，然后同樣產(chǎn)生一個(gè)<key,value>形式的中間輸出，Hadoop函數(shù)接收一個(gè)如<key,(list of values)>形式的輸入，然后對(duì)這個(gè)value集合進(jìn)行處理，每個(gè)reduce產(chǎn)生0或1個(gè)輸出，reduce的輸出也是<key,value>形式的。

hadoop有什么優(yōu)點(diǎn)

MapReduce處理大數(shù)據(jù)集的過(guò)程

以上是“hadoop有什么優(yōu)點(diǎn)”這篇文章的所有內(nèi)容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內(nèi)容對(duì)大家有所幫助，如果還想學(xué)習(xí)更多知識(shí)，歡迎關(guān)注億速云行業(yè)資訊頻道！

向AI問(wèn)一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
Kindeditor漏洞導(dǎo)致網(wǎng)站被植入木馬文件的解決辦法是什么
下一篇新聞：
hadoop中rpc的示例分析

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼