為什么要用Hadoop

發(fā)布時(shí)間：2021-12-09 15:23:26 來(lái)源：億速云閱讀：283 作者：iii 欄目：大數(shù)據(jù)

這篇文章主要講解了“為什么要用Hadoop”，文中的講解內(nèi)容簡(jiǎn)單清晰，易于學(xué)習(xí)與理解，下面請(qǐng)大家跟著小編的思路慢慢深入，一起來(lái)研究和學(xué)習(xí)“為什么要用Hadoop”吧！

什么是 Hadoop

Hadoop 是由很多技術(shù)項(xiàng)目組成的一個(gè)生態(tài)系統(tǒng)。狹義的 Hadoop 有三個(gè)框架：

海量數(shù)據(jù)的存儲(chǔ) - HDFS（Hadoop Distributed File System）
海量數(shù)據(jù)的分析 - MapReduce
資源管理調(diào)度 - YARN（Yet Another Resouce Negotiator）

以上狹義的 Hadoop 最擅長(zhǎng)的僅僅是做海量離線(xiàn)日志分析，廣義的 Hadoop 包含很多組件，現(xiàn)在可以做非常多的事情，應(yīng)用場(chǎng)景非常廣，包括實(shí)時(shí)計(jì)算等。

大數(shù)據(jù)計(jì)算的核心是移動(dòng)計(jì)算而不是移動(dòng)數(shù)據(jù)：將運(yùn)算程序分發(fā)到分布式的數(shù)據(jù)集上運(yùn)行，而不是移動(dòng)數(shù)據(jù)。

為什么要使用 Hadoop

數(shù)據(jù)量不斷增大，單節(jié)點(diǎn)無(wú)法應(yīng)對(duì)海量數(shù)據(jù)的處理，需要使用分布式架構(gòu)，需要考慮的復(fù)雜情況非常多，如：任務(wù)監(jiān)控、節(jié)點(diǎn)存活監(jiān)控、數(shù)據(jù)如何共享、中間數(shù)據(jù)如何傳遞等。Hadoop 作為分布式框架，已經(jīng)為我們解決了這些問(wèn)題，使用它極大降低了海量數(shù)據(jù)下的公共數(shù)據(jù)處理問(wèn)題。

如何解決海量數(shù)據(jù)的存儲(chǔ)

首先了解一下什么是 NFS，NFS 網(wǎng)絡(luò)文件系統(tǒng)將文件掛載到不同的機(jī)器上，通過(guò)一臺(tái)服務(wù)器（NFS Server）作為統(tǒng)一的入口，其他客戶(hù)端訪問(wèn) Server，Server 將從目標(biāo)機(jī)器上取文件給客戶(hù)端。簡(jiǎn)單理解為有一個(gè)文件服務(wù)器在遠(yuǎn)端，叫 NFS Server，上面有共享文件，可以將它掛載到你本地的機(jī)器上，訪問(wèn) NFS Server 就像訪問(wèn)自己電腦的某一個(gè)磁盤(pán)一樣（比如 C 盤(pán)）。

HDFS 是有 NameNode 和 DataNode 的概念，最基本的模型是一臺(tái) NameNode，多臺(tái) DataNode。NameNode 存儲(chǔ)元信息，如某個(gè)文件存放在哪臺(tái)服務(wù)器上，有幾份備份等。DataNode 存儲(chǔ)數(shù)據(jù)，數(shù)據(jù)文件被切分成塊（block），每一塊存儲(chǔ)在多個(gè)節(jié)點(diǎn)上，互為備份，默認(rèn)是 3 份，可以在同一個(gè)機(jī)架，一般為了保證高可用，會(huì)放在不同機(jī)架上。

HDFS 和 NFS 的主要區(qū)別：

HDFS 數(shù)據(jù)冗余，具有容錯(cuò)性，而 NFS 只存儲(chǔ)一份；
HDFS 數(shù)據(jù)多副本解決單點(diǎn)瓶頸，讀取性能會(huì)比 NFS 更好；

如何解決海量數(shù)據(jù)的計(jì)算

海量數(shù)據(jù)的計(jì)算關(guān)鍵是移動(dòng)計(jì)算而不是移動(dòng)數(shù)據(jù)。

假設(shè)有特別多的數(shù)據(jù)需要計(jì)算，只用一臺(tái)機(jī)器是無(wú)法實(shí)現(xiàn)的，因?yàn)閿?shù)據(jù)無(wú)法一次讀取完，會(huì)對(duì)內(nèi)存造成特別大的壓力，需要讀取很多次，會(huì)受網(wǎng)絡(luò)的限制。

Hadoop 通過(guò) MapReduce 實(shí)現(xiàn)海量數(shù)據(jù)的計(jì)算，數(shù)據(jù)存儲(chǔ)在多個(gè) DataNode 上，Map 階段將計(jì)算程序分發(fā)到每個(gè) DataNode 上，將每個(gè)節(jié)點(diǎn)上的計(jì)算結(jié)果通過(guò)網(wǎng)絡(luò)發(fā)送到某一臺(tái)做 Reduce 計(jì)算的機(jī)器，Reduce 將結(jié)果進(jìn)行匯總輸出。

感謝各位的閱讀，以上就是“為什么要用Hadoop”的內(nèi)容了，經(jīng)過(guò)本文的學(xué)習(xí)后，相信大家對(duì)為什么要用Hadoop這一問(wèn)題有了更深刻的體會(huì)，具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是億速云，小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章，歡迎關(guān)注！

向AI問(wèn)一下細(xì)節(jié)

為什么要用Hadoop

什么是 Hadoop

為什么要使用 Hadoop

如何解決海量數(shù)據(jù)的存儲(chǔ)

如何解決海量數(shù)據(jù)的計(jì)算

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽