溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

為什么要用Hadoop

發(fā)布時(shí)間:2021-12-09 15:23:26 來(lái)源:億速云 閱讀:283 作者:iii 欄目:大數(shù)據(jù)

這篇文章主要講解了“為什么要用Hadoop”,文中的講解內(nèi)容簡(jiǎn)單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來(lái)研究和學(xué)習(xí)“為什么要用Hadoop”吧!

什么是 Hadoop

Hadoop 是由很多技術(shù)項(xiàng)目組成的一個(gè)生態(tài)系統(tǒng)。狹義的 Hadoop 有三個(gè)框架:

  • 海量數(shù)據(jù)的存儲(chǔ) - HDFS(Hadoop Distributed File System)
  • 海量數(shù)據(jù)的分析 - MapReduce
  • 資源管理調(diào)度 - YARN(Yet Another Resouce Negotiator)

以上狹義的 Hadoop 最擅長(zhǎng)的僅僅是做海量離線(xiàn)日志分析,廣義的 Hadoop 包含很多組件,現(xiàn)在可以做非常多的事情,應(yīng)用場(chǎng)景非常廣,包括實(shí)時(shí)計(jì)算等。

大數(shù)據(jù)計(jì)算的核心是移動(dòng)計(jì)算而不是移動(dòng)數(shù)據(jù):將運(yùn)算程序分發(fā)到分布式的數(shù)據(jù)集上運(yùn)行,而不是移動(dòng)數(shù)據(jù)。

為什么要使用 Hadoop

數(shù)據(jù)量不斷增大,單節(jié)點(diǎn)無(wú)法應(yīng)對(duì)海量數(shù)據(jù)的處理,需要使用分布式架構(gòu),需要考慮的復(fù)雜情況非常多,如:任務(wù)監(jiān)控、節(jié)點(diǎn)存活監(jiān)控、數(shù)據(jù)如何共享、中間數(shù)據(jù)如何傳遞等。Hadoop 作為分布式框架,已經(jīng)為我們解決了這些問(wèn)題,使用它極大降低了海量數(shù)據(jù)下的公共數(shù)據(jù)處理問(wèn)題。

如何解決海量數(shù)據(jù)的存儲(chǔ)

首先了解一下什么是 NFS,NFS 網(wǎng)絡(luò)文件系統(tǒng)將文件掛載到不同的機(jī)器上,通過(guò)一臺(tái)服務(wù)器(NFS Server)作為統(tǒng)一的入口,其他客戶(hù)端訪問(wèn) Server,Server 將從目標(biāo)機(jī)器上取文件給客戶(hù)端。簡(jiǎn)單理解為有一個(gè)文件服務(wù)器在遠(yuǎn)端,叫 NFS Server,上面有共享文件,可以將它掛載到你本地的機(jī)器上,訪問(wèn) NFS Server 就像訪問(wèn)自己電腦的某一個(gè)磁盤(pán)一樣(比如 C 盤(pán))。

HDFS 是有 NameNode 和 DataNode 的概念,最基本的模型是一臺(tái) NameNode,多臺(tái) DataNode。NameNode 存儲(chǔ)元信息,如某個(gè)文件存放在哪臺(tái)服務(wù)器上,有幾份備份等。DataNode 存儲(chǔ)數(shù)據(jù),數(shù)據(jù)文件被切分成塊(block),每一塊存儲(chǔ)在多個(gè)節(jié)點(diǎn)上,互為備份,默認(rèn)是 3 份,可以在同一個(gè)機(jī)架,一般為了保證高可用,會(huì)放在不同機(jī)架上。

HDFS 和 NFS 的主要區(qū)別:

  • HDFS 數(shù)據(jù)冗余,具有容錯(cuò)性,而 NFS 只存儲(chǔ)一份;
  • HDFS 數(shù)據(jù)多副本解決單點(diǎn)瓶頸,讀取性能會(huì)比 NFS 更好;

如何解決海量數(shù)據(jù)的計(jì)算

海量數(shù)據(jù)的計(jì)算關(guān)鍵是移動(dòng)計(jì)算而不是移動(dòng)數(shù)據(jù)。

假設(shè)有特別多的數(shù)據(jù)需要計(jì)算,只用一臺(tái)機(jī)器是無(wú)法實(shí)現(xiàn)的,因?yàn)閿?shù)據(jù)無(wú)法一次讀取完,會(huì)對(duì)內(nèi)存造成特別大的壓力,需要讀取很多次,會(huì)受網(wǎng)絡(luò)的限制。

Hadoop 通過(guò) MapReduce 實(shí)現(xiàn)海量數(shù)據(jù)的計(jì)算,數(shù)據(jù)存儲(chǔ)在多個(gè) DataNode 上,Map 階段將計(jì)算程序分發(fā)到每個(gè) DataNode 上,將每個(gè)節(jié)點(diǎn)上的計(jì)算結(jié)果通過(guò)網(wǎng)絡(luò)發(fā)送到某一臺(tái)做 Reduce 計(jì)算的機(jī)器,Reduce 將結(jié)果進(jìn)行匯總輸出。

感謝各位的閱讀,以上就是“為什么要用Hadoop”的內(nèi)容了,經(jīng)過(guò)本文的學(xué)習(xí)后,相信大家對(duì)為什么要用Hadoop這一問(wèn)題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是億速云,小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI