Hadoop：適合大數(shù)據(jù)的分布式存儲與計(jì)算平臺（第三講）

發(fā)布時(shí)間：2020-07-18 20:55:21 來源：網(wǎng)絡(luò) 閱讀：1527 作者：51_天天向上欄目：大數(shù)據(jù)

1.hadoop：

作者：Doug Cutting

受Google三篇論文的啟發(fā)

2.版本：

Apache：官方版本（1.1.2），學(xué)習(xí)使用

Cloudera：在apache版本的基礎(chǔ)上添加功能，實(shí)現(xiàn)商業(yè)用途

Yahoo：現(xiàn)在已經(jīng)集中在apache的版本上

3.hadoop的核心項(xiàng)目

HDFS:(Hadoop Distributed File System) 分布式文件系統(tǒng)

MapReduce:并行計(jì)算框架

4.HDFS的架構(gòu)（主從結(jié)構(gòu)中，主節(jié)點(diǎn)負(fù)責(zé)管理。從節(jié)點(diǎn)負(fù)責(zé)操作）

主從結(jié)構(gòu)（只有一個(gè)主節(jié)點(diǎn)namenode,可以有很多個(gè)從節(jié)點(diǎn)datanodes）

namenode負(fù)責(zé)：

接收用戶的操作請求

維護(hù)文件系統(tǒng)的目錄結(jié)構(gòu)

管理文件與block之間的關(guān)系，block與datanode之間的關(guān)系

datanode負(fù)責(zé)：

存儲文件

文件被分成block存儲在磁盤上

為保證數(shù)據(jù)安全，文件會有多個(gè)副本

5.MapReduce的架構(gòu)

主從結(jié)構(gòu)（只有一個(gè)主節(jié)點(diǎn)JobTracker，可以用很多個(gè)從節(jié)點(diǎn)TaskTrackers）

JobTracker負(fù)責(zé)：

接收客戶提交的計(jì)算任務(wù)

把計(jì)算任務(wù)分給TaskTracker執(zhí)行

監(jiān)控TaskTracker的執(zhí)行情況

TaskTrackers負(fù)責(zé)：

執(zhí)行JobTracker分配的計(jì)算任務(wù)

6.Hadoop的特點(diǎn)：

擴(kuò)容能力（Scalable）:能可靠地存儲和處理千兆字節(jié)（PB）數(shù)據(jù)；

成本低（Economical）:可以通過普通機(jī)器組成的服務(wù)器群來分發(fā)以及處理數(shù)據(jù)；

高效率（Efficient）:通過分發(fā)數(shù)據(jù)，hadoop可以在數(shù)據(jù)的所在節(jié)點(diǎn)上并行處理；

可性靠（Reliable）:hadoop能自動地維護(hù)數(shù)據(jù)的多份副本，并且在任務(wù)失敗后能自動重新部署計(jì)算任務(wù)

7.Hadoop集群的物理分布

Hadoop：適合大數(shù)據(jù)的分布式存儲與計(jì)算平臺（第三講）

說明：

a.下方的Rack分別表示兩個(gè)機(jī)柜，分別存放多個(gè)服務(wù)器，左右兩機(jī)柜都連接有自己的交換機(jī)，左右兩個(gè)交換機(jī)又和總的交換機(jī)連接，所以，機(jī)柜上的各個(gè)服務(wù)器之間可以互相訪問;

b.機(jī)柜上兩個(gè)主節(jié)點(diǎn)分別都獨(dú)占一臺服務(wù)器，而從節(jié)點(diǎn)組合在一起存放在一臺服務(wù)器上

8.單節(jié)點(diǎn)物理結(jié)構(gòu)

Hadoop：適合大數(shù)據(jù)的分布式存儲與計(jì)算平臺（第三講）

說明：左右圖分別表示主節(jié)點(diǎn)和從節(jié)點(diǎn)，圖中主從節(jié)點(diǎn)都使用linux系統(tǒng)的服務(wù)器，并且都運(yùn)行在java虛擬機(jī)上，因?yàn)閔adoop是基于java開發(fā)的

9.Hadoop部署方式

本地部署（不常用）

偽分布模式（學(xué)習(xí)使用）

集群模式（公司使用）

10.安裝前準(zhǔn)備軟件

VitualVox

centos

jdk-6u24-linux-xxx.bin

hadoop-1.1.2.tar.gz

11.偽分布模式安裝步驟：（6步）

關(guān)閉防火墻

修改ip

修改hostname

設(shè)置ssh自動登錄

安裝jdk

安裝hadoop

向AI問一下細(xì)節(jié)

Hadoop：適合大數(shù)據(jù)的分布式存儲與計(jì)算平臺（第三講）

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽