溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

CentOS中如何搭建Hadoop

發(fā)布時(shí)間：2022-04-13 10:47:37 來(lái)源：億速云閱讀：169 作者：iii 欄目：編程語(yǔ)言

本文小編為大家詳細(xì)介紹“CentOS中如何搭建Hadoop”，內(nèi)容詳細(xì)，步驟清晰，細(xì)節(jié)處理妥當(dāng)，希望這篇“CentOS中如何搭建Hadoop”文章能幫助大家解決疑惑，下面跟著小編的思路慢慢深入，一起來(lái)學(xué)習(xí)新知識(shí)吧。

軟件環(huán)境：

虛擬機(jī)：vmware pro14

linux：centos-6.4（，下載dvd版本即可）

jdk：openjdk1.8.0 （強(qiáng)力建議不要使用 oracle 公司的 linux 版本的 jdk）

hadoop：2.6.5（）

虛擬機(jī)的安裝和linux系統(tǒng)的安裝這里就省略了，可以參照網(wǎng)上的教程安裝，一般沒(méi)什么大問(wèn)題，需要注意的是記住這里你輸入的用戶密碼，下面還要用，如下圖所示。

CentOS中如何搭建Hadoop

設(shè)置用戶密碼.jpg

用戶選擇

使用虛擬機(jī)安裝好系統(tǒng)后，可以看到登錄界面，如下圖所示。

CentOS中如何搭建Hadoop

選擇 other ，在 username 輸入框中輸入 root ，回車(chē)，再在 password 輸入框中輸入你創(chuàng)建用戶時(shí)密碼。root 用戶是安裝 centos 自動(dòng)創(chuàng)建的超級(jí)用戶，但密碼和你安裝系統(tǒng)時(shí)創(chuàng)建的普通用戶密碼是一樣的。

平時(shí)在使用 centos 時(shí)，并不推薦使用 root 用戶，因?yàn)樵撚脩艟哂姓麄€(gè)系統(tǒng)的最高權(quán)限，使用該用戶可能會(huì)導(dǎo)致嚴(yán)重的后果，但前提是你對(duì) linux 很熟，才會(huì)誤操作。搭建 hadoop 的大數(shù)據(jù)平臺(tái)，使用普通用戶，很多命令需要 sudo 命令來(lái)獲取 root 用戶的權(quán)限，比較麻煩，所以索性直接使用 root 用戶。

安裝ssh

集群、單節(jié)點(diǎn)模式都需要用到 ssh 登陸（類(lèi)似于遠(yuǎn)程登陸，你可以登錄某臺(tái) linux 主機(jī)，并且在上面運(yùn)行命令)。

首先確保你的 centos 系統(tǒng)可以正常的上網(wǎng)，你可以查看桌面右上角的網(wǎng)絡(luò)圖標(biāo)，若顯示紅叉則表明未聯(lián)網(wǎng)，可點(diǎn)擊選擇可用網(wǎng)絡(luò)，也可以使用桌面左上角的火狐瀏覽器輸入網(wǎng)址驗(yàn)證是否網(wǎng)絡(luò)連接正常。如果還是無(wú)法上網(wǎng)，檢查虛擬機(jī)的設(shè)置，選用 nat 模式，或者上網(wǎng)百度解決。

CentOS中如何搭建Hadoop

檢查網(wǎng)絡(luò)狀況.jpg

確定網(wǎng)絡(luò)連接正常后，打開(kāi) centos 的終端，可在 centos 的桌面點(diǎn)擊鼠標(biāo)右鍵，選擇 open in terminal ，如下圖所示。

CentOS中如何搭建Hadoop

打開(kāi)終端.jpg

一般情況下，centos 默認(rèn)已安裝了 ssh client、ssh server，可打開(kāi)終端執(zhí)行如下命令進(jìn)行檢驗(yàn)：

rpm -qa | grep ssh

如果返回的結(jié)果如下圖所示，包含了 ssh client 跟 ssh server，則不需要再安裝。

CentOS中如何搭建Hadoop

查看ssh是否已安裝.jpg

如果需要安裝，則可以通過(guò) yum 這個(gè)包管理器進(jìn)行安裝。（安裝過(guò)程中會(huì)讓你輸入 [y/n]，輸入 y 即可）

注意：命令是單條執(zhí)行的，不是直接把兩條命令粘貼過(guò)去。

終端中的粘貼可通過(guò)鼠標(biāo)點(diǎn)擊右鍵選擇 paste 粘貼，也可通過(guò)快捷鍵【shift + insert】粘貼。

yum install openssh-clients
yum install openssh-server

ssh安裝完成后，執(zhí)行如下命令測(cè)試一下 ssh 是否可用（ssh首次登陸提示 yes/no 信息，輸入 yes 即可，然后按照提示輸入 root 用戶的密碼，這樣就登錄到本機(jī)了），如下圖所示。

CentOS中如何搭建Hadoop

首次登錄ssh.jpg

但這樣登陸需要每次都輸入密碼，我們需要配置成ssh無(wú)密碼登陸比較方便。

首先輸入 exit 退出剛才的 ssh，就回到了我們?cè)鹊慕K端窗口，然后利用 ssh-keygen 生成密鑰，并將密鑰加入到授權(quán)中。

exit       # 退出剛才的 ssh localhost
cd ~/.ssh/      # 若提示沒(méi)有該目錄，請(qǐng)先執(zhí)行一次ssh localhost
ssh-keygen -t rsa    # 會(huì)有提示，都按回車(chē)即可
cat id_rsa.pub >> authorized_keys # 加入授權(quán)
chmod 600 ./authorized_keys # 修改文件權(quán)限

此時(shí)再用 ssh localhost 命令，無(wú)需輸入密碼就可以直接登陸了，如下圖所示。

CentOS中如何搭建Hadoop

再次登錄ssh.jpg

安裝 java 環(huán)境

java 環(huán)境可選擇 oracle 的 jdk，或是 openjdk（可看作 jdk 的開(kāi)源版本），現(xiàn)在一般 linux 系統(tǒng)默認(rèn)安裝的基本是 openjdk，這里安裝的是 openjdk1.8.0版本的。

有的 centos 6.4 默認(rèn)安裝了 openjdk 1.7，這里我們可以使用命令檢查一下，和 windows 下的命令一樣，還可以查看 java_home 這個(gè)環(huán)境變量的值。

java -version     # 查看 java 的版本
javac -version    # 查看編譯命令 javac 的版本
echo $java_home    # 查看 $java_home 這個(gè)環(huán)境變量的值

如果系統(tǒng)沒(méi)有安裝 openjdk，我們可以通過(guò) yum 包管理器來(lái)安裝。（安裝過(guò)程中會(huì)讓輸入 [y/n]，輸入 y 即可）

復(fù)制代碼代碼如下:

yum install java-1.8.0-openjdk java-1.8.0-openjdk-devel #安裝 openjdk1.8.0

通過(guò)上述命令安裝 openjdk，默認(rèn)安裝位置為 /usr/lib/jvm/java-1.8.0，下面配置 java_home 時(shí)就使用這個(gè)位置。

接著需要配置一下 java_home 環(huán)境變量，為了方便，直接在 ~/.bashrc 中進(jìn)行設(shè)置，相當(dāng)于配置的是 windows 的用戶環(huán)境變量，只對(duì)單個(gè)用戶生效，當(dāng)用戶登錄后，每次打開(kāi) shell 終端，.bashrc 文件都會(huì)被讀取。

修改文件，可以直接使用 vim 編輯器打開(kāi)文件，也可以使用類(lèi)似于 windows 記事本的 gedit 文本編輯器。

下面命令任選其一。

vim ~/.bashrc    # 使用 vim 編輯器在終端中打開(kāi) .bashrc 文件
gedit ~/.bashrc    # 使用 gedit 文本編輯器打開(kāi) .bashrc 文件

在文件最后面添加如下單獨(dú)一行（指向 jdk 的安裝位置），并保存。

CentOS中如何搭建Hadoop

配置java_home環(huán)境變量.jpg

接著還需要讓該環(huán)境變量生效，執(zhí)行如下命令。

source ~/.bashrc    # 使變量設(shè)置生效

設(shè)置好后我們來(lái)檢驗(yàn)一下是否設(shè)置正確，如下圖所示。

echo $java_home  # 檢驗(yàn)變量值
java -version
javac -version
$java_home/bin/java -version # 與直接執(zhí)行 java -version 一樣

CentOS中如何搭建Hadoop

檢查java_home環(huán)境變量是否配置正確.jpg

這樣，hadoop 所需的 java 運(yùn)行環(huán)境就安裝好了。

安裝 hadoop

在前面 軟件環(huán)境 已經(jīng)給出了 hadoop2.6.5 的下載地址，可以直接通過(guò)火狐瀏覽器打開(kāi)下載，默認(rèn)下載位置是在用戶的 home 中的 downloads 文件夾下，如下圖所示。

CentOS中如何搭建Hadoop

下載hadoop.jpg

下載完成后，我們將 hadoop 解壓到 /usr/local/ 中。

tar -zxf ~/下載/hadoop-2.6.5.tar.gz -c /usr/local # 解壓到/usr/local目錄中
cd /usr/local/       # 切換當(dāng)前目錄為 /usr/local 目錄
mv ./hadoop-2.6.5/ ./hadoop   # 將文件夾名改為hadoop
chown -r root:root ./hadoop   # 修改文件權(quán)限，root 是當(dāng)前用戶名

hadoop 解壓后即可使用，輸入如下命令來(lái)檢查 hadoop 是否可用，成功則會(huì)顯示 hadoop 版本信息。

cd /usr/local/hadoop     # 切換當(dāng)前目錄為 /usr/local/hadoop 目錄
./bin/hadoop version     # 查看 hadoop 的版本信息

或者直接輸入 hadoop version 命令也可以查看。

hadoop version       # 查看 hadoop 的版本信息

CentOS中如何搭建Hadoop

查看hadoop版本信息.jpg

hadoop 安裝方式有三種，分別是單機(jī)模式，偽分布式模式，分布式模式。

單機(jī)模式：hadoop 默認(rèn)模式為非分布式模式（本地模式），無(wú)需進(jìn)行其他配置即可運(yùn)行。非分布式即單 java 進(jìn)程，方便進(jìn)行調(diào)試。

偽分布式模式：hadoop 可以在單節(jié)點(diǎn)上以偽分布式的方式運(yùn)行，hadoop 進(jìn)程以分離的 java 進(jìn)程來(lái)運(yùn)行，節(jié)點(diǎn)既作為 namenode 也作為 datanode，同時(shí)，讀取的是 hdfs 中的文件。

分布式模式：使用多個(gè)節(jié)點(diǎn)構(gòu)成集群環(huán)境來(lái)運(yùn)行hadoop，需要多臺(tái)主機(jī)，也可以是虛擬主機(jī)。

hadoop 偽分布式配置

現(xiàn)在我們就可以來(lái)使用 hadoop 運(yùn)行一些例子，hadoop 附帶了很多的例子，可以運(yùn)行 hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.5.jar 看到所有的例子。

我們這里來(lái)運(yùn)行一個(gè)查詢的例子，將 input 文件夾作為輸入文件夾，篩選當(dāng)中符合正則表達(dá)式 dfs[a-z.]+ 的單詞，統(tǒng)計(jì)它的次數(shù)，將篩選結(jié)果輸出到 output 文件夾中。

cd /usr/local/hadoop  # 切換當(dāng)前目錄為 /usr/local/hadoop 目錄
mkdir ./input    # 在當(dāng)前目錄下創(chuàng)建 input 文件夾
cp ./etc/hadoop/*.xml ./input # 將 hadoop 的配置文件復(fù)制到新建的輸入文件夾 input 中
./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep ./input ./output 'dfs[a-z.]+' 
cat ./output/*    # 查看輸出結(jié)果

通過(guò)命令 cat ./output/* 查看結(jié)果，符合正則的單詞 dfsadmin 出現(xiàn)了 1次。

CentOS中如何搭建Hadoop

運(yùn)行測(cè)試hadoop例子.jpg

若運(yùn)行出錯(cuò)，如出現(xiàn)如下圖提示。

CentOS中如何搭建Hadoop

運(yùn)行hadoop例子出錯(cuò).jpg

若出現(xiàn)提示 “warn util.nativecodeloader: unable to load native-hadoop library for your platform… using builtin-java classes where applicable”，該 warn 提示可以忽略，不影響 hadoop 正常運(yùn)行。

注意：hadoop 默認(rèn)不會(huì)覆蓋結(jié)果文件，因此再次運(yùn)行上面實(shí)例會(huì)提示出錯(cuò)，需要先將 output 文件夾刪除。

rm -rf ./output  # 在 /usr/local/hadoop 目錄下執(zhí)行

測(cè)試我們的 hadoop 安裝沒(méi)有問(wèn)題，我們可以開(kāi)始設(shè)置 hadoop 的環(huán)境變量，同樣在 ~/.bashrc 文件中配置。

gedit ~/.bashrc # 使用 gedit 文本編輯器打開(kāi) .bashrc 文件

在 .bashrc 文件最后面增加如下內(nèi)容，注意 hadoop_home 的位置對(duì)不對(duì)，如果都是按照前面的配置，這部分可照抄。

# hadoop environment variables
export hadoop_home=/usr/local/hadoop
export hadoop_install=$hadoop_home
export hadoop_mapred_home=$hadoop_home
export hadoop_common_home=$hadoop_home
export hadoop_hdfs_home=$hadoop_home
export yarn_home=$hadoop_home
export hadoop_common_lib_native_dir=$hadoop_home/lib/native
export path=$path:$hadoop_home/sbin:$hadoop_home/bin

CentOS中如何搭建Hadoop

hadoop環(huán)境變量的配置.jpg

保存后記得關(guān)掉 gedit 程序，否則會(huì)占用終端，無(wú)法執(zhí)行下面的命令，可以按【ctrl + c】鍵終止該程序。

保存后，不要忘記執(zhí)行如下命令使配置生效。

source ~/.bashrc

hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 下，偽分布式需要修改2個(gè)配置文件 core-site.xml 和 hdfs-site.xml 。hadoop的配置文件是 xml 格式，每個(gè)配置以聲明 property 的 name 和 value 的方式來(lái)實(shí)現(xiàn)。

修改配置文件 core-site.xml (通過(guò) gedit 編輯會(huì)比較方便，輸入命令， gedit ./etc/hadoop/core-site.xml )。

在 <configuration></configuration> 中間插入如下的代碼。

<configuration>
 <property>
 <name>hadoop.tmp.dir</name>
 <value>file:/usr/local/hadoop/tmp</value>
 <description>abase for other temporary directories.</description>
 </property>
 <property>
 <name>fs.defaultfs</name>
 <value>hdfs://localhost:9000</value>
 </property>
</configuration>

同樣的，修改配置文件 hdfs-site.xml ， gedit ./etc/hadoop/hdfs-site.xml

<configuration>
 <property>
 <name>dfs.replication</name>
 <value>1</value>
 </property>
 <property>
 <name>dfs.namenode.name.dir</name>
 <value>file:/usr/local/hadoop/tmp/dfs/name</value>
 </property>
 <property>
 <name>dfs.datanode.data.dir</name>
 <value>file:/usr/local/hadoop/tmp/dfs/data</value>
 </property>
</configuration>

配置完成后，執(zhí)行 namenode 的格式化。（hadoop 首次啟動(dòng)需要該命令）

hdfs namenode -format

成功的話，會(huì)看到 “successfully formatted” 和 “exitting with status 0” 的提示，若為 “exitting with status 1” 則是出錯(cuò)。

CentOS中如何搭建Hadoop

namenode格式化.jpg

接下來(lái)啟動(dòng) hadoop。

start-dfs.sh  # 開(kāi)啟 namenode 和 datanode 進(jìn)程

若出現(xiàn)如下 ssh 的提示 “are you sure you want to continue connecting”，輸入 yes 即可。

CentOS中如何搭建Hadoop

啟動(dòng)hadoop注意事項(xiàng).jpg

啟動(dòng)完成后，可以通過(guò)命令 jps 來(lái)判斷是否成功啟動(dòng)，若出現(xiàn)下面 namenode、datanode、secondarynamenode、jps 四個(gè)進(jìn)程，則 hadoop 啟動(dòng)成功。

jps  # 查看進(jìn)程判斷 hadoop 是否啟動(dòng)成功

CentOS中如何搭建Hadoop

判斷hadoop是否啟動(dòng)成功.jpg

成功啟動(dòng)后，也可以訪問(wèn) web 界面 http://localhost:50070 查看 namenode 和 datanode 信息，還可以在線查看 hdfs 中的文件。

CentOS中如何搭建Hadoop

hadoop正常啟動(dòng)web界面.jpg

啟動(dòng)yarn

yarn 是從 mapreduce 中分離出來(lái)的，負(fù)責(zé)資源管理與任務(wù)調(diào)度。yarn 運(yùn)行于 mapreduce 之上，提供了高可用性、高擴(kuò)展性。（偽分布式不啟動(dòng) yarn 也可以，一般不會(huì)影響程序執(zhí)行）

上述通過(guò) start-dfs.sh 命令啟動(dòng) hadoop，僅僅是啟動(dòng)了 mapreduce 環(huán)境，我們可以啟動(dòng) yarn ，讓 yarn 來(lái)負(fù)責(zé)資源管理與任務(wù)調(diào)度。

首先修改配置文件 mapred-site.xml ，需要先將 mapred-site.xml.template 文件的重命名為 mapred-site.xml。

mv ./etc/hadoop/mapred-site.xml.template ./etc/hadoop/mapred-site.xml # 文件重命名
gedit ./etc/hadoop/mapred-site.xml         # 用gedit 文本編輯器打開(kāi)

<configuration>
 <property>
 <name>mapreduce.framework.name</name>
 <value>yarn</value>
 </property>
</configuration>

接著修改配置文件 yarn-site.xml 。

gedit ./etc/hadoop/yarn-site.xml # 用gedit 文本編輯器打開(kāi)

<configuration>
 <property>
 <name>yarn.nodemanager.aux-services</name>
 <value>mapreduce_shuffle</value>
 </property>
</configuration>

然后就可以啟動(dòng) yarn 了，執(zhí)行 start-yarn.sh 命令。

注意：在啟動(dòng) yarn 之前，要確保 dfs hadoop 已經(jīng)啟動(dòng)，也就是執(zhí)行過(guò) start-dfs.sh 。

start-yarn.sh   # 啟動(dòng)yarn
mr-jobhistory-daemon.sh start historyserver # 開(kāi)啟歷史服務(wù)器，才能在web中查看任務(wù)運(yùn)行情況

開(kāi)啟后通過(guò) jps 查看，可以看到多了 nodemanager 和 resourcemanager 兩個(gè)進(jìn)程，如下圖所示。

CentOS中如何搭建Hadoop

啟動(dòng)yarn.jpg

啟動(dòng) yarn 之后，運(yùn)行實(shí)例的方法還是一樣的，僅僅是資源管理方式、任務(wù)調(diào)度不同。啟動(dòng) yarn 有個(gè)好處是可以通過(guò) web 界面查看任務(wù)的運(yùn)行情況： http://localhost:8088/cluster 如下圖所示。

CentOS中如何搭建Hadoop

yarn的web界面.jpg

yarn 主要是為集群提供更好的資源管理與任務(wù)調(diào)度，如果不想啟動(dòng) yarn，務(wù)必把配置文件 mapred-site.xml 重命名，改成 mapred-site.xml.template，需要用時(shí)改回來(lái)就行。否則在該配置文件存在，而未開(kāi)啟 yarn 的情況下，運(yùn)行程序會(huì)提示 “retrying connect to server: 0.0.0.0/0.0.0.0:8032” 的錯(cuò)誤，這也是為何該配置文件初始文件名為 mapred-site.xml.template。

關(guān)閉 yarn 的命令如下，開(kāi)啟是 start，關(guān)閉是 stop。

stop-yarn.sh
mr-jobhistory-daemon.sh stop historyserver

讀到這里，這篇“CentOS中如何搭建Hadoop”文章已經(jīng)介紹完畢，想要掌握這篇文章的知識(shí)點(diǎn)還需要大家自己動(dòng)手實(shí)踐使用過(guò)才能領(lǐng)會(huì)，如果想了解更多相關(guān)內(nèi)容的文章，歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問(wèn)一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
centos yum php不刪除怎么升級(jí)
下一篇新聞：
CentOS6.5環(huán)境怎么安裝nginx服務(wù)器及配置負(fù)載均衡

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼

<blockquote id="ppe4h"><b id="ppe4h"><nobr id="ppe4h"></nobr></b></blockquote>