溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

基于CentOS的Hadoop分布式環(huán)境如何搭建

發(fā)布時(shí)間:2022-05-07 15:51:42 來(lái)源:億速云 閱讀:154 作者:iii 欄目:大數(shù)據(jù)

這篇文章主要講解了“基于CentOS的Hadoop分布式環(huán)境如何搭建”,文中的講解內(nèi)容簡(jiǎn)單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來(lái)研究和學(xué)習(xí)“基于CentOS的Hadoop分布式環(huán)境如何搭建”吧!

在搭建hadoop環(huán)境中你要知道的一些事兒:

1.hadoop運(yùn)行于linux系統(tǒng)之上,你要安裝linux操作系統(tǒng)

2.你需要搭建一個(gè)運(yùn)行hadoop的集群,例如局域網(wǎng)內(nèi)能互相訪問(wèn)的linux系統(tǒng)

3.為了實(shí)現(xiàn)集群之間的相互訪問(wèn),你需要做到ssh無(wú)密鑰登錄

4.hadoop的運(yùn)行在jvm上的,也就是說(shuō)你需要安裝java的jdk,并配置好java_home

5.hadoop的各個(gè)組件是通過(guò)xml來(lái)配置的。在官網(wǎng)上下載好hadoop之后解壓縮,修改/etc/hadoop目錄中相應(yīng)的配置文件

工欲善其事,必先利其器。這里也要說(shuō)一下,在搭建hadoop環(huán)境中使用到的相關(guān)軟件和工具:

1.virtualbox——畢竟要模擬幾臺(tái)linux,條件有限,就在virtualbox中創(chuàng)建幾臺(tái)虛擬機(jī)樓

2.centos——下載的centos7的iso鏡像,加載到virtualbox中,安裝運(yùn)行

3.securecrt——可以ssh遠(yuǎn)程訪問(wèn)linux的軟件

4.winscp——實(shí)現(xiàn)windows和linux的通信

5.jdk for linux——oracle官網(wǎng)上下載,解壓縮之后配置一下即可

6.hadoop2.7.1——可在apache官網(wǎng)上下載

好了,下面分三個(gè)步驟來(lái)講解

linux環(huán)境準(zhǔn)備

 配置ip

為了實(shí)現(xiàn)本機(jī)和虛擬機(jī)以及虛擬機(jī)和虛擬機(jī)之間的通信,virtualbox中設(shè)置centos的連接模式為host-only模式,并且手動(dòng)設(shè)置ip,注意虛擬機(jī)的網(wǎng)關(guān)和本機(jī)中host-only network 的ip地址相同。配置ip完成后還要重啟網(wǎng)絡(luò)服務(wù)以使得配置有效。這里搭建了三臺(tái)linux,如下圖所示

基于CentOS的Hadoop分布式環(huán)境如何搭建

基于CentOS的Hadoop分布式環(huán)境如何搭建

基于CentOS的Hadoop分布式環(huán)境如何搭建

基于CentOS的Hadoop分布式環(huán)境如何搭建

配置主機(jī)名字

對(duì)于192.168.56.101設(shè)置主機(jī)名字hadoop01。并在hosts文件中配置集群的ip和主機(jī)名。其余兩個(gè)主機(jī)的操作與此類(lèi)似

[root@hadoop01 ~]# cat /etc/sysconfig/network 
# created by anaconda 
networking = yes 
hostname = hadoop01   
[root@hadoop01 ~]# cat /etc/hosts 
127.0.0.1  localhost localhost.localdomain localhost4 localhost4.localdomain4 
::1     localhost localhost.localdomain localhost6 localhost6.localdomain6 
192.168.56.101 hadoop01 
192.168.56.102 hadoop02 
192.168.56.103 hadoop03

永久關(guān)閉防火墻

service iptables stop(1.下次重啟機(jī)器后,防火墻又會(huì)啟動(dòng),故需要永久關(guān)閉防火墻的命令;2由于用的是centos 7,關(guān)閉防火墻的命令如下)

systemctl stop firewalld.service    #停止firewall
systemctl disable firewalld.service #禁止firewall開(kāi)機(jī)啟動(dòng)

關(guān)閉selinux防護(hù)系統(tǒng)

改為disabled 。reboot重啟機(jī)器,使配置生效

[root@hadoop02 ~]# cat /etc/sysconfig/selinux 
 
# this file controls the state of selinux on the system 
# selinux= can take one of these three values: 
#   enforcing - selinux security policy is enforced 
 
#   permissive - selinux prints warnings instead of enforcing 
#   disabled - no selinux policy is loaded 
selinux=disabled 
# selinuxtype= can take one of three two values: 
#   targeted - targeted processes are protected, 
#   minimum - modification of targeted policy only selected processes are protected 
#   mls - multi level security protection 
selinuxtype=targeted

集群ssh免密碼登錄

首先設(shè)置ssh密鑰

ssh-keygen -t rsa

拷貝ssh密鑰到三臺(tái)機(jī)器

ssh-copy-id 192.168.56.101 
<pre name="code" class="plain">ssh-copy-id 192.168.56.102
ssh-copy-id 192.168.56.103

這樣如果hadoop01的機(jī)器想要登錄hadoop02,直接輸入ssh hadoop02

<pre name="code" class="plain">ssh hadoop02

配置jdk

這里在/home忠誠(chéng)創(chuàng)建三個(gè)文件夾中

tools——存放工具包

softwares——存放軟件

data——存放數(shù)據(jù)

通過(guò)winscp將下載好的linux jdk上傳到hadoop01的/home/tools中

解壓縮jdk到softwares中

<pre name="code" class="plain">tar -zxf jdk-7u76-linux-x64.tar.gz -c /home/softwares

可見(jiàn)jdk的家目錄在/home/softwares/jdk.x.x.x,將該目錄拷貝粘貼到/etc/profile文件中,并且在文件中設(shè)置java_home

export java_home=/home/softwares/jdk0_111 
export path=$path:$java_home/bin

保存修改,執(zhí)行source /etc/profile使配置生效

查看java jdk是否安裝成功:

java -version

可以將當(dāng)前節(jié)點(diǎn)中設(shè)置的文件拷貝到其他節(jié)點(diǎn)

scp -r /home/* root@192.168.56.10x:/home

hadoop集群安裝

集群的規(guī)劃如下:

101節(jié)點(diǎn)作為hdfs的namenode ,其余作為datanode;102作為yarn的resourcemanager,其余作為nodemanager。103作為secondarynamenode。分別在101和102節(jié)點(diǎn)啟動(dòng)jobhistoryserver和webappproxyserver基于CentOS的Hadoop分布式環(huán)境如何搭建

下載hadoop-2.7.3

并將其放在/home/softwares文件夾中。由于hadoop需要jdk的安裝環(huán)境,所以首先配置/etc/hadoop/hadoop-env.sh的java_home

(ps:感覺(jué)我用的jdk版本過(guò)高了)基于CentOS的Hadoop分布式環(huán)境如何搭建

接下來(lái)依次修改hadoop相應(yīng)組件對(duì)應(yīng)的xml

修改core-site.xml :

指定namenode地址

修改hadoop的緩存目錄

hadoop的垃圾回收機(jī)制

<configuration> 
  <property> 
    <name>fsdefaultfs</name> 
    <value>hdfs://101:8020</value> 
  </property> 
  <property> 
    <name>hadooptmpdir</name> 
    <value>/home/softwares/hadoop-3/data/tmp</value> 
  </property> 
  <property> 
    <name>fstrashinterval</name> 
    <value>10080</value> 
  </property> 
   
</configuration>

hdfs-site.xml

設(shè)置備份數(shù)目

關(guān)閉權(quán)限

設(shè)置http訪問(wèn)接口

設(shè)置secondary namenode 的ip地址

<configuration> 
  <property> 
    <name>dfsreplication</name> 
    <value>3</value> 
  </property> 
  <property> 
    <name>dfspermissionsenabled</name> 
    <value>false</value> 
  </property> 
  <property> 
    <name>dfsnamenodehttp-address</name> 
    <value>101:50070</value> 
  </property> 
  <property> 
    <name>dfsnamenodesecondaryhttp-address</name> 
    <value>103:50090</value> 
  </property> 
</configuration>

 修改mapred-site.xml.template名字為mapred-site.xml

指定mapreduce的框架為yarn,通過(guò)yarn來(lái)調(diào)度

指定jobhitory

指定jobhitory的web端口

開(kāi)啟uber模式——這是針對(duì)mapreduce的優(yōu)化

<configuration> 
  <property> 
    <name>mapreduceframeworkname</name> 
    <value>yarn</value> 
  </property> 
  <property> 
    <name>mapreducejobhistoryaddress</name> 
    <value>101:10020</value> 
  </property> 
  <property> 
    <name>mapreducejobhistorywebappaddress</name> 
    <value>101:19888</value> 
  </property> 
  <property> 
    <name>mapreducejobubertaskenable</name> 
    <value>true</value> 
  </property> 
</configuration>

修改yarn-site.xml

指定mapreduce為shuffle

指定102節(jié)點(diǎn)為resourcemanager

指定102節(jié)點(diǎn)的安全代理

開(kāi)啟yarn的日志

指定yarn日志刪除時(shí)間

指定nodemanager的內(nèi)存:8g

指定nodemanager的cpu:8核

<configuration> 
 
<!-- site specific yarn configuration properties --> 
  <property> 
    <name>yarnnodemanageraux-services</name> 
    <value>mapreduce_shuffle</value> 
  </property> 
  <property> 
    <name>yarnresourcemanagerhostname</name> 
    <value>102</value> 
  </property> 
  <property> 
    <name>yarnweb-proxyaddress</name> 
    <value>102:8888</value> 
  </property> 
  <property> 
    <name>yarnlog-aggregation-enable</name> 
    <value>true</value> 
  </property> 
  <property> 
    <name>yarnlog-aggregationretain-seconds</name> 
    <value>604800</value> 
  </property> 
  <property> 
    <name>yarnnodemanagerresourcememory-mb</name> 
    <value>8192</value> 
  </property> 
  <property> 
    <name>yarnnodemanagerresourcecpu-vcores</name> 
    <value>8</value> 
  </property> 
 
</configuration>

配置slaves

指定計(jì)算節(jié)點(diǎn),即運(yùn)行datanode和nodemanager的節(jié)點(diǎn)

192.168.56.101 
192.168.56.102 
192.168.56.103 

先在namenode節(jié)點(diǎn)格式化,即101節(jié)點(diǎn)上執(zhí)行:

進(jìn)入到hadoop主目錄: cd /home/softwares/hadoop-3  

執(zhí)行bin目錄下的hadoop腳本: bin/hadoop namenode -format 

出現(xiàn)successful format才算是執(zhí)行成功(ps,這里是盜用別人的圖,不要介意哈) 基于CentOS的Hadoop分布式環(huán)境如何搭建

 以上配置完成后,將其拷貝到其他的機(jī)器

hadoop環(huán)境測(cè)試

進(jìn)入hadoop主目錄下執(zhí)行相應(yīng)的腳本文件

jps命令——java virtual machine process status,顯示運(yùn)行的java進(jìn)程

在namenode節(jié)點(diǎn)101機(jī)器上開(kāi)啟hdfs

[root@hadoop01 hadoop-3]# sbin/start-dfssh  
java hotspot(tm) client vm warning: you have loaded library /home/softwares/hadoop-3/lib/native/libhadoopso which might have disabled stack guard the vm will try to fix the stack guard now 
it's highly recommended that you fix the library with 'execstack -c <libfile>', or link it with '-z noexecstack' 
16/11/07 16:49:19 warn utilnativecodeloader: unable to load native-hadoop library for your platform using builtin-java classes where applicable 
starting namenodes on [hadoop01] 
hadoop01: starting namenode, logging to /home/softwares/hadoop-3/logs/hadoop-root-namenode-hadoopout 
102: starting datanode, logging to /home/softwares/hadoop-3/logs/hadoop-root-datanode-hadoopout 
103: starting datanode, logging to /home/softwares/hadoop-3/logs/hadoop-root-datanode-hadoopout 
101: starting datanode, logging to /home/softwares/hadoop-3/logs/hadoop-root-datanode-hadoopout 
starting secondary namenodes [hadoop03] 
hadoop03: starting secondarynamenode, logging to /home/softwares/hadoop-3/logs/hadoop-root-secondarynamenode-hadoopout

此時(shí)101節(jié)點(diǎn)上執(zhí)行jps,可以看到namenode和datanode已經(jīng)啟動(dòng)

[root@hadoop01 hadoop-3]# jps 
7826 jps 
7270 datanode 
7052 namenode

在102和103節(jié)點(diǎn)執(zhí)行jps,則可以看到datanode已經(jīng)啟動(dòng)

[root@hadoop02 bin]# jps 
4260 datanode 
4488 jps 
 
[root@hadoop03 ~]# jps 
6436 secondarynamenode 
6750 jps 
6191 datanode

啟動(dòng)yarn

在102節(jié)點(diǎn)執(zhí)行

[root@hadoop02 hadoop-3]# sbin/start-yarnsh  
starting yarn daemons 
starting resourcemanager, logging to /home/softwares/hadoop-3/logs/yarn-root-resourcemanager-hadoopout 
101: starting nodemanager, logging to /home/softwares/hadoop-3/logs/yarn-root-nodemanager-hadoopout 
103: starting nodemanager, logging to /home/softwares/hadoop-3/logs/yarn-root-nodemanager-hadoopout 
102: starting nodemanager, logging to /home/softwares/hadoop-3/logs/yarn-root-nodemanager-hadoopout

jps查看各節(jié)點(diǎn):

[root@hadoop02 hadoop-3]# jps 
4641 resourcemanager 
4260 datanode 
4765 nodemanager 
5165 jps 
 
 
[root@hadoop01 hadoop-3]# jps 
7270 datanode 
8375 jps 
7976 nodemanager 
7052 namenode 
 
 
[root@hadoop03 ~]# jps 
6915 nodemanager 
6436 secondarynamenode 
7287 jps 
6191 datanode

分別啟動(dòng)相應(yīng)節(jié)點(diǎn)的jobhistory和防護(hù)進(jìn)程

[root@hadoop01 hadoop-3]# sbin/mr-jobhistory-daemonsh start historyserver 
starting historyserver, logging to /home/softwares/hadoop-3/logs/mapred-root-historyserver-hadoopout 
[root@hadoop01 hadoop-3]# jps 
8624 jps 
7270 datanode 
7976 nodemanager 
8553 jobhistoryserver 
7052 namenode 
 
[root@hadoop02 hadoop-3]# sbin/yarn-daemonsh start proxyserver 
starting proxyserver, logging to /home/softwares/hadoop-3/logs/yarn-root-proxyserver-hadoopout 
[root@hadoop02 hadoop-3]# jps 
4641 resourcemanager 
4260 datanode 
5367 webappproxyserver 
5402 jps 
4765 nodemanager

在hadoop01節(jié)點(diǎn),即101節(jié)點(diǎn)上,通過(guò)瀏覽器查看節(jié)點(diǎn)狀況 基于CentOS的Hadoop分布式環(huán)境如何搭建基于CentOS的Hadoop分布式環(huán)境如何搭建

hdfs上傳文件

[root@hadoop01 hadoop-3]# bin/hdfs dfs -put /etc/profile /profile

運(yùn)行wordcount程序

[root@hadoop01 hadoop-3]# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-jar wordcount /profile /fll_out 
java hotspot(tm) client vm warning: you have loaded library /home/softwares/hadoop-3/lib/native/libhadoopso which might have disabled stack guard the vm will try to fix the stack guard now 
it's highly recommended that you fix the library with 'execstack -c <libfile>', or link it with '-z noexecstack' 
16/11/07 17:17:10 warn utilnativecodeloader: unable to load native-hadoop library for your platform using builtin-java classes where applicable 
16/11/07 17:17:12 info clientrmproxy: connecting to resourcemanager at /102:8032 
16/11/07 17:17:18 info inputfileinputformat: total input paths to process : 1 
16/11/07 17:17:19 info mapreducejobsubmitter: number of splits:1 
16/11/07 17:17:19 info mapreducejobsubmitter: submitting tokens for job: job_1478509135878_0001 
16/11/07 17:17:20 info implyarnclientimpl: submitted application application_1478509135878_0001 
16/11/07 17:17:20 info mapreducejob: the url to track the job: http://102:8888/proxy/application_1478509135878_0001/ 
16/11/07 17:17:20 info mapreducejob: running job: job_1478509135878_0001 
16/11/07 17:18:34 info mapreducejob: job job_1478509135878_0001 running in uber mode : true 
16/11/07 17:18:35 info mapreducejob: map 0% reduce 0% 
16/11/07 17:18:43 info mapreducejob: map 100% reduce 0% 
16/11/07 17:18:50 info mapreducejob: map 100% reduce 100% 
16/11/07 17:18:55 info mapreducejob: job job_1478509135878_0001 completed successfully 
16/11/07 17:18:59 info mapreducejob: counters: 52 
    file system counters 
        file: number of bytes read=4264 
        file: number of bytes written=6412 
        file: number of read operations=0 
        file: number of large read operations=0 
        file: number of write operations=0 
        hdfs: number of bytes read=3940 
        hdfs: number of bytes written=261673 
        hdfs: number of read operations=35 
        hdfs: number of large read operations=0 
        hdfs: number of write operations=8 
    job counters  
        launched map tasks=1 
        launched reduce tasks=1 
        other local map tasks=1 
        total time spent by all maps in occupied slots (ms)=8246 
        total time spent by all reduces in occupied slots (ms)=7538 
        total_launched_ubertasks=2 
        num_uber_submaps=1 
        num_uber_subreduces=1 
        total time spent by all map tasks (ms)=8246 
        total time spent by all reduce tasks (ms)=7538 
        total vcore-milliseconds taken by all map tasks=8246 
        total vcore-milliseconds taken by all reduce tasks=7538 
        total megabyte-milliseconds taken by all map tasks=8443904 
        total megabyte-milliseconds taken by all reduce tasks=7718912 
    map-reduce framework 
        map input records=78 
        map output records=256 
        map output bytes=2605 
        map output materialized bytes=2116 
        input split bytes=99 
        combine input records=256 
        combine output records=156 
        reduce input groups=156 
        reduce shuffle bytes=2116 
        reduce input records=156 
        reduce output records=156 
        spilled records=312 
        shuffled maps =1 
        failed shuffles=0 
        merged map outputs=1 
        gc time elapsed (ms)=870 
        cpu time spent (ms)=1970 
        physical memory (bytes) snapshot=243326976 
        virtual memory (bytes) snapshot=2666557440 
        total committed heap usage (bytes)=256876544 
    shuffle errors 
        bad_id=0 
        connection=0 
        io_error=0 
        wrong_length=0 
        wrong_map=0 
        wrong_reduce=0 
    file input format counters  
        bytes read=1829 
    file output format counters  
        bytes written=1487

瀏覽器中通過(guò)yarn查看運(yùn)行狀態(tài) 基于CentOS的Hadoop分布式環(huán)境如何搭建

查看最后的詞頻統(tǒng)計(jì)結(jié)果

瀏覽器中查看hdfs的文件系統(tǒng)基于CentOS的Hadoop分布式環(huán)境如何搭建

[root@hadoop01 hadoop-3]# bin/hdfs dfs -cat /fll_out/part-r-00000 
java hotspot(tm) client vm warning: you have loaded library /home/softwares/hadoop-3/lib/native/libhadoopso which might have disabled stack guard the vm will try to fix the stack guard now 
it's highly recommended that you fix the library with 'execstack -c <libfile>', or link it with '-z noexecstack' 
16/11/07 17:29:17 warn utilnativecodeloader: unable to load native-hadoop library for your platform using builtin-java classes where applicable 
!=   1 
"$-"  1 
"$2"  1 
"$euid" 2 
"$histcontrol" 1 
"$i"  3 
"${-#*i}"    1 
"0"   1 
":${path}:"   1 
"`id  2 
"after" 1 
"ignorespace"  1 
#    13 
$uid  1 
&&   1 
()   1 
*)   1 
*:"$1":*)    1 
-f   1 
-gn`"  1 
-gt   1 
-r   1 
-ru`  1 
-u`   1 
-un`"  2 
-x   1 
-z   1 
    2 
/etc/bashrc   1 
/etc/profile  1 
/etc/profiled/ 1 
/etc/profiled/*sh   1 
/usr/bin/id   1 
/usr/local/sbin 2 
/usr/sbin    2 
/usr/share/doc/setup-*/uidgid  1 
002   1 
022   1 
199   1 
200   1 
2>/dev/null`  1 
;    3 
;;   1 
=    4 
>/dev/null   1 
by   1 
current 1 
euid=`id    1 
functions    1 
histcontrol   1 
histcontrol=ignoreboth 1 
histcontrol=ignoredups 1 
histsize    1 
histsize=1000  1 
hostname    1 
hostname=`/usr/bin/hostname   1 
it's  2 
java_home=/home/softwares/jdk0_111 1 
logname 1 
logname=$user  1 
mail  1 
mail="/var/spool/mail/$user"  1 
not   1 
path  1 
path=$1:$path  1 
path=$path:$1  1 
path=$path:$java_home/bin    1 
path  1 
system 1 
this  1 
uid=`id 1 
user  1 
user="`id    1 
you   1 
[    9 
]    3 
];   6 
a    2 
after  2 
aliases 1 
and   2 
are   1 
as   1 
better 1 
case  1 
change 1 
changes 1 
check  1 
could  1 
create 1 
custom 1 
customsh    1 
default,    1 
do   1 
doing 1 
done  1 
else  5 
environment   1 
environment,  1 
esac  1 
export 5 
fi   8 
file  2 
for   5 
future 1 
get   1 
go   1 
good  1 
i    2 
idea  1 
if   8 
in   6 
is   1 
it   1 
know  1 
ksh   1 
login  2 
make  1 
manipulation  1 
merging 1 
much  1 
need  1 
pathmunge    6 
prevent 1 
programs,    1 
reservation   1 
reserved    1 
script 1 
set  1 
sets  1 
setup  1 
shell  2 
startup 1 
system 1 
the   1 
then  8 
this  2 
threshold    1 
to   5 
uid/gids    1 
uidgid 1 
umask  3 
unless 1 
unset  2 
updates    1 
validity    1 
want  1 
we   1 
what  1 
wide  1 
will  1 
workaround   1 
you   2 
your  1 
{    1 
}    1

感謝各位的閱讀,以上就是“基于CentOS的Hadoop分布式環(huán)境如何搭建”的內(nèi)容了,經(jīng)過(guò)本文的學(xué)習(xí)后,相信大家對(duì)基于CentOS的Hadoop分布式環(huán)境如何搭建這一問(wèn)題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是億速云,小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI