溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

如何使用Centos7系統(tǒng)搭建Hadoop-3.1.4完全分布式集群

發(fā)布時間:2021-07-10 14:26:47 來源:億速云 閱讀:487 作者:chen 欄目:系統(tǒng)運維

本篇內(nèi)容主要講解“如何使用Centos7系統(tǒng)搭建Hadoop-3.1.4完全分布式集群”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“如何使用Centos7系統(tǒng)搭建Hadoop-3.1.4完全分布式集群”吧!

大數(shù)據(jù)常用技術(shù)詞匯

未來的競爭,是數(shù)據(jù)之爭。大數(shù)據(jù)本質(zhì)上是Hadoop的生態(tài)群,下面是常用技術(shù)詞匯

  • ETL:代表提取、轉(zhuǎn)換和加載。

  • Hadoop:分布式系統(tǒng)基礎(chǔ)架構(gòu)

  • HDFS:分布式文件系統(tǒng)

  • HBase:大數(shù)據(jù)的NoSQL數(shù)據(jù)庫

  • Hive:數(shù)據(jù)倉庫工具

  • DAG :第二代計算引擎

  • Spark:第三代數(shù)據(jù)處理引擎

  • Flink:第四代數(shù)據(jù)處理引擎

  • MapReduce:最初的并行計算框架

  • Sqoop:nosql數(shù)據(jù)庫和傳統(tǒng)數(shù)據(jù)庫之間傳輸數(shù)據(jù)的工具

  • Hive:數(shù)據(jù)倉庫工具

  • Storm:分布式實時計算系統(tǒng)

  • Flume:分布式的海量日志采集系統(tǒng)。

  • Kafka:分布式發(fā)布訂閱消息系統(tǒng)

  • ElasticSearch:分布式搜索引擎

  • Kibana:ElasticSearch大數(shù)據(jù)的圖形化展示工具

  • Logstash:Elasticsearch 的傳送帶

  • Neo4j:nosql圖形數(shù)據(jù)庫

  • Oozie:工作流調(diào)度系統(tǒng) -YARN:作業(yè)調(diào)度和集群資源管理的框架

如何使用Centos7系統(tǒng)搭建Hadoop-3.1.4完全分布式集群

Hadoop集群

大數(shù)據(jù)是基于集群的分布式系統(tǒng)。所謂集群是指一組獨立的計算機系統(tǒng)構(gòu)成的一多處理器系統(tǒng),它們之間通過網(wǎng)絡(luò)實現(xiàn)進程間的通信,讓若干臺計算機聯(lián)合起來工作(服務(wù)),可以是并行的,也可以是做備份。

  • 分布式 :分布式的主要工作是分解任務(wù),將職能拆解,多個人在一起做不同的事

  • 集群:集群主要是將同一個業(yè)務(wù),部署在多個服務(wù)器上 ,多個人在一起做同樣的事

Hadoop介紹

Hadoop是Apache旗下的一個用Java語言實現(xiàn)開源軟件框架,是一個存儲和計算大規(guī)模數(shù)據(jù)的軟件平臺。

Hadoop是Apache Lucene創(chuàng)始人 Doug Cutting 創(chuàng)建的,最早起源一個Nutch項目。

  • 2003年Google發(fā)表了一篇GFS論文,為大規(guī)模數(shù)據(jù)存儲提供了可行的解決方案。

  • 2004年  Google發(fā)表論文MapReduce系統(tǒng),為大規(guī)模數(shù)據(jù)計算提供可行的解決方案。Nutch的開發(fā)人員以谷歌的論文為基礎(chǔ),完成了相應(yīng)的開源實現(xiàn)HDFS和MAPREDUCE,并從Nutch中剝離成為獨立項目Hadoop。

  • 到2008年1月,Hadoop成為Apache頂級項目,迎來了它的快速發(fā)展期。

  • 如今,國內(nèi)外的互聯(lián)網(wǎng)巨頭基本都在使用Hadoop框架作為大數(shù)據(jù)解決方案,越來越多的企業(yè)將Hadoop 技術(shù)作為進入大數(shù)據(jù)領(lǐng)域的必備技術(shù)。

目前,Hadoop發(fā)行版本分為開源社區(qū)版和商業(yè)版。

  • 開源社區(qū)版:指由Apache軟件基金會維護的版本,是官方維護的版本體系,版本豐富,兼容性稍差。

  • 商業(yè)版:指由第三方商業(yè)公司在社區(qū)版Hadoop基礎(chǔ)上進行了一些修改、整合以及各個服務(wù)組件兼容性測試而發(fā)行的版本,比較著名的有cloudera的CDH等。

開源社區(qū)版本:一般使用2.x版本系列,3.x版本系列:該版本是最新版本,但是還不太穩(wěn)定。

廢話不說了,開始今天的主題:使用三臺Centos7系統(tǒng)搭建Hadoop2.X完全分布式集群

去年使用CentOS  7搭建了hadoop3.X分布式集群,由于換了電腦,考慮到電腦安裝了很多前其他的東西,這次是使用二臺Centos7系統(tǒng)搭建Hadoop完全分布式集群,雖然Centos更新到8版本,但是很多大數(shù)據(jù)學習都是選擇基于Centos7系統(tǒng)搭建。這里不搭建一臺的偽分布式,搭建的版本是目前Haddop3.X穩(wěn)定的Hadoop-3.1.4。

去年對應(yīng)的文章教程:

  • https://blog.csdn.net/weixin_44510615/article/details/104625802

  • https://blog.csdn.net/weixin_44510615/article/details/106540129

集群搭建前的準備

Centos7的下載地址:http://mirrors.aliyun.com/centos/7.9.2009/isos/x86_64/CentOS-7-x86_64-DVD-2009.iso。共4.8g。

在集群搭建前的準備,需要在VMwear Workstation搭建一個Centos7系統(tǒng),關(guān)于搭建過程,由于簡單,這里直接省略。

在通過物理機連接虛擬機的時候,需要有VMnet1和VMnet8兩個虛擬網(wǎng)卡。

如果安裝Vmware沒有VMnet1和VMnet8,據(jù)我以前踩的坑,網(wǎng)上說安裝cclear軟件包進行注冊表的刪除,那是不斷刪除下載Vmware,并沒有解決問題,最終采用系統(tǒng)刷機的辦法,得以解決。

因此,搭建虛擬機的前提是,本地主機必須有虛擬本地環(huán)境,不然你怎么搞都是白搭。

如何使用Centos7系統(tǒng)搭建Hadoop-3.1.4完全分布式集群

在這里插入圖片描述

在此,就可以實現(xiàn)本地ping通虛擬機的IP,實現(xiàn)本地和虛擬機的信息連接。

如何使用Centos7系統(tǒng)搭建Hadoop-3.1.4完全分布式集群

這樣,就可以通過xshell對centos7進行遠程的連接。

如何使用Centos7系統(tǒng)搭建Hadoop-3.1.4完全分布式集群

在第一次使用Centos7,需要對創(chuàng)建的用戶提供管理員的權(quán)限,因此需要使用root賬號進行相關(guān)的修改,防止出現(xiàn)node01 不在 sudoers  文件中。此事將被報告。的報錯。

如何使用Centos7系統(tǒng)搭建Hadoop-3.1.4完全分布式集群

如何使用Centos7系統(tǒng)搭建Hadoop-3.1.4完全分布式集群

使 用 :wq! 保存退出、

如果遠程連接失敗,應(yīng)該沒有開發(fā)端口和IP地址。需要設(shè)置sudo vim /etc/ssh/sshd_config

如何使用Centos7系統(tǒng)搭建Hadoop-3.1.4完全分布式集群

如何使用Centos7系統(tǒng)搭建Hadoop-3.1.4完全分布式集群

設(shè)置靜態(tài)ip

設(shè)置靜態(tài)ip,通過ifconfig

如何使用Centos7系統(tǒng)搭建Hadoop-3.1.4完全分布式集群

如何使用Centos7系統(tǒng)搭建Hadoop-3.1.4完全分布式集群

重啟網(wǎng)卡

如何使用Centos7系統(tǒng)搭建Hadoop-3.1.4完全分布式集群

如何使用Centos7系統(tǒng)搭建Hadoop-3.1.4完全分布式集群

配置阿里云yum源

一開始下載速度很慢,需要配置阿里云yum源,下面來源官方文檔,使用的是root賬號。

#配置阿里云yum源 yum install -y wget cd  /etc/yum.repos.d/ mv  CentOS-Base.repo CentOS-Base.repo.bak wget  http://mirrors.aliyun.com/repo/Centos-7.repo mv Centos-7.repo CentOS-Base.repo #配置epel源 wget https://mirrors.aliyun.com/repo/epel-7.repo #清除緩存并更新 yum clean all yum makecache yum update

安裝JDK

由于 hadoop 框架的啟動是依賴 java 環(huán)境,因此需要準備 jdk 環(huán)境。目前,OpenJDK 和 Oracle Java  是最主要的兩個 Java 實現(xiàn)。卸載Linux系統(tǒng)原有jdkOpenJDK,然后安裝Oracle Java。

具體博客:https://blog.csdn.net/weixin_44510615/article/details/104425843

如何使用Centos7系統(tǒng)搭建Hadoop-3.1.4完全分布式集群

克隆一個虛擬機

如何使用Centos7系統(tǒng)搭建Hadoop-3.1.4完全分布式集群

并通過設(shè)置靜態(tài)分別為192.168.147.129,并將三臺Centos7主機名分別設(shè)置node01和node02,區(qū)別centos7機器。

之前創(chuàng)建用戶名使用node01,發(fā)現(xiàn)自己搞錯了,于是把兩個主機的用戶名都設(shè)置為hadoop。

關(guān)于Centos7修改用戶名:[root@node01 ~]# usermod -l hadoop -d /home/hadoop -m  node01。

自此我們有兩臺Centos電腦,在hadoop集群不使用root賬號。

如何使用Centos7系統(tǒng)搭建Hadoop-3.1.4完全分布式集群

xshell均可連接成功。

如何使用Centos7系統(tǒng)搭建Hadoop-3.1.4完全分布式集群

配置ssh免密碼登錄

[root@node01 ~]# vim /etc/sysconfig/network ######### HOSTNAME=node01 [root@node01 ~]# vim /etc/hosts ######### 192.168.147.128 node01 192.168.147.129 node02  [root@node01 ~]# systemctl stop firewalld [root@node01 ~]# systemctl disable firewalld.service  [root@node02 ~]# vim /etc/sysconfig/network ######### HOSTNAME=node02 [root@node02 ~]# vim /etc/hosts ######### 192.168.147.128 node01 192.168.147.129 node02  [root@node02 ~]# systemctl stop firewalld [root@node02 ~]# systemctl disable firewalld.service

實現(xiàn)hadoop賬號自由在node01和node02切換,具體查看我的博客:https://blog.csdn.net/weixin_44510615/article/details/104528001?

如何使用Centos7系統(tǒng)搭建Hadoop-3.1.4完全分布式集群

下載hadoop下載鏈接:https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.1.4/hadoop-3.1.4.tar.gz

[hadoop@node01 ~]$ ls hadoop-3.1.4.tar.gz  module  wget-log  公共  模板  視頻  圖片  文檔  下載  音樂  桌面 [hadoop@node01 ~]$ mkdir -p  module/hadoop [hadoop@node01 ~]$ tar -zxvf hadoop-3.1.4.tar.gz -C module/hadoop/ [hadoop@node01 ~]$ cd module/hadoop/hadoop-3.1.4/ [hadoop@node01 hadoop-3.1.4]$ sudo mkdir -p data/tmp [hadoop@node01 hadoop-3.1.4]$ ls bin  data  etc  include  lib  libexec  LICENSE.txt  NOTICE.txt  README.txt  sbin  share

 如何使用Centos7系統(tǒng)搭建Hadoop-3.1.4完全分布式集群

修改配置文件

在配置集群/分布式模式時,需要修改“hadoop/etc/hadoop”目錄下的配置文件,這里僅設(shè)置正常啟動所必須的設(shè)置項,包括workers、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml共5個文件,更多設(shè)置項可查看官方說明。

修改文件hadoop-env.sh

[hadoop@node01 hadoop]# vim hadoop-env.sh  ############ export  JAVA_HOME=/usr/java/jdk1.8.0_281/  [hadoop@node01 hadoop]# vim yarn-env.sh ############ export JAVA_HOME=/usr/java/jdk1.8.0_231

修改文件workers

在Master節(jié)點的workers文件中指定Slave節(jié)點,也就是node02

[hadoop@node01 hadoop]$ vim workers  [hadoop@node01 hadoop]$ cat workers  node02

修改文件core-site.xml

請把core-site.xml文件修改為如下內(nèi)容:

如何使用Centos7系統(tǒng)搭建Hadoop-3.1.4完全分布式集群

修改文件hdfs-site.xml

請把hdfs-site.xml文件修改為如下內(nèi)容:

如何使用Centos7系統(tǒng)搭建Hadoop-3.1.4完全分布式集群

對于Hadoop的分布式文件系統(tǒng)HDFS而言,一般都是采用冗余存儲,冗余因子通常為3,也就是說,一份數(shù)據(jù)保存三份副本。但是,本教程只有一個Slave節(jié)點作為數(shù)據(jù)節(jié)點,即集群中只有一個數(shù)據(jù)節(jié)點,數(shù)據(jù)只能保存一份,所以  ,dfs.replication的值還是設(shè)置為 1。

修改文件mapred-site.xml

請把mapred-site.xml文件修改為如下內(nèi)容:

[hadoop@node01 hadoop]$ cat mapred-site.xml  <configuration>         <property>                 <name>mapreduce.framework.name</name>                 <value>yarn</value>         </property> </configuration>

修改文件 yarn-site.xml

請把yarn-site.xml文件修改為如下內(nèi)容:

如何使用Centos7系統(tǒng)搭建Hadoop-3.1.4完全分布式集群

配置Hadoop環(huán)境變量

在etc/profile增加hadoop路徑:

如何使用Centos7系統(tǒng)搭建Hadoop-3.1.4完全分布式集群

如何使用Centos7系統(tǒng)搭建Hadoop-3.1.4完全分布式集群

初始化HDFS

初始化HDFS,執(zhí)行 namenode 初始化命令:

hdfs namenode -format

可能出現(xiàn)創(chuàng)建文件夾失敗的問題,這個權(quán)限問題,使用 root 賬號使用命令sudo chmod -R a+w  /絕對路徑。初始化HDFS失敗都要把之前創(chuàng)建的文件夾給刪除。

啟動集群

直接執(zhí)行start-all.sh,啟動 Hadoop。此時 node02上的相關(guān)服務(wù)也會被啟動:

如何使用Centos7系統(tǒng)搭建Hadoop-3.1.4完全分布式集群

在每臺服務(wù)器上使用 jps 命令查看服務(wù)進程,

如何使用Centos7系統(tǒng)搭建Hadoop-3.1.4完全分布式集群

如何使用Centos7系統(tǒng)搭建Hadoop-3.1.4完全分布式集群

或直接進入 Web-UI 界面進行查看,端口為 9870??梢钥吹酱藭r有一個可用的 Datanode:

如何使用Centos7系統(tǒng)搭建Hadoop-3.1.4完全分布式集群

接著可以查看 Yarn 的情況,端口號為 8088 :

如何使用Centos7系統(tǒng)搭建Hadoop-3.1.4完全分布式集群

至此,Hadoop分布式集群搭建成功。

到此,相信大家對“如何使用Centos7系統(tǒng)搭建Hadoop-3.1.4完全分布式集群”有了更深的了解,不妨來實際操作一番吧!這里是億速云網(wǎng)站,更多相關(guān)內(nèi)容可以進入相關(guān)頻道進行查詢,關(guān)注我們,繼續(xù)學習!

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI