您好,登錄后才能下訂單哦!
小編給大家分享一下HDFS基礎(chǔ)配置安裝及命令使用的示例分析,希望大家閱讀完這篇文章之后都有所收獲,下面讓我們一起去探討吧!
HDFS是基于Java的文件系統(tǒng),可在Hadoop生態(tài)系統(tǒng)中提供可擴(kuò)展且可靠的數(shù)據(jù)存儲(chǔ)。因此,我們需要了解基本的HDFS配置和命令才能正常使用它。在使用之前,我們首先討論如何配置安裝HDFS。Hadoop以及HDFS都運(yùn)行在java環(huán)境中,因此我們都需要安裝JDK:
yum -y install jdk(或手動(dòng)安裝)
設(shè)置namenode節(jié)點(diǎn)到datanode節(jié)點(diǎn)的免密登陸
1、本地免密登錄
# ssh localhost #檢測(cè)能否在本機(jī)上實(shí)現(xiàn)免密碼登陸 # ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa #創(chuàng)建登陸的公鑰和私鑰,公鑰放在id_dsa.pub中,私鑰放在id_dsa中
# cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys #將公鑰追加到已認(rèn)證信息中 # ssh localhost #實(shí)現(xiàn)免密碼登陸
2、跨主機(jī)免密登陸
# scp ~/.ssh/id_dsa.pub root@node2:~/.ssh/ #在namenode上執(zhí)行 # cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys #將公鑰追加到已認(rèn)證信息中,在datanode上執(zhí)行該操作
3、對(duì)所有datanode執(zhí)行上述操作
設(shè)置域名解析(在所有節(jié)點(diǎn)增加)
# vi /etc/hosts # 增加節(jié)點(diǎn)對(duì)應(yīng)節(jié)點(diǎn),如果不加入節(jié)點(diǎn)則需要在配置文件中寫(xiě)節(jié)點(diǎn)IP 192.168.150.128 node1 192.168.150.129 node2 192.168.150.130 node3 192.168.150.131 node4
由于Hadoop有bin包,所以下載后只需解壓即可使用。如果我們使用的是版本hadoop-1.2.1,那就將軟件解壓到/root/hadoop-1.2.1文件夾中。
注意:namenode和datanode軟件包的放置位置要完全相同,否則在集群?jiǎn)?dòng)服務(wù)時(shí)會(huì)出現(xiàn)找不到文件的情況。
配置
#vi /root/hadoop-1.2.1/conf/core-site.xml ????<configuration>?????<property> ?????? <name>fs.default.name</name> # namenode節(jié)點(diǎn)名 ??????<value>hdfs://node1:9000</value> #namenode域名(或IP)和端口 ?????</property> ?????<property> ??????<name>hadoop.tmp.dir</name> #文件儲(chǔ)存目錄 ?????? <value>/opt/hadoop-1.2</value> #fs的放置位置 ?????</property> ????</configuration> ????其它具體配置可以查看./hadoop-1.2.1/docs的文檔。 ??#vi /root/hadoop-1.2.1/conf/hdfs-site.xml????<configuration> ???? <name>dfs.replication</name> #block的副本數(shù),不能超過(guò)datanode的數(shù)目 ????<value>2</value> ????</configuration> ??#vi /root/hadoop-1.2.1/conf/slaves #該文件設(shè)置datanode節(jié)點(diǎn)的域名(IP) ????node2 ????node3 ??#vi /root/hadoop-1.2.1/conf/masters #該文件設(shè)置secondarynamenode節(jié)點(diǎn)的域名(IP) ????node2 # 只要跟namenode不在同一臺(tái)機(jī)器上即可????#vi /root/hadoop-1.2.1/conf/hadoop-env.sh #設(shè)置運(yùn)行環(huán)境 ????export JAVA_HOME=/usr/java/jdk1.7.0_79 # 只要設(shè)置jdk的目錄即可 ??在所有的節(jié)點(diǎn)上進(jìn)行上述的相同配置。
HDFS本地Golang客戶(hù)端實(shí)踐
基于上述基礎(chǔ)配置,我們也可以嘗試配置HDFS的本地golang客戶(hù)端,它使用協(xié)議緩沖區(qū)API直接連接namenode,使用stdlib os包并實(shí)現(xiàn)相應(yīng)接口,包括os.FileInfo和os.PathError。
這是它在action中的狀態(tài):
client, _ := hdfs.New("namenode:8020")file, _ := client.Open("/mobydick.txt")buf := make([]byte, 59) file.ReadAt(buf, 48847) fmt.Println(string(buf))// => Abominable are the tumblers into which he pours his poison.
HDFS二進(jìn)制文件
與庫(kù)類(lèi)似,此repo包含HDFS命令行客戶(hù)端,主要目標(biāo)是啟用unix動(dòng)詞實(shí)現(xiàn):
$ hdfs --help Usage: hdfs COMMAND The flags available are a subset of the POSIX ones, but should behave similarly. Valid commands: ls [-lah] [FILE]... rm [-rf] FILE... mv [-fT] SOURCE... DEST mkdir [-p] FILE... touch [-amc] FILE... chmod [-R] OCTAL-MODE FILE... chown [-R] OWNER[:GROUP] FILE... cat SOURCE... head [-n LINES | -c BYTES] SOURCE... tail [-n LINES | -c BYTES] SOURCE... du [-sh] FILE... checksum FILE... get SOURCE [DEST] getmerge SOURCE DEST put SOURCE DEST
由于它不必等待JVM啟動(dòng),所以hadoop -fs要快得多:
$ time hadoop fs -ls / > /dev/null real 0m2.218s user 0m2.500s sys 0m0.376s $ time hdfs ls / > /dev/null real 0m0.015s user 0m0.004s sys 0m0.004s
安裝命令行客戶(hù)端
從發(fā)布頁(yè)面抓取tarball并將其解壓縮到任意位置。
要配置客戶(hù)端,請(qǐng)確保其中一個(gè)或兩個(gè)環(huán)境變量指向Hadoop配置(core-site.xml和hdfs-site.xml)。在安裝了Hadoop的系統(tǒng)上,應(yīng)該已經(jīng)設(shè)置過(guò)上述變量。
$ export HADOOP_HOME="/etc/hadoop" $ export HADOOP_CONF_DIR="/etc/hadoop/conf"
要在linux上完成選項(xiàng)卡安裝,請(qǐng)將tarball附帶的bash_completion文件復(fù)制或鏈接到正確位置:
$ ln -sT bash_completion /etc/bash_completion.d/gohdfs
默認(rèn)情況下,在非kerberized集群上,HDFS用戶(hù)可設(shè)置為當(dāng)前登錄用戶(hù),也可以使用另一個(gè)環(huán)境變量覆蓋它:
$ export HADOOP_USER_NAME=username
使用帶有Kerberos身份驗(yàn)證的命令行客戶(hù)端
與hadoop fs一樣,命令行客戶(hù)端需要在默認(rèn)位置使用ccache文件:/ tmp / krb5cc_ <uid>。 這意味著它必須“正常工作”才能使用kinit:
$ kinit bob@EXAMPLE.com $ hdfs ls /
如果不起作用,請(qǐng)嘗試將KRB5CCNAME環(huán)境變量設(shè)置為保存ccache的位置。
兼容性
該庫(kù)使用HDFS協(xié)議的“Version 9”,這意味著它應(yīng)該使用基于2.2.x及更高版本的Hadoop發(fā)行版,測(cè)試針對(duì)CDH 5.x和HDP 2.x運(yùn)行。
檢查機(jī)器是否能與HDFS通信
如果想檢查一臺(tái)機(jī)器是否可以與另一臺(tái)機(jī)器上運(yùn)行的HDFS服務(wù)器通信,并從Hadoop wiki中修改一些代碼,如下所示:
package org.playground; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FSDataOutputStream; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import java.io.IOException; public class HadoopDFSFileReadWrite { static void printAndExit(String str) { System.err.println( str ); System.exit(1); } public static void main (String[] argv) throws IOException { Configuration conf = new Configuration(); conf.addResource(new Path("/Users/markneedham/Downloads/core-site.xml")); FileSystem fs = FileSystem.get(conf); Path inFile = new Path("hdfs://192.168.0.11/user/markneedham/explore.R"); Path outFile = new Path("hdfs://192.168.0.11/user/markneedham/output-" + System.currentTimeMillis()); // Check if input/output are valid if (!fs.exists(inFile)) printAndExit("Input file not found"); if (!fs.isFile(inFile)) printAndExit("Input should be a file"); if (fs.exists(outFile)) printAndExit("Output already exists"); // Read from and write to new file byte buffer[] = new byte[256]; try ( FSDataInputStream in = fs.open( inFile ); FSDataOutputStream out = fs.create( outFile ) ) { int bytesRead = 0; while ( (bytesRead = in.read( buffer )) > 0 ) { out.write( buffer, 0, bytesRead ); } } catch ( IOException e ) { System.out.println( "Error while copying file" ); } } }
我最初以為POM文件中只有以下內(nèi)容:
<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>2.7.0</version> </dependency>
但運(yùn)行腳本時(shí),我得到了以下結(jié)果:
Exception in thread "main" java.lang.NoSuchMethodError: org.apache.hadoop.fs.FSOutputSummer.<init>(Ljava/util/zip/Checksum;II)V at org.apache.hadoop.hdfs.DFSOutputStream.<init>(DFSOutputStream.java:1553) at org.apache.hadoop.hdfs.DFSOutputStream.<init>(DFSOutputStream.java:1582) at org.apache.hadoop.hdfs.DFSOutputStream.newStreamForCreate(DFSOutputStream.java:1614) at org.apache.hadoop.hdfs.DFSClient.create(DFSClient.java:1465) at org.apache.hadoop.hdfs.DFSClient.create(DFSClient.java:1390) at org.apache.hadoop.hdfs.DistributedFileSystem$6.doCall(DistributedFileSystem.java:394) at org.apache.hadoop.hdfs.DistributedFileSystem$6.doCall(DistributedFileSystem.java:390) at org.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:81) at org.apache.hadoop.hdfs.DistributedFileSystem.create(DistributedFileSystem.java:390) at org.apache.hadoop.hdfs.DistributedFileSystem.create(DistributedFileSystem.java:334) at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:909) at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:890) at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:787) at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:776) at org.playground.HadoopDFSFileReadWrite.main(HadoopDFSFileReadWrite.java:37) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:497) at com.intellij.rt.execution.application.AppMain.main(AppMain.java:140)
通過(guò)跟蹤堆棧跟蹤,我意識(shí)到犯了一個(gè)錯(cuò)誤,即對(duì)hadoop-hdfs 2.4.1進(jìn)行了依賴(lài)。如果沒(méi)有hadoop-hdfs依賴(lài),我們會(huì)看到如下錯(cuò)誤:
Exception in thread "main" java.io.IOException: No FileSystem for scheme: hdfs at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2644) at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2651) at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:92) at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2687) at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2669) at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:371) at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:170) at org.playground.HadoopDFSFileReadWrite.main(HadoopDFSFileReadWrite.java:22) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:497) at com.intellij.rt.execution.application.AppMain.main(AppMain.java:140)
現(xiàn)在,讓我們添加正確的依賴(lài)項(xiàng)版本,并確??梢园凑疹A(yù)期工作:
<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-hdfs</artifactId> <version>2.7.0</version> <exclusions> <exclusion> <groupId>ch.qos.logback</groupId> <artifactId>logback-classic</artifactId> </exclusion> <exclusion> <groupId>javax.servlet</groupId> <artifactId>servlet-api</artifactId> </exclusion> </exclusions> </dependency>
運(yùn)行時(shí),它會(huì)在另一臺(tái)機(jī)器上用當(dāng)前時(shí)間戳在HDFS中創(chuàng)建一個(gè)新文件:
$ date +%s000 1446336801000 $ hdfs dfs -ls ... -rw-r--r-- 3 markneedham supergroup 9249 2015-11-01 00:13 output-1446337098257 ...
(該項(xiàng)目開(kāi)源地址:https://github.com/colinmarc/hdfs)
基礎(chǔ)HDFS命令
完成安裝配置后,我們需要了解HDFS基礎(chǔ)命令,需要知道每個(gè)命令的詳細(xì)語(yǔ)法。一般語(yǔ)法如下:
hadoop dfs [COMMAND [COMMAND_OPTIONS]]
這將在Hadoop(HDFS)支持的文件系統(tǒng)上運(yùn)行filesystem命令,其余Command選項(xiàng)如下所示:
1、put命令
'put'命令將數(shù)據(jù)輸入HDFS。
語(yǔ)法:hadoop dfs -put </ source path> </ destination path>
2、List命令
'list'命令顯示特定路徑中的所有可用文件。
語(yǔ)法:hadoop dfs -ls </ source path>
3、Get命令
'get'命令將上述文件的全部?jī)?nèi)容復(fù)制到本地驅(qū)動(dòng)器。
語(yǔ)法:hadoop dfs -get </ source path> </ destination path>
4、Make Directory命令
'mkdir'命令在指定位置創(chuàng)建一個(gè)新目錄。
語(yǔ)法:hadoop dfs -mkdir </ source path>
5、查看特定文件的內(nèi)容
'cat'命令用于顯示文件的所有內(nèi)容。
語(yǔ)法:hadoop dfs -cat </ path [filename]>
6、復(fù)制HDFS內(nèi)的完整文件
'copyfromlocal'命令將文件從本地文件系統(tǒng)復(fù)制到HDFS。
語(yǔ)法:hadoop dfs -copyFromLocal </ source path> </ destination path>
7、將文件從HDFS復(fù)制到本地文件系統(tǒng)。
'copytolocal'命令將文件從HDFS復(fù)制到本地文件系統(tǒng)。
語(yǔ)法:hadoop dfs -copyToLocal </ source path> </ destination path>
8、刪除文件
命令'rm'將刪除存儲(chǔ)在HDFS中的文件。
語(yǔ)法:hadoop dfs -rm </ path [filename]>
9、運(yùn)行DFS文件系統(tǒng)以檢查實(shí)用程序
命令'fsck'用于檢查文件系統(tǒng)的一致性
語(yǔ)法:hadoop fsck </ file path>
10、集群負(fù)載均衡程序
'balancer'命令將檢查集群中節(jié)點(diǎn)的工作負(fù)載并進(jìn)行平衡。
語(yǔ)法:hadoop balancer
11、檢查HDFS中的目錄空間
該命令將顯示集群內(nèi)文件占用的大小。
語(yǔ)法:hadoop dfs -du -s -h </ file path>
12、列出所有Hadoop文件系統(tǒng)Shell命令
'fs'命令列出了Hadoop文件系統(tǒng)的所有shell命令。
語(yǔ)法:hadoop fs [options]
[hadoop@acadgild ~]$ hadoop fs Usage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp [-R] GROUP PATH...] [-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...] [-chown [-R] [OWNER][:[GROUP]] PATH...] [-copyFromLocal [-f] [-p] [-l] <localsrc> ... <dst>] [-copyToLocal [-p] [-ignoreCrc] [-crc] <src> ... <localdst>] [-count [-q] [-h] <path> ...] [-cp [-f] [-p | -p[topax]] <src> ... <dst>] [-createSnapshot <snapshotDir> [<snapshotName>]] [-deleteSnapshot <snapshotDir> <snapshotName>] [-df [-h] [<path> ...]] [-du [-s] [-h] <path> ...] [-expunge] [-get [-p] [-ignoreCrc] [-crc] <src> ... <localdst>] [-getfacl [-R] <path>] [-getfattr [-R] {-n name | -d} [-e en] <path>] [-getmerge [-nl] <src> <localdst>] [-help [cmd ...]] [-ls [-d] [-h] [-R] [<path> ...]] [-mkdir [-p] <path> ...] [-moveFromLocal <localsrc> ... <dst>] [-moveToLocal <src> <localdst>] [-mv <src> ... <dst>] [-put [-f] [-p] [-l] <localsrc> ... <dst>] [-renameSnapshot <snapshotDir> <oldName> <newName>] [-rm [-f] [-r|-R] [-skipTrash] <src> ...] [-rmdir [--ignore-fail-on-non-empty] <dir> ...] [-setfacl [-R] [{-b|-k} {-m|-x <acl_spec>} <path>]|[--set <acl_spec> <path>]] [-setfattr {-n name [-v value] | -x name} <path>] [-setrep [-R] [-w] <rep> <path> ...] [-stat [format] <path> ...] [-tail [-f] <file>] [-test -[defsz] <path>] [-text [-ignoreCrc] <src> ...] [-touchz <path> ...] [-usage [cmd ...]] Generic options supported are -conf <configuration file> specify an application configuration file -D <property=value> use value for given property -fs <local|namenode:port> specify a namenode -jt <local|resourcemanager:port> specify a ResourceManager -files <comma separated list of files> specify comma separated files to be copied to the map reduce cluster -libjars <comma separated list of jars> specify comma separated jar files to include in the classpath. -archives <comma separated list of archives> specify comma separated archives to be unarchived on the compute machines. The general command line syntax is bin/hadoop command [genericOptions] [commandOptions] [hadoop@acadgild ~]$
看完了這篇文章,相信你對(duì)“HDFS基礎(chǔ)配置安裝及命令使用的示例分析”有了一定的了解,如果想了解更多相關(guān)知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道,感謝各位的閱讀!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。