溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

分布式文件系統(tǒng)HDFS的簡(jiǎn)單使用方法

發(fā)布時(shí)間:2021-07-10 11:10:44 來(lái)源:億速云 閱讀:243 作者:chen 欄目:大數(shù)據(jù)

這篇文章主要介紹“分布式文件系統(tǒng)HDFS的簡(jiǎn)單使用方法”,在日常操作中,相信很多人在分布式文件系統(tǒng)HDFS的簡(jiǎn)單使用方法問(wèn)題上存在疑惑,小編查閱了各式資料,整理出簡(jiǎn)單好用的操作方法,希望對(duì)大家解答”分布式文件系統(tǒng)HDFS的簡(jiǎn)單使用方法”的疑惑有所幫助!接下來(lái),請(qǐng)跟著小編一起來(lái)學(xué)習(xí)吧!

在現(xiàn)代的企業(yè)環(huán)境中,單機(jī)容量往往無(wú)法存儲(chǔ)大量數(shù)據(jù),需要跨機(jī)器存儲(chǔ)。統(tǒng)一管理分布在集群上的文件系統(tǒng)稱為分布式文件系統(tǒng)。

HDFS

HDFS(Hadoop Distributed File System)是 Apache Hadoop 項(xiàng)目的一個(gè)子項(xiàng)目. Hadoop  非常適于存儲(chǔ)大型數(shù)據(jù) (比如 TB 和 PB), 其就是使用 HDFS 作為存儲(chǔ)系統(tǒng). HDFS 使用多臺(tái)計(jì)算機(jī)存儲(chǔ)文件, 并且提供統(tǒng)一的訪問(wèn)接口。

HDFS是根據(jù)谷歌的論文:《The Google File System》進(jìn)行設(shè)計(jì)的

分布式文件系統(tǒng)HDFS的簡(jiǎn)單使用方法

HDFS的四個(gè)基本組件:HDFS Client、NameNode、DataNode和Secondary NameNode。

Client

Client是客戶端。HDFS Client文件切分。文件上傳 HDFS 的時(shí)候,Client 將文件切分成  一個(gè)一個(gè)的Block,然后進(jìn)行存儲(chǔ)。Client 提供一些命令來(lái)管理 和訪問(wèn)HDFS,比如啟動(dòng)或者關(guān)閉HDFS。

NameNode

NameNode就是 master,它是一個(gè)主管、管理者。管理 HDFS  元數(shù)據(jù)(文件路徑,文件的大小,文件的名字,文件權(quán)限,文件的block切片信息)。

NameNode管理 Block 副本策略:默認(rèn) 3 個(gè)副本,處理客戶端讀寫(xiě)請(qǐng)求。

DataNode

DataNode就是Slave。NameNode下達(dá)命令,DataNode 執(zhí)行實(shí)際的操作。

DataNode存儲(chǔ)實(shí)際的數(shù)據(jù)塊,執(zhí)行數(shù)據(jù)塊的讀/寫(xiě)操作。定時(shí)向namenode匯報(bào)block信息。

Secondary  NameNode

SecondaryNameNode不是NameNode的備份。當(dāng)NameNode掛掉的時(shí)候,它并不能馬上替換NameNode并提供服務(wù)。

輔助 NameNode,分擔(dān)其工作量。在緊急情況下,可輔助恢復(fù) NameNode。

副本機(jī)制

HDFS被設(shè)計(jì)成能夠在一個(gè)大集群中跨機(jī)器可靠地存儲(chǔ)超大文件。它將每個(gè)文件存儲(chǔ)成一系列的數(shù)據(jù)塊,這個(gè)數(shù)據(jù)塊被稱為block,除了最后一個(gè),所有的數(shù)據(jù)塊都是同樣大小的。

為了容錯(cuò),文件的所有block都會(huì)有副本。每個(gè)文件的數(shù)據(jù)塊大小和副本系數(shù)都是可配置的。

在hadoop2 當(dāng)中, 文件的 block 塊大小默認(rèn)是 「128M」(134217728字節(jié))。

分布式文件系統(tǒng)HDFS的簡(jiǎn)單使用方法

如上圖所示,一個(gè)大小為300M的a.txt上傳到HDFS中,需要進(jìn)行128M的切分,不足128M分為到另一block中。

HDFS基本命令

分布式文件系統(tǒng)HDFS的簡(jiǎn)單使用方法

HDFS 簡(jiǎn)單使用

根據(jù)部署的服務(wù),我們的 HDFS 根目錄是 hdfs://192.168.147.128:9820,下面我們嘗試在根目錄下面創(chuàng)建子目錄  user,如下命令所示:

[hadoop@node01 ~]$ hadoop fs -mkdir /user

然后在Hadoop頁(yè)面打開(kāi)HDFS。

分布式文件系統(tǒng)HDFS的簡(jiǎn)單使用方法

此時(shí)的user文件夾將會(huì)看見(jiàn)。

分布式文件系統(tǒng)HDFS的簡(jiǎn)單使用方法

下面將一個(gè)大小為300M的文件上傳到HDFS的user文件夾中

分布式文件系統(tǒng)HDFS的簡(jiǎn)單使用方法

然后在Hadoop頁(yè)面看見(jiàn)剛剛上傳的文件。

分布式文件系統(tǒng)HDFS的簡(jiǎn)單使用方法

此時(shí)被分開(kāi)了三個(gè)block。

分布式文件系統(tǒng)HDFS的簡(jiǎn)單使用方法

點(diǎn)擊download,即可下載。

到此,關(guān)于“分布式文件系統(tǒng)HDFS的簡(jiǎn)單使用方法”的學(xué)習(xí)就結(jié)束了,希望能夠解決大家的疑惑。理論與實(shí)踐的搭配能更好的幫助大家學(xué)習(xí),快去試試吧!若想繼續(xù)學(xué)習(xí)更多相關(guān)知識(shí),請(qǐng)繼續(xù)關(guān)注億速云網(wǎng)站,小編會(huì)繼續(xù)努力為大家?guī)?lái)更多實(shí)用的文章!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI