溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

HDFS的基本概念介紹

發(fā)布時間:2020-08-05 00:31:50 來源:網(wǎng)絡(luò) 閱讀:343 作者:原生zzy 欄目:大數(shù)據(jù)

1. HDFS的設(shè)計(jì)思路?

  hdfs是分布式的文件系統(tǒng),用來在廉價(jià)的集群上做大數(shù)據(jù)量的存儲。
HDFS的基本概念介紹
1.大文件被切割成小文件,使用分而治之的思想讓很多服務(wù)器對同一個文件進(jìn)行聯(lián)合管理
2.每個小文件做冗余備份,并且分散存到不同的服務(wù)器,做到高可靠不丟失

2. HDFS的架構(gòu)?

HDFS的基本概念介紹
namenode:集群老大,掌管文件系統(tǒng)目錄樹,處理客戶端讀且請求
SecondaryNamenode:持久化元數(shù)據(jù),主要給 namenode 分擔(dān)壓力之用
DataNode:存儲整個集群所有數(shù)據(jù)塊,處理真正數(shù)據(jù)讀寫

3. HDFS的特性?

  - HDFS 中的文件在物理上是分塊存儲(block),塊的大小可以通過配置參數(shù)(dfs.blocksize)來規(guī)定,默認(rèn)大小在 hadoop2.x 版本中是 128M,老版本中是 64M
  - HDFS 文件系統(tǒng)會給客戶端提供一個統(tǒng)一的抽象目錄樹,客戶端通過路徑來訪問文件
  - namenode 是 HDFS 集群主節(jié)點(diǎn),負(fù)責(zé)維護(hù)整個 hdfs 文件系統(tǒng)的目錄樹,以及每一個路徑(文件)所對應(yīng)的 block 塊信息(block 的 id,及所在的 datanode 服務(wù)器)
  - datanode 是 HDFS 集群從節(jié)點(diǎn),每一個 block 都可以在多個 datanode 上存儲多個副本(副本數(shù)量也可以通過參數(shù)設(shè)置 dfs.replication,默認(rèn)是 3)
  - HDFS 是設(shè)計(jì)成適應(yīng)一次寫入,多次讀出的場景,且不支持文件的修改

4. HDFS的優(yōu)缺點(diǎn)?

  • 優(yōu)點(diǎn):
    • 可構(gòu)建在廉價(jià)機(jī)器上,通過多副本提高可靠性,提供了容錯和恢復(fù)機(jī)制
    • 高容錯性,數(shù)據(jù)自動保存多個副本,副本丟失后,自動恢復(fù)
    • 適合批處理,移動計(jì)算而非數(shù)據(jù),數(shù)據(jù)位置暴露給計(jì)算框架
    • 適合大數(shù)據(jù)處理,GB、TB、甚至 PB 級數(shù)據(jù)
    • 流式文件訪問,一次性寫入,多次讀取,保證數(shù)據(jù)一致性
  • 缺點(diǎn):
    • 低延遲數(shù)據(jù)訪問,不適合于低延遲高吞吐
    • 小文件存取,不適用與小文件存儲,占用空間,尋道時間超過讀取時間
    • 不支持并發(fā)寫入,和隨機(jī)讀取。hdfs同一時間只能有一個寫入者,并且不支持多次插入,只能追加
向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI