HDFS的基本概念介紹

發(fā)布時間：2020-08-05 00:31:50 來源：網(wǎng)絡(luò) 閱讀：343 作者：原生zzy 欄目：大數(shù)據(jù)

1. HDFS的設(shè)計(jì)思路？

hdfs是分布式的文件系統(tǒng)，用來在廉價(jià)的集群上做大數(shù)據(jù)量的存儲。
HDFS的基本概念介紹
1.大文件被切割成小文件，使用分而治之的思想讓很多服務(wù)器對同一個文件進(jìn)行聯(lián)合管理
2.每個小文件做冗余備份，并且分散存到不同的服務(wù)器，做到高可靠不丟失

2. HDFS的架構(gòu)？

HDFS的基本概念介紹
namenode：集群老大，掌管文件系統(tǒng)目錄樹，處理客戶端讀且請求
SecondaryNamenode：持久化元數(shù)據(jù)，主要給 namenode 分擔(dān)壓力之用
DataNode：存儲整個集群所有數(shù)據(jù)塊，處理真正數(shù)據(jù)讀寫

3. HDFS的特性？

- HDFS 中的文件在物理上是分塊存儲（block），塊的大小可以通過配置參數(shù)(dfs.blocksize)來規(guī)定，默認(rèn)大小在 hadoop2.x 版本中是 128M，老版本中是 64M
- HDFS 文件系統(tǒng)會給客戶端提供一個統(tǒng)一的抽象目錄樹，客戶端通過路徑來訪問文件
- namenode 是 HDFS 集群主節(jié)點(diǎn)，負(fù)責(zé)維護(hù)整個 hdfs 文件系統(tǒng)的目錄樹，以及每一個路徑（文件）所對應(yīng)的 block 塊信息（block 的 id，及所在的 datanode 服務(wù)器）
- datanode 是 HDFS 集群從節(jié)點(diǎn)，每一個 block 都可以在多個 datanode 上存儲多個副本（副本數(shù)量也可以通過參數(shù)設(shè)置 dfs.replication，默認(rèn)是 3）
- HDFS 是設(shè)計(jì)成適應(yīng)一次寫入，多次讀出的場景，且不支持文件的修改

4. HDFS的優(yōu)缺點(diǎn)？

優(yōu)點(diǎn)：
- 可構(gòu)建在廉價(jià)機(jī)器上，通過多副本提高可靠性，提供了容錯和恢復(fù)機(jī)制
- 高容錯性，數(shù)據(jù)自動保存多個副本，副本丟失后，自動恢復(fù)
- 適合批處理，移動計(jì)算而非數(shù)據(jù)，數(shù)據(jù)位置暴露給計(jì)算框架
- 適合大數(shù)據(jù)處理，GB、TB、甚至 PB 級數(shù)據(jù)
- 流式文件訪問，一次性寫入，多次讀取，保證數(shù)據(jù)一致性
缺點(diǎn)：
- 低延遲數(shù)據(jù)訪問，不適合于低延遲高吞吐
- 小文件存取，不適用與小文件存儲，占用空間，尋道時間超過讀取時間
- 不支持并發(fā)寫入，和隨機(jī)讀取。hdfs同一時間只能有一個寫入者，并且不支持多次插入，只能追加

向AI問一下細(xì)節(jié)

HDFS的基本概念介紹

1. HDFS的設(shè)計(jì)思路？

2. HDFS的架構(gòu)？

3. HDFS的特性？

4. HDFS的優(yōu)缺點(diǎn)？

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽

1. HDFS的設(shè)計(jì)思路？

2. HDFS的架構(gòu)？

4. HDFS的優(yōu)缺點(diǎn)？