溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

HDFS中磁盤和數(shù)據(jù)節(jié)點(diǎn)大小的示例分析

發(fā)布時(shí)間:2021-12-09 09:43:51 來源:億速云 閱讀:178 作者:小新 欄目:大數(shù)據(jù)

小編給大家分享一下HDFS中磁盤和數(shù)據(jù)節(jié)點(diǎn)大小的示例分析,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!



 
大容量對(duì)HDFS集群的影響

減少IO帶寬
Hadoop集群依靠大規(guī)模的并行IO容量來支持?jǐn)?shù)千個(gè)并發(fā)任務(wù)。假定一個(gè)大小為96TB的數(shù)據(jù)節(jié)點(diǎn),讓我們考慮兩個(gè)磁盤大小– 8TB和16TB。一個(gè)具有8TB磁盤的數(shù)據(jù)節(jié)點(diǎn)將具有12個(gè)此類磁盤,而一個(gè)具有16TB磁盤的數(shù)據(jù)節(jié)點(diǎn)將具有6個(gè)磁盤。我們可以假設(shè)每個(gè)磁盤的平均讀/寫吞吐量為100MB / sec,主軸速度為7200 RPM。下表總結(jié)了每種配置的帶寬和IOPS。

8TB      ?      12 = 96TB    
16TB      ?      6 = 96TB    
讀/寫吞吐量
1200 MB /秒
600 MB /秒
隨機(jī)IOPS
2880
1440
Bit-rot檢測(cè)需要更長(zhǎng)的時(shí)間
每個(gè)數(shù)據(jù)節(jié)點(diǎn)在每個(gè)卷上運(yùn)行一個(gè)卷掃描器,該掃描器掃描塊中的bit-rot。默認(rèn)掃描周期為3周,因此在3周內(nèi)會(huì)檢測(cè)到由于bit-rot而丟失的副本。由于卷掃描器與應(yīng)用程序競(jìng)爭(zhēng)磁盤資源,因此限制其磁盤帶寬非常重要。配置dfs.block.scanner.volume.bytes.per.second 定義了卷掃描器每秒可掃描的字節(jié)數(shù),默認(rèn)為1MB /秒。給定的配置帶寬為5MB /秒。
掃描12TB所需時(shí)間= 12TB / 5MBps  ?28天。
進(jìn)一步增加磁盤大小將增加檢測(cè)bit-rot所花費(fèi)的時(shí)間。 
重量級(jí)塊報(bào)告
較大的卷大小意味著卷的塊報(bào)告中有大量塊。這會(huì)影響集群性能,因?yàn)樗鼤?huì)增加數(shù)據(jù)節(jié)點(diǎn)中的塊報(bào)告生成時(shí)間,RPC有效負(fù)載和名稱節(jié)點(diǎn)中的塊報(bào)告處理時(shí)間。
下圖表示由數(shù)據(jù)節(jié)點(diǎn)發(fā)送的塊報(bào)告的生成、網(wǎng)絡(luò)往返時(shí)間和處理時(shí)間。數(shù)據(jù)節(jié)點(diǎn)只有一個(gè)卷,并且通過增加該卷的塊數(shù)來收集統(tǒng)計(jì)信息。所有這些指標(biāo)隨著磁盤中塊數(shù)量的增加而增加。
HDFS中磁盤和數(shù)據(jù)節(jié)點(diǎn)大小的示例分析

 
高密度存儲(chǔ)節(jié)點(diǎn)的影響

故障恢復(fù)需要更多時(shí)間
每當(dāng)存儲(chǔ)節(jié)點(diǎn)發(fā)生故障時(shí),必須將存儲(chǔ)在該節(jié)點(diǎn)上的塊復(fù)制到集群中的其他節(jié)點(diǎn)上,以恢復(fù)數(shù)據(jù)冗余。恢復(fù)時(shí)間的大小與數(shù)據(jù)節(jié)點(diǎn)的大小成線性關(guān)系,而與集群中的節(jié)點(diǎn)數(shù)成反比??梢允褂靡韵鹿綄⑺衅渌蛩乜紤]為恒定的恢復(fù)時(shí)間。
恢復(fù)時(shí)間=(c  ? s)/n
其中c是常數(shù),s是每個(gè)節(jié)點(diǎn)的已用容量,n是集群中存儲(chǔ)節(jié)點(diǎn)的數(shù)量。
對(duì)于給定的集群容量,  如果節(jié)點(diǎn)容量增加一倍,則恢復(fù)時(shí)間將增加4倍。假設(shè)集群平衡,則如果節(jié)點(diǎn)數(shù)減半,則每個(gè)節(jié)點(diǎn)的使用率都會(huì)加倍。
恢復(fù)時(shí)間=  (c    ?   2s) / (n/2) = (4    ?   c    ?   s)/n
變量s和n在其他存儲(chǔ)解決方案中也具有相似的意義。因此,高密度的數(shù)據(jù)節(jié)點(diǎn)將對(duì)任何集群中的恢復(fù)時(shí)間產(chǎn)生類似的影響。
對(duì)Datanode停用的影響
在計(jì)劃中的某個(gè)節(jié)點(diǎn)退役期間,其所有塊都將重新復(fù)制到其他節(jié)點(diǎn)。高密度節(jié)點(diǎn)對(duì)數(shù)據(jù)節(jié)點(diǎn)停用時(shí)間的影響類似于其對(duì)故障數(shù)據(jù)節(jié)點(diǎn)恢復(fù)時(shí)間的影響。因此,對(duì)于給定的集群容量,如果數(shù)據(jù)節(jié)點(diǎn)的容量增加一倍,則退役時(shí)間將增加4倍。
HDFS-14854 實(shí)現(xiàn)了一些改進(jìn),這些改進(jìn)將提高節(jié)點(diǎn)退役的性能。這些改進(jìn)將在CDP的將來版本中提供。

以上是“HDFS中磁盤和數(shù)據(jù)節(jié)點(diǎn)大小的示例分析”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI