溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

如何進(jìn)行CEPH文件系統(tǒng)元數(shù)據(jù)的SSD加速

發(fā)布時間:2021-11-06 16:27:38 來源:億速云 閱讀:391 作者:柒染 欄目:建站服務(wù)器

這篇文章給大家介紹如何進(jìn)行CEPH文件系統(tǒng)元數(shù)據(jù)的SSD加速,內(nèi)容非常詳細(xì),感興趣的小伙伴們可以參考借鑒,希望對大家能有所幫助。

對象存儲進(jìn)程Object Storage Daemons (OSDs)是分布式文件系統(tǒng)Ceph的一大特點(diǎn),相比其它分布式文件系統(tǒng),Ceph擴(kuò)展性和穩(wěn)定性更好。

在Ceph中,對象先保存到基本OSD,接著復(fù)制到其他備份OSD,這個復(fù)制過程是同步的,就是寫完了,才能告訴上層應(yīng)用說寫成功。保證了數(shù)據(jù)的可用性。

Client的每個寫操作下發(fā)到OSD之后,會產(chǎn)生2~3個磁盤seek操作:

把寫操作記錄到OSD的Journal文件上(Journal是元數(shù)據(jù),為了保證寫操作的原子性)。

把寫操作更新到Object對應(yīng)的文件上。

把寫操作記錄到PG Log文件上。

更細(xì)一步說,對于一個OSD來說,寫完成之前必須要把元數(shù)據(jù)保存到它的Journal。而寫操作是先寫Journal,再寫Object,所以,為了提升集群性能,寫Journal的速度一定要快。

如何進(jìn)行CEPH文件系統(tǒng)元數(shù)據(jù)的SSD加速

因此,一般為了讓Ceph集群更快,性價比更高,需要考慮兩條設(shè)計(jì)思想:

  1. 把文件放在慢速、便宜的存儲設(shè)備上,比如SATA HDD。

  2. 把Journal放在快速設(shè)備上,比如SSD,閃存卡。

另一個常見的設(shè)計(jì)思想是每個HDD對應(yīng)一個OSD。當(dāng)前很多系統(tǒng)配備兩個SSD,很多HDD,如果SSD只存放Journal的話,容量是完全足夠的,因?yàn)?個OSD的Journal一般不超過6GB,即使有16個HDD,Journal大約只有96GB,絕大部分SSD的容量是綽綽有余的。

很多管理員擔(dān)心SSD會掛掉,所以用SSD組成了RAID-1,其實(shí)就是搞了個鏡像,容量減半。然后把Journal放到了SSD RAID組上。其實(shí)還有一個辦法是,從每個SSD拿出一個分區(qū)組成RAID-1,來做系統(tǒng)盤。剩下的分區(qū)來保存Ceph Journal,但是不做RAID。

不過這樣有可能會導(dǎo)致一種糟糕的狀況。當(dāng)SSD放了10個或更多OSD Journal,它們和操作系統(tǒng)共享同一個SSD,如果有一段時間大家的讀寫很頻繁的時候,Ceph的性能會受到影響。比如某個主機(jī)掛了,冗余機(jī)器開始掃描數(shù)據(jù)做恢復(fù),這個時候,其他OSD的性能就很差了,因?yàn)榉值降膸捄苌倭恕?/p>

那么,使用RAID-1來保護(hù)Journal就好一點(diǎn)嗎?因?yàn)镃eph目前必須要掃描整個OSD文件存儲器才能恢復(fù)Journal,所以只要Journal丟了,那OSD也就沒了,必須要掃描整個磁盤慢慢恢復(fù)。但是RAID-1有個缺點(diǎn)就是每次寫都要寫兩遍。其實(shí)有個更好的辦法就是把所有的OSD Journal分成兩撥,分別放到兩個SSD,這樣,壞掉一個,還有一半的Journal是好的。

Ceph還有個Monitor,MON,主要作用是維持集群的主副本映射圖,可以查詢同步操作時的最新版本的映射圖。利用的key/value存儲快照和迭代器,執(zhí)行OSD的同步。如果MON和OSD在同一個SSD上時,如果SSD變慢,那么MON也就掛掉了,如果有備份MON的話,操作不受影響。

如果要用SSD和HDD來部署Ceph的話,那么最終的結(jié)論是:

  1. 每個節(jié)點(diǎn)的OSD不要太多,小于8個比較合適,這種情況下Journal放在SSD效果比較好。原因就是SSD Journal多了,性能就受影響。

  2. 假如OSD實(shí)在太多,那就不要用SSD保存Journal,用HDD可能更好一點(diǎn)。或者說把OS裝在HDD上,然后用沒有RAID的SSD保存OSD Journal。

  3. 用一些專用的MON。

關(guān)于如何進(jìn)行CEPH文件系統(tǒng)元數(shù)據(jù)的SSD加速就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,可以學(xué)到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI