溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Ceph的設(shè)計(jì)思想是什么

發(fā)布時(shí)間:2021-12-17 11:19:53 來源:億速云 閱讀:102 作者:小新 欄目:云計(jì)算

這篇文章主要介紹了Ceph的設(shè)計(jì)思想是什么,具有一定借鑒價(jià)值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。

3.1    Ceph針對(duì)的目標(biāo)應(yīng)用場景

        理解Ceph的設(shè)計(jì)思想,首先還是要了解Sage設(shè)計(jì)Ceph時(shí)所針對(duì)的目標(biāo)應(yīng)用場景,換言之,“做這東西的目的是啥?”

        事實(shí)上,Ceph最初針對(duì)的目標(biāo)應(yīng)用場景,就是大規(guī)模的、分布式的存儲(chǔ)系統(tǒng)。所謂“大規(guī)模”和“分布式”,是指至少能夠承載PB級(jí)別的數(shù)據(jù),并且由成千上萬的存儲(chǔ)節(jié)點(diǎn)組成。

        在大數(shù)據(jù)口號(hào)深入人心的今天,PB已經(jīng)遠(yuǎn)遠(yuǎn)不是一個(gè)激動(dòng)人心的系統(tǒng)設(shè)計(jì)目標(biāo)了。但是,應(yīng)該指出,Ceph項(xiàng)目起源于04年。那是一個(gè)商用處理器以單核為主流,常見硬盤容量只有幾十GB的年代。這和現(xiàn)在動(dòng)輒6核12線程還要雙處理器、單塊硬盤3TB已經(jīng)司空見慣的情況是不可同日而語的。因此,理解這個(gè)設(shè)計(jì)目標(biāo),應(yīng)該考慮當(dāng)時(shí)的實(shí)際情況。當(dāng)然,如前所述,Ceph的設(shè)計(jì)并沒有理論上限,所以PB級(jí)別并不是實(shí)際應(yīng)用的容量限制。

        在Sage的思想中,對(duì)于這樣一個(gè)大規(guī)模的存儲(chǔ)系統(tǒng),是不能以靜態(tài)的眼光來看待的。對(duì)于其動(dòng)態(tài)特性,筆者概括為如下三個(gè)“變化”:

  • 存儲(chǔ)系統(tǒng)規(guī)模的變化:這樣大規(guī)模的存儲(chǔ)系統(tǒng),往往不是在建設(shè)的第一天就能預(yù)料到其最終的規(guī)模,甚至是根本就不存在最終規(guī)模這個(gè)概念的。只能是隨著業(yè)務(wù)的不斷開展,業(yè)務(wù)規(guī)模的不斷擴(kuò)大,讓系統(tǒng)承載越來越大的數(shù)據(jù)容量。這也就意味系統(tǒng)的規(guī)模自然隨之變化,越來越大。

  • 存儲(chǔ)系統(tǒng)中設(shè)備的變化:對(duì)于一個(gè)由成千上萬個(gè)節(jié)點(diǎn)構(gòu)成的系統(tǒng),其節(jié)點(diǎn)的故障與替換必然是時(shí)常出現(xiàn)的情況。而系統(tǒng)一方面要足夠可靠,不能使業(yè)務(wù)受到這種頻繁出現(xiàn)的硬件及底層軟件問題的影響,同時(shí)還應(yīng)該盡可能智能化,降低相關(guān)維護(hù)操作的代價(jià)。

  • 存儲(chǔ)系統(tǒng)中數(shù)據(jù)的變化:對(duì)于一個(gè)大規(guī)模的,通常被應(yīng)用于互聯(lián)網(wǎng)應(yīng)用中的存儲(chǔ)系統(tǒng),其中存儲(chǔ)的數(shù)據(jù)的變化也很可能是高度頻繁的。新的數(shù)據(jù)不斷寫入,已有數(shù)據(jù)被更新、移動(dòng)乃至刪除。這種場景需求也是設(shè)計(jì)時(shí)必須予以考慮的。

        上述三個(gè)“變化”就是Ceph目標(biāo)應(yīng)用場景的關(guān)鍵特征。Ceph所具備的各種主要特性,也都是針對(duì)這些場景特征所提出的。

3.2    針對(duì)目標(biāo)應(yīng)用場景所提出的預(yù)期技術(shù)特性

        針對(duì)上述應(yīng)用場景,Ceph在設(shè)計(jì)之初的幾個(gè)技術(shù)特性是:

  • 高可靠性。所謂“高可靠”,首先是針對(duì)存儲(chǔ)在系統(tǒng)中的數(shù)據(jù)而言,也即,盡可能保證數(shù)據(jù)不會(huì)丟失。其次,也包括數(shù)據(jù)寫入過程中的可靠性,也即,在用戶將數(shù)據(jù)寫入Ceph存儲(chǔ)系統(tǒng)的過程中,不會(huì)因?yàn)橐馔馇闆r的出現(xiàn)造成數(shù)據(jù)丟失。

  • 高度自動(dòng)化。具體包括了數(shù)據(jù)的自動(dòng)replication,自動(dòng)re-balancing,自動(dòng)failure detection和自動(dòng)failure recovery??傮w而言,這些自動(dòng)化特性一方面保證了系統(tǒng)的高度可靠,一方面也保障了在系統(tǒng)規(guī)模擴(kuò)大之后,其運(yùn)維難度仍能保持在一個(gè)相對(duì)較低的水平。

  • 高可擴(kuò)展性。這里的“可擴(kuò)展”概念比較廣義,既包括了系統(tǒng)規(guī)模和存儲(chǔ)容量的可擴(kuò)展,也包括了隨著系統(tǒng)節(jié)點(diǎn)數(shù)增加的聚合數(shù)據(jù)訪問帶寬的線性擴(kuò)展,還包括了基于功能豐富強(qiáng)大的底層API提供多種功能、支持多種應(yīng)用的功能性可擴(kuò)展。

3.3    針對(duì)預(yù)期技術(shù)特性所提出的設(shè)計(jì)思路

        針對(duì)3.2節(jié)中介紹的預(yù)期技術(shù)特性,Sage對(duì)于Ceph的設(shè)計(jì)思路基本上可以概括為以下兩點(diǎn):

  • 充分發(fā)揮存儲(chǔ)設(shè)備自身的計(jì)算能力。事實(shí)上,采用具有計(jì)算能力的設(shè)備(最簡單的例子就是普通的服務(wù)器)作為存儲(chǔ)系統(tǒng)的存儲(chǔ)節(jié)點(diǎn),這種思路即便在當(dāng)時(shí)來看也并不新鮮。但是,Sage認(rèn)為這些已有系統(tǒng)基本上都只是將這些節(jié)點(diǎn)作為功能簡單的存儲(chǔ)節(jié)點(diǎn)。而如果充分發(fā)揮節(jié)點(diǎn)上的計(jì)算能力,則可以實(shí)現(xiàn)前面提出的預(yù)期特性。這一點(diǎn)成為了Ceph系統(tǒng)設(shè)計(jì)的核心思想。

  • 去除所有的中心點(diǎn)。一旦系統(tǒng)中出現(xiàn)中心點(diǎn),則一方面引入單點(diǎn)故障點(diǎn),另一方面也必然面臨當(dāng)系統(tǒng)規(guī)模擴(kuò)大時(shí)的規(guī)模和性能瓶頸。除此之外,如果中心點(diǎn)出現(xiàn)在數(shù)據(jù)訪問的關(guān)鍵路徑上,事實(shí)上也必然導(dǎo)致數(shù)據(jù)訪問的延遲增大。而這些顯然都是Sage所設(shè)想的系統(tǒng)中不應(yīng)該出現(xiàn)的問題。雖然在大多數(shù)系統(tǒng)的工程實(shí)踐中,單點(diǎn)故障點(diǎn)和性能瓶頸的問題可以通過為中心點(diǎn)增加備份加以緩解,但Ceph系統(tǒng)最終采用創(chuàng)新的方法更為徹底地解決了這個(gè)問題。

3.4    支撐設(shè)計(jì)思路實(shí)現(xiàn)的關(guān)鍵技術(shù)創(chuàng)新

        無論多么新穎奇妙的設(shè)計(jì)思路,最終落地必定需要有技術(shù)實(shí)力的支撐。而這也正是Ceph最為閃亮的地方。

        Ceph最為核心的技術(shù)創(chuàng)新就是前面所概括的八個(gè)字——“無需查表,算算就好”。一般而言,一個(gè)大規(guī)模分布式存儲(chǔ)系統(tǒng),必須要能夠解決兩個(gè)最基本的問題:

       一是“我應(yīng)該把數(shù)據(jù)寫入到什么地方”。對(duì)于一個(gè)存儲(chǔ)系統(tǒng),當(dāng)用戶提交需要寫入的數(shù)據(jù)時(shí),系統(tǒng)必須迅速?zèng)Q策,為數(shù)據(jù)分配一個(gè)存儲(chǔ)位置和空間。這個(gè)決策的速度影響到數(shù)據(jù)寫入延遲,而更為重要的是,其決策的合理性也影響著數(shù)據(jù)分布的均勻性。這又會(huì)進(jìn)一步影響存儲(chǔ)單元壽命、數(shù)據(jù)存儲(chǔ)可靠性、數(shù)據(jù)訪問速度等后續(xù)問題。

        二是“我之前把數(shù)據(jù)寫到什么地方去了”。對(duì)于一個(gè)存儲(chǔ)系統(tǒng),高效準(zhǔn)確的處理數(shù)據(jù)尋址問題也是基本能力之一。

        針對(duì)上述兩個(gè)問題,傳統(tǒng)的分布式存儲(chǔ)系統(tǒng)常用的解決方案是引入專用的服務(wù)器節(jié)點(diǎn),在其中存儲(chǔ)用于維護(hù)數(shù)據(jù)存儲(chǔ)空間映射關(guān)系的數(shù)據(jù)結(jié)構(gòu)。在用戶寫入/訪問數(shù)據(jù)時(shí),首先連接這一服務(wù)器進(jìn)行查找操作,待決定/查到數(shù)據(jù)實(shí)際存儲(chǔ)位置后,再連接對(duì)應(yīng)節(jié)點(diǎn)進(jìn)行后續(xù)操作。由此可見,傳統(tǒng)的解決方案一方面容易導(dǎo)致單點(diǎn)故障和性能瓶頸,另一方面也容易導(dǎo)致更長的操作延遲。

        針對(duì)這一問題,Ceph徹底放棄了基于查表的數(shù)據(jù)尋址方式,而改用基于計(jì)算的方式。簡言之,任何一個(gè)Ceph存儲(chǔ)系統(tǒng)的客戶端程序,僅僅使用不定期更新的少量本地元數(shù)據(jù),加以簡單計(jì)算,就可以根據(jù)一個(gè)數(shù)據(jù)的ID決定其存儲(chǔ)位置。對(duì)比之后可以看出,這種方式使得傳統(tǒng)解決方案的問題一掃而空。Ceph的幾乎所有優(yōu)秀特性都是基于這種數(shù)據(jù)尋址方式實(shí)現(xiàn)的。

感謝你能夠認(rèn)真閱讀完這篇文章,希望小編分享的“Ceph的設(shè)計(jì)思想是什么”這篇文章對(duì)大家有幫助,同時(shí)也希望大家多多支持億速云,關(guān)注億速云行業(yè)資訊頻道,更多相關(guān)知識(shí)等著你來學(xué)習(xí)!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI