您好,登錄后才能下訂單哦!
今天就跟大家聊聊有關(guān)Bitcask模型是什么,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結(jié)了以下內(nèi)容,希望大家根據(jù)這篇文章可以有所收獲。
Bitcask是一個(gè)日志型的基于hash表結(jié)構(gòu)和key-value存儲(chǔ)模型,但是其簡潔有效的設(shè)計(jì)。下面億速云小編來講解下Bitcask模型是什么?
Bitcask模型是什么
1.日志型的數(shù)據(jù)文件
何謂日志型?就是appendonly,所有寫操作只追加而不修改老的數(shù)據(jù),就像我們的各種服務(wù)器日志一樣。在Bitcask模型中,數(shù)據(jù)文件以日志型只增不減的寫入文件,而文件有一定的大小限制,當(dāng)文件大小增加到相應(yīng)的限制時(shí),就會(huì)產(chǎn)生一個(gè)新的文件,老的文件將只讀不寫。在任意時(shí)間點(diǎn),只有一個(gè)文件是可寫的,在Bitcask模型中稱其為activedatafile,而其他的已經(jīng)達(dá)到限制大小的文件,稱為olderdatafile,如下圖:
文件中的數(shù)據(jù)結(jié)構(gòu)非常簡單,是一條一條的數(shù)據(jù)寫入操作,每一條數(shù)據(jù)的結(jié)構(gòu)如下:
上面數(shù)據(jù)項(xiàng)分別為key,value,key的大小,value的大小,時(shí)間戳(應(yīng)該是),以及對(duì)前面幾項(xiàng)做的crc校驗(yàn)值。(數(shù)據(jù)刪除操作也不會(huì)刪除舊的條目,而是將value設(shè)定為一個(gè)特殊的值以作標(biāo)示)
數(shù)據(jù)文件中就是連續(xù)一條條上面格式的數(shù)據(jù),如下圖:
好了,上面是日志型的數(shù)據(jù)文件,如果數(shù)據(jù)文件這樣持續(xù)的存下去,肯定是會(huì)無限膨脹的,為了解決個(gè)問題,和其他日志型存儲(chǔ)系統(tǒng)一樣Bitcask也有一個(gè)定期的merge操作。
merge操作,即定期將所有olderdatafile中的數(shù)據(jù)掃描一遍并生成新的datafile(沒有包括activedatafile是因?yàn)樗€在不停寫入),這里的merge其實(shí)就是將對(duì)同一個(gè)key的多個(gè)操作以只保留最新一個(gè)的原則進(jìn)行刪除。每次merge后,新生成的數(shù)據(jù)文件就不再有冗余數(shù)據(jù)了。
Bitcask模型是什么
2.基于hash表的索引數(shù)據(jù)
上面講到的是數(shù)據(jù)文件,日志類型的數(shù)據(jù)文件會(huì)讓我們的寫入操作非???日志型的優(yōu)勢(shì)之一是將磁盤當(dāng)作磁帶,進(jìn)行順序讀寫的效率非常高,可以參見這里),而如果在這樣的日志型數(shù)據(jù)上進(jìn)行key值查找,那將是一件非常低效的事情。于是我們需要使用一些方法來提高查找效率。
例如在Bigtable中,使用bloom-filter算法為每一個(gè)數(shù)據(jù)文件維護(hù)一個(gè)bloom-filter的數(shù)據(jù)塊,以此來判定一個(gè)值是否在某一個(gè)數(shù)據(jù)文件中。
而在Bitcask模型中,我們使用了另一種方法,使用了一個(gè)基于hash表的索引數(shù)據(jù)結(jié)構(gòu)。
在Bitcask模型中,除了存儲(chǔ)在磁盤上的數(shù)據(jù)文件,還有另外一塊數(shù)據(jù),那就是存儲(chǔ)在內(nèi)存中的hash表,hash表的作用是通過key值快速的定位到value的位置。hash表的結(jié)構(gòu)大致如下圖所示:
hash表對(duì)應(yīng)的這個(gè)結(jié)構(gòu)中包括了三個(gè)用于定位數(shù)據(jù)value的信息,分別是文件id號(hào)(file_id),value值在文件中的位置(value_pos),value值的大小(value_sz),于是我們通過讀取file_id對(duì)應(yīng)文件的value_pos開始的value_sz個(gè)字節(jié),就得到了我們需要的value值。整個(gè)過程如下圖所示:
由于多了一個(gè)hash表的存在,我們的寫操作就需要多更新一塊內(nèi)容,即這個(gè)hash表的對(duì)應(yīng)關(guān)系。于是一個(gè)寫操作就需要進(jìn)行一次順序的磁盤寫入和一次內(nèi)存操作。
3.有用的hintfile
至此,Bitcask模型基本上已經(jīng)講述完成,而這一節(jié)講到的hintfile,則是一個(gè)有用的技巧,本人認(rèn)為并不一定是Bitcask模型的必須特性。
從上面我們可以知道,我們稱其為索引的hash表,是存儲(chǔ)在內(nèi)存中的,雖然在各自的實(shí)現(xiàn)中可以做一些持久化的保證,但是Bitcask模型中并不對(duì)在斷電或重啟后的hash表數(shù)據(jù)不丟失做出保證。
因此,如果我們不做額外的工作,那么我們啟動(dòng)時(shí)重建hash表時(shí),就需要整個(gè)掃描一遍我們的數(shù)據(jù)文件,如果數(shù)據(jù)文件很大,這將是一個(gè)非常耗時(shí)的過程。因此Bitcask模型中包含了一個(gè)稱作hintfile的部分,目的在于提高重建hash表的速度。
我們上面講到在olddatafile進(jìn)行merge操作時(shí),會(huì)產(chǎn)生新的datafile,而Bitcask模型實(shí)際還鼓勵(lì)生成一個(gè)hintfile,這個(gè)hintfile中每一項(xiàng)的數(shù)據(jù)結(jié)構(gòu),與datafile中的數(shù)據(jù)結(jié)構(gòu)非常相似,不同的是他并不存儲(chǔ)具體的value值,而是存儲(chǔ)value的位置(像在hash表中的一樣),其結(jié)構(gòu)如下圖:
這樣,在重建hash表時(shí),就不需要再掃描所有datafile文件,而僅僅需要將hintfile中的數(shù)據(jù)一行行讀取并重建即可。大大提高了利用數(shù)據(jù)文件重啟數(shù)據(jù)庫的速度。
看完上述內(nèi)容,你們對(duì)Bitcask模型是什么有進(jìn)一步的了解嗎?如果還想了解更多知識(shí)或者相關(guān)內(nèi)容,請(qǐng)關(guān)注億速云行業(yè)資訊頻道,感謝大家的支持。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。