Bitcask模型是什么

發(fā)布時(shí)間：2021-11-29 14:55:51 來源：億速云閱讀：159 作者：柒染欄目：數(shù)據(jù)庫

今天就跟大家聊聊有關(guān)Bitcask模型是什么，可能很多人都不太了解，為了讓大家更加了解，小編給大家總結(jié)了以下內(nèi)容，希望大家根據(jù)這篇文章可以有所收獲。

　　Bitcask是一個(gè)日志型的基于hash表結(jié)構(gòu)和key-value存儲(chǔ)模型，但是其簡潔有效的設(shè)計(jì)。下面億速云小編來講解下Bitcask模型是什么?

　　Bitcask模型是什么

　　1.日志型的數(shù)據(jù)文件

　　何謂日志型?就是appendonly，所有寫操作只追加而不修改老的數(shù)據(jù)，就像我們的各種服務(wù)器日志一樣。在Bitcask模型中，數(shù)據(jù)文件以日志型只增不減的寫入文件，而文件有一定的大小限制，當(dāng)文件大小增加到相應(yīng)的限制時(shí)，就會(huì)產(chǎn)生一個(gè)新的文件，老的文件將只讀不寫。在任意時(shí)間點(diǎn)，只有一個(gè)文件是可寫的，在Bitcask模型中稱其為activedatafile，而其他的已經(jīng)達(dá)到限制大小的文件，稱為olderdatafile，如下圖：

　　文件中的數(shù)據(jù)結(jié)構(gòu)非常簡單，是一條一條的數(shù)據(jù)寫入操作，每一條數(shù)據(jù)的結(jié)構(gòu)如下：

　　上面數(shù)據(jù)項(xiàng)分別為key，value，key的大小，value的大小，時(shí)間戳(應(yīng)該是)，以及對(duì)前面幾項(xiàng)做的crc校驗(yàn)值。(數(shù)據(jù)刪除操作也不會(huì)刪除舊的條目，而是將value設(shè)定為一個(gè)特殊的值以作標(biāo)示)

　　數(shù)據(jù)文件中就是連續(xù)一條條上面格式的數(shù)據(jù)，如下圖：

　　好了，上面是日志型的數(shù)據(jù)文件，如果數(shù)據(jù)文件這樣持續(xù)的存下去，肯定是會(huì)無限膨脹的，為了解決個(gè)問題，和其他日志型存儲(chǔ)系統(tǒng)一樣Bitcask也有一個(gè)定期的merge操作。

　　merge操作，即定期將所有olderdatafile中的數(shù)據(jù)掃描一遍并生成新的datafile(沒有包括activedatafile是因?yàn)樗€在不停寫入)，這里的merge其實(shí)就是將對(duì)同一個(gè)key的多個(gè)操作以只保留最新一個(gè)的原則進(jìn)行刪除。每次merge后，新生成的數(shù)據(jù)文件就不再有冗余數(shù)據(jù)了。

　　Bitcask模型是什么

　　2.基于hash表的索引數(shù)據(jù)

　　上面講到的是數(shù)據(jù)文件，日志類型的數(shù)據(jù)文件會(huì)讓我們的寫入操作非?？?日志型的優(yōu)勢(shì)之一是將磁盤當(dāng)作磁帶，進(jìn)行順序讀寫的效率非常高，可以參見這里)，而如果在這樣的日志型數(shù)據(jù)上進(jìn)行key值查找，那將是一件非常低效的事情。于是我們需要使用一些方法來提高查找效率。

　　例如在Bigtable中，使用bloom-filter算法為每一個(gè)數(shù)據(jù)文件維護(hù)一個(gè)bloom-filter的數(shù)據(jù)塊，以此來判定一個(gè)值是否在某一個(gè)數(shù)據(jù)文件中。

　　而在Bitcask模型中，我們使用了另一種方法，使用了一個(gè)基于hash表的索引數(shù)據(jù)結(jié)構(gòu)。

　　在Bitcask模型中，除了存儲(chǔ)在磁盤上的數(shù)據(jù)文件，還有另外一塊數(shù)據(jù)，那就是存儲(chǔ)在內(nèi)存中的hash表，hash表的作用是通過key值快速的定位到value的位置。hash表的結(jié)構(gòu)大致如下圖所示：

　　hash表對(duì)應(yīng)的這個(gè)結(jié)構(gòu)中包括了三個(gè)用于定位數(shù)據(jù)value的信息，分別是文件id號(hào)(file_id)，value值在文件中的位置(value_pos),value值的大小(value_sz)，于是我們通過讀取file_id對(duì)應(yīng)文件的value_pos開始的value_sz個(gè)字節(jié)，就得到了我們需要的value值。整個(gè)過程如下圖所示：

　　由于多了一個(gè)hash表的存在，我們的寫操作就需要多更新一塊內(nèi)容，即這個(gè)hash表的對(duì)應(yīng)關(guān)系。于是一個(gè)寫操作就需要進(jìn)行一次順序的磁盤寫入和一次內(nèi)存操作。

　　3.有用的hintfile

　　至此，Bitcask模型基本上已經(jīng)講述完成，而這一節(jié)講到的hintfile，則是一個(gè)有用的技巧，本人認(rèn)為并不一定是Bitcask模型的必須特性。

　　從上面我們可以知道，我們稱其為索引的hash表，是存儲(chǔ)在內(nèi)存中的，雖然在各自的實(shí)現(xiàn)中可以做一些持久化的保證，但是Bitcask模型中并不對(duì)在斷電或重啟后的hash表數(shù)據(jù)不丟失做出保證。

　　因此，如果我們不做額外的工作，那么我們啟動(dòng)時(shí)重建hash表時(shí)，就需要整個(gè)掃描一遍我們的數(shù)據(jù)文件，如果數(shù)據(jù)文件很大，這將是一個(gè)非常耗時(shí)的過程。因此Bitcask模型中包含了一個(gè)稱作hintfile的部分，目的在于提高重建hash表的速度。

　　我們上面講到在olddatafile進(jìn)行merge操作時(shí)，會(huì)產(chǎn)生新的datafile，而Bitcask模型實(shí)際還鼓勵(lì)生成一個(gè)hintfile，這個(gè)hintfile中每一項(xiàng)的數(shù)據(jù)結(jié)構(gòu)，與datafile中的數(shù)據(jù)結(jié)構(gòu)非常相似，不同的是他并不存儲(chǔ)具體的value值，而是存儲(chǔ)value的位置(像在hash表中的一樣)，其結(jié)構(gòu)如下圖：

　　這樣，在重建hash表時(shí)，就不需要再掃描所有datafile文件，而僅僅需要將hintfile中的數(shù)據(jù)一行行讀取并重建即可。大大提高了利用數(shù)據(jù)文件重啟數(shù)據(jù)庫的速度。

看完上述內(nèi)容，你們對(duì)Bitcask模型是什么有進(jìn)一步的了解嗎？如果還想了解更多知識(shí)或者相關(guān)內(nèi)容，請(qǐng)關(guān)注億速云行業(yè)資訊頻道，感謝大家的支持。

向AI問一下細(xì)節(jié)

Bitcask模型是什么

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽