溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

幾張圖看懂列式存儲(chǔ)

發(fā)布時(shí)間:2020-03-24 13:12:48 來源:網(wǎng)絡(luò) 閱讀:534 作者:choulanlan 欄目:數(shù)據(jù)庫

最近看到一篇很好資料,里面三言兩語配上幾個(gè)圖就把列式存儲(chǔ)(Column-based Storage)講明白了,牛??!最喜歡的就是這種淺顯易懂就把背景知識(shí)講得明明白白,而不是長篇大論的講概念。

1 為什么要按列存儲(chǔ)

列式存儲(chǔ)(Columnar or column-based)是相對(duì)于傳統(tǒng)關(guān)系型數(shù)據(jù)庫的行式存儲(chǔ)(Row-basedstorage)來說的。簡單來說兩者的區(qū)別就是如何組織表(翻譯不好,直接抄原文了):

  Row-based storage stores atable in a sequence of rows.

  Column-based storage storesa table in a sequence of columns.

下面來看一個(gè)例子:

幾張圖看懂列式存儲(chǔ)

 

從上圖可以很清楚地看到,行式存儲(chǔ)下一張表的數(shù)據(jù)都是放在一起的,但列式存儲(chǔ)下都被分開保存了。所以它們就有了如下這些優(yōu)缺點(diǎn):


行式存儲(chǔ)列式存儲(chǔ)
優(yōu)點(diǎn)

 數(shù)據(jù)被保存在一起 

 INSERT/UPDATE容易

  查詢時(shí)只有涉及到的列會(huì)被讀取

  投影(projection)很高效

  任何列都能作為索引

缺點(diǎn)  選擇(Selection)時(shí)即使只涉及某幾列,所有數(shù)據(jù)也都會(huì)被讀取

  選擇完成時(shí),被選擇的列要重新組裝

  INSERT/UPDATE比較麻煩

注:關(guān)系型數(shù)據(jù)庫理論回顧 - 選擇(Selection)和投影(Projection)



2補(bǔ)充:數(shù)據(jù)壓縮

剛才其實(shí)跳過了資料里提到的另一種技術(shù):通過字典表壓縮數(shù)據(jù)。為了方面后面的講解,這部分也順帶提一下了。

下面中才是那張表本來的樣子。經(jīng)過字典表進(jìn)行數(shù)據(jù)壓縮后,表中的字符串才都變成數(shù)字了。正因?yàn)槊總€(gè)字符串在字典表里只出現(xiàn)一次了,所以達(dá)到了壓縮的目的(有點(diǎn)像規(guī)范化和非規(guī)范化Normalize和Denomalize)

幾張圖看懂列式存儲(chǔ)


3查詢執(zhí)行性能

下面就是最牛的圖了,通過一條查詢的執(zhí)行過程說明列式存儲(chǔ)(以及數(shù)據(jù)壓縮)的優(yōu)點(diǎn):

幾張圖看懂列式存儲(chǔ)


關(guān)鍵步驟如下:

1.     去字典表里找到字符串對(duì)應(yīng)數(shù)字(只進(jìn)行一次字符串比較)。

2.     用數(shù)字去列表里匹配,匹配上的位置設(shè)為1。

3.     把不同列的匹配結(jié)果進(jìn)行位運(yùn)算得到符合所有條件的記錄下標(biāo)。

4.     使用這個(gè)下標(biāo)組裝出最終的結(jié)果集。


向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI