溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

五分鐘輕松了解Hbase面向列的存儲

發(fā)布時間:2020-07-27 19:53:27 來源:網(wǎng)絡(luò) 閱讀:322 作者:ctolixinjie 欄目:大數(shù)據(jù)

行式存儲

 

傳統(tǒng)的數(shù)據(jù)庫是關(guān)系型的,且是按行來存儲的。如下圖:

五分鐘輕松了解Hbase面向列的存儲

其中只有張三把一行數(shù)據(jù)填滿了,李四王五趙六的行都沒有填滿。因為這里的行結(jié)構(gòu)是固定的,每一行都一樣,即使你不用,也必須空到那里,而不能沒有。來一張形象的圖:

五分鐘輕松了解Hbase面向列的存儲

不管你坐或不坐,座位都在那里,不離不棄。

 

列式存儲

 

為了與傳統(tǒng)的區(qū)別,新型數(shù)據(jù)庫叫做非關(guān)系型數(shù)據(jù)庫,是按列來存儲的。如下圖:

五分鐘輕松了解Hbase面向列的存儲

初次看列式存儲稍微有點懵,下面給出行存與列存的轉(zhuǎn)換:

原來張三的一列(單元格)數(shù)據(jù)對應(yīng)現(xiàn)在張三的一行數(shù)據(jù)。原來張三的六列數(shù)據(jù)變成了現(xiàn)在的六行。

原來的六列數(shù)據(jù)是在一行,所以共用一個主鍵(即張三)。現(xiàn)在變成了六行,每行都需要一個主鍵(不然不知道這行數(shù)據(jù)是誰的),所以原來的主鍵(即張三)重復(fù)了六次。如下圖:

五分鐘輕松了解Hbase面向列的存儲

由于原來的列變?yōu)榱爽F(xiàn)在的行,有需要就加一行,沒需要就不加,不會造成空間浪費。來一張形象的圖:

五分鐘輕松了解Hbase面向列的存儲

(擺渡車內(nèi)部就是一個大平板)

你要站便站,我給你空間,你不站便不站,還給我空間。

 

行列對比

 

行式存儲傾向于結(jié)構(gòu)固定,列式存儲傾向于結(jié)構(gòu)弱化。

行式存儲相當(dāng)于套餐,即使一個人來了也給你上八菜一湯,造成浪費;列式存儲相等于自助餐,按需自取,人少了也不浪費

行式存儲一行數(shù)據(jù)只需一份主鍵,列式存儲一行數(shù)據(jù)需要多份主鍵。

行式存儲存的都是業(yè)務(wù)數(shù)據(jù),列式存儲除了業(yè)務(wù)數(shù)據(jù)外,還要存儲列名。

行式存儲更像一個Java Bean,所有字段都提前定義好,且不能改變;列式存儲更像一個Map,不提前定義,隨意往里添加key/value。

 

官方介紹

 

Apache Hbase是Hadoop數(shù)據(jù)庫,一個分布式、可擴(kuò)展、大數(shù)據(jù)存儲。

當(dāng)你需要隨機地實時讀寫大數(shù)據(jù)時使用Hbase。它的目標(biāo)是管理超級大表-數(shù)十億行X數(shù)百萬列。

Hbase是一個開源的、分布式的、帶版本的、非關(guān)系型數(shù)據(jù)庫,模仿谷歌的BigTable。BigTable使用Google File System作為分布式數(shù)據(jù)存儲,同理Hbase使用HDFS。

 

Hbase世界

 

Hbase雖然弱化了結(jié)構(gòu),但并不等于放任不管。傳統(tǒng)關(guān)系型數(shù)據(jù)庫在插入數(shù)據(jù)前表結(jié)構(gòu)(即所有列和列的數(shù)據(jù)類型)已經(jīng)是嚴(yán)格確定的。

Hbase的表在放入數(shù)據(jù)前也有需要確定下來的東西,那就是Column Family(常譯為列族/列簇)。單詞Family就是家庭的意思,所以列族就是列的家庭。那么列自然就是家庭成員了,通常家庭成員都有多個,所以一個列族包含多個列。

一個家庭的成員之間具有血緣關(guān)系,所以一個列族的多個列之間通常也具有某種關(guān)系,比如相似或同種類別。所以列族可以看作是某種分類(歸類)。

一個非常常見的例子,去面試的時候,一般前臺MM都會讓填一張表,通常信息很多,每個公司又不盡相同。但大致可以分三類:人員基本信息,教育經(jīng)歷信息,工作經(jīng)歷信息,這三個類別其實就相當(dāng)于三個列族。如下圖:

五分鐘輕松了解Hbase面向列的存儲

 

每個類別里都會有具體的信息,比如人員基本信息里有姓名、電話、出生年月等,它們就相當(dāng)于一個個標(biāo)識符(變量名),在Hbase中叫做Column Qualifier列修飾符)。列修飾符位于列族里面用來標(biāo)識一條條數(shù)據(jù)。如下圖:

五分鐘輕松了解Hbase面向列的存儲

 

在Hbase中一個列族(Column Family)和一個列修飾符(Column Qualifier)組合起來才叫一個Column),使用冒號(:)分割,列族:列修飾符,如下圖:

五分鐘輕松了解Hbase面向列的存儲

 

在傳統(tǒng)數(shù)據(jù)庫中每一行的唯一標(biāo)識符叫做主鍵,在Hbase中叫做row key行鍵)。如下圖:

五分鐘輕松了解Hbase面向列的存儲

 

數(shù)據(jù)在進(jìn)入Hbase時都會被打上一個時間戳,這個時間戳可以作為版本號來使用。

在t1時間我存入一個人的基本信息,之后發(fā)現(xiàn)姓名錯了,在t2時間又更新了姓名,此時并不會去更新原來的那條數(shù)據(jù),而是又插入了一條新數(shù)據(jù)且打上新的時間戳。

此時去查詢獲取的是新數(shù)據(jù),仿佛是更新了,但其實只是默認(rèn)返回了最新版本的數(shù)據(jù)而已。如下圖:

五分鐘輕松了解Hbase面向列的存儲

 

一個行鍵、列族、列修飾符、數(shù)據(jù)和時間戳組合起來叫做一個單元格Cell)。這里的行鍵、列族、列修飾符和時間戳其實可以看作是定位屬性(類似坐標(biāo)),最終確定了一個數(shù)據(jù)。下圖中的一行相等于Hbase中的一個單元格:

五分鐘輕松了解Hbase面向列的存儲

 

一個行鍵、一到多列(包括數(shù)據(jù))組合起來叫做一Row)。下圖中所有1001的數(shù)據(jù)合起來相當(dāng)于Hbase中的一行,1002的相當(dāng)于另一行:

五分鐘輕松了解Hbase面向列的存儲

 

在Hbase中,只要確定了列族(具體的列不用管),Table)就確定了。如下圖:

五分鐘輕松了解Hbase面向列的存儲

 

官方文檔中提醒把傳統(tǒng)數(shù)據(jù)庫中的表/行/列的概念用在Hbase中不是一個有幫助的類比。相反可以把Hbase的表想象成一個維MapMap套Map)。列族是第一維,列修飾符是第二維。

 

說明:任何細(xì)微的差別在大數(shù)量時都會被無限放大,那么列族和列修飾符的名字起的短一些能夠節(jié)省可觀的空間。


說明:從嚴(yán)格的列式存儲的定義來看,Hbase并不屬于列式存儲,有人稱它為面向列的存儲,請各位看官注意這一點。


 

(完)

 

編程新說


用獨特的視角說技術(shù)

五分鐘輕松了解Hbase面向列的存儲


向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI