大數(shù)據(jù)之HBase基礎

發(fā)布時間：2020-08-17 07:07:52 來源：網(wǎng)絡閱讀：553 作者：鯨落大叔欄目：大數(shù)據(jù)

HBase簡介
1.1. 什么是HBase
HBase是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng)，利用HBase技術可在廉價PC Server上搭建起大規(guī)模結構化存儲集群。

HBase的目標是存儲并處理大型的數(shù)據(jù)，更具體來說是僅需使用普通的硬件配置，就能夠處理由成千上萬的行和列所組成的大型數(shù)據(jù)。

HBase是Google Bigtable的開源實現(xiàn)，但是也有很多不同之處。
比如：
Google Bigtable利用GFS作為其文件存儲系統(tǒng)，HBase利用Hadoop HDFS作為其文件存儲系統(tǒng)；
Google運行MAPREDUCE來處理Bigtable中的海量數(shù)據(jù)，HBase同樣利用Hadoop MapReduce來處理HBase中的海量數(shù)據(jù)；
Google Bigtable利用Chubby作為協(xié)同服務，HBase利用Zookeeper作為對應。
想了解大數(shù)據(jù)的學習路線，想學習大數(shù)據(jù)知識以及需要免費的學習資料可以加群：784789432.歡迎你的加入。每天下午三點開直播分享基礎知識，晚上20:00都會開直播給大家分享大數(shù)據(jù)項目實戰(zhàn)。

1.2. 與傳統(tǒng)數(shù)據(jù)庫的對比
1、傳統(tǒng)數(shù)據(jù)庫遇到的問題：

1）數(shù)據(jù)量很大的時候無法存儲

2）沒有很好的備份機制

3）數(shù)據(jù)達到一定數(shù)量開始緩慢，很大的話基本無法支撐

2、HBase優(yōu)勢：

1）線性擴展，隨著數(shù)據(jù)量增多可以通過節(jié)點擴展進行支撐

2）數(shù)據(jù)存儲在hdfs上，備份機制健全

3）通過zookeeper協(xié)調查找數(shù)據(jù)，訪問速度塊。

1.3. HBase集群中的角色
1、一個或者多個主節(jié)點，Hmaster

2、多個從節(jié)點，HregionServer

hbase數(shù)據(jù)模型
2.1. hbase數(shù)據(jù)模型

2.1.1. Row Key
與nosql數(shù)據(jù)庫們一樣,row key是用來檢索記錄的主鍵。訪問HBASE table中的行，只有三種方式：

1.通過單個row key訪問

2.通過row key的range（正則）

3.全表掃描

Row key行鍵 (Row key)可以是任意字符串(最大長度是 64KB，實際應用中長度一般為 10-100bytes)，在HBASE內(nèi)部，row key保存為字節(jié)數(shù)組。存儲時，數(shù)據(jù)按照Row key的字典序(byte order)排序存儲。設計key時，要充分排序存儲這個特性，將經(jīng)常一起讀取的行存儲放到一起。(位置相關性)

2.1.2. Columns Family
列簇：HBASE表中的每個列，都歸屬于某個列族。列族是表的schema的一部分(而列不是)，必須在使用表之前定義。列名都以列族作為前綴。例如 courses:history，courses:math都屬于courses 這個列族。

2.1.3. Cell
由{row key, columnFamily, version} 唯一確定的單元。cell中的數(shù)據(jù)是沒有類型的，全部是字節(jié)碼形式存貯。

關鍵字：無類型、字節(jié)碼

2.1.4. Time Stamp
HBASE 中通過rowkey和columns確定的為一個存貯單元稱為cell。每個 cell都保存著同一份數(shù)據(jù)的多個版本。版本通過時間戳來索引。時間戳的類型是 64位整型。時間戳可以由HBASE(在數(shù)據(jù)寫入時自動 )賦值，此時時間戳是精確到毫秒的當前系統(tǒng)時間。時間戳也可以由客戶顯式賦值。如果應用程序要避免數(shù)據(jù)版本沖突，就必須自己生成具有唯一性的時間戳。每個 cell中，不同版本的數(shù)據(jù)按照時間倒序排序，即最新的數(shù)據(jù)排在最前面。

為了避免數(shù)據(jù)存在過多版本造成的的管理 (包括存貯和索引)負擔，HBASE提供了兩種數(shù)據(jù)版本回收方式。一是保存數(shù)據(jù)的最后n個版本，二是保存最近一段時間內(nèi)的版本（比如最近七天）。用戶可以針對每個列族進行設置。

hbase命令
3.1. 命令的進退
1、hbase提供了一個shell的終端給用戶交互

#$HBASE_HOME/bin/hbase shell

2、如果退出執(zhí)行quit命令

#$HBASE_HOME/bin/hbase shell

……

quit

3.2. 命令
名稱

命令表達式

創(chuàng)建表

create '表名', '列族名1','列族名2','列族名N'

查看所有表

list

描述表

describe ‘表名’

判斷表存在

exists '表名'

判斷是否禁用啟用表

is_enabled '表名'
is_disabled ‘表名’

添加記錄

put ‘表名’, ‘rowKey’, ‘列族 : 列‘ , '值'

查看記錄rowkey下的所有數(shù)據(jù)

get '表名' , 'rowKey'

查看表中的記錄總數(shù)

count '表名'

獲取某個列族

get '表名','rowkey','列族'

獲取某個列族的某個列

get '表名','rowkey','列族：列’

刪除記錄

delete ‘表名’ ,‘行名’ , ‘列族：列'

刪除整行

deleteall '表名','rowkey'

刪除一張表

先要屏蔽該表，才能對該表進行刪除
第一步 disable ‘表名’ ，第二步 drop '表名'

清空表

truncate '表名'

查看所有記錄

scan "表名"

查看某個表某個列中所有數(shù)據(jù)

scan "表名" , {COLUMNS=>'列族名:列名'}

更新記錄

就是重寫一遍，進行覆蓋，hbase沒有修改，都是追加

hbase依賴zookeeper
1、保存Hmaster的地址和backup-master地址

hmaster：

a) 管理HregionServer

b) 做增刪改查表的節(jié)點

c) 管理HregionServer中的表分配

2、保存表-ROOT-的地址

hbase默認的根表，檢索表。

3、 HRegionServer列表

表的增刪改查數(shù)據(jù)。

和hdfs交互，存取數(shù)據(jù)。

hbase原理
5.1. 體系圖

5.1.1. 寫流程
1、 client向hregionserver發(fā)送寫請求。

2、 hregionserver將數(shù)據(jù)寫到hlog（write ahead log）。為了數(shù)據(jù)的持久化和恢復。

3、 hregionserver將數(shù)據(jù)寫到內(nèi)存（memstore）

4、反饋client寫成功。

5.1.2. 數(shù)據(jù)flush過程
1、當memstore數(shù)據(jù)達到閾值（默認是64M），將數(shù)據(jù)刷到硬盤，將內(nèi)存中的數(shù)據(jù)刪除，同時刪除Hlog中的歷史數(shù)據(jù)。

2、并將數(shù)據(jù)存儲到hdfs中。

3、在hlog中做標記點。

5.1.3. 數(shù)據(jù)合并過程
1、當數(shù)據(jù)塊達到4塊，hmaster將數(shù)據(jù)塊加載到本地，進行合并

2、當合并的數(shù)據(jù)超過256M，進行拆分，將拆分后的region分配給不同的hregionserver管理

3、當hregionser宕機后，將hregionserver上的hlog拆分，然后分配給不同的hregionserver加載，修改.META.

4、注意：hlog會同步到hdfs

5.1.4. hbase的讀流程
1、通過zookeeper和-ROOT- .META.表定位hregionserver。

2、數(shù)據(jù)從內(nèi)存和硬盤合并后返回給client

3、數(shù)據(jù)塊會緩存

5.1.5. hmaster的職責
1、管理用戶對Table的增、刪、改、查操作；

2、記錄region在哪臺Hregion server上

3、在Region Split后，負責新Region的分配；

4、新機器加入時，管理HRegion Server的負載均衡，調整Region分布

5、在HRegion Server宕機后，負責失效HRegion Server 上的Regions遷移。

5.1.6. hregionserver的職責
HRegion Server主要負責響應用戶I/O請求，向HDFS文件系統(tǒng)中讀寫數(shù)據(jù)，是HBASE中最核心的模塊。

HRegion Server管理了很多table的分區(qū)，也就是region。

5.1.7. client職責
Client

HBASE Client使用HBASE的RPC機制與HMaster和RegionServer進行通信

管理類操作：Client與HMaster進行RPC；

數(shù)據(jù)讀寫類操作：Client與HRegionServer進行RPC。

向AI問一下細節(jié)

大數(shù)據(jù)之HBase基礎

猜你喜歡

最新資訊

相關推薦

相關標簽