溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Hbase組件間交互

發(fā)布時(shí)間:2020-05-25 15:00:23 來(lái)源:網(wǎng)絡(luò) 閱讀:546 作者:zlfwmm 欄目:關(guān)系型數(shù)據(jù)庫(kù)

Hbase實(shí)現(xiàn)
    Hbase由一個(gè)Master節(jié)點(diǎn)負(fù)責(zé)協(xié)調(diào)管理一個(gè)或多個(gè)RegionServer從屬機(jī).Master負(fù)責(zé)啟動(dòng),把區(qū)域分配給注冊(cè)的RegionServer,恢復(fù)RegionServer的故障. Master負(fù)載很輕. RegionServer負(fù)責(zé)零個(gè)或多個(gè)區(qū)域的管理以及響應(yīng)客戶端的讀寫請(qǐng)求, RegionServer還負(fù)責(zé)區(qū)域的劃分,并通知Master有了新的子區(qū)域Hbase依賴于Zookeeper.如果區(qū)域的分配過(guò)程中有服務(wù)器崩潰,就通過(guò)Zookeeper來(lái)協(xié)調(diào),分配,在Zookeeper分配事務(wù)狀態(tài)有助于在恢復(fù)時(shí)可以從崩潰遺留的狀態(tài)開(kāi)始繼續(xù)分配.在啟動(dòng)一個(gè)客戶端到集群上的連接時(shí),客戶端必須至少拿到集群所傳遞的Zookeeper整體的位置.這樣,客戶端才能訪問(wèn)Zookeeper的層次,了解集群的屬性,如服務(wù)器的位置.
運(yùn)行中Hbase
    Hbase中保留著-ROOT-和.META.的特殊目錄,它們維護(hù)著當(dāng)前集群上所有區(qū)域的列表,狀態(tài),位置.ROOT表維護(hù)著Meta表的信息,Meta表維護(hù)著用戶表的信息, Meta表中的項(xiàng)使用區(qū)域名作為主鍵,區(qū)域名由所屬的表名,區(qū)域的起始行,創(chuàng)建的時(shí)間戳進(jìn)行哈希后的結(jié)果組成.區(qū)域變化時(shí),即分裂,禁用/啟用.刪除,為負(fù)載均衡重新部署機(jī)器或由于Regionserver崩潰而重新部署區(qū)域時(shí),目錄表都會(huì)相應(yīng)進(jìn)行更新,這樣,集群上所以區(qū)域的信息都能保持是最新的.
客戶端的每一個(gè)行操作都要訪問(wèn)三次遠(yuǎn)程節(jié)點(diǎn):
    1.從Zookeeper獲取Master的位置
    2.從Master獲取.Meta.表的信息
    3.根據(jù).Meta.表的信息,獲取region位置信息

    為了減少訪問(wèn)遠(yuǎn)程節(jié)點(diǎn),Hbase客戶端會(huì)緩存它們遍歷ROOT表時(shí)獲取的信息和Meta表位置以及用戶空間的區(qū)域的開(kāi)始行和結(jié)束行,這樣不用訪問(wèn)Meta表也能得知區(qū)域存放的位置.當(dāng)客戶端碰到錯(cuò)誤時(shí)會(huì)再去查看Meta獲取區(qū)域的新位置,如果.Meta也移動(dòng)了,就去查詢ROOT表 


Client

1 包含訪問(wèn)hbase的接口,client維護(hù)著一些cache來(lái)加快對(duì)hbase的訪問(wèn),比如regione的位置信息。
Zookeeper
1 保證任何時(shí)候,集群中只有一個(gè)master
2 存貯所有Region的尋址入口。
3 實(shí)時(shí)監(jiān)控Region Server的狀態(tài),將Region server的上線和下線信息實(shí)時(shí)通知給Master
4 存儲(chǔ)Hbase的schema,包括有哪些table,每個(gè)table有哪些column family
Master
1 為Region server分配region
2 負(fù)責(zé)region server的負(fù)載均衡
3 發(fā)現(xiàn)失效的region server并重新分配其上的region
4 GFS上的垃圾文件回收
5 處理schema更新請(qǐng)求
Region Server
1 Region server維護(hù)Master分配給它的region,處理對(duì)這些region的IO請(qǐng)求
2 Region server負(fù)責(zé)切分在運(yùn)行過(guò)程中變得過(guò)大的region
可以看到,client訪問(wèn)hbase上數(shù)據(jù)的過(guò)程并不需要master參與(尋址訪問(wèn)zookeeper和region server,數(shù)據(jù)讀寫訪問(wèn)regione server),master僅僅維護(hù)者table和region的元數(shù)據(jù)信息,負(fù)載很低


region定位
系統(tǒng)如何找到某個(gè)row key (或者某個(gè) row key range)所在的region
bigtable 使用三層類似B+樹(shù)的結(jié)構(gòu)來(lái)保存region位置。
第一層是保存zookeeper里面的文件,它持有root region的位置。
第二層root region是.META.表的第一個(gè)region其中保存了.META.z表其它region的位置。通過(guò)root region,我們就可以訪問(wèn).META.表的數(shù)據(jù)。
.META.是第三層,它是一個(gè)特殊的表,保存了hbase中所有數(shù)據(jù)表的region 位置信息。
說(shuō)明:
1 root region永遠(yuǎn)不會(huì)被split,保證了最需要三次跳轉(zhuǎn),就能定位到任意region 。
2.META.表每行保存一個(gè)region的位置信息,row key 采用表名+表的最后一樣編碼而成。
3 為了加快訪問(wèn),.META.表的全部region都保存在內(nèi)存中。
假設(shè),.META.表的一行在內(nèi)存中大約占用1KB。并且每個(gè)region限制為128MB。
那么上面的三層結(jié)構(gòu)可以保存的region數(shù)目為:
(128MB/1KB) * (128MB/1KB) = = 2(34)個(gè)region
4 client會(huì)將查詢過(guò)的位置信息保存緩存起來(lái),緩存不會(huì)主動(dòng)失效,因此如果client上的緩存全部失效,則需要進(jìn)行6次網(wǎng)絡(luò)來(lái)回,才能定位到正確的region(其中三次用來(lái)發(fā)現(xiàn)緩存失效,另外三次用來(lái)獲取位置信息)。
讀寫過(guò)程
上文提到,hbase使用MemStore和StoreFile存儲(chǔ)對(duì)表的更新。
數(shù)據(jù)在更新時(shí)首先寫入Log(WAL log)和內(nèi)存(MemStore)中,MemStore中的數(shù)據(jù)是排序的,當(dāng)MemStore累計(jì)到一定閾值時(shí),就會(huì)創(chuàng)建一個(gè)新的MemStore,并 且將老的MemStore添加到flush隊(duì)列,由單獨(dú)的線程flush到磁盤上,成為一個(gè)StoreFile。于此同時(shí),系統(tǒng)會(huì)在zookeeper中 記錄一個(gè)redo point,表示這個(gè)時(shí)刻之前的變更已經(jīng)持久化了。(minor compact)
當(dāng)系統(tǒng)出現(xiàn)意外時(shí),可能導(dǎo)致內(nèi)存(MemStore)中的數(shù)據(jù)丟失,此時(shí)使用Log(WAL log)來(lái)恢復(fù)checkpoint之后的數(shù)據(jù)。
前面提到過(guò)StoreFile是只讀的,一旦創(chuàng)建后就不可以再修改。因此Hbase的更 新其實(shí)是不斷追加的操作。當(dāng)一個(gè)Store中的StoreFile達(dá)到一定的閾值后,就會(huì)進(jìn)行一次合并(major compact),將對(duì)同一個(gè)key的修改合并到一起,形成一個(gè)大的StoreFile,當(dāng)StoreFile的大小達(dá)到一定閾值后,又會(huì)對(duì) StoreFile進(jìn)行split,等分為兩個(gè)StoreFile。
由于對(duì)表的更新是不斷追加的,處理讀請(qǐng)求時(shí),需要訪問(wèn)Store中全部的 StoreFile和MemStore,將他們的按照row key進(jìn)行合并,由于StoreFile和MemStore都是經(jīng)過(guò)排序的,并且StoreFile帶有內(nèi)存中索引,合并的過(guò)程還是比較快。
寫請(qǐng)求處理過(guò)程
1 client向region server提交寫請(qǐng)求
2 region server找到目標(biāo)region
3 region檢查數(shù)據(jù)是否與schema一致
4 如果客戶端沒(méi)有指定版本,則獲取當(dāng)前系統(tǒng)時(shí)間作為數(shù)據(jù)版本
5 將更新寫入WAL log
6 將更新寫入Memstore
7 判斷Memstore的是否需要flush為Store文件。
region分配
任何時(shí)刻,一個(gè)region只能分配給一個(gè)region server。master記錄了當(dāng)前有哪些可用的region server。以及當(dāng)前哪些region分配給了哪些region server,哪些region還沒(méi)有分配。當(dāng)存在未分配的region,并且有一個(gè)region server上有可用空間時(shí),master就給這個(gè)region server發(fā)送一個(gè)裝載請(qǐng)求,把region分配給這個(gè)region server。region server得到請(qǐng)求后,就開(kāi)始對(duì)此region提供服務(wù)。



region server上線

master使用zookeeper來(lái)跟蹤region server狀態(tài)。當(dāng)某個(gè)region server啟動(dòng)時(shí),會(huì)首先在zookeeper上的server目錄下建立代表自己的文件,并獲得該文件的獨(dú)占鎖。由于master訂閱了server 目錄上的變更消息,當(dāng)server目錄下的文件出現(xiàn)新增或刪除操作時(shí),master可以得到來(lái)自zookeeper的實(shí)時(shí)通知。因此一旦region server上線,master能馬上得到消息。
region server下線
當(dāng)region server下線時(shí),它和zookeeper的會(huì)話斷開(kāi),zookeeper而自動(dòng)釋放代表這臺(tái)server的文件上的獨(dú)占鎖。而master不斷輪詢 server目錄下文件的鎖狀態(tài)。如果master發(fā)現(xiàn)某個(gè)region server丟失了它自己的獨(dú)占鎖,(或者master連續(xù)幾次和region server通信都無(wú)法成功),master就是嘗試去獲取代表這個(gè)region server的讀寫鎖,一旦獲取成功,就可以確定:
1 region server和zookeeper之間的網(wǎng)絡(luò)斷開(kāi)了。
2 region server掛了。
的其中一種情況發(fā)生了,無(wú)論哪種情況,region server都無(wú)法繼續(xù)為它的region提供服務(wù)了,此時(shí)master會(huì)刪除server目錄下代表這臺(tái)region server的文件,并將這臺(tái)region server的region分配給其它還活著的同志。
如果網(wǎng)絡(luò)短暫出現(xiàn)問(wèn)題導(dǎo)致region server丟失了它的鎖,那么region server重新連接到zookeeper之后,只要代表它的文件還在,它就會(huì)不斷嘗試獲取這個(gè)文件上的鎖,一旦獲取到了,就可以繼續(xù)提供服務(wù)。
master上線
master啟動(dòng)進(jìn)行以下步驟:
1 從zookeeper上獲取唯一一個(gè)代碼master的鎖,用來(lái)阻止其它master成為master。
2 掃描zookeeper上的server目錄,獲得當(dāng)前可用的region server列表。
3 和2中的每個(gè)region server通信,獲得當(dāng)前已分配的region和region server的對(duì)應(yīng)關(guān)系。
4 掃描.META.region的集合,計(jì)算得到當(dāng)前還未分配的region,將他們放入待分配region列表。
master下線
由于master只維護(hù)表和region的元數(shù)據(jù),而不參與表數(shù)據(jù)IO的過(guò) 程,master下線僅導(dǎo)致所有元數(shù)據(jù)的修改被凍結(jié)(無(wú)法創(chuàng)建刪除表,無(wú)法修改表的schema,無(wú)法進(jìn)行region的負(fù)載均衡,無(wú)法處理region 上下線,無(wú)法進(jìn)行region的合并,唯一例外的是region的split可以正常進(jìn)行,因?yàn)橹挥衦egion server參與),表的數(shù)據(jù)讀寫還可以正常進(jìn)行。因此master下線短時(shí)間內(nèi)對(duì)整個(gè)hbase集群沒(méi)有影響。從上線過(guò)程可以看到,master保存的 信息全是可以冗余信息(都可以從系統(tǒng)其它地方收集到或者計(jì)算出來(lái)),因此,一般hbase集群中總是有一個(gè)master在提供服務(wù),還有一個(gè)以上 的’master’在等待時(shí)機(jī)搶占它的位置。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI