溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

設(shè)計HBase RowKey需要注意什么

發(fā)布時間:2021-12-09 10:11:11 來源:億速云 閱讀:149 作者:小新 欄目:大數(shù)據(jù)

這篇文章將為大家詳細(xì)講解有關(guān)設(shè)計HBase RowKey需要注意什么,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。

在HBase中,定位一條數(shù)據(jù)(即一個Cell)需要4個維度的限定:行鍵(RowKey)、列族(Column Family)、列限定符(Column Qualifier)、時間戳(Timestamp)。其中,RowKey是最容易出現(xiàn)問題的。除了根據(jù)業(yè)務(wù)和查詢需求來設(shè)計之外,還需要注意以下三點。

1. 打散RowKeyHBase中的行是按照RowKey字典序排序的。

這對Scan操作非常友好,因為RowKey相近的行總是存儲在相近的位置,順序讀的效率比隨機讀要高。

但是,如果大量的讀寫操作總是集中在某個RowKey范圍,那么就會造成Region熱點,拖累RegionServer的性能。

因此,要適當(dāng)?shù)貙owKey打散。

加鹽(salting)+哈希(hashing)這里的“加鹽”與密碼學(xué)中的“加鹽”不是一回事。

它是指在RowKey的前面增加一些前綴。

加鹽的前綴種類越多,RowKey就被打得越散。

前綴不可以是隨機的,因為必須要讓客戶端能夠完整地重構(gòu)RowKey。

我們一般會拿原RowKey或其一部分計算hash值,然后再對hash值做運算作為前綴。

反轉(zhuǎn)固定格式的數(shù)值以手機號為例,手機號的前綴變化比較少(如152、185等),但后半部分變化很多。

如果將它反轉(zhuǎn)過來,可以有效地避免熱點。

不過其缺點就是失去了有序性。

反轉(zhuǎn)時間這個操作嚴(yán)格來講不算“打散”,但可以調(diào)整數(shù)據(jù)的時間排序。

如果將時間按照字典序排列,最近產(chǎn)生的數(shù)據(jù)會排在舊數(shù)據(jù)后面。

如果用一個大值減去時間(比如用99999999減去yyyyMMdd,或者Long.MAX_VALUE減去時間戳),最新的數(shù)據(jù)就可以排在前面了。

2. 控制RowKey長度在HBase中,RowKey、列族、列名等都是以byte[]形式傳輸?shù)摹?/p>

RowKey的最大長度限制為64KB,但在實際應(yīng)用中最多不會超過100B。

設(shè)計短RowKey有以下兩方面考慮:

在HBase的底層存儲HFile中,RowKey是KeyValue結(jié)構(gòu)中的一個域。假設(shè)RowKey長度100B,那么1000萬條數(shù)據(jù)中,只算RowKey就占用掉將近1G空間,會影響HFile的存儲效率。

設(shè)計HBase RowKey需要注意什么

HBase中設(shè)計有MemStore和BlockCache,分別對應(yīng)列族/Store級別的寫入緩存,和RegionServer級別的讀取緩存。如果RowKey過長,緩存中存儲數(shù)據(jù)的密度就會降低,影響數(shù)據(jù)落地或查詢效率。

設(shè)計HBase RowKey需要注意什么

另外,我們目前使用的服務(wù)器操作系統(tǒng)都是64位系統(tǒng),內(nèi)存是按照8B對齊的,因此設(shè)計RowKey時一般做成8B的整數(shù)倍,如16B或者24B,可以提高尋址效率。

同樣地,列族、列名的命名在保證可讀的情況下也應(yīng)盡量短。HBase官方不推薦使用3個以上列族,因此實際上列族命名幾乎都用一個字母,比如‘c’或‘f’。

3. 保證RowKey唯一性

這個就是顯而易見的了,不再贅述。

舉個例子我們的業(yè)務(wù)中,有一部分是用戶在日歷上記錄自己的行為。需要儲存在RowKey中的維度有:用戶ID(uid,不會超過十億)、日歷上的日期(date,yyyyMMdd格式)、記錄行為的類型(type,0~99之間)。記錄的詳細(xì)數(shù)據(jù)則存儲在列f:data中。根據(jù)查詢邏輯,我們設(shè)計的RowKey格式如下:

9~79809782~05~0008839540

長度正好是24B。以字符‘~’為分界(‘~’的ASCII碼是最大的,方便),各個部分的含義如下:

  • uid.toString().hashCode() % 10

  • 99999999 - date

  • StringUtils.leftPad(type, 2, "0")

  • StringUtils.leftPad(uid, 10, "0")

基于這種設(shè)計,我們在建表階段就可以將其預(yù)分區(qū),使得數(shù)據(jù)在一開始就均勻分布在不同的Region上。建表語句參考:

create 'user_calendar_record', {  NAME => 'f',  VERSIONS => '1',  BLOCKCACHE => 'true',  BLOCKSIZE => '65536',   BLOOMFILTER => 'row',  COMPRESSION => 'SNAPPY'}, {  SPLITS => ['1', '2', '3', '4', '5', '6', '7', '8', '9']}

如果不做預(yù)分區(qū),那么表剛開始只會有一個Region。隨著數(shù)據(jù)量增大,就會頻繁觸發(fā)Region split,影響效率。

關(guān)于“設(shè)計HBase RowKey需要注意什么”這篇文章就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,使各位可以學(xué)到更多知識,如果覺得文章不錯,請把它分享出去讓更多的人看到。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI