溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

big data設(shè)計(jì)中的拉鏈表是什么

發(fā)布時(shí)間:2022-01-04 10:03:25 來(lái)源:億速云 閱讀:121 作者:柒染 欄目:大數(shù)據(jù)

這期內(nèi)容當(dāng)中小編將會(huì)給大家?guī)?lái)有關(guān)big data設(shè)計(jì)中的拉鏈表是什么,文章內(nèi)容豐富且以專(zhuān)業(yè)的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。

隔行如隔山,這句話(huà)在飛速的時(shí)代發(fā)展中向著兩個(gè)極端發(fā)展 , 1 真的如隔山, 2 這個(gè)山如同一張紙, 越來(lái)越多的 DB 開(kāi)始負(fù)責(zé)一些 BIG DATA的工作在很多單位也是存在的,而了解BIG DATA 和 DATA warehouse 的一些設(shè)計(jì),對(duì)當(dāng)前和未來(lái)的工作都是多多益善的。

今天來(lái)說(shuō)說(shuō)其中的一種big data設(shè)計(jì)的表類(lèi)型,拉鏈表。 

首先的說(shuō)說(shuō)拉鏈表到底是個(gè)什么東西,DB 一般聽(tīng)到一種表,可能會(huì)聯(lián)想到某種物理方面的技術(shù),如臨時(shí)表, template table , 繼承表,等等, 今天的拉鏈表本身不是一項(xiàng)物理技術(shù),而是一種邏輯技術(shù)。通過(guò)某種設(shè)計(jì),來(lái)達(dá)到某些目的的,人為的方法。

拉鏈表在什么地方用,顯然嚴(yán)格的說(shuō)拉鏈表是要用到在 BIG DATA ,data warehouse 這一類(lèi)的地方是他的起源,當(dāng)然可以在研究將其用到 DB 中的某些設(shè)計(jì)(今天就不說(shuō)了)。

在BIG DATA中,有一種需求是要根據(jù)各種維度,對(duì)歷史時(shí)期的數(shù)據(jù)進(jìn)行處理,而達(dá)到一個(gè)歷史數(shù)據(jù)統(tǒng)計(jì)分析的目的,而這就會(huì)出現(xiàn)一個(gè)問(wèn)題,數(shù)據(jù)量的問(wèn)題。我們舉一個(gè)例子,我們有一個(gè)用戶(hù)的加入購(gòu)物車(chē)物品的數(shù)量記錄表,(后面簡(jiǎn)稱(chēng)購(gòu)物車(chē)表)客戶(hù)可能今天將一些產(chǎn)品放到購(gòu)物車(chē),而過(guò)了些日子就將他們刪除了,當(dāng)然其中的原因只能是客戶(hù)自己知道,而公司是不是要通過(guò)這樣的變化來(lái)找點(diǎn)什么事情做,要不閑著閑著就下崗了。通過(guò)購(gòu)物車(chē)的歷史變化而可以得出很多維度的信息,讓后就可以去促銷(xiāo),當(dāng)然也可以和XX公司來(lái)個(gè)殺熟。

OK 廢話(huà)了那么多,拉鏈表的有一個(gè)定義吧

一個(gè)通過(guò)記錄歷史數(shù)據(jù),并將其變化的狀態(tài)進(jìn)行體現(xiàn),壓縮存儲(chǔ)空間,方便進(jìn)行歷史同期分析,或階段性分析的數(shù)據(jù)存儲(chǔ)和處理的方式就可以叫拉鏈表。

而叫拉鏈表也是有原因的, 1 存儲(chǔ)了開(kāi)始和結(jié)束的時(shí)間(針對(duì)每行記錄和業(yè)務(wù)邏輯綁定) 2 開(kāi)始和結(jié)束的時(shí)間收尾相接,形成鏈?zhǔn)綑C(jī)構(gòu) 3 避免存儲(chǔ)每天的全量記錄。

舉例:我們要統(tǒng)計(jì)每個(gè)月客戶(hù)在自己的購(gòu)物車(chē)添加的東西的數(shù)量和刪除的數(shù)量。(至少我們可以知道他們的購(gòu)買(mǎi)的欲望和錢(qián)包之間的可能的關(guān)系)

以MPP架構(gòu)為例

1 當(dāng)月第一天的前一天的購(gòu)物車(chē)表的全量數(shù)據(jù)

全量數(shù)據(jù)表中包含至少3非業(yè)務(wù)數(shù)據(jù)的字段,開(kāi)始時(shí)間 和 結(jié)束時(shí)間,開(kāi)始時(shí)間可以是記錄導(dǎo)入到data warehouse 的時(shí)間,也可以是本身記錄在業(yè)務(wù)表插入的時(shí)間,具體的和業(yè)務(wù)分析以及你擁有的資源掛鉤, 以及記錄最后一次的操作方式  I D U。

2 進(jìn)行當(dāng)月天數(shù)的拉鏈表分區(qū)表的設(shè)計(jì),分區(qū)鍵一般是 可以是開(kāi)始時(shí)間,或符號(hào)業(yè)務(wù)邏輯的字段

3 通過(guò)某些手段獲取第二天變化過(guò)的購(gòu)物車(chē)表的記錄,并存儲(chǔ)進(jìn)臨時(shí)表

將第二天業(yè)務(wù)表中,插入的,UPDATE ,delete 的操作(有可能是邏輯操作,這里假設(shè)是物理操作) I D U 三種操作

4 通過(guò)之前一天的數(shù)據(jù)變化歷史表,與當(dāng)天記錄的歷史的變化數(shù)據(jù)進(jìn)行 left join 運(yùn)算,然后得出當(dāng)天 Delete 和 update 的操作記錄以及沒(méi)有變化的記錄,然后在加上當(dāng)天insert 操作的記錄,就得到了第二天的整體的業(yè)務(wù)表。

5  通過(guò)這樣的方式可以得到一整個(gè)月的數(shù)據(jù)變化,(也可以在DATA WAREHOUSE 的 業(yè)務(wù)歷史表根據(jù)記錄行的最后一次的操作狀態(tài)(可以是物理,也可以是邏輯),來(lái)將已經(jīng)刪除的記錄排除到下一次數(shù)據(jù)的歷史分區(qū)表之外)

通過(guò)這樣的方法,就可以將一個(gè)月所有客戶(hù)的購(gòu)物車(chē)的變化曲線(xiàn)圖,或者刪除的最多的產(chǎn)品,在或者某個(gè)地域刪除購(gòu)物車(chē),或某類(lèi)產(chǎn)品被添加的購(gòu)物車(chē)的當(dāng)天,當(dāng)月最大量等等都統(tǒng)計(jì)和分析出來(lái)。

這樣做的好處

1 我們是否可以將每天的數(shù)據(jù)都同步到 數(shù)據(jù)倉(cāng)庫(kù)一次,答案是當(dāng)然,但問(wèn)題

   1.1 購(gòu)物車(chē)是動(dòng)態(tài)的,同步數(shù)據(jù)的時(shí)候雖然可以使用從庫(kù)等進(jìn)行數(shù)據(jù)的抓取,但數(shù)據(jù)量大的情況,處理起來(lái)還是比較笨拙的。同時(shí)數(shù)據(jù)量的問(wèn)題不知道是否考慮過(guò),每天一個(gè)全量的業(yè)務(wù)表.......

  好處:  拉鏈表通過(guò)獲取變動(dòng)的數(shù)據(jù)來(lái)進(jìn)行數(shù)據(jù)的生成,這明顯降低了業(yè)務(wù)系統(tǒng)的壓力,以及網(wǎng)絡(luò),存儲(chǔ)等多系統(tǒng)的負(fù)擔(dān),大部分工作在數(shù)倉(cāng)本身就完成了

    1.2  數(shù)據(jù)量的問(wèn)題,雖然根據(jù)上面的方法,已我們有10億條記錄,每天更改的記錄在200萬(wàn),則我們需要存儲(chǔ)的記錄的數(shù)字(以30天為例), 200萬(wàn)* 29天 + 1天 10億,針對(duì)上面的每天一個(gè)切片的方式存儲(chǔ)的數(shù)據(jù)量對(duì)比  30天* 10億 + 要節(jié)省很多存儲(chǔ)空間。

舉例這是我們12月1 日的全量表

big data設(shè)計(jì)中的拉鏈表是什么

下面地記錄就是拉鏈表,其中記錄了每條記錄地在每天地變化,通過(guò)初始表+拉鏈表,可以將這一個(gè)月地所有地?cái)?shù)據(jù)變化進(jìn)行相關(guān)維度地分析,或生成新的時(shí)間維度的數(shù)據(jù)表。

big data設(shè)計(jì)中的拉鏈表是什么

上述就是小編為大家分享的big data設(shè)計(jì)中的拉鏈表是什么了,如果剛好有類(lèi)似的疑惑,不妨參照上述分析進(jìn)行理解。如果想知道更多相關(guān)知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI