溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

為什么要對數(shù)據(jù)倉庫進(jìn)行數(shù)據(jù)分層

發(fā)布時間:2021-10-11 10:46:10 來源:億速云 閱讀:181 作者:iii 欄目:編程語言

本篇內(nèi)容介紹了“為什么要對數(shù)據(jù)倉庫進(jìn)行數(shù)據(jù)分層”的有關(guān)知識,在實(shí)際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!

為什么要對數(shù)據(jù)倉庫分層?

  • 用空間換時間,通過大量的預(yù)處理來提升應(yīng)用系統(tǒng)的用戶體驗(yàn)(效率),因此數(shù)據(jù)倉庫會存在大量冗余的數(shù)據(jù);

  • 如果不分層的話,如果源業(yè)務(wù)系統(tǒng)的業(yè)務(wù)規(guī)則發(fā)生變化將會影響整個數(shù)據(jù)清洗過程,工作量巨大

  • 通過數(shù)據(jù)分層管理可以簡化數(shù)據(jù)清洗的過程,因?yàn)榘言瓉硪徊降墓ぷ鞣值搅硕鄠€步驟去完成,相當(dāng)于把一個復(fù)雜的工作拆成了多個簡單的工作,把一個大的黑盒變成了一個白盒,每一層的處理邏輯都相對簡單和容易理解,這樣我們比較容易保證每一個步驟的正確性,當(dāng)數(shù)據(jù)發(fā)生錯誤的時候,往往我們只需要局部調(diào)整某個步驟即可。

數(shù)據(jù)倉庫標(biāo)準(zhǔn)上可以分為四層:ODS(臨時存儲層)、PDW(數(shù)據(jù)倉庫層)、MID(數(shù)據(jù)集市層)、APP(應(yīng)用層)

ODS層:

為臨時存儲層,是接口數(shù)據(jù)的臨時存儲區(qū)域,為后一步的數(shù)據(jù)處理做準(zhǔn)備。一般來說ODS層的數(shù)據(jù)和源系統(tǒng)的數(shù)據(jù)是同構(gòu)的,主要目的是簡化后續(xù)數(shù)據(jù)加工處理的工作。從數(shù)據(jù)粒度上來說ODS層的數(shù)據(jù)粒度是最細(xì)的。ODS層的表通常包括兩類,一個用于存儲當(dāng)前需要加載的數(shù)據(jù),一個用于存儲處理完后的歷史數(shù)據(jù)。歷史數(shù)據(jù)一般保存3-6個月后需要清除,以節(jié)省空間。但不同的項(xiàng)目要區(qū)別對待,如果源系統(tǒng)的數(shù)據(jù)量不大,可以保留更長的時間,甚至全量保存;

PDW層:

為數(shù)據(jù)倉庫層,PDW層的數(shù)據(jù)應(yīng)該是一致的、準(zhǔn)確的、干凈的數(shù)據(jù),即對源系統(tǒng)數(shù)據(jù)進(jìn)行了清洗(去除了雜質(zhì))后的數(shù)據(jù)。這一層的數(shù)據(jù)一般是遵循數(shù)據(jù)庫第三范式的,其數(shù)據(jù)粒度通常和ODS的粒度相同。在PDW層會保存BI系統(tǒng)中所有的歷史數(shù)據(jù),例如保存10年的數(shù)據(jù)。

MID層:

為數(shù)據(jù)集市層,這層數(shù)據(jù)是面向主題來組織數(shù)據(jù)的,通常是星形或雪花結(jié)構(gòu)的數(shù)據(jù)。從數(shù)據(jù)粒度來說,這層的數(shù)據(jù)是輕度匯總級的數(shù)據(jù),已經(jīng)不存在明細(xì)數(shù)據(jù)了。從數(shù)據(jù)的時間跨度來說,通常是PDW層的一部分,主要的目的是為了滿足用戶分析的需求,而從分析的角度來說,用戶通常只需要分析近幾年(如近三年的數(shù)據(jù))的即可。從數(shù)據(jù)的廣度來說,仍然覆蓋了所有業(yè)務(wù)數(shù)據(jù)。

APP層:

為應(yīng)用層,這層數(shù)據(jù)是完全為了滿足具體的分析需求而構(gòu)建的數(shù)據(jù),也是星形或雪花結(jié)構(gòu)的數(shù)據(jù)。從數(shù)據(jù)粒度來說是高度匯總的數(shù)據(jù)。從數(shù)據(jù)的廣度來說,則并不一定會覆蓋所有業(yè)務(wù)數(shù)據(jù),而是MID層數(shù)據(jù)的一個真子集,從某種意義上來說是MID層數(shù)據(jù)的一個重復(fù)。從極端情況來說,可以為每一張報表在APP層構(gòu)建一個模型來支持,達(dá)到以空間換時間的目的數(shù)據(jù)倉庫的標(biāo)準(zhǔn)分層只是一個建議性質(zhì)的標(biāo)準(zhǔn),實(shí)際實(shí)施時需要根據(jù)實(shí)際情況確定數(shù)據(jù)倉庫的分層,不同類型的數(shù)據(jù)也可能采取不同的分層方法。

---【補(bǔ)充,也有分三層的】

數(shù)據(jù)緩存層:

用于存放接口方提供的原始數(shù)據(jù)的數(shù)據(jù)庫層,此層的表結(jié)構(gòu)與源數(shù)據(jù)保持基本一致,數(shù)據(jù)存放時間根據(jù)數(shù)據(jù)量大小和項(xiàng)目情況而定,如果數(shù)據(jù)量較大,可以只存近期數(shù)據(jù),將歷史數(shù)據(jù)進(jìn)行備份。此層的目的在于數(shù)據(jù)的中轉(zhuǎn)和備份。

核心數(shù)據(jù)層:

此層的數(shù)據(jù)在數(shù)據(jù)緩存層的基礎(chǔ)上做了一定程度的整合,稱之為數(shù)據(jù)集市,存儲上仍是關(guān)系模型。此層的目的在于進(jìn)行必要的數(shù)據(jù)整合為下一步多維模型做準(zhǔn)備。

分析應(yīng)用層:

此層的數(shù)據(jù)為根據(jù)業(yè)務(wù)分析需要構(gòu)造的多維模型數(shù)據(jù)。數(shù)據(jù)可以直接用于分析展現(xiàn)。

說明:數(shù)據(jù)層次的劃分可以根據(jù)實(shí)際項(xiàng)目需要進(jìn)行裁剪,如果業(yè)務(wù)相對簡單和獨(dú)立,可以將核心數(shù)據(jù)層與分析應(yīng)用層進(jìn)行合并。另外,分析應(yīng)用的數(shù)據(jù)可以來自多維模型的數(shù)據(jù),也可以來自關(guān)系模型數(shù)據(jù)甚至原始數(shù)據(jù)。

“為什么要對數(shù)據(jù)倉庫進(jìn)行數(shù)據(jù)分層”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識可以關(guān)注億速云網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI