您好,登錄后才能下訂單哦!
這篇文章主要為大家展示了“數(shù)據(jù)倉(cāng)庫(kù)基本架構(gòu)是怎么樣的”,內(nèi)容簡(jiǎn)而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領(lǐng)大家一起研究并學(xué)習(xí)一下“數(shù)據(jù)倉(cāng)庫(kù)基本架構(gòu)是怎么樣的”這篇文章吧。
數(shù)據(jù)倉(cāng)庫(kù)的基本架構(gòu)
數(shù)據(jù)倉(cāng)庫(kù)的目的是構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境,為企業(yè)提供決策支持(Decision Support)。其實(shí)數(shù)據(jù)倉(cāng)庫(kù)本身并不“生產(chǎn)”任何數(shù)據(jù),同時(shí)自身也不需要“消費(fèi)”任何的數(shù)據(jù),數(shù)據(jù)來(lái)源于外部,并且開(kāi)放給外部應(yīng)用,這也是為什么叫“倉(cāng)庫(kù)”,而不叫“工廠(chǎng)”的原因。因此數(shù)據(jù)倉(cāng)庫(kù)的基本架構(gòu)主要包含的是數(shù)據(jù)流入流出的過(guò)程,可以分為三層——源數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)應(yīng)用:
從圖中可以看出數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)來(lái)源于不同的源數(shù)據(jù),并提供多樣的數(shù)據(jù)應(yīng)用,數(shù)據(jù)自上而下流入數(shù)據(jù)倉(cāng)庫(kù)后向上層開(kāi)放應(yīng)用,而數(shù)據(jù)倉(cāng)庫(kù)只是中間集成化數(shù)據(jù)管理的一個(gè)平臺(tái)。
數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)來(lái)源
數(shù)據(jù)倉(cāng)庫(kù)從各數(shù)據(jù)源獲取數(shù)據(jù)及在數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的數(shù)據(jù)轉(zhuǎn)換和流動(dòng)都可以認(rèn)為是ETL(抽取Extra, 轉(zhuǎn)化Transfer, 裝載Load)的過(guò)程,ETL是數(shù)據(jù)倉(cāng)庫(kù)的流水線(xiàn),也可以認(rèn)為是數(shù)據(jù)倉(cāng)庫(kù)的血液,它維系著數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的新陳代謝,而數(shù)據(jù)倉(cāng)庫(kù)日常的管理和維護(hù)工作的大部分精力就是保持ETL的正常和穩(wěn)定。
數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)
數(shù)據(jù)倉(cāng)庫(kù)并不需要儲(chǔ)存所有的原始數(shù)據(jù),同時(shí)數(shù)據(jù)倉(cāng)庫(kù)需要儲(chǔ)存部分細(xì)節(jié)數(shù)據(jù)。簡(jiǎn)單地解釋下:
a.為什么不需要所有原始數(shù)據(jù)?數(shù)據(jù)倉(cāng)庫(kù)面向分析處理,但是某些源數(shù)據(jù)對(duì)于分析而言沒(méi)有價(jià)值或者其可能產(chǎn)生的價(jià)值遠(yuǎn)低于儲(chǔ)存這些數(shù)據(jù)所需要的數(shù)據(jù)倉(cāng)庫(kù)的實(shí)現(xiàn)和性能上的成本。比如我們知道用戶(hù)的省份、城市足夠,至于用戶(hù)究竟住哪里可能只是物流商關(guān)心的事,或者用戶(hù)在博客的評(píng)論內(nèi)容可能只是文本挖掘會(huì)有需要,但將這些冗長(zhǎng)的評(píng)論文本存在數(shù)據(jù)倉(cāng)庫(kù)就得不償失;
b.為什么要存細(xì)節(jié)數(shù)據(jù)?細(xì)節(jié)數(shù)據(jù)是必需的,數(shù)據(jù)倉(cāng)庫(kù)的分析需求會(huì)時(shí)刻變化,而有了細(xì)節(jié)數(shù)據(jù)就可以做到以不變應(yīng)萬(wàn)變。如果我們只存儲(chǔ)根據(jù)某些需求搭建起來(lái)的數(shù)據(jù)模型,那么顯然對(duì)于頻繁變動(dòng)的需求會(huì)手足無(wú)措;
c.為什么要面向主題?面向主題是數(shù)據(jù)倉(cāng)庫(kù)的第一特性,主要是指合理地組織數(shù)據(jù)以方面實(shí)現(xiàn)分析。對(duì)于源數(shù)據(jù)而言,其數(shù)據(jù)組織形式是多樣的,像點(diǎn)擊流的數(shù)據(jù)格式是未經(jīng)優(yōu)化的,前臺(tái)數(shù)據(jù)庫(kù)的數(shù)據(jù)是基于OLTP操作組織優(yōu)化的,這些可能都不適合分析,而整理成面向主題的組織形式才是真正地利于分析的,比如將點(diǎn)擊流日志整理成頁(yè)面(Page)、訪(fǎng)問(wèn)(Visit或Session)、用戶(hù)(Visitor)三個(gè)主題,這樣可以明顯提升分析的效率。
數(shù)據(jù)倉(cāng)庫(kù)基于維護(hù)細(xì)節(jié)數(shù)據(jù)的基礎(chǔ)上在對(duì)數(shù)據(jù)進(jìn)行處理,使其真正地能夠應(yīng)用于分析。主要包括三個(gè)方面:
1.數(shù)據(jù)的聚合
這里的聚合數(shù)據(jù)指的是基于特定需求的簡(jiǎn)單聚合(基于多維數(shù)據(jù)的聚合體現(xiàn)在多維數(shù)據(jù)模型中),簡(jiǎn)單聚合可以是網(wǎng)站的總Pageviews、Visits、Unique Visitors等匯總數(shù)據(jù),也可以是Avg. time on page、Avg. time on site等平均數(shù)據(jù),這些數(shù)據(jù)可以直接地展示于報(bào)表上。
2.多維數(shù)據(jù)模型
多維數(shù)據(jù)模型提供了多角度多層次的分析應(yīng)用,比如基于時(shí)間維、地域維等構(gòu)建的銷(xiāo)售星形模型、雪花模型,可以實(shí)現(xiàn)在各時(shí)間維度和地域維度的交叉查詢(xún),以及基于時(shí)間維和地域維的細(xì)分。所以多維數(shù)據(jù)模型的應(yīng)用一般都是基于聯(lián)機(jī)分析處理(Online Analytical Process, OLAP)的,而面向特定需求群體的數(shù)據(jù)集市也會(huì)基于多維數(shù)據(jù)模型進(jìn)行構(gòu)建。
3.業(yè)務(wù)模型
這里的業(yè)務(wù)模型指的是基于某些數(shù)據(jù)分析和決策支持而建立起來(lái)的數(shù)據(jù)模型,比如用戶(hù)評(píng)價(jià)模型、關(guān)聯(lián)推薦模型、RFM分析模型等,或者是決策支持的線(xiàn)性規(guī)劃模型、庫(kù)存模型等;同時(shí),數(shù)據(jù)挖掘中前期數(shù)據(jù)的處理也可以在這里完成。
數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)應(yīng)用
報(bào)表展示
報(bào)表幾乎是每個(gè)數(shù)據(jù)倉(cāng)庫(kù)的必不可少的一類(lèi)數(shù)據(jù)應(yīng)用,將聚合數(shù)據(jù)和多維分析數(shù)據(jù)展示到報(bào)表,提供了最為簡(jiǎn)單和直觀(guān)的數(shù)據(jù)。
即時(shí)查詢(xún)
理論上數(shù)據(jù)倉(cāng)庫(kù)的所有數(shù)據(jù)(包括細(xì)節(jié)數(shù)據(jù)、聚合數(shù)據(jù)、多維數(shù)據(jù)和分析數(shù)據(jù))都應(yīng)該開(kāi)放即時(shí)查詢(xún),即時(shí)查詢(xún)提供了足夠靈活的數(shù)據(jù)獲取方式,用戶(hù)可以根據(jù)自己的需要查詢(xún)獲取數(shù)據(jù)。
數(shù)據(jù)分析
數(shù)據(jù)分析大部分基于構(gòu)建的業(yè)務(wù)模型展開(kāi),當(dāng)然也可以使用聚合的數(shù)據(jù)進(jìn)行趨勢(shì)分析、比較分析、相關(guān)分析等,而多維數(shù)據(jù)模型提供了多維分析的數(shù)據(jù)基礎(chǔ);同時(shí)從細(xì)節(jié)數(shù)據(jù)中獲取一些樣本數(shù)據(jù)進(jìn)行特定的分析也是較為常見(jiàn)的一種途徑。
數(shù)據(jù)挖掘
數(shù)據(jù)挖掘用一些高級(jí)的算法可以讓數(shù)據(jù)展現(xiàn)出各種令人驚訝的結(jié)果。數(shù)據(jù)挖掘可以基于數(shù)據(jù)倉(cāng)庫(kù)中已經(jīng)構(gòu)建起來(lái)的業(yè)務(wù)模型展開(kāi),但大多數(shù)時(shí)候數(shù)據(jù)挖掘會(huì)直接從細(xì)節(jié)數(shù)據(jù)上入手,而數(shù)據(jù)倉(cāng)庫(kù)為挖掘工具諸如SAS、SPSS等提供數(shù)據(jù)接口。
數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)流程:
第1天,通曉本質(zhì)上進(jìn)行操作型處理的幾個(gè)系統(tǒng)。
第2天,對(duì)數(shù)據(jù)倉(cāng)庫(kù)中第一個(gè)主題領(lǐng)域的最初幾個(gè)表載入數(shù)據(jù),此時(shí)就會(huì)產(chǎn)生一定的好奇心,用戶(hù)開(kāi)始發(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)和分析處理。
第3天,更多的數(shù)據(jù)載入數(shù)據(jù)倉(cāng)庫(kù),并且隨著數(shù)據(jù)量增大,將吸引更多的用戶(hù)。一旦用戶(hù)發(fā)現(xiàn)有較容易載入的集成數(shù)據(jù)源,并有在時(shí)間維上觀(guān)察數(shù)據(jù)的歷史基礎(chǔ),這就不僅僅是好奇心了。大約此時(shí),認(rèn)真的DSS分析員漸漸地被吸引到數(shù)據(jù)倉(cāng)庫(kù)中。
第4天,隨著更多的數(shù)據(jù)載入數(shù)據(jù)倉(cāng)庫(kù),一批存儲(chǔ)在操作型環(huán)境的數(shù)據(jù)被適當(dāng)?shù)胤湃霐?shù)據(jù)倉(cāng)庫(kù)中?,F(xiàn)在,我們就“發(fā)現(xiàn)”數(shù)據(jù)倉(cāng)庫(kù)是可用來(lái)進(jìn)行分析處理的信息源。各種各樣的DSS應(yīng)用出現(xiàn)了。的確,伴隨著現(xiàn)在存入數(shù)據(jù)倉(cāng)庫(kù)的大規(guī)模數(shù)據(jù),此時(shí)開(kāi)始出現(xiàn)如此多的用戶(hù)和如此多的處理請(qǐng)求,以致于一些用戶(hù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)的要求和分析工作被推遲。進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)的競(jìng)爭(zhēng)成為使用數(shù)據(jù)倉(cāng)庫(kù)的障礙。
第5天,部門(mén)數(shù)據(jù)庫(kù)(數(shù)據(jù)集市,或OLAP )開(kāi)始興起,各部門(mén)發(fā)現(xiàn)通過(guò)把數(shù)據(jù)從數(shù)據(jù)倉(cāng)庫(kù)輸入它們自己的部門(mén)處理環(huán)境,會(huì)使它們的處理既便宜又容易。到達(dá)部門(mén)級(jí)的數(shù)據(jù)吸引著一些D S S分析員。
第6天,部門(mén)系統(tǒng)出現(xiàn)繁忙,得到部門(mén)數(shù)據(jù)比獲得數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)更便宜、更快、更容易。很快最終用戶(hù)就放棄數(shù)據(jù)倉(cāng)庫(kù)的細(xì)節(jié),去進(jìn)行部門(mén)處理。
第n天,這種體系結(jié)構(gòu)得到充分發(fā)展。生產(chǎn)系統(tǒng)的原始集合中只剩下操作型處理。數(shù)據(jù)倉(cāng)庫(kù)具有豐富的數(shù)據(jù),并有一些數(shù)據(jù)倉(cāng)庫(kù)的直接用戶(hù)和許多部門(mén)數(shù)據(jù)庫(kù)。因?yàn)樵诓块T(mén)級(jí)上獲得處理所需要的數(shù)據(jù)既容易又便宜,所以大部分DSS分析處理都在部門(mén)級(jí)進(jìn)行。
當(dāng)然,從第1天到第n天的進(jìn)化需要很長(zhǎng)的時(shí)間,通常需要幾年。并且在從第1天到第n天的處理過(guò)程中,DSS環(huán)境在不斷地提高和職能化。
元數(shù)據(jù)管理
元數(shù)據(jù)(Meta Date),其實(shí)應(yīng)該叫做解釋性數(shù)據(jù),或者數(shù)據(jù)字典,即數(shù)據(jù)的數(shù)據(jù)。主要記錄數(shù)據(jù)倉(cāng)庫(kù)中模型的定義、各層級(jí)間的映射關(guān)系、監(jiān)控?cái)?shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)狀態(tài)及ETL的任務(wù)運(yùn)行狀態(tài)。一般會(huì)通過(guò)元數(shù)據(jù)資料庫(kù)(Metadata Repository)來(lái)統(tǒng)一地存儲(chǔ)和管理元數(shù)據(jù),其主要目的是使數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)、部署、操作和管理能達(dá)成協(xié)同和一致。
以上是“數(shù)據(jù)倉(cāng)庫(kù)基本架構(gòu)是怎么樣的”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。