您好,登錄后才能下訂單哦!
DB、DW、DM、ODS、OLAP、OLTP和BI的概念是什么,相信很多沒有經(jīng)驗的人對此束手無策,為此本文總結(jié)了問題出現(xiàn)的原因和解決方法,通過這篇文章希望你能解決這個問題。
今天特地查了一些官方解釋和很多優(yōu)秀的博客文章,將關(guān)于數(shù)倉方面的一些名詞理解記了下來,先將這些簡稱做一個解釋:
1、DB(DataBase):數(shù)據(jù)庫,一般指的就是OLTP數(shù)據(jù)庫,在線事物數(shù)據(jù)庫,用來支持生產(chǎn)的。DB保留的是數(shù)據(jù)信息的最新狀態(tài),只有一個狀態(tài)!
2、DW(Data Warehouse):數(shù)據(jù)倉庫,保存的是數(shù)據(jù)在不同時間點的狀態(tài),對同一個數(shù)據(jù)信息,保留不同時間點的狀態(tài),便于我們做統(tǒng)計分析。
3、關(guān)于DM,目前網(wǎng)上有兩種說法,一說數(shù)據(jù)集市(Data Mart);一說數(shù)據(jù)挖掘(Data Mining),百度百科給出的是數(shù)據(jù)挖掘的概念,我這里將這兩種說法都做了解釋:
DM(Data Mart):數(shù)據(jù)集市,以某個業(yè)務(wù)應(yīng)用為出發(fā)點而建立的局部DW,DW只關(guān)心自己需要的數(shù)據(jù),不會全盤考慮企業(yè)整體的數(shù)據(jù)架構(gòu)和應(yīng)用,每個應(yīng)用有自己的DM。
DM(Data Mining):數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database, KDD),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單的說,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識。
4、ODS(Operating Data Store):操作性數(shù)據(jù)倉庫,最早的數(shù)據(jù)倉庫模型。特點是數(shù)據(jù)模型采取了貼源設(shè)計,業(yè)務(wù)系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)是怎樣的,ODS數(shù)據(jù)庫的結(jié)構(gòu)就是怎樣的。所不同的是ODS數(shù)據(jù)庫可以提供數(shù)據(jù)變化的歷史,所以O(shè)DS數(shù)據(jù)庫中每張表都會增加一個日期類型,表示數(shù)據(jù)的時間點,將每天數(shù)據(jù)的變化情況都存下來,這樣有利于數(shù)據(jù)的分析。
5、OLTP(on-line transaction processing):聯(lián)機事務(wù)處理,OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的主要應(yīng)用,主要是基本的、日常的事務(wù)處理,例如銀行交易。
6、OLAP(On-Line Analytical Processing):聯(lián)機分析處理,OLAP是數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。
7、BI(Business Intelligence):商業(yè)智能,領(lǐng)導(dǎo),決策者,在獲取了OLAP的統(tǒng)計信息,和DM得到的科學(xué)規(guī)律之后,對生產(chǎn)進(jìn)行適當(dāng)?shù)恼{(diào)整,比如,命令超市人員將啤酒喝尿布放在一起銷售,這就反作用于DB修改存貨數(shù)據(jù)了——這就是整個BI的作用!
數(shù)據(jù)中心整體架構(gòu)
數(shù)據(jù)倉庫的整體架構(gòu),各個系統(tǒng)的元數(shù)據(jù)通過ETL同步到操作性數(shù)據(jù)倉庫ODS,對ODS數(shù)據(jù)進(jìn)行面向主題或建模形成DW(數(shù)據(jù)倉庫),DM是針對某一個業(yè)務(wù)領(lǐng)域建立模型,具體用戶(決策層)查看DM生成的報表。
接下來我們講一下他們之間的部分關(guān)系:
1、Data Warehouse和Data Mining之間的關(guān)系
若將Data Warehouse(數(shù)據(jù)倉庫)比喻作礦坑,Data Mining就是深入礦坑采礦的工作。畢竟Data Mining不是一種無中生有的魔術(shù),也不是點石成金的煉金術(shù),若沒有夠豐富完整的數(shù)據(jù),是很難期待Data Mining能挖掘出什么有意義的信息的。
要將龐大的數(shù)據(jù)轉(zhuǎn)換成為有用的信息,必須先有效率地收集信息。隨著科技的進(jìn)步,功能完善的數(shù)據(jù)庫系統(tǒng)就成了最好的收集數(shù)據(jù)的工具。數(shù)據(jù)倉庫,簡單地說,就是搜集來自其它系統(tǒng)的有用數(shù)據(jù),存放在一整合的儲存區(qū)內(nèi)。所以其實就是一個經(jīng)過處理整合,且容量特別大的關(guān)系型數(shù)據(jù)庫,用以儲存決策支持系統(tǒng)(Design Support System)所需的數(shù)據(jù),供決策支持或數(shù)據(jù)分析使用。從信息技術(shù)的角度來看,數(shù)據(jù)倉庫的目標(biāo)是在組織中,在正確的時間,將正確的數(shù)據(jù)交給正確的人。
許多人對于Data Warehouse和Data Mining時常混淆,不知如何分辨。其實,數(shù)據(jù)倉庫是數(shù)據(jù)庫技術(shù)的一個新主題,利用計算機系統(tǒng)幫助我們操作、計算和思考,讓作業(yè)方式改變,決策方式也跟著改變。
數(shù)據(jù)倉庫本身是一個非常大的數(shù)據(jù)庫,它儲存著由組織作業(yè)數(shù)據(jù)庫中整合而來的數(shù)據(jù),特別是指事務(wù)處理系統(tǒng)OLTP(On-Line Transactional Processing)所得來的數(shù)據(jù)。將這些整合過的數(shù)據(jù)置放于數(shù)據(jù)庫中,而公司的決策者則利用這些數(shù)據(jù)作決策;但是,這個轉(zhuǎn)換及整合數(shù)據(jù)的過程,是建立一個數(shù)據(jù)倉庫最大的挑戰(zhàn)。因為將作業(yè)中的數(shù)據(jù)轉(zhuǎn)換成有用的的策略性信息是整個數(shù)據(jù)倉庫的重點。綜上所述,數(shù)據(jù)倉庫應(yīng)該具有這些數(shù)據(jù):整合性數(shù)據(jù)(integrated data)、詳細(xì)和匯總性的數(shù)據(jù)(detailed and summarized data)、歷史數(shù)據(jù)、解釋數(shù)據(jù)的數(shù)據(jù)。從數(shù)據(jù)倉庫挖掘出對決策有用的信息與知識,是建立數(shù)據(jù)倉庫與使用Data Mining的最大目的,兩者的本質(zhì)與過程是兩回事。換句話說,數(shù)據(jù)倉庫應(yīng)先行建立完成,Data mining才能有效率的進(jìn)行,因為數(shù)據(jù)倉庫本身所含數(shù)據(jù)是干凈(不會有錯誤的數(shù)據(jù)參雜其中)、完備,且經(jīng)過整合的。因此兩者關(guān)系或許可解讀為Data Mining是從巨大數(shù)據(jù)倉庫中找出有用信息的一種過程與技術(shù)。
2、ODS到DW的集成示例
集成示例
3、OLAP會替代Data Mining嗎?
所謂OLAP(Online Analytical Process)意指由數(shù)據(jù)庫所連結(jié)出來的在線分析處理程序。有些人會說:「我已經(jīng)有OLAP的工具了,所以我不需要Data Mining。」事實上兩者間是截然不同的,主要差異在于Data Mining用在產(chǎn)生假設(shè),OLAP則用于查證假設(shè)。簡單來說,OLAP是由使用者所主導(dǎo),使用者先有一些假設(shè),然后利用OLAP來查證假設(shè)是否成立;而Data Mining則是用來幫助使用者產(chǎn)生假設(shè)。所以在使用OLAP或其它Query的工具時,使用者是自己在做探索(Exploration),但Data Mining是用工具在幫助做探索。
舉個例子來看,一市場分析師在為超市規(guī)劃貨品架柜擺設(shè)時,可能會先假設(shè)嬰兒尿布和嬰兒奶粉會是常被一起購買的產(chǎn)品,接著便可利用OLAP的工具去驗證此假設(shè)是否為真,看成立的證據(jù)有多明顯;但Data Mining則不然,執(zhí)行Data Mining的人將龐大的結(jié)帳數(shù)據(jù)整理后,并不需要假設(shè)或期待可能的結(jié)果,透過Mining技術(shù)可找出存在于數(shù)據(jù)中的潛在規(guī)則,于是我們可能得到例如尿布和啤酒常被同時購買的意料外之發(fā)現(xiàn),這是OLAP所做不到的。
Data Mining常能挖掘出超越歸納范圍的關(guān)系,但OLAP僅能利用人工查詢及可視化的報表來確認(rèn)某些關(guān)系,是以Data Mining此種自動找出甚至不會被懷疑過的數(shù)據(jù)模型與關(guān)系的特性,事實上已超越了我們經(jīng)驗、教育、想象力的限制,OLAP可以和Data Mining互補,但這項特性是Data Mining無法被OLAP取代的。
小結(jié):DM是智能化的OLAP
4、Data Warehouse和Data Mart之間的關(guān)系
數(shù)據(jù)倉庫是企業(yè)級的,能為整個企業(yè)各個部門的運行提供決策支持手段;而數(shù)據(jù)集市則是一種微型的數(shù)據(jù)倉庫,它通常有更少的數(shù)據(jù),更少的主題區(qū)域,以及更少的歷史數(shù)據(jù),因此是部門級的,一般只能為某個局部范圍內(nèi)的管理人員服務(wù),因此也稱之為部門級數(shù)據(jù)倉庫。
看完上述內(nèi)容,你們掌握DB、DW、DM、ODS、OLAP、OLTP和BI的概念是什么的方法了嗎?如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注億速云行業(yè)資訊頻道,感謝各位的閱讀!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。