溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

大數(shù)據(jù)OLAP系統(tǒng)的概念怎么理解

發(fā)布時(shí)間:2022-01-18 13:41:42 來源:億速云 閱讀:112 作者:柒染 欄目:大數(shù)據(jù)

本篇文章為大家展示了大數(shù)據(jù)OLAP系統(tǒng)的概念怎么理解 ,內(nèi)容簡(jiǎn)明扼要并且容易理解,絕對(duì)能使你眼前一亮,通過這篇文章的詳細(xì)介紹希望你能有所收獲。

1.1 什么是OLAP?

OLAP(OnLine Analytical Processing),即聯(lián)機(jī)分析處理。OLAP對(duì)業(yè)務(wù)數(shù)據(jù)執(zhí)行多維分析,并提供復(fù)雜計(jì)算,趨勢(shì)分析和復(fù)雜數(shù)據(jù)建模的能力。它主要用于支持企業(yè)決策管理分析,是許多商務(wù)智能(BI)應(yīng)用程序背后的技術(shù)。OLAP使最終用戶可以對(duì)多個(gè)維度的數(shù)據(jù)進(jìn)行即席分析,從而獲取他們所需知識(shí),以便更好地制定決策。OLAP技術(shù)已被定義為實(shí)現(xiàn)“快速訪問共享的多維信息”的能力。

1.2 為什么要多維分析?

業(yè)務(wù)其實(shí)是一個(gè)多維活動(dòng)。企業(yè)通過考慮許多變量來跟蹤其業(yè)務(wù)活動(dòng),在電子表格上跟蹤這些變量時(shí),將它們?cè)O(shè)置在軸(x和y)上。例如,可以在一年的時(shí)間內(nèi)按月跟蹤銷售額,其中可以在y軸上顯示銷售指標(biāo),而在x軸上可以顯示月份。而要分析業(yè)務(wù)的健康狀況并計(jì)劃未來的活動(dòng),必須連續(xù)跟蹤許多變量組或參數(shù)。例如,一個(gè)業(yè)務(wù)至少要考慮以下方面:客戶,地點(diǎn),期間,銷售人員和產(chǎn)品。這些維度構(gòu)成了公司計(jì)劃,分析和報(bào)告活動(dòng)的基礎(chǔ)。它們共同代表了“整個(gè)”業(yè)務(wù)狀況,為所有業(yè)務(wù)計(jì)劃、分析和報(bào)告活動(dòng)奠定了基礎(chǔ)。

1.3 OLAP的起源

OLAP這個(gè)名詞最早是在1993年,由被稱為“關(guān)系數(shù)據(jù)庫之父”的Edgar F. Codd在他的白皮書《Providing OLAP to User-Analysts: An IT Mandate》中首次提出的。在這個(gè)白皮書中,他為OLAP產(chǎn)品建立了12條評(píng)估規(guī)則:

  1. Multidimensional Conceptual View(多維概念視圖):在用戶分析師看來,企業(yè)天然是多維的。例如,可以按地區(qū),產(chǎn)品,時(shí)間段或方案(例如實(shí)際,預(yù)算或預(yù)測(cè))查看利潤(rùn)。多維數(shù)據(jù)模型使用戶能夠更直接,更直觀地處理數(shù)據(jù),包括“分片和分塊”。

  1. Transparency(透明性準(zhǔn)則):OLAP應(yīng)該是開放系統(tǒng)體系結(jié)構(gòu)的一部分,該體系結(jié)構(gòu)可以嵌入到用戶期望的任何位置,而不會(huì)影響宿主工具的功能。不應(yīng)把OLAP工具的數(shù)據(jù)源暴露給用戶,數(shù)據(jù)源可能是同構(gòu)的或異構(gòu)的。

  1. Accessibility(存取能力推測(cè)):OLAP工具應(yīng)該能夠應(yīng)用自己的邏輯結(jié)構(gòu)來訪問異構(gòu)數(shù)據(jù)源,并執(zhí)行向用戶呈現(xiàn)連貫視圖所需的任何轉(zhuǎn)換。工具(而不是用戶)應(yīng)關(guān)注物理數(shù)據(jù)的來源。

  1. Consistent Reporting Performance(穩(wěn)定的報(bào)表性能):隨著維度數(shù)量的增加,OLAP工具的性能不會(huì)受到顯著影響。

  1. Client-Server Architecture(客戶/服務(wù)器架構(gòu)):OLAP工具的服務(wù)器組件應(yīng)該足夠智能,各種客戶端可以輕松地連接它。服務(wù)器應(yīng)該能夠在不同的數(shù)據(jù)庫之間映射和合并數(shù)據(jù)。

  1. Generic Dimensionalityc(維的等同性準(zhǔn)則):每個(gè)數(shù)據(jù)維度的結(jié)構(gòu)和操作能力都應(yīng)相同。

  1. Dynamic Sparse Matrix Handling(動(dòng)態(tài)的稀疏矩陣處理準(zhǔn)則):OLAP服務(wù)器的物理結(jié)構(gòu)應(yīng)具有最佳的稀疏矩陣處理。

  1. Multi-User Support(多用戶支持能力準(zhǔn)則):OLAP工具必須提供并發(fā)檢索和更新訪問,完整性和安全性。

  1. Unrestricted Cross-dimensional Operations(非受限的跨維操作):計(jì)算設(shè)施必須允許跨任意數(shù)量的數(shù)據(jù)維度進(jìn)行計(jì)算和數(shù)據(jù)處理,并且不得限制數(shù)據(jù)單元之間的任何關(guān)系。

  1. Intuitive Data Manipulation(直觀的數(shù)據(jù)操作):合并路徑中固有的數(shù)據(jù)操作,例如向下鉆取或縮小,應(yīng)通過對(duì)分析模型單元的直接操作來完成,而不需要使用菜單或跨用戶界面多次行程。

  1. Flexible Reporting(靈活的報(bào)告生成):報(bào)告工具應(yīng)以用戶想要查看的任何方式顯示信息。

  1. Unlimited Dimensions and Aggregation Levels(不受限的維度和聚合層次)。

1.4 OLAP的發(fā)展歷史

雖然OLAP的概念是在1993年才提出來的,但是支持OLAP相關(guān)產(chǎn)品的發(fā)展歷史,最早可追溯到1975年:

  1. 第一款OLAP產(chǎn)品Express于1975年問世,隨著被Oracle收購后繁榮發(fā)展了30余年,最后由繼任者Oracle 9i替代。

  1. 1979年,第一個(gè)電子表格應(yīng)用程序VisiCalc投放市場(chǎng)。VisiCalc具有當(dāng)今大多數(shù)電子表格應(yīng)用程序中標(biāo)準(zhǔn)的基本行和列結(jié)構(gòu)。

  1. 1982年,Comshare開發(fā)了一種新的決策支持系統(tǒng)軟件(System W),這是第一個(gè)金融領(lǐng)域的OLAP工具,也是第一個(gè)在其多維建模中應(yīng)用hypercube方法的工具。

  1. 1983年,IBM推出了Lotus 1-2-3。它的結(jié)構(gòu)類似于Visicalc,并迅速取代了Visicalc。Lotus 1-2-3成為Windows之前的主流電子表格應(yīng)用程序。

  1. 1984年,第一款ROLAP產(chǎn)品Metaphor發(fā)布。該多維產(chǎn)品建立了新概念,例如客戶/服務(wù)器計(jì)算,關(guān)系數(shù)據(jù)的多維處理,工作組處理,面向?qū)ο蟮拈_發(fā)等。

  1. 1985年,Excel 1.0誕生。微軟在Excel中集成了數(shù)據(jù)透視表功能可能是Excel產(chǎn)品最重要的增強(qiáng)功能之一,因?yàn)閿?shù)據(jù)透視表已成為多維分析中最流行和使用最廣泛的工具。

1989年,SQL語言標(biāo)準(zhǔn)誕生,它可以從關(guān)系數(shù)據(jù)庫中提取和處理業(yè)務(wù)數(shù)據(jù)。這可能是個(gè)轉(zhuǎn)折點(diǎn)。在1980‘s年代,電子表格在OLAP應(yīng)用中占絕對(duì)主導(dǎo)地位;而1990’s年代以后,越來越多的基于數(shù)據(jù)庫的OLAP應(yīng)用開始出現(xiàn):

  1. 1992年:Hyperion Solution發(fā)布Essbase(擴(kuò)展電子表格數(shù)據(jù)庫),在1997年成為市場(chǎng)上主要的OLAP服務(wù)器產(chǎn)品。

  1. 1997年:PARIS Technologies推出PowerOLAP:集成電子表格和事務(wù)數(shù)據(jù)庫,以便在電子表格應(yīng)用程序(例如Excel)中即時(shí)更新數(shù)據(jù)。

  1. 1999年:Microsoft OLAP服務(wù)發(fā)布,并于2000年成為Microsoft Analysis Services

  1. 2012年:PARIS Technologies發(fā)布了OLATION,它將關(guān)系和多維數(shù)據(jù)庫技術(shù)(在SQL Server,SAP HANA,Oracle等中)融合在一起,確保對(duì)實(shí)際數(shù)據(jù)和計(jì)劃數(shù)據(jù)進(jìn)行“真正的在線”數(shù)據(jù)更新。

1.5 OLAP的核心概念和基本操作

1.5.1 核心概念

維度(Dimension):維度是描述與業(yè)務(wù)主題相關(guān)的一組屬性,單個(gè)屬性或?qū)傩约峡梢詷?gòu)成一個(gè)維。如時(shí)間、地理位置、年齡和性別等都是維度。

維的層次(Level of Dimension):一個(gè)維往往可以具有多個(gè)層次,例如時(shí)間維度分為年、季度、月和日等層次,地區(qū)維可以是國(guó)家、地區(qū)、省、市等層次。這里的層次表示數(shù)據(jù)細(xì)化程度,對(duì)應(yīng)概念分層。后面介紹的上卷操作就是由低層概念映射到高層概念。概念分層除了可以根據(jù)概念的全序和偏序關(guān)系確定外,還可以通過對(duì)數(shù)據(jù)進(jìn)行離散化和分組實(shí)現(xiàn)。

維的成員(Member of Dimension):若維是多層次的,則不同的層次的取值構(gòu)成一個(gè)維成員。部分維層次同樣可以構(gòu)成維成員,例如“某年某季度”、“某季某月”等都可以是時(shí)間維的成員。

度量(Measure):表示事實(shí)在某一個(gè)維成員上的取值。例如開發(fā)部門漢族男性有39人,就表示在部門、民族、性別三個(gè)維度上,企業(yè)人數(shù)的事實(shí)度量。

1.5.2 基本操作

OLAP的操作是以查詢——也就是數(shù)據(jù)庫的SELECT操作為主,但是查詢可以很復(fù)雜,比如基于關(guān)系數(shù)據(jù)庫的查詢可以多表關(guān)聯(lián),可以使用COUNT、SUM、AVG等聚合函數(shù)。OLAP正是基于多維模型定義了一些常見的面向分析的操作類型是這些操作顯得更加直觀。

OLAP的多維分析操作包括:鉆取(Drill-down、上卷(Roll-up、切片(Slice、切塊(Dice以及旋轉(zhuǎn)(Pivot)**,下面還是以數(shù)據(jù)立方體為例來逐一解釋下:

鉆?。―rill-down):在維的不同層次間的變化,從上層降到下一層,或者說是將匯總數(shù)據(jù)拆分到更細(xì)節(jié)的數(shù)據(jù),比如通過對(duì)2010年第二季度的總銷售數(shù)據(jù)進(jìn)行鉆取來查看2010年第二季度4、5、6每個(gè)月的消費(fèi)數(shù)據(jù),如上圖;當(dāng)然也可以鉆取浙江省來查看杭州市、寧波市、溫州市……這些城市的銷售數(shù)據(jù)。

上卷(Roll-up):鉆取的逆操作,即從細(xì)粒度數(shù)據(jù)向高層的聚合,如將江蘇省、上海市和浙江省的銷售數(shù)據(jù)進(jìn)行匯總來查看江浙滬地區(qū)的銷售數(shù)據(jù),如上圖。

切片(Slice):選擇維中特定的值進(jìn)行分析,比如只選擇電子產(chǎn)品的銷售數(shù)據(jù),或者2010年第二季度的數(shù)據(jù)。

切塊(Dice):選擇維中特定區(qū)間的數(shù)據(jù)或者某批特定值進(jìn)行分析,比如選擇2010年第一季度到2010年第二季度的銷售數(shù)據(jù),或者是電子產(chǎn)品和日用品的銷售數(shù)據(jù)。

旋轉(zhuǎn)(Pivot):即維的位置的互換,就像是二維表的行列轉(zhuǎn)換,如圖中通過旋轉(zhuǎn)實(shí)現(xiàn)產(chǎn)品維和地域維的互換。

1.6 OLAP的分類

按數(shù)據(jù)存儲(chǔ)方式分類,可分為MOLAP、ROLAP、HOLAP。

1.6.1 Multidimensional OLAP (MOLAP)

MOLAP是OLAP的經(jīng)典形式。MOLAP將數(shù)據(jù)存儲(chǔ)在優(yōu)化的多維數(shù)組中,而不是關(guān)系數(shù)據(jù)庫中。維的屬性值被映射成多維數(shù)組的下標(biāo)值或下標(biāo)的范圍,而度量數(shù)據(jù)作為多維數(shù)組的值存儲(chǔ)在數(shù)組的單元中。由于MOLAP采用了新的存儲(chǔ)結(jié)構(gòu),從物理層實(shí)現(xiàn),因此又稱為物理OLAP(PhysicalOLAP);而 ROLAP主要通過一些軟件工具或中間軟件實(shí)現(xiàn),物理層仍采用關(guān)系數(shù)據(jù)庫的存儲(chǔ)結(jié)構(gòu),因此稱為虛擬OLAP(VirtualOLAP)。

一些MOLAP工具要求對(duì)數(shù)據(jù)進(jìn)行預(yù)計(jì)算和存儲(chǔ),這樣的MOLAP工具通常利用被稱為“數(shù)據(jù)立方體”的預(yù)先計(jì)算的數(shù)據(jù)集。數(shù)據(jù)立方體包含給定范圍的問題的所有可能答案。因此,它們對(duì)查詢的響應(yīng)非???。另一方面,根據(jù)預(yù)計(jì)算的程度,更新可能需要很長(zhǎng)時(shí)間。預(yù)計(jì)算也可能導(dǎo)致所謂的數(shù)據(jù)爆炸。

1.6.2 Relational OLAP(ROLAP)

ROLAP將分析用的多維數(shù)據(jù)存儲(chǔ)在關(guān)系數(shù)據(jù)庫中。這種方式依賴SQL語言實(shí)現(xiàn)傳統(tǒng)OLAP的切片和切塊功能,本質(zhì)上,切片和切塊等動(dòng)作都等同于在SQL語句中添加“ WHERE”子句。ROLAP工具不使用預(yù)先計(jì)算的多維數(shù)據(jù)集,而是對(duì)標(biāo)準(zhǔn)關(guān)系數(shù)據(jù)庫及其表進(jìn)行查詢,以獲取回答問題所需的數(shù)據(jù)。ROLAP工具具有詢問任何問題的能力,因?yàn)樵摲椒ǎ⊿QL)不僅限于多維數(shù)據(jù)集的內(nèi)容。

盡管ROLAP使用關(guān)系數(shù)據(jù)庫作為底層存儲(chǔ),但這些數(shù)據(jù)庫一般要針對(duì)ROLAP進(jìn)行相應(yīng)優(yōu)化,比如并行存儲(chǔ)、并行查詢、并行數(shù)據(jù)管理、基于成本的查詢優(yōu)化、位圖索引、SQL的OLAP擴(kuò)展(cube,rollup)等等。專為OLTP設(shè)計(jì)的數(shù)據(jù)庫不能像ROLAP數(shù)據(jù)庫一樣正常工作。

1.6.3 Hybrid OLAP(HOLAP)

由于MOLAP和ROLAP有著各自的優(yōu)點(diǎn)和缺點(diǎn),且它們的結(jié)構(gòu)迥然不同,這給分析人員設(shè)計(jì)OLAP結(jié)構(gòu)提出了難題。為此一個(gè)新的OLAP 結(jié)構(gòu)——混合型OLAP(HOLAP)被提出,這種工具通過允許同時(shí)使用多維數(shù)據(jù)庫(MDDB)和關(guān)系數(shù)據(jù)庫(RDBMS)作為數(shù)據(jù)存儲(chǔ)來彌合這兩種產(chǎn)品的技術(shù)差距。它允許模型設(shè)計(jì)者決定將哪些數(shù)據(jù)存儲(chǔ)在MDDB中,哪些存儲(chǔ)在RDBMS中, 例如,將大量詳單數(shù)據(jù)存儲(chǔ)在關(guān)系表中,而預(yù)先計(jì)算的聚合數(shù)據(jù)存儲(chǔ)在多維數(shù)據(jù)集中。目前整個(gè)行業(yè)對(duì)于“混合OLAP”的還沒有達(dá)成明確的共識(shí)。

1.6.4 MOLAP與ROLAP對(duì)比分析

大數(shù)據(jù)OLAP系統(tǒng)的概念怎么理解

1.7 OLAP與其他概念的關(guān)系

1.7.1 OLAP vs OLTP

兩者設(shè)計(jì)的目標(biāo)是完全不同的:

  1. OLTP(On-Line Transaction Processing),聯(lián)機(jī)事務(wù)處理,一般用于業(yè)務(wù)系統(tǒng)。OLTP對(duì)事務(wù)性處理的要求非常高,一般都是高可用的在線系統(tǒng),主要基于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫。其上的應(yīng)用,一般以小的事務(wù)以及小的查詢?yōu)橹?。評(píng)估其系統(tǒng)的時(shí)候,一般看其每秒執(zhí)行的Transaction以及SQL的數(shù)量。在這樣的系統(tǒng)中,單個(gè)數(shù)據(jù)庫每秒處理的Transaction(增、刪、改)往往達(dá)到幾百上千個(gè),Select查詢語句的執(zhí)行量每秒幾千甚至幾萬個(gè)。典型的OLTP系統(tǒng)有電子商務(wù)系統(tǒng)、銀行交易系統(tǒng)、證券交易系統(tǒng)等。

  2. OLAP,一般用于分析系統(tǒng)。其上的應(yīng)用,一般以大數(shù)據(jù)量的查詢?yōu)橹?,修改和刪除的操作較少。在這樣的系統(tǒng)中,SQL語句的執(zhí)行量不是考核指標(biāo),因?yàn)橐粭l語句的執(zhí)行時(shí)間可能會(huì)很長(zhǎng),讀取的數(shù)據(jù)也非常多。所以,評(píng)估其系統(tǒng)的時(shí)候,往往是看系統(tǒng)的吞吐量、復(fù)雜查詢響應(yīng)時(shí)間、數(shù)據(jù)裝載性能等。

二者詳細(xì)對(duì)比如下:

大數(shù)據(jù)OLAP系統(tǒng)的概念怎么理解

大數(shù)據(jù)OLAP系統(tǒng)的概念怎么理解

1.7.2 OLAP vs 數(shù)據(jù)倉庫/數(shù)據(jù)集市

數(shù)據(jù)倉庫的建模方式有多種:

  1. ER模型(實(shí)體-關(guān)系模型)

  2. Data Vault模型

  3. Anchor模型

  4. 維度模型

前面三種模型主要致力將各個(gè)業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)整合到統(tǒng)一的數(shù)據(jù)倉庫中,并進(jìn)行一致性處理,提供滿足第三范式或更高范式的數(shù)據(jù)模型和原子數(shù)據(jù)。這種數(shù)據(jù)倉庫被稱為CIF(Corporate Information Factory,企業(yè)信息工廠)架構(gòu)下的企業(yè)數(shù)據(jù)倉庫。這種數(shù)據(jù)倉庫架構(gòu)是數(shù)據(jù)倉庫之父Inmon所推崇的。但由于使用了規(guī)范化模型,這使得對(duì)這些原子數(shù)據(jù)進(jìn)行查詢變得很困難,這種架構(gòu)并不能很好地直接用于支撐分析決策。為了更好的支持分析,在這種架構(gòu)下,通常需要在數(shù)據(jù)倉庫的基礎(chǔ)上,按主題建立一些數(shù)據(jù)子集,也就是數(shù)據(jù)集市。這些數(shù)據(jù)集市通常采用維度模型,OLAP工具就可以基于數(shù)據(jù)集市而工作。數(shù)據(jù)集市通常就是基于OLAP系統(tǒng)而構(gòu)建。

第四種模型(維度模型)是另一位數(shù)據(jù)倉庫領(lǐng)域的大師Kimball提出的,是目前數(shù)據(jù)倉庫領(lǐng)域最流行的建模方式。維度模型可以很好地支撐分析決策需求,同時(shí)還有較好的大規(guī)模復(fù)雜查詢的響應(yīng)性能。維度模型可以直接使用OLAP工具與其對(duì)接。Kimball所推崇的數(shù)據(jù)倉庫架構(gòu)如下,基于這種架構(gòu)建立的數(shù)據(jù)倉庫,可以直接提供OLAP能力。這樣建立的數(shù)據(jù)倉庫本身也就成為了一個(gè)OLAP系統(tǒng)。

1.7.3 OLAP vs BI工具

BI是Business Intelligence的英文縮寫,中文解釋為商務(wù)智能,是利用數(shù)據(jù)提高決策質(zhì)量的技術(shù)集合,是從大量的數(shù)據(jù)中鉆取信息與知識(shí)的過程。OLAP和BI常常在一起出現(xiàn),OLAP是BI工具的一種底層技術(shù)。BI工具通??梢詫?duì)接OLAP系統(tǒng),但不限于此,也可以直接與其他數(shù)據(jù)庫、存儲(chǔ)系統(tǒng)對(duì)接。

1.7.4 OLAP vs 即席查詢

Ad hoc是一個(gè)拉丁文常用短語,意思是“特設(shè)的、特定目的的(地)、臨時(shí)的、專案的”。即席查詢(Ad Hoc Queries)是指用戶根據(jù)自己的需求動(dòng)態(tài)創(chuàng)建的查詢,與預(yù)定義查詢相反。

即席查詢對(duì)數(shù)據(jù)模型沒有要求,只要能提供動(dòng)態(tài)查詢的能力即可;而OLAP系統(tǒng),一般要求數(shù)據(jù)模型是多維數(shù)據(jù)模型。對(duì)于ROLAP系統(tǒng),通常都能提供即席查詢能力,二者之間差別很小,所以經(jīng)常混用。

上述內(nèi)容就是大數(shù)據(jù)OLAP系統(tǒng)的概念怎么理解 ,你們學(xué)到知識(shí)或技能了嗎?如果還想學(xué)到更多技能或者豐富自己的知識(shí)儲(chǔ)備,歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI