溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

大數(shù)據(jù)OLAP系統(tǒng)知識(shí)點(diǎn)有哪些

發(fā)布時(shí)間:2021-12-21 10:00:10 來(lái)源:億速云 閱讀:153 作者:iii 欄目:大數(shù)據(jù)

本篇內(nèi)容主要講解“大數(shù)據(jù)OLAP系統(tǒng)知識(shí)點(diǎn)有哪些”,感興趣的朋友不妨來(lái)看看。本文介紹的方法操作簡(jiǎn)單快捷,實(shí)用性強(qiáng)。下面就讓小編來(lái)帶大家學(xué)習(xí)“大數(shù)據(jù)OLAP系統(tǒng)知識(shí)點(diǎn)有哪些”吧!

數(shù)據(jù)生產(chǎn)面臨的挑戰(zhàn)

數(shù)據(jù)爆炸,每日使用最新維度對(duì)歷史數(shù)據(jù)進(jìn)行回溯計(jì)算。在Kylin的MOLAP模式下存在如下問(wèn)題:

  • 歷史數(shù)據(jù)每日刷新,失去了增量的意義。

  • 每日回溯歷史數(shù)據(jù)量大,10億+的歷史數(shù)據(jù)回溯。

  • 數(shù)據(jù)計(jì)算耗時(shí)3小時(shí)+,存儲(chǔ)1TB+,消耗大量計(jì)算存儲(chǔ)資源,同時(shí)嚴(yán)重影響SLA的穩(wěn)定性。

  • 預(yù)計(jì)算的大量歷史數(shù)據(jù)實(shí)際使用率低下,實(shí)際工作中對(duì)歷史的回溯80%集中在近1個(gè)月左右,但為了應(yīng)對(duì)所有需求場(chǎng)景,業(yè)務(wù)要求計(jì)算近半年以上的歷史。

  • 不支持明細(xì)數(shù)據(jù)的查詢。

引入MPP引擎,數(shù)據(jù)現(xiàn)用現(xiàn)算

歷史數(shù)據(jù)預(yù)計(jì)算成本巨大,最好的辦法就是現(xiàn)用現(xiàn)算,但現(xiàn)用現(xiàn)算需要強(qiáng)大的并行計(jì)算能力。
OLAP的實(shí)現(xiàn)有 MOLAP、ROLAP、HOLAP 三種形式。
MOLAP 以Cube為表現(xiàn)形式,但計(jì)算與管理成本較高。
ROLAP 需要強(qiáng)大的關(guān)系型DB引擎支撐。
長(zhǎng)期以來(lái),由于傳統(tǒng)關(guān)系型DBMS的數(shù)據(jù)處理能力有限,所以ROLAP模式受到很大的局限性。隨著分布式、并行化技術(shù)成熟應(yīng)用,MPP引擎逐漸表現(xiàn)出強(qiáng)大的高吞吐、低時(shí)延計(jì)算能力,號(hào)稱“億級(jí)秒開”的引擎不在少數(shù),ROLAP模式可以得到更好的延伸。單從業(yè)務(wù)實(shí)際應(yīng)用考慮,性能在千萬(wàn)量級(jí)關(guān)聯(lián)查詢現(xiàn)場(chǎng)計(jì)算秒開的情況下,已經(jīng)可以覆蓋到很多應(yīng)用場(chǎng)景,具備應(yīng)用的可能性。例如:日數(shù)據(jù)量的ROLAP現(xiàn)場(chǎng)計(jì)算,周、月趨勢(shì)的計(jì)算,以及明細(xì)數(shù)據(jù)的瀏覽都可以較好的應(yīng)對(duì)。

MOLAP模式的劣勢(shì)

  1. 應(yīng)用層模型復(fù)雜,根據(jù)業(yè)務(wù)需要以及Kylin生產(chǎn)需要,還要做較多模型預(yù)處理。這樣在不同的業(yè)務(wù)場(chǎng)景中,模型的利用率也比較低。

  2. Kylin配置過(guò)程繁瑣,需要配置模型設(shè)計(jì),并配合適當(dāng)?shù)摹凹糁Α辈呗?,以?shí)現(xiàn)計(jì)算成本與查詢效率的平衡。

  3. 由于MOLAP不支持明細(xì)數(shù)據(jù)的查詢,在“匯總+明細(xì)”的應(yīng)用場(chǎng)景中,明細(xì)數(shù)據(jù)需要同步到DBMS引擎來(lái)響應(yīng)交互,增加了生產(chǎn)的運(yùn)維成本。

  4. 較多的預(yù)處理伴隨著較高的生產(chǎn)成本。

ROLAP模式的優(yōu)勢(shì)

  1. 應(yīng)用層模型設(shè)計(jì)簡(jiǎn)化,將數(shù)據(jù)固定在一個(gè)穩(wěn)定的數(shù)據(jù)粒度即可。比如商家粒度的星形模型,同時(shí)復(fù)用率也比較高。

  2. App層的業(yè)務(wù)表達(dá)可以通過(guò)視圖進(jìn)行封裝,減少了數(shù)據(jù)冗余,同時(shí)提高了應(yīng)用的靈活性,降低了運(yùn)維成本。

  3. 同時(shí)支持“匯總+明細(xì)”。

  4. 模型輕量標(biāo)準(zhǔn)化,極大的降低了生產(chǎn)成本。

綜上所述,在變化維、非預(yù)設(shè)維、細(xì)粒度統(tǒng)計(jì)的應(yīng)用場(chǎng)景下,使用MPP引擎驅(qū)動(dòng)的ROLAP模式,可以簡(jiǎn)化模型設(shè)計(jì),減少預(yù)計(jì)算的代價(jià),并通過(guò)強(qiáng)大的實(shí)時(shí)計(jì)算能力,可以支撐良好的實(shí)時(shí)交互體驗(yàn)。

雙引擎下的應(yīng)用場(chǎng)景適配問(wèn)題

架構(gòu)上通過(guò)MOLAP+ROLAP雙引擎模式來(lái)適配不同應(yīng)用場(chǎng)景

技術(shù)權(quán)衡

MOLAP:通過(guò)預(yù)計(jì)算,提供穩(wěn)定的切片數(shù)據(jù),實(shí)現(xiàn)多次查詢一次計(jì)算,減輕了查詢時(shí)的計(jì)算壓力,保證了查詢的穩(wěn)定性,是“空間換時(shí)間”的最佳路徑。實(shí)現(xiàn)了基于Bitmap的去重算法,支持在不同維度下去重指標(biāo)的實(shí)時(shí)統(tǒng)計(jì),效率較高。
ROLAP:基于實(shí)時(shí)的大規(guī)模并行計(jì)算,對(duì)集群的要求較高。
MPP引擎的核心是通過(guò)將數(shù)據(jù)分散,以實(shí)現(xiàn)CPU、IO、內(nèi)存資源的分布,來(lái)提升并行計(jì)算能力。在當(dāng)前數(shù)據(jù)存儲(chǔ)以磁盤為主的情況下,數(shù)據(jù)Scan需要的較大的磁盤IO,以及并行導(dǎo)致的高CPU,仍然是資源的短板。因此,高頻的大規(guī)模匯總統(tǒng)計(jì),并發(fā)能力將面臨較大挑戰(zhàn),這取決于集群硬件方面的并行計(jì)算能力。傳統(tǒng)去重算法需要大量計(jì)算資源,實(shí)時(shí)的大規(guī)模去重指標(biāo)對(duì)CPU、內(nèi)存都是一個(gè)巨大挑戰(zhàn)。目前Doris最新版本已經(jīng)支持Bitmap算法,配合預(yù)計(jì)算可以很好地解決去重應(yīng)用場(chǎng)景。

MOLAP: 當(dāng)業(yè)務(wù)分析維度相對(duì)固化,并在可以使用歷史狀態(tài)時(shí),按照時(shí)間進(jìn)行增量生產(chǎn),加工成本呈線性增長(zhǎng)狀態(tài),數(shù)據(jù)加工到更粗的粒度(如組織單元),減少結(jié)果數(shù)據(jù)量,提高交互效率。如上圖所示,由A模型預(yù)計(jì)算到B模型,使用Kylin是一個(gè)不錯(cuò)的選擇。

ROLAP: 當(dāng)業(yè)務(wù)分析維度靈活多變或者特定到最新的狀態(tài)時(shí)(如上圖A模型中,始終使用最新的商家組織歸屬查看歷史),預(yù)計(jì)算回溯歷史數(shù)據(jù)成本巨大。在這種場(chǎng)景下,將數(shù)據(jù)穩(wěn)定在商家的粒度,通過(guò)現(xiàn)場(chǎng)計(jì)算進(jìn)行歷史數(shù)據(jù)的回溯分析,實(shí)現(xiàn)現(xiàn)用現(xiàn)算,可以節(jié)省掉預(yù)計(jì)算的巨大成本,并帶來(lái)較大的應(yīng)用靈活性。這種情況下適合MPP引擎支撐下的ROLAP生產(chǎn)模式。

MPP引擎的選型

目前開源的比較受關(guān)注的OLAP引擎很多,比如 Greenplum、Apache Impala、Presto、Doris、ClickHouse、Druid、TiDB 等等,但缺乏實(shí)踐案例的介紹,所以我們也沒(méi)有太多的經(jīng)驗(yàn)可以借鑒。于是,我們就結(jié)合自身業(yè)務(wù)的需求,從引擎建設(shè)成本出發(fā),并立足于公司技術(shù)生態(tài)融合、集成、易用性等維度進(jìn)行綜合考慮,作為選型依據(jù),最終我們平臺(tái)部門選擇了2018年剛進(jìn)入Apache社區(qū)的Doris。

大數(shù)據(jù)OLAP系統(tǒng)知識(shí)點(diǎn)有哪些

到此,相信大家對(duì)“大數(shù)據(jù)OLAP系統(tǒng)知識(shí)點(diǎn)有哪些”有了更深的了解,不妨來(lái)實(shí)際操作一番吧!這里是億速云網(wǎng)站,更多相關(guān)內(nèi)容可以進(jìn)入相關(guān)頻道進(jìn)行查詢,關(guān)注我們,繼續(xù)學(xué)習(xí)!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI