溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

發(fā)布時(shí)間:2020-07-26 13:20:31 來源:網(wǎng)絡(luò) 閱讀:1491 作者:宜信技術(shù) 欄目:大數(shù)據(jù)

內(nèi)容來源:宜信技術(shù)學(xué)院第2期技術(shù)沙龍-線上直播|宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐

分享嘉賓:宜信數(shù)據(jù)中臺(tái)平臺(tái)團(tuán)隊(duì)負(fù)責(zé)人 盧山巍

導(dǎo)讀:宜信于2017年推出了一系列大數(shù)據(jù)開源工具,包括大家熟悉的DBus、Wormhole、Moonbox、Davinci等,在技術(shù)社區(qū)內(nèi)得到了廣泛關(guān)注和好評(píng)。這些工具是如何在宜信內(nèi)部應(yīng)用的?它們和宜信數(shù)據(jù)中臺(tái)是怎樣的關(guān)系?又是如何驅(qū)動(dòng)各種日常數(shù)據(jù)業(yè)務(wù)場(chǎng)景的?

本次分享對(duì)這些問題進(jìn)行了回答,同時(shí)重點(diǎn)分享了宜信敏捷數(shù)據(jù)中臺(tái)的設(shè)計(jì)、架構(gòu)以及應(yīng)用場(chǎng)景,提出一種敏捷數(shù)據(jù)中臺(tái)的建設(shè)思路,以供參考和探討。以下是本次分享的實(shí)錄。

分享大綱:

一、導(dǎo)語

二、宜信數(shù)據(jù)中臺(tái)頂層設(shè)計(jì)

三、從中間件工具到平臺(tái)

四、典型案例分析

五、總結(jié)

六、Q&A

視頻回放地址:https://v.qq.com/x/page/r0874wlaomx.html

PPT下載地址:https://pan.baidu.com/s/1jRumFMj_vQG1rxUvepEMlg

一、導(dǎo)語

目前“中臺(tái)”的概念很火,包括數(shù)據(jù)中臺(tái)、AI中臺(tái)、業(yè)務(wù)中臺(tái)、技術(shù)中臺(tái)等。宜信技術(shù)學(xué)院第一期技術(shù)沙龍,井玉欣博士分享了宜信的AI中臺(tái),本期技術(shù)沙龍,由我來為大家分享《宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐》。

為什么我們要在數(shù)據(jù)中臺(tái)前加上“敏捷”呢?了解我們的朋友都知道我所在的團(tuán)隊(duì)是宜信敏捷大數(shù)據(jù)團(tuán)隊(duì),我們倡導(dǎo)“敏捷平民化”,把敏捷思想融入到系統(tǒng)建設(shè)中,并且研發(fā)了四個(gè)開源平臺(tái):DBus、Wormhole、Moonbox、Davinci。宜信的數(shù)據(jù)中臺(tái)是由我們敏捷大數(shù)據(jù)團(tuán)隊(duì)基于四大開源平臺(tái)開發(fā)建設(shè)的,因此我們將宜信的數(shù)據(jù)中臺(tái)稱之為“敏捷數(shù)據(jù)中臺(tái)”。

本次分享分為三個(gè)部分:

  • 宜信敏捷數(shù)據(jù)中臺(tái)的頂層設(shè)計(jì)。數(shù)據(jù)中臺(tái)是一個(gè)公司級(jí)的平臺(tái)系統(tǒng),所以不能只從技術(shù)層面去設(shè)計(jì),還要考慮包括流程、標(biāo)準(zhǔn)化等在內(nèi)的頂層設(shè)計(jì)。

  • 從中間件工具到平臺(tái)介紹宜信是如何設(shè)計(jì)建設(shè)敏捷數(shù)據(jù)中臺(tái)的。

  • 結(jié)合典型案例介紹宜信敏捷數(shù)據(jù)中臺(tái)支持哪些數(shù)據(jù)方面的應(yīng)用和實(shí)踐。

二、宜信敏捷數(shù)據(jù)中臺(tái)的頂層設(shè)計(jì)

2.1 特點(diǎn)和需求

關(guān)于數(shù)據(jù)中臺(tái)的建設(shè),目前并沒有一個(gè)標(biāo)準(zhǔn)的解決方案,也沒有一個(gè)數(shù)據(jù)中臺(tái)能適用于所有的公司,每個(gè)公司都應(yīng)該結(jié)合自己的業(yè)務(wù)規(guī)模及數(shù)據(jù)需求現(xiàn)狀來研發(fā)適合自己公司的數(shù)據(jù)中臺(tái)。

在介紹宜信敏捷數(shù)據(jù)中臺(tái)的頂層設(shè)計(jì)之前,我們先來了解其背景:

  • 業(yè)務(wù)板塊和業(yè)務(wù)條線眾多。宜信的業(yè)務(wù)大體可分為四大板塊:普惠金融板塊、財(cái)富管理板塊、資產(chǎn)管理板塊、金融科技板塊,擁有近百條業(yè)務(wù)線和產(chǎn)品線。
  • 技術(shù)選型眾多。不同業(yè)務(wù)方有不同的數(shù)據(jù)需求,技術(shù)選型時(shí)依據(jù)這些客觀需求及主觀偏好,會(huì)選擇不同的數(shù)據(jù)組件,包括 :MySQL、Oracle、HBase、KUDU、Cassandra、Elasticsearch、MongoDB、Hive、Spark、Presto、Impala、Clickhouse等。
  • 數(shù)據(jù)需求多樣。業(yè)務(wù)線多樣,導(dǎo)致數(shù)據(jù)需求多樣,包括:報(bào)表、可視化、服務(wù)、推送、遷移、同步、數(shù)據(jù)應(yīng)用等。
  • 數(shù)據(jù)需求多變。為順應(yīng)互聯(lián)網(wǎng)的快速變化,業(yè)務(wù)方的數(shù)據(jù)需求也是多變的,經(jīng)常有周級(jí)產(chǎn)出數(shù)據(jù)需求和數(shù)據(jù)應(yīng)用。
  • 數(shù)據(jù)管理考慮。要求數(shù)據(jù)元信息可查,數(shù)據(jù)定義和流程標(biāo)準(zhǔn)化,數(shù)據(jù)管理可控等。
  • 數(shù)據(jù)安全考慮。宜信作為一家同時(shí)擁有互聯(lián)網(wǎng)屬性和金融屬性的公司,對(duì)數(shù)據(jù)安全和權(quán)限的要求很高,我們?cè)跀?shù)據(jù)安全方面做了很多工作,包括:多級(jí)數(shù)據(jù)安全策略、數(shù)據(jù)鏈路可追溯、敏感數(shù)據(jù)不可泄露等。
  • 數(shù)據(jù)權(quán)限考慮。在數(shù)據(jù)權(quán)限方面的工作包括:表級(jí)、列級(jí)、行級(jí)數(shù)據(jù)權(quán)限,組織架構(gòu)、角色、權(quán)限策略自動(dòng)化。
  • 數(shù)據(jù)成本考慮。包括集群成本、運(yùn)維成本、人力成本、時(shí)間成本、風(fēng)險(xiǎn)成本等。

2.2 定位

關(guān)于數(shù)據(jù)中臺(tái)的定位,每個(gè)公司都不太一樣。有的公司業(yè)務(wù)比較專注,只有一條業(yè)務(wù)線,那它在建設(shè)數(shù)據(jù)中臺(tái)的時(shí)候,可能需要一個(gè)垂直的平臺(tái),直達(dá)前線,更好地支持前線的運(yùn)作。

前文提到宜信業(yè)務(wù)線很多,且在眾多業(yè)務(wù)中沒有一個(gè)主體業(yè)務(wù),這就相當(dāng)于所有業(yè)務(wù)線都是主體。基于這樣的背景,我們需要一個(gè)平臺(tái)化的數(shù)據(jù)中臺(tái),來支撐所有業(yè)務(wù)線的需求和運(yùn)作。

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

圖1 定位

如上圖所示,綠色的部分是宜信敏捷數(shù)據(jù)中臺(tái),我們稱之為“ADX數(shù)據(jù)中臺(tái)平臺(tái)”,“A”即“Agile(敏捷)”,之所以稱為“平臺(tái)”,是因?yàn)槲覀兿M麑⑵浯蛟斐梢粋€(gè)服務(wù)于全業(yè)務(wù)線的平臺(tái)系統(tǒng),助力業(yè)務(wù)發(fā)展。

敏捷數(shù)據(jù)中臺(tái)處于中間位置,最底下是各種數(shù)據(jù)集群,最上端是各個(gè)業(yè)務(wù)領(lǐng)域數(shù)據(jù)團(tuán)隊(duì)。數(shù)據(jù)中臺(tái)通過整合處理數(shù)據(jù)集群的數(shù)據(jù),為業(yè)務(wù)領(lǐng)域數(shù)據(jù)團(tuán)隊(duì)提供自助化、實(shí)時(shí)化、統(tǒng)一化、服務(wù)化、管理化、可溯化的數(shù)據(jù)服務(wù)。

右邊三個(gè)藍(lán)色的板塊分別是數(shù)據(jù)管理委員會(huì)、數(shù)據(jù)運(yùn)維團(tuán)隊(duì)和數(shù)據(jù)安全團(tuán)隊(duì)。前文提到宜信對(duì)數(shù)據(jù)安全的要求非常高,所以設(shè)置了專門的數(shù)據(jù)安全團(tuán)隊(duì)來規(guī)劃公司數(shù)據(jù)安全的流程和策略;數(shù)據(jù)管理委員會(huì)負(fù)責(zé)數(shù)據(jù)的標(biāo)準(zhǔn)化、流程化,補(bǔ)齊技術(shù)型驅(qū)動(dòng)的數(shù)據(jù)中臺(tái)的推動(dòng)效率,保證有效沉淀和呈現(xiàn)數(shù)據(jù)資產(chǎn)。

我們對(duì)宜信敏捷數(shù)據(jù)中臺(tái)的定位是:從數(shù)據(jù)技術(shù)和計(jì)算能力復(fù)用,到數(shù)據(jù)資產(chǎn)和數(shù)據(jù)服務(wù)復(fù)用,敏捷數(shù)據(jù)中臺(tái)會(huì)以更大價(jià)值帶寬,快、準(zhǔn)、精讓數(shù)據(jù)直接賦能業(yè)務(wù)。

2.3 價(jià)值

宜信敏捷數(shù)據(jù)中臺(tái)的價(jià)值集中表現(xiàn)為三個(gè)方面:快、準(zhǔn)、省。

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

圖2 價(jià)值

存在的問題 敏捷數(shù)據(jù)中臺(tái)之“快”
定制化需求造成重復(fù)開發(fā) 平臺(tái)化,透明封裝復(fù)用技術(shù)組件
內(nèi)包實(shí)施團(tuán)隊(duì)需排期 自助化,簡(jiǎn)單配置,月=>天
T+1延時(shí)滿足不了實(shí)時(shí)及精細(xì)化運(yùn)營 實(shí)時(shí)化,驅(qū)動(dòng)業(yè)務(wù)增長,天=>分
存在的問題 敏捷數(shù)據(jù)中臺(tái)之“準(zhǔn)”
數(shù)據(jù)存儲(chǔ)各異,取數(shù)方式各異,清洗邏輯各異 統(tǒng)一化,統(tǒng)一數(shù)據(jù)湖歸集和出口
數(shù)據(jù)孤島未打通整合 管理化,元數(shù)據(jù)、數(shù)據(jù)地圖、血緣
需求驅(qū)動(dòng)實(shí)施,無法沉淀數(shù)據(jù)資產(chǎn) 資產(chǎn)化,模型管理讓數(shù)據(jù)可信賴,標(biāo)準(zhǔn)化模型加工促使數(shù)據(jù)資產(chǎn)沉淀
存在的問題 敏捷數(shù)據(jù)中臺(tái)之“省”
時(shí)間成本,需求排期和重復(fù)開發(fā) 自助化,節(jié)省時(shí)間就是節(jié)省成本
人力成本,重復(fù)開發(fā)和缺少復(fù)用 平臺(tái)化,成熟技術(shù)組件高復(fù)用度
硬件成本,集群資源濫用造成浪費(fèi) 精細(xì)化,集群資源可估可查可量化

2.4 模塊架構(gòu)維度

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

圖3 模塊架構(gòu)維度

如圖所示,宜信敏捷數(shù)據(jù)中臺(tái)的建設(shè)也是基于“小前臺(tái),大中臺(tái)”的共識(shí)。整個(gè)中間部分都屬于敏捷數(shù)據(jù)中臺(tái)包含的內(nèi)容,左邊綠色部分是基于數(shù)據(jù)維度來看整個(gè)中臺(tái),右邊藍(lán)色部分則是基于平臺(tái)維度來看中臺(tái)。

  • 數(shù)據(jù)維度。各種內(nèi)部數(shù)據(jù)、外部數(shù)據(jù)先歸集到數(shù)據(jù)源層,再以統(tǒng)一化、實(shí)時(shí)化、標(biāo)準(zhǔn)化、安全化等方式存儲(chǔ)起來形成數(shù)據(jù)湖層,數(shù)據(jù)湖對(duì)這些原始數(shù)據(jù)進(jìn)行處理和體系化歸類,轉(zhuǎn)化為數(shù)據(jù)資產(chǎn);數(shù)據(jù)資產(chǎn)層包括數(shù)倉體系、指標(biāo)體系、標(biāo)簽體系、特征體系、主數(shù)據(jù)等;最后將沉淀的這些可復(fù)用的數(shù)據(jù)資產(chǎn)提供給數(shù)據(jù)應(yīng)用層,供BI、AI、數(shù)據(jù)產(chǎn)品應(yīng)用。

  • 平臺(tái)維度。每個(gè)藍(lán)色的方框都代表一個(gè)技術(shù)模塊,整個(gè)宜信敏捷數(shù)據(jù)中臺(tái)就是由這些技術(shù)模塊組合而成。其中DataHub數(shù)據(jù)樞紐,可以幫助用戶完成自助數(shù)據(jù)申請(qǐng)、發(fā)布、脫敏、清洗和服務(wù)等;DataWorks數(shù)據(jù)工坊,可以對(duì)數(shù)據(jù)進(jìn)行自助查詢、作業(yè)、可視化等處理;還有DataStar數(shù)據(jù)模型、DataTag數(shù)據(jù)標(biāo)簽、DataMgt 數(shù)據(jù)管理、ADXMgt 中臺(tái)管理等。

值得一提的是,這些模塊都不是從0開發(fā)的,而是基于我們已有的開源工具。首先,基于成熟的中間件工具來進(jìn)行開發(fā),可以節(jié)約開發(fā)的時(shí)間和成本;其次,開源工具成為引擎,可以共同合力支撐更大的一站式平臺(tái)。

2.5 數(shù)據(jù)能力維度

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

圖4 數(shù)據(jù)能力維度

將上述架構(gòu)模塊重新按照能力維度劃分,可以分成若干層,每一層都包含若干能力。如圖所示,可以清晰地看到建設(shè)數(shù)據(jù)中臺(tái)需要具備哪些數(shù)據(jù)能力,這些能力都對(duì)應(yīng)哪些功能模塊,分別能解決什么問題。此處不再展開贅述。

三、從中間件工具到平臺(tái)

3.1 ABD總覽

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

圖5 ABD總覽

中間件工具指DBus、Wormhole、Moonbox、Davinci四大開源平臺(tái),它們從敏捷大數(shù)據(jù)(ABD,Agile BigData)理念中抽象而出,組成ABD平臺(tái)棧,敏捷數(shù)據(jù)中臺(tái)則被我們稱為ADX(Agile Data X Platform)。也就是說我們經(jīng)歷了從ABD到ADX的過程。

一開始,基于對(duì)業(yè)務(wù)需求共性的抽象和總結(jié),我們孵化出若干個(gè)通用的中間件,去解決各種各樣的問題。當(dāng)出現(xiàn)更為復(fù)雜的需求,我們嘗試將這些通用的中間件進(jìn)行組合運(yùn)用。實(shí)踐中,我們發(fā)現(xiàn)經(jīng)常會(huì)使用到某些特定的組合,同時(shí),從用戶角度來看,他們更希望能實(shí)現(xiàn)自助化,直接拿過來就能用,而不是每次都要自己去選擇和組合?;谶@兩點(diǎn),我們對(duì)這幾個(gè)開源工具進(jìn)行了封裝。

3.1.1 ABD-DBus

DBus(數(shù)據(jù)總線平臺(tái)),是一個(gè)DBaaS(Data Bus as a Service)平臺(tái)解決方案。

DBus面向大數(shù)據(jù)項(xiàng)目開發(fā)和管理運(yùn)維人員,致力于提供數(shù)據(jù)實(shí)時(shí)采集和分發(fā)解決方案。平臺(tái)采用高可用流式計(jì)算框架,提供海量數(shù)據(jù)實(shí)時(shí)傳輸,可靠多路消息訂閱分發(fā),通過簡(jiǎn)單靈活的配置,無侵入接入源端數(shù)據(jù),對(duì)各個(gè)IT系統(tǒng)在業(yè)務(wù)流程中產(chǎn)生的數(shù)據(jù)進(jìn)行匯集,并統(tǒng)一處理轉(zhuǎn)換成通過JSON描述的UMS格式,提供給不同下游客戶訂閱和消費(fèi)。DBus可充當(dāng)數(shù)倉平臺(tái)、大數(shù)據(jù)分析平臺(tái)、實(shí)時(shí)報(bào)表和實(shí)時(shí)營銷等業(yè)務(wù)的數(shù)據(jù)源。

開源地址:https://github.com/BriData

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

圖6 DBus功能及定位

如圖所示,DBus可以無侵入地對(duì)接各種數(shù)據(jù)庫的數(shù)據(jù)源,實(shí)時(shí)抽取增量數(shù)據(jù),做統(tǒng)一清洗和處理,并以UMS的格式存儲(chǔ)到Kafka中。

DBus的功能還包括批量抽取、監(jiān)控、分發(fā)、多租戶,以及配置清晰規(guī)則等,具體功能特性如圖所示。

上圖右下角展示的是DBus的一個(gè)截圖,用戶在DBus上可以通過一個(gè)可視化頁面,拉取增量數(shù)據(jù),配置日志和清洗方式,完成實(shí)時(shí)數(shù)據(jù)抽取等工作。

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

圖7 DBus架構(gòu)

從如上架構(gòu)圖可以看到DBus包括若干不同的處理模塊,支持不同的功能。(GitHub有具體介紹,此處不作展開。)

3.1.2 ABD-Wormhole

Wormhole(流式處理平臺(tái)),是一個(gè)SPaaS(Stream Processing as a Service)平臺(tái)解決方案。

Wormhole面向大數(shù)據(jù)項(xiàng)目開發(fā)和管理運(yùn)維人員,致力于提供數(shù)據(jù)流式化處理解決方案。平臺(tái)專注于簡(jiǎn)化和統(tǒng)一開發(fā)管理流程,提供可視化的操作界面,基于配置和SQL的業(yè)務(wù)開發(fā)方式,屏蔽底層技術(shù)實(shí)現(xiàn)細(xì)節(jié),極大的降低了開發(fā)門檻,使得×××式處理項(xiàng)目的開發(fā)和管理變得更加輕量敏捷、可控可靠。

開源地址:?https://github.com/edp963/wormhole

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

圖8 Wormhole功能及定位

DBus將實(shí)時(shí)數(shù)據(jù)以UMS的格式存儲(chǔ)到Kafka中,我們要使用這些實(shí)時(shí)的流式數(shù)據(jù),就要用到Wormhole這個(gè)工具。

Wormhole支持配置流式化的處理邏輯,同時(shí)可以把處理完之后的數(shù)據(jù)寫到不同的數(shù)據(jù)存儲(chǔ)中。上圖中展示了很多Wormhole的功能特性,我們還在開發(fā)更多新的功能。

上圖右下角是Wormhole的一個(gè)工作截圖,Wormhole作為流式平臺(tái),自己不重新開發(fā)流式處理引擎,它主要依賴Spark Streaming 和Flink Streaming 這兩種流式計(jì)算引擎。用戶可以選擇其中一個(gè)流式計(jì)算引擎,比如Spark,配置流式處理邏輯,確定Lookup庫的方式,并通過寫SQL來表達(dá)這個(gè)邏輯。如果涉及CEP,當(dāng)然就是基于Flink。

由此可以看出,使用Wormhole的門檻就是配置加上SQL。這也符合我們一直秉承的理念,即用敏捷化的方式支持用戶自助玩轉(zhuǎn)大數(shù)據(jù)。

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

圖9 Wormhole架構(gòu)

上圖展示的是Wormhole的架構(gòu)圖,包含很多功能模塊。介紹其中的幾個(gè)功能:

  • Wormhole支持異構(gòu) Sink冪等,能幫助用戶解決數(shù)據(jù)一致性的問題。

  • 用過 Spark Streaming的人都知道,發(fā)起一個(gè) Spark Streaming可能只做一件事情。Wormhole在 Spark Streaming的物理計(jì)算管道中抽象出一層“邏輯的Flow”的概念,就是從什么地方到什么地方、中間做什么事,這是一個(gè)“邏輯的Flow”。做了這種解耦和抽象之后,Wormhole支持在一個(gè)物理的 Spark Streaming管道中同時(shí)跑多個(gè)不同業(yè)務(wù)邏輯的Flow。所以理論上講,比如有1000個(gè)不同的 Source表,經(jīng)過1000個(gè)不同的流式處理,最后要得出1000個(gè)不同的結(jié)果表,可以只在Wormhole中發(fā)起一個(gè)Spark Streaming ,在里面跑1000個(gè)邏輯的Flow來實(shí)現(xiàn)。當(dāng)然這樣做的話可能會(huì)導(dǎo)致每個(gè)Flow延遲加大,因?yàn)槎紨D在同一個(gè)管道里,但這里的設(shè)置是很靈活的,我可以讓某一個(gè)Flow獨(dú)占一個(gè)VIP的 Stream,如果有些Flow流量很小,或者延遲對(duì)其影響不那么大的話,可以讓它們共享一個(gè)Stream。靈活性是Wormhole一個(gè)很大的特點(diǎn)。

  • Wormhole有自己的一套指令和反饋體系,用戶不用重啟或停止流,就可以動(dòng)態(tài)地在線更改邏輯,并且實(shí)時(shí)拿到作業(yè)和反饋結(jié)果等。
3.1.3 ABD-Moonbox

Moonbox(計(jì)算服務(wù)平臺(tái)),是一個(gè)DVtaaS(Data Virtualization as a Service)平臺(tái)解決方案。

Moonbox面向數(shù)據(jù)倉庫工程師/數(shù)據(jù)分析師/數(shù)據(jù)科學(xué)家等, 基于數(shù)據(jù)虛擬化設(shè)計(jì)思想,致力于提供批量計(jì)算服務(wù)解決方案。Moonbox負(fù)責(zé)屏蔽底層數(shù)據(jù)源的物理和使用細(xì)節(jié),為用戶帶來虛擬數(shù)據(jù)庫般使用體驗(yàn),用戶只需通過統(tǒng)一SQL語言,即可透明實(shí)現(xiàn)跨異構(gòu)數(shù)據(jù)系統(tǒng)混算和寫出。此外Moonbox還提供數(shù)據(jù)服務(wù)、數(shù)據(jù)管理、數(shù)據(jù)工具、數(shù)據(jù)開發(fā)等基礎(chǔ)支持,可支撐更加敏捷和靈活的數(shù)據(jù)應(yīng)用架構(gòu)和邏輯數(shù)倉實(shí)踐。

開源地址:?https://github.com/edp963/moonbox

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

圖10 Moonbox功能及定位

數(shù)據(jù)從DBus過來,經(jīng)過Wormhole的流式處理,可能落到不同的數(shù)據(jù)存儲(chǔ)中,我們需要對(duì)這些數(shù)據(jù)進(jìn)行混算,Moonbox支持多源異構(gòu)系統(tǒng)無縫混算。上圖展示了Moonbox的功能特性。

平時(shí)所說的即席查詢并沒有真正做到“即席”,因?yàn)樾枰脩粝仁止さ匕褦?shù)據(jù)導(dǎo)到Hive再做計(jì)算,這是一個(gè)預(yù)置的工作。Moonbox不需要事先把數(shù)據(jù)導(dǎo)到一個(gè)地方去,做到了真正的即席查詢。數(shù)據(jù)可以散落到不同的存儲(chǔ)中,當(dāng)用戶有需求時(shí), 只需寫一個(gè)SQL,Moonbox可以自動(dòng)拆分這個(gè)SQL,從而得知哪些表在哪里,然后規(guī)劃SQL的執(zhí)行計(jì)劃,最終拿到結(jié)果。

Moonbox對(duì)外提供標(biāo)準(zhǔn)的REST、API、JDBC、ODBC等,因此也可以將之看成一個(gè)虛擬數(shù)據(jù)庫。

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

圖11 Moonbox架構(gòu)

上圖展示的是Moonbox的架構(gòu)圖。可以看到Moonbox的計(jì)算引擎部分也是基于Spark引擎做的,并沒有自研。Moonbox對(duì)Spark進(jìn)行擴(kuò)展和優(yōu)化,增加了很多企業(yè)級(jí)的數(shù)據(jù)庫能力,比如用戶、租戶、權(quán)限、 類存儲(chǔ)過程等。

從上圖看,Moonbox整個(gè)服務(wù)端是一個(gè)分布式的架構(gòu),所以它也是高可用的。

3.1.4 ABD-Davinci

Davinci(可視應(yīng)用平臺(tái)),是一個(gè)DVaaS(Data Visualization as a Service)平臺(tái)解決方案。

Davinci面向業(yè)務(wù)人員/數(shù)據(jù)工程師/數(shù)據(jù)分析師/數(shù)據(jù)科學(xué)家,致力于提供一站式數(shù)據(jù)可視化解決方案。既可作為公有云/私有云獨(dú)立部署使用,也可作為可視化插件集成到三方系統(tǒng)。用戶只需在可視化UI上簡(jiǎn)單配置即可服務(wù)多種數(shù)據(jù)可視化應(yīng)用,并支持高級(jí)交互/行業(yè)分析/模式探索/社交智能等可視化功能。

開源地址:https://github.com/edp963/davinci

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

圖12 Davinci功能及定位

Davinci是一個(gè)可視化工具,所具備的功能特性如圖所示。

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

圖13 Davinci架構(gòu)

從設(shè)計(jì)層面來看,Davinci有自己的完備和一致性的內(nèi)在邏輯。包括Source、View、Widget,支持各種數(shù)據(jù)可視化應(yīng)用。

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

圖14 Davinci富客戶端應(yīng)用

Davinci是一個(gè)富客戶端的應(yīng)用,所以主要還是看它前端的使用體驗(yàn)、豐富性和易用性等。Davinci支持圖表驅(qū)動(dòng)和透視驅(qū)動(dòng)兩種模式編輯Widget。上圖是一個(gè)透視驅(qū)動(dòng)的效果樣例,可以看到橫縱坐標(biāo)都是透視的,它們會(huì)將整個(gè)圖切成不同的單元格,每個(gè)單元格里可以選擇不同的圖。

3.2 ABD架構(gòu)

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

圖15 ABD架構(gòu)

在ABD時(shí)代,我們通過DIY組合四個(gè)開源工具來支持各種各樣的數(shù)據(jù)應(yīng)用需求。如上圖所示,將整個(gè)端到端的流程串起來,這個(gè)架構(gòu)圖展示了我們“有收有放把整個(gè)鏈路打通”的理念。

  • 收。比如采集、架構(gòu)、流轉(zhuǎn)、注入、計(jì)算服務(wù)查詢等功能,需要收斂集合成一個(gè)平臺(tái)。

  • 放。面對(duì)復(fù)雜的業(yè)務(wù)環(huán)境,數(shù)據(jù)源也是各種各樣的無法統(tǒng)一,很難有一個(gè)存儲(chǔ)或數(shù)據(jù)系統(tǒng)可以滿足所有的需求,使得大家不再需要選型。因此這一塊的實(shí)踐是開放的,大家可以自主選擇開源工具和組件來適配和兼容。

3.3 ADX總覽

發(fā)展到一定階段時(shí),我們需要一個(gè)一站式的平臺(tái),把基礎(chǔ)組件封裝起來,使得用戶可以在這個(gè)平臺(tái)上更簡(jiǎn)單地完成數(shù)據(jù)相關(guān)的工作,于是進(jìn)入了ADX數(shù)據(jù)中臺(tái)建設(shè)階段。

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

圖16 ADX 總覽

上圖是ADX 總覽,相當(dāng)于一個(gè)一級(jí)功能菜單。用戶登錄到平臺(tái),可以做以下事情:

  • 項(xiàng)目看板:可以看到所在項(xiàng)目的看板,包括健康情況等各方面的統(tǒng)計(jì)情況。
  • 項(xiàng)目管理:可以做項(xiàng)目相關(guān)的管理,包括資產(chǎn)管理、權(quán)限管理、審批管理等。
  • 數(shù)據(jù)管理:可以做數(shù)據(jù)方面的管理,比如查看元數(shù)據(jù),查看數(shù)據(jù)血緣等。
  • 數(shù)據(jù)申請(qǐng):項(xiàng)目配置好了,數(shù)據(jù)也了解了,可以做實(shí)際工作了。基于安全和權(quán)限考慮,并不是誰都可以去用放在里面的數(shù)據(jù),因此首先要做數(shù)據(jù)申請(qǐng)。右邊藍(lán)色模塊是本次分享將重點(diǎn)介紹的ADX數(shù)據(jù)中臺(tái)的五大功能模塊。數(shù)據(jù)申請(qǐng)更多是由DataHub數(shù)據(jù)樞紐來實(shí)現(xiàn)的,它支持自助申請(qǐng)、發(fā)布、標(biāo)準(zhǔn)化、清洗、脫敏等。
  • 即席查詢、批量作業(yè)、流式作業(yè)是基于DataWorks數(shù)據(jù)工坊實(shí)現(xiàn)的。
  • 數(shù)據(jù)模型是基于DataStar這個(gè)模型管理平臺(tái)來實(shí)現(xiàn)的。
  • 應(yīng)用市場(chǎng)包括數(shù)據(jù)可視化(數(shù)據(jù)加工完之后可以配置最終展現(xiàn)樣式為圖或儀表板等,這里可能用到Davinci);標(biāo)簽畫像、行為分析等常見分析方法;智能工具箱(幫助數(shù)據(jù)科學(xué)家更好地做數(shù)據(jù)集分析、挖掘和算法模型的工作)以及智能服務(wù)、智能對(duì)話(比如智能聊天機(jī)器人)等。
3.3.1 ADX-DataHub數(shù)據(jù)樞紐

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

圖17 DataHub工作流程

上圖藍(lán)色虛線框顯示的是 DataHub的流程架構(gòu),橙色方塊是我們的開源工具,其中“tria”代表Triangle,是宜信另一個(gè)團(tuán)隊(duì)研發(fā)的作業(yè)調(diào)度工具。
DataHub不是簡(jiǎn)單地封裝了鏈路,而是使得用戶可以在一個(gè)更高的level上得到更好的服務(wù)。比如用戶需要某一歷史時(shí)刻精確到秒的快照,或者希望拿到一個(gè)實(shí)時(shí)增量數(shù)據(jù)去做流式處理,DataHub都可以提供。

它是怎么做到的呢?通過將開源工具引擎化,然后進(jìn)行整合。舉個(gè)例子:不同數(shù)據(jù)源,通過DBus實(shí)時(shí)抽取出來,經(jīng)過Wormhole流式處理后落到 HDFS Log數(shù)據(jù)湖中,我們把所有實(shí)時(shí)增量數(shù)據(jù)都存儲(chǔ)在這里面,這就意味著我們可以從中拿到所有的歷史變更數(shù)據(jù),而且這些數(shù)據(jù)還是實(shí)時(shí)同步的。再通過Moonbox在上面定義一些邏輯,當(dāng)用戶提出想要某一歷史時(shí)刻的快照或者增量數(shù)據(jù),就可以即時(shí)計(jì)算并提供。如果想做實(shí)時(shí)報(bào)表,需要把數(shù)據(jù)實(shí)時(shí)快照維護(hù)到一個(gè)存儲(chǔ)里,這里我們選擇Kudu。

流式處理有很多好處,同時(shí)也有短板,比如運(yùn)維成本較高、穩(wěn)定性較差等??紤]到這些問題,我們?cè)贒ataHub中設(shè)置了Sqoop作為Plan B。如果實(shí)時(shí)這條線晚上出現(xiàn)問題,可以自動(dòng)切換到Plan B,通過傳統(tǒng)的Sqoop去支持第二天T+1的報(bào)表。等我們找到并解決問題之后,Plan B就會(huì)切換到暫停狀態(tài)。

假設(shè)用戶自己有數(shù)據(jù)源,放在Elasticsearch 或者M(jìn)ongo里,也希望通過DataHub發(fā)布出去共享給其他人使用。我們不應(yīng)該把Elasticsearch 數(shù)據(jù)或Mongo數(shù)據(jù)物理地拷貝到一個(gè)地方,因?yàn)槭紫冗@些數(shù)據(jù)是NoSQL的,數(shù)據(jù)量比較大;其次用戶可能希望別人通過模糊查詢的方式去使用Elasticsearch 數(shù)據(jù),那可能繼續(xù)將數(shù)據(jù)放在Elasticsearch 里更好。這時(shí)我們做的是通過Moonbox進(jìn)行一個(gè)邏輯的發(fā)布,但用戶不感知這個(gè)過程。

綜上可以看出,DataHub是在內(nèi)部把幾個(gè)開源平臺(tái)常用的模式進(jìn)行有機(jī)整合和封裝,對(duì)外提供一致性、便捷的數(shù)據(jù)獲取、發(fā)布等服務(wù)。其使用方也可以是各種不同的角色:

  • 數(shù)據(jù)擁有方可以在這里做數(shù)據(jù)審批;
  • 數(shù)據(jù)工程師可以申請(qǐng)數(shù)據(jù),申請(qǐng)完后可以在這里對(duì)數(shù)據(jù)進(jìn)行加工;
  • APP用戶可以查看Davinci報(bào)表;

  • 數(shù)據(jù)分析師可以直接用自己的工具去接DataHub出來的數(shù)據(jù),然后做數(shù)據(jù)分析;

  • 數(shù)據(jù)用戶可能希望自己做一個(gè)數(shù)據(jù)產(chǎn)品,DataHub可以為他提供接口。

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

圖18 DataHub架構(gòu)

如圖,將DataHub打開,來看其架構(gòu)設(shè)計(jì)。從功能模塊角度來看,DataHub基于不同開源組件,實(shí)現(xiàn)不同功能。包括批量采集、流式采集、脫敏、標(biāo)準(zhǔn)化等,還可以基于不同的協(xié)議輸出訂閱。

DataHub與其他幾個(gè)組件之間的關(guān)系也是非常緊密的。它輸出的數(shù)據(jù)給DataWorks使用,同時(shí)它又依賴中臺(tái)管理、數(shù)據(jù)管理來滿足其需求。

3.3.2 ADX-DataLake實(shí)時(shí)數(shù)據(jù)湖

廣義的數(shù)據(jù)湖,就是把所有數(shù)據(jù)都放在一起,先以存儲(chǔ)和歸集為主,使用的時(shí)候再根據(jù)不同數(shù)據(jù)提供不同使用方式。

我們這里提到的是一個(gè)狹義的數(shù)據(jù)湖,只支持結(jié)構(gòu)化數(shù)據(jù)源和自然語言文本這兩種類型的數(shù)據(jù)歸集,并且有統(tǒng)一的方式存儲(chǔ)。

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

圖19 DataLake

也就是說我們的實(shí)時(shí)數(shù)據(jù)湖加了限制,公司所有結(jié)構(gòu)化數(shù)據(jù)源和自然語言文本會(huì)統(tǒng)一實(shí)時(shí)匯總為UbiLog,并由ADX-DataHub統(tǒng)一對(duì)外提供訪問。UbiLog的訪問和使用只能通過ADX提供的能力輸出,因此確保了多租戶、安全、權(quán)限管控。

3.3.3 ADX-DataWorks數(shù)據(jù)工坊

主要的數(shù)據(jù)加工都是在DataWorks自助完成的。

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

圖20 DataWorks工作流程

如圖來看DataWorks的工作流程。首先DataHub數(shù)據(jù)出來之后,DataWorks必須去接DataHub的數(shù)據(jù)。DataWorks支持實(shí)時(shí)報(bào)表,我們內(nèi)部使用的是Kudu,所以把這個(gè)模式固化下來,用戶就不用自己去選型,直接在上面寫自己的邏輯就可以了。比如有一個(gè)實(shí)時(shí)DM或批量DM,我們覺得這是一個(gè)很好的數(shù)據(jù)資產(chǎn),有復(fù)用價(jià)值,希望別的業(yè)務(wù)能復(fù)用這個(gè)數(shù)據(jù),我們就可以通過DataHub把它發(fā)布出去,別的業(yè)務(wù)就可以申請(qǐng)使用。

所以DataHub和DataWorks等組件封裝而成的數(shù)據(jù)中臺(tái)可以達(dá)到數(shù)據(jù)共享和數(shù)據(jù)運(yùn)營的效果。中臺(tái)內(nèi)部包含Kudu、Kafka、Hive、MySQL等數(shù)據(jù)庫組件,但是用戶不需要自己去選型,我們已經(jīng)做出了最佳選擇,并將其封裝成一個(gè)可直接使用的平臺(tái)。

上圖左側(cè)有一個(gè)數(shù)據(jù)建模師的角色,他在DataStar中做模型管理和開發(fā)建設(shè),在DataWorks中主要是負(fù)責(zé)邏輯和模型的創(chuàng)建;數(shù)據(jù)工程師不用多說,是最常見的使用DataWorks的角色;終端用戶可以直接使用Davinci。

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

圖21 DataWorks架構(gòu)

如圖,將DataWorks打開來看它的架構(gòu),同樣DataWorks也是通過不同的模塊來支持各種不同的功能。關(guān)于這部分內(nèi)容以后會(huì)有更多的文章和分享,此處不詳細(xì)介紹。

3.3.4 ADX-DataStar數(shù)據(jù)模型

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

圖22 DataStar工作流程

DataStar跟數(shù)據(jù)指標(biāo)模型或數(shù)據(jù)資產(chǎn)相關(guān),每個(gè)公司都有自己內(nèi)部的數(shù)據(jù)建模流程和工具。DataStar可以分為兩個(gè)部分:

  • 模型設(shè)計(jì)、管理創(chuàng)建。對(duì)模型生命周期的管理和工藝流程的沉淀。

  • 從DW(數(shù)倉)層到DM(數(shù)據(jù)集市)層,支持配置化的方式,自動(dòng)在底下生成對(duì)應(yīng)SQL邏輯,而不需要用戶自己去寫。

DataStar是DW層的事實(shí)和維度表組成的星型模型,可以最后沉淀下來。但我們認(rèn)為,從DW層到DM層或APP層,不需要寫SQL開發(fā)了,只需要通過選維度和配置指標(biāo)的方式,就可以自動(dòng)可視化配置出來。

這樣的話對(duì)使用人的要求就發(fā)生了改變,需要一個(gè)建模師或者業(yè)務(wù)人員來做這個(gè)事情,給他一個(gè)基礎(chǔ)數(shù)據(jù)層,他根據(jù)自己的需求來配置想要的指標(biāo)。整個(gè)過程,數(shù)據(jù)實(shí)施人員只需要關(guān)注ODS層到DW層就可以了。

3.3.5 ADXMgt/DataMgt中臺(tái)管理/數(shù)據(jù)管理

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

圖23 ADXMgt/DataMgt

中臺(tái)管理模塊主要關(guān)注租戶管理、項(xiàng)目管理、資源管理、權(quán)限管理、審批管理等。數(shù)據(jù)管理模塊主要關(guān)注數(shù)據(jù)管理層或數(shù)據(jù)治理層的話題。這兩個(gè)模塊從不同的維度對(duì)中間的三個(gè)主要組件提供支持和產(chǎn)生規(guī)則制約。

3.4 ADX架構(gòu)

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

圖24 ADX架構(gòu)

ADX數(shù)據(jù)中臺(tái)平臺(tái)幾個(gè)模塊之間的關(guān)聯(lián)如圖所示。最底下是五個(gè)開源工具,每個(gè)模塊都是對(duì)這五個(gè)開源工具的有機(jī)整合和封裝。從圖中可以看出各組件之間的關(guān)聯(lián)非常緊密,其中黑色虛線代表的是依賴關(guān)系,綠色線條代表的是數(shù)據(jù)流轉(zhuǎn)的關(guān)系。

四、典型案例分析

如上所述,我們基于開源工具進(jìn)行有機(jī)整合和封裝,打造了一個(gè)更加現(xiàn)代化、自助化、完備的一站式數(shù)據(jù)中臺(tái)平臺(tái)。那這個(gè)平臺(tái)是如何發(fā)揮其作用,為業(yè)務(wù)提供服務(wù)的呢?本節(jié)將列舉五個(gè)典型案例。

4.1 案例1 — 自助實(shí)時(shí)報(bào)表

【場(chǎng)景】

業(yè)務(wù)領(lǐng)域組數(shù)據(jù)團(tuán)隊(duì)需要緊急制作一批報(bào)表,不希望排期,希望可以自助完成,并且部分報(bào)表需要T+0時(shí)效性。

【挑戰(zhàn)】

  • 業(yè)務(wù)組數(shù)據(jù)團(tuán)隊(duì)工程能力有限,只會(huì)簡(jiǎn)單SQL,之前要么轉(zhuǎn)給BI排期,要么通過工具直連業(yè)務(wù)備庫制作報(bào)表,要么通過Excel制作。

  • 數(shù)據(jù)來源可能來自異構(gòu)數(shù)據(jù)庫,沒有很好的平臺(tái)支持自助導(dǎo)數(shù)。

  • 對(duì)數(shù)據(jù)時(shí)效性要求很高,需要流上做數(shù)據(jù)處理邏輯。

【方案】

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

圖25 自助實(shí)時(shí)報(bào)表工作流程

用ADX數(shù)據(jù)中臺(tái)解決自助實(shí)時(shí)報(bào)表的問題。

  • 數(shù)據(jù)工程師登錄平臺(tái),創(chuàng)建新的項(xiàng)目,申請(qǐng)數(shù)據(jù)資源。

  • 數(shù)據(jù)工程師通過元數(shù)據(jù)查找選出表,選擇DataWorks方式使用,填寫其他信息,申請(qǐng)這些需要用到的表。比如我需要用到100張表,其中70張是通過T+1的方式使用,30張是通過實(shí)時(shí)方式使用。

  • 默認(rèn)中臺(tái)會(huì)做標(biāo)準(zhǔn)化脫敏加密策略,收到這些申請(qǐng)之后,中臺(tái)管理員會(huì)按策略依次進(jìn)行審批。

  • 審批通過后,中臺(tái)會(huì)自動(dòng)準(zhǔn)備和輸出所申請(qǐng)的數(shù)據(jù)資源,數(shù)據(jù)工程師可以運(yùn)用拿到的數(shù)據(jù)資源進(jìn)行自助查詢、開發(fā)、配置、SQL編排、批量或流式處理、配置DV等。

  • 最后將自助報(bào)表或儀表板提交給用戶使用。

【總結(jié)】

  • 各個(gè)角色通過一站式數(shù)據(jù)中臺(tái)交互,統(tǒng)一流程,所有動(dòng)作都記錄在案,可查詢。

  • 平臺(tái)全自助能力,大大提高了業(yè)務(wù)數(shù)字化驅(qū)動(dòng)進(jìn)程,無需排期等待,經(jīng)過短暫培訓(xùn),人均 3-5日可以自助完成一張實(shí)時(shí)報(bào)表,實(shí)時(shí)報(bào)表不再求人。

  • 平臺(tái)支持人員也無需過多參與,不再成為進(jìn)度瓶頸。

【能力】

這個(gè)場(chǎng)景需要用到很多數(shù)據(jù)能力,包括:即席查詢能力、批量處理能力、實(shí)時(shí)處理能力、報(bào)表看板能力、數(shù)據(jù)權(quán)限能力、數(shù)據(jù)安全能力、數(shù)據(jù)管理能力、租戶管理能力、項(xiàng)目管理能力、作業(yè)管理能力、資源管理能力。

4.2 案例2 — 協(xié)作模型指標(biāo)

【場(chǎng)景】

業(yè)務(wù)線需要打造自己的基礎(chǔ)數(shù)據(jù)集市,以共享給其他業(yè)務(wù)或者前線系統(tǒng)使用。

【挑戰(zhàn)】

  • 如何有效建設(shè)數(shù)據(jù)模型和管理數(shù)據(jù)模型。

  • 如何既支持自己領(lǐng)域內(nèi)數(shù)據(jù)模型建設(shè),同時(shí)也支持?jǐn)?shù)據(jù)模型的共享。

  • 數(shù)據(jù)的共享發(fā)布如何從流程上固化、并實(shí)現(xiàn)技術(shù)安全統(tǒng)一管控。

  • 如何運(yùn)營數(shù)據(jù)以確保有效數(shù)據(jù)資產(chǎn)沉淀和管理。

【方案】

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

圖26 協(xié)作模型指標(biāo)工作流程

用ADX數(shù)據(jù)中臺(tái)解決協(xié)作模型指標(biāo)的問題。

  • 數(shù)據(jù)建模師登錄平臺(tái),創(chuàng)建新項(xiàng)目,申請(qǐng)資源。然后查找選出表,設(shè)計(jì)一個(gè)或若干個(gè)維度表的DW模型,推送到DataWorks項(xiàng)目。

  • 數(shù)據(jù)工程師選擇需要的Source表,基于DataStar項(xiàng)目完成從ODS到DW之前的ETL 開發(fā),然后提交作業(yè),發(fā)布到DataHub跑起來。

  • 數(shù)據(jù)建模師持續(xù)可視化配置維護(hù)和管理DW/APP層指標(biāo)集,包括維度的聚合、計(jì)算等。

【總結(jié)】

  • 這是一個(gè)典型的數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)資產(chǎn)運(yùn)營的案例,通過統(tǒng)一的協(xié)作化的模型指標(biāo)管理,確保了模型可維護(hù)、指標(biāo)可配置、質(zhì)量可追溯。

  • DataStar也支持一致性維度共享、數(shù)據(jù)詞典標(biāo)準(zhǔn)化、業(yè)務(wù)線梳理等,可以進(jìn)一步柔性支持公司統(tǒng)一數(shù)據(jù)基礎(chǔ)層的建設(shè)和沉淀。

【能力】
本案例需要的能力包括:數(shù)據(jù)服務(wù)能力、即席查詢能力、批量處理能力、數(shù)據(jù)權(quán)限能力、數(shù)據(jù)安全能力、數(shù)據(jù)管理能力、數(shù)據(jù)資產(chǎn)能力、租戶管理能力、項(xiàng)目管理能力、作業(yè)管理能力、資源管理能力。

4.3 案例3 — 敏捷分析挖掘

【場(chǎng)景】

業(yè)務(wù)領(lǐng)域組數(shù)據(jù)分析團(tuán)隊(duì)需要自助的進(jìn)行快速數(shù)據(jù)分析挖掘。

【挑戰(zhàn)】

  • 分析團(tuán)隊(duì)使用工具各異,如SAS、R、Python、SQL等。

  • 分析團(tuán)隊(duì)往往需要原始數(shù)據(jù)進(jìn)行分析(非脫敏),并且需要全歷史數(shù)據(jù)。

  • 分析團(tuán)隊(duì)希望可以快速拿到所需數(shù)據(jù)(往往并不知道需要什么數(shù)據(jù)),并敏捷高效專注于數(shù)據(jù)分析本身。

【方案】

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

圖27 敏捷分析挖掘工作流程

用ADX數(shù)據(jù)中臺(tái)解決敏捷分析挖掘的問題。

  • 數(shù)據(jù)分析師登錄平臺(tái),創(chuàng)建新項(xiàng)目,申請(qǐng)資源。根據(jù)需求查找選出表,選擇習(xí)慣的工具使用方法,填寫其他信息,申請(qǐng)使用。

  • 各方按照策略依次審批。

  • 審批通過后,數(shù)據(jù)分析師獲得資源,利用工具進(jìn)行自助分析。

【總結(jié)】

  • Moonbox本身是數(shù)據(jù)虛擬化解決方案,很適合進(jìn)行各種異構(gòu)數(shù)據(jù)源的即席數(shù)據(jù)讀取和計(jì)算,可以節(jié)省數(shù)據(jù)分析師很多數(shù)據(jù)工程方面的工作。

  • Datahub/DataLake提供了實(shí)時(shí)同步的全增量數(shù)據(jù)湖,還可以進(jìn)行配置化脫敏加密等安全策略,為數(shù)據(jù)分析場(chǎng)景提供了安全可靠全面的數(shù)據(jù)支持。

  • Moonbox還專門提供了 mbpy(Moonbox Python)庫,以支持Python用戶更容易的在安全管控下進(jìn)行快速無縫地?cái)?shù)據(jù)查看、即席計(jì)算和常用算法運(yùn)算工作。

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

圖28 敏捷分析挖掘示例

舉個(gè)例子,一個(gè)用戶打開Jupyter,import一個(gè)mbpy的庫包,并以用戶身份登錄Moonbox,就可以查看管理員授權(quán)給他的表。他可以運(yùn)用拿到的數(shù)據(jù)和表進(jìn)行分析、計(jì)算等,而不需要關(guān)注這些數(shù)據(jù)來自哪里,這對(duì)用戶來說是一個(gè)無縫的體驗(yàn)。

如上圖,有兩張表,一張表是5000多萬條數(shù)據(jù),存儲(chǔ)在Kudu里;另一張表是600萬多條數(shù)據(jù),存儲(chǔ)在Oracle里。數(shù)據(jù)存儲(chǔ)在異構(gòu)的系統(tǒng)中,且kudu本身不支持SQL。我們通過Moonbox制定邏輯,認(rèn)為數(shù)據(jù)都在一個(gè)虛擬數(shù)據(jù)庫中, 只用了1分40秒就計(jì)算出結(jié)果。

【能力】

本案例需要的能力包括:分析鉆取能力、數(shù)據(jù)服務(wù)能力、算法模型能力、即席查詢能力、多維分析能力、數(shù)據(jù)權(quán)限能力、數(shù)據(jù)安全能力、數(shù)據(jù)管理能力、租戶管理能力、項(xiàng)目管理能力、資源管理能力。

4.4 案例4 — 情景多屏聯(lián)動(dòng)

【場(chǎng)景】

為了支持全方位的場(chǎng)景化和數(shù)字化驅(qū)動(dòng),有時(shí)會(huì)需要大中小智多屏聯(lián)動(dòng),大屏即為放映大屏,中屏即為電腦屏幕,小屏即為手機(jī)屏幕,智屏即為聊天客戶端屏幕。

【挑戰(zhàn)】

  • 多屏由于定位不同,展示大小不同,操作不同,可以要求不同程度的可視化和定制化,帶來一定開發(fā)量。

  • 多屏也需要在數(shù)據(jù)權(quán)限層面保持高度一致。

  • 其中智屏更需要NLP、聊天機(jī)器人和任務(wù)機(jī)器人等智能能力,還需要有動(dòng)態(tài)生成圖表能力。

【方案】

  • 通過Davinci的Display功能,可以很好支持配置化滿足大小屏定制化需求。

  • 通過Davinci統(tǒng)一數(shù)據(jù)權(quán)限體系,可以在多屏之間保持一致的數(shù)據(jù)權(quán)限條件。

  • 通過ConvoAI的Chatbot/NLP能力,可以支持智能微BI能力,即為智屏。

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

圖29 Davinci的Display編輯頁面

上圖展示的是Davinci的Display編輯頁面,可以通過挑選不同的組件、調(diào)整透明度、任意擺放位置、調(diào)前景背景、顏色縮放比例等,自由地定義想要的展示樣式。

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

圖30 Davinci配置大屏

上圖是Davinci配置大屏的例子,(圖片來源于Davinci開源社區(qū)網(wǎng)友的實(shí)踐,數(shù)據(jù)經(jīng)過處理),可以看到通過Davinci可以自己配置大屏,不需要開發(fā)。

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

圖31 Davinci配置小屏

上圖展示的是Davinci配置小屏的示例。圖片來源于宜信的尊享年會(huì)。現(xiàn)場(chǎng)工作人員通過手機(jī)查看實(shí)時(shí)數(shù)據(jù),了解現(xiàn)場(chǎng)情況。

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

圖32 智屏

上圖展示的是智屏的示例。我們公司內(nèi)部有一個(gè)基于ConvoAI的聊天機(jī)器人,可以通過一個(gè)聊天窗口,跟用戶互動(dòng),針對(duì)用戶需求返回結(jié)果,包括圖表等。

4.5 案例5 — 數(shù)據(jù)安全、管理

數(shù)據(jù)中臺(tái):宜信敏捷數(shù)據(jù)中臺(tái)建設(shè)實(shí)踐|分享實(shí)錄

圖33 數(shù)據(jù)安全管理工作流程

這個(gè)案例比較簡(jiǎn)單,一個(gè)完備的數(shù)據(jù)中臺(tái),不僅有應(yīng)用客戶場(chǎng)景,還有管理客戶場(chǎng)景,管理客戶典型的比如數(shù)據(jù)安全團(tuán)隊(duì)和數(shù)據(jù)委員會(huì)。

  • 數(shù)據(jù)安全團(tuán)隊(duì)需要管理安全策略、掃描敏感字段、審批數(shù)據(jù)資源申請(qǐng)等。宜信敏捷數(shù)據(jù)中臺(tái)提供自動(dòng)掃描功能,及時(shí)將掃描結(jié)果返回給安全團(tuán)隊(duì)人員確認(rèn)。安全團(tuán)隊(duì)也可以定義幾層不同的安全策略、查看審計(jì)日志、調(diào)查數(shù)據(jù)流轉(zhuǎn)鏈路等。

  • 數(shù)據(jù)委員會(huì)需要做數(shù)據(jù)調(diào)研、數(shù)據(jù)地圖查看、血緣分析、制定標(biāo)準(zhǔn)化和流程化的清洗規(guī)則等。他們同樣可以登錄數(shù)據(jù)中臺(tái),完成這些工作。

五、總結(jié)

本次分享主要介紹了宜信敏捷數(shù)據(jù)中臺(tái)的頂層設(shè)計(jì)和定位、內(nèi)部的模塊架構(gòu)和功能、以及典型應(yīng)用場(chǎng)景與案例。我們立足于宜信業(yè)務(wù)需求現(xiàn)狀與數(shù)據(jù)平臺(tái)發(fā)展背景,基于五大開源工具進(jìn)行有機(jī)組合和封裝,結(jié)合敏捷大數(shù)據(jù)的理念,打造適合宜信自己業(yè)務(wù)的一站式敏捷數(shù)據(jù)中臺(tái),并在業(yè)務(wù)及管理中得以應(yīng)用與落地,希望能為大家?guī)韱l(fā)和借鑒。

Q&A:

Q:企業(yè)能純粹依靠開源社區(qū)的開源工具來搭建數(shù)據(jù)中臺(tái)嗎?

A:數(shù)據(jù)中臺(tái)是要切合企業(yè)實(shí)際情況和目標(biāo)去建設(shè)的,有些好的開源工具本身已經(jīng)很成熟,不需要重復(fù)造輪子,同時(shí)也有一些企業(yè)根據(jù)自身環(huán)境和需求,需要定制化開發(fā)。所以一般數(shù)據(jù)中臺(tái)都會(huì)既有開源工具選型,也會(huì)有結(jié)合自身情況的企業(yè)內(nèi)通用組件的開發(fā)。

Q:數(shù)據(jù)中臺(tái)建設(shè)中,需要避免哪些彎路、哪些坑?

A:數(shù)據(jù)中臺(tái)比純技術(shù)平臺(tái)要求更多直接賦能業(yè)務(wù)的能力建設(shè),如數(shù)據(jù)資產(chǎn)沉淀、數(shù)據(jù)服務(wù)建設(shè)、數(shù)據(jù)加工流程工藝抽象、企業(yè)數(shù)據(jù)標(biāo)準(zhǔn)化安全化管理等,這些可能都無法依靠純技術(shù)驅(qū)動(dòng)自下而上地推動(dòng),而是需要公司層面和業(yè)務(wù)層面達(dá)成一致認(rèn)識(shí)和支持,并且由業(yè)務(wù)實(shí)際需求驅(qū)動(dòng)數(shù)據(jù)中臺(tái)迭代建設(shè)的。這樣的自上而下和自下而上相結(jié)合的迭代方式,可以有效避免不必要的短視和過度設(shè)計(jì)。

Q:數(shù)據(jù)中臺(tái)建設(shè)完畢,其成熟度和效果如何評(píng)估?

A:數(shù)據(jù)中臺(tái)的價(jià)值由驅(qū)動(dòng)的業(yè)務(wù)目標(biāo)來衡量。定性來說,就是是否真正做到了快、準(zhǔn)、省的效果;定量來說,可以通過平臺(tái)組件復(fù)用度、數(shù)據(jù)資產(chǎn)復(fù)用度、數(shù)據(jù)服務(wù)復(fù)用度等指標(biāo)來評(píng)估成熟度。

Q:平臺(tái)的元數(shù)據(jù)是怎樣管理的?

A:元數(shù)據(jù)是一個(gè)獨(dú)立的大話題,從元數(shù)據(jù)類目劃分,到如何采集維護(hù)各種元數(shù)據(jù),再到如何基于元數(shù)據(jù)信息打造各種元數(shù)據(jù)應(yīng)用等,是可以單獨(dú)拿出一個(gè)完整的分享來探討的。具體到宜信ADX的元數(shù)據(jù)管理,我們也是按照上述思路進(jìn)行,先是整理出全景元數(shù)據(jù)類目劃分,然后很重要的一點(diǎn)是“業(yè)務(wù)痛點(diǎn)驅(qū)動(dòng)元數(shù)據(jù)體系建設(shè)“,我們會(huì)根據(jù)目前公司對(duì)元數(shù)據(jù)最迫切的需求圈定優(yōu)先級(jí),然后在技術(shù)層面可以通過Moonbox進(jìn)行各種數(shù)據(jù)源的基礎(chǔ)技術(shù)元數(shù)據(jù)采集,基于Moonbox的SQL解析能力來生成執(zhí)行血緣關(guān)系等,最后根據(jù)業(yè)務(wù)的實(shí)際痛點(diǎn),比如上游源數(shù)據(jù)表結(jié)構(gòu)變更會(huì)如何影響下游數(shù)據(jù)應(yīng)用(血緣影響度分析),下游數(shù)據(jù)問題如何追溯上游數(shù)據(jù)流轉(zhuǎn)鏈路(數(shù)據(jù)質(zhì)量診斷分析)等,迭代的開發(fā)一個(gè)個(gè)元數(shù)據(jù)應(yīng)用模塊。

Q:數(shù)據(jù)建模師建模的方法論是什么?和數(shù)倉的維度建模有什么區(qū)別?

A:我們的建模方法論也是基于著名的《數(shù)據(jù)倉庫工具箱》來指導(dǎo)建設(shè)的,并且根據(jù)宜信實(shí)際情況,對(duì)Kimball的維度建模進(jìn)行了一定的簡(jiǎn)化、標(biāo)準(zhǔn)化、通用化設(shè)計(jì),同時(shí)也參考了阿里的OneData體系的經(jīng)驗(yàn),這塊我們并無太多獨(dú)創(chuàng)性。DataStar更重要的目標(biāo),還是如何易用、有效的吸引和幫到數(shù)據(jù)建模師,從流程上能夠讓模型建設(shè)統(tǒng)一化、線上化、管理化,同時(shí)力求減少ETL開發(fā)人員負(fù)擔(dān),將DW到DM/APP層的個(gè)性化指標(biāo)工作通過配置化下放給非數(shù)據(jù)開發(fā)人員自助完成。所以DataStar整體上還是以管理和提效為主要目標(biāo)的。

Q:Triangle任務(wù)調(diào)度系統(tǒng)是開源的么?

A:Triangle是另一個(gè)團(tuán)隊(duì)研發(fā)維護(hù)的,他們有開源計(jì)劃,具體何時(shí)開源我們還太確定。

Q:Davinci 何時(shí)發(fā)版?

A:這是個(gè)永恒的問題,感謝大家對(duì)Davinci的持續(xù)關(guān)注和認(rèn)可,我們有計(jì)劃將Davinci推到Apache孵化,所以希望大家可以一如既往地支持Davinci,讓Davinci成為最好的開源可視化工具選擇。

Q:數(shù)據(jù)服務(wù)是管控了所有的數(shù)據(jù)讀取寫入嗎?最好的情況是所有業(yè)務(wù)方都可通過數(shù)據(jù)服務(wù)訪問數(shù)據(jù),這樣的話數(shù)據(jù)管理、鏈路、地圖就比較容易做。問題是很多情況下知道連接信息的話,業(yè)務(wù)方是可以直連的,怎么避免業(yè)務(wù)方自己使用API直連?

A:是的,DataHub的目標(biāo)就是統(tǒng)一收口數(shù)據(jù)歸集、數(shù)據(jù)申請(qǐng)、數(shù)據(jù)發(fā)布、數(shù)據(jù)服務(wù),這樣像數(shù)據(jù)安全管理、鏈路管理、標(biāo)準(zhǔn)化管理等都更容易實(shí)現(xiàn)了。如何避免業(yè)務(wù)方繞過DataHub直連源庫,這個(gè)恐怕要在管理流程上管控了,對(duì)于DataHub本身,由于DataHub封裝了實(shí)時(shí)數(shù)據(jù)湖,使得DataHub擁有了直連業(yè)務(wù)備庫所有不具備的能力特性,加上持續(xù)提升DataHub使用體驗(yàn)和功能,相信業(yè)務(wù)方會(huì)更加愿意從DataHub對(duì)接數(shù)據(jù)的。

Q:DBus支持Postgres數(shù)據(jù)源嗎?

A:DBus目前支持MySQL、Oracle、DB2、日志、Mongo數(shù)據(jù)源,其中Mongo由于本身日志的特點(diǎn)使得DBus只能接出非完整增量日志(只有更新的列會(huì)輸出),這樣對(duì)強(qiáng)順序消費(fèi)就提出了很高要求,內(nèi)部來說沒有太多DBus接Mongo的場(chǎng)景。社區(qū)有提出DBus對(duì)接PostgreSQL和SQLServer的需求,理論上都是可以擴(kuò)展對(duì)接的,但目前團(tuán)隊(duì)都投入在數(shù)據(jù)中臺(tái)建設(shè)上,更多數(shù)據(jù)源類型的對(duì)接,如果有需要的話,可以直接聯(lián)系我們團(tuán)隊(duì)討論。

Q:Moonbox的底層是用Spark SQL實(shí)現(xiàn)的這種混合計(jì)算,需要消耗很多資源,是怎么優(yōu)化的呢?

A:Moonbox的混算引擎是基于Spark的,并對(duì)Spark做了一些優(yōu)化工作,其中最大的一塊優(yōu)化就是支持了更多計(jì)算下推(Pushdown),Spark本身也具備數(shù)據(jù)聯(lián)邦混算能力,但Spark只支持部分算子下推,如Projection和Predict,Moonbox對(duì)Spark做了旁路擴(kuò)展,支持更多如Aggregation、Join、Union等算子下推,并且在解析SQL時(shí)會(huì)根據(jù)數(shù)據(jù)源計(jì)算特點(diǎn)進(jìn)行有策略的下推執(zhí)行計(jì)劃,盡量讓數(shù)據(jù)源做更適合的計(jì)算工作,減少在Spark里混算的計(jì)算成本。

Moonbox還支持如果SQL本身沒有混算邏輯,且數(shù)據(jù)源適合整個(gè)SQL計(jì)算,Moonbox可以繞過Spark直接將全SQL做整體下推到數(shù)據(jù)源。另外,Moonbox支持Batch計(jì)算、分布式Interactive計(jì)算和Local Interactive計(jì)算模式,每種都做了不同的優(yōu)化和策略。

Q:離線計(jì)算和實(shí)時(shí)計(jì)算是怎么配合的,離線計(jì)算可以做分層存儲(chǔ),實(shí)時(shí)計(jì)算怎么實(shí)現(xiàn)分層存儲(chǔ)? ?

A:實(shí)時(shí)計(jì)算分層,有一種做法是通過Kafka來做,當(dāng)然如果對(duì)實(shí)時(shí)分層數(shù)據(jù)的時(shí)效性要求不太高(如分鐘級(jí))的話,也可以選擇一些實(shí)時(shí)NoSQL存儲(chǔ),如Kudu。“離線計(jì)算和實(shí)時(shí)計(jì)算怎么配合“,有了Moonbox,其實(shí)不管批量計(jì)算和流式計(jì)算的數(shù)據(jù)存儲(chǔ)在哪里,都可以通過Moonbox做無縫混算的,可以說Moonbox簡(jiǎn)化并抹平了很多數(shù)據(jù)流轉(zhuǎn)架構(gòu)的復(fù)雜性。

Q:中臺(tái)的定位是什么,會(huì)不會(huì)又是一個(gè)buzzword?在宜信內(nèi)部,數(shù)據(jù)中臺(tái)跟傳統(tǒng)后臺(tái)的關(guān)系是怎樣的?

A:宜信數(shù)據(jù)中臺(tái)的定位在演講開頭已經(jīng)談到了,簡(jiǎn)單來說就是對(duì)下層做統(tǒng)一化管理化透明化,對(duì)中層做通用化標(biāo)準(zhǔn)化流程化,對(duì)上層做資產(chǎn)化服務(wù)化自助化。Buzzword這個(gè)也是要一分為二的看,有些浪潮留下的更多是教訓(xùn),有些浪潮帶來的更多是進(jìn)步?!皵?shù)據(jù)中臺(tái)跟傳統(tǒng)后臺(tái)的關(guān)系“,這里傳統(tǒng)后臺(tái)我理解是指業(yè)務(wù)后臺(tái)吧,好的業(yè)務(wù)后臺(tái)可以更好配合和支持?jǐn)?shù)據(jù)中臺(tái),不好的業(yè)務(wù)后臺(tái)會(huì)把更多數(shù)據(jù)層面的挑戰(zhàn)留待數(shù)據(jù)中臺(tái)去面對(duì)和解決。

Q:數(shù)據(jù)異構(gòu)存儲(chǔ)在如此多的存儲(chǔ)組件中,如何保證個(gè)性化查詢的效率?

A:這個(gè)問題應(yīng)該是指Moonbox這種體系架構(gòu),如何保證即席查詢效率。純即席查詢(源數(shù)據(jù)直接計(jì)算出結(jié)果),查詢效率怎樣都不會(huì)拼過內(nèi)存型MPP查詢引擎的。對(duì)于我們來講,Moonbox主要用于統(tǒng)一批量計(jì)算入口、統(tǒng)一即席查詢?nèi)肟?、統(tǒng)一數(shù)據(jù)服務(wù)、統(tǒng)一元數(shù)據(jù)歸集、統(tǒng)一數(shù)據(jù)權(quán)限、統(tǒng)一血緣關(guān)系生成、統(tǒng)一數(shù)據(jù)工具箱等。如果追求毫秒級(jí)/秒級(jí)查詢效率,要么采用預(yù)計(jì)算引擎如Kylin、Druid等、要么ES、Clickhouse等,但這些都有個(gè)前提,就是基礎(chǔ)數(shù)據(jù)都已經(jīng)準(zhǔn)備好。因此我們的數(shù)據(jù)中臺(tái)鏈路,是支持ETL之后將DW/DM數(shù)據(jù)物理寫入ES、Clickhouse并統(tǒng)一DataHub發(fā)布的,這樣可以一定程度上保證“個(gè)性化“查詢效率。單純從Moonbox角度而言,在異構(gòu)存儲(chǔ)上進(jìn)行分鐘級(jí)/小時(shí)級(jí)的預(yù)計(jì)算并將結(jié)果寫入Clickhouse,可以支持分鐘級(jí)/小時(shí)級(jí)數(shù)據(jù)延遲,毫秒級(jí)/秒級(jí)查詢延遲。

Q:如果有新的數(shù)據(jù)進(jìn)入系統(tǒng),整個(gè)數(shù)據(jù)采集到進(jìn)入存儲(chǔ)的過程是由開發(fā)人員控制,還是專門的數(shù)據(jù)管理人員通過界面組合各個(gè)組件Pattern來控制?

A:如果新數(shù)據(jù)源來自業(yè)務(wù)數(shù)據(jù)庫備庫,DBus已經(jīng)對(duì)接了此備庫前提下,會(huì)有專門的數(shù)據(jù)中臺(tái)管理員在數(shù)據(jù)中臺(tái)管理界面上配置發(fā)布新的ODS,以供下游使用方在DataHub上申請(qǐng)并使用;如果新數(shù)據(jù)源來自業(yè)務(wù)自有NoSQL庫,業(yè)務(wù)人員可以自助地在DataHub上發(fā)起發(fā)布數(shù)據(jù)流程,然后下游使用方可以在元數(shù)據(jù)上看到并在DataHub上申請(qǐng)并使用。

所謂“數(shù)據(jù)采集到存儲(chǔ)“,也是分為實(shí)時(shí)采集、批量采集、邏輯采集等的,這些常用數(shù)據(jù)源類型、數(shù)據(jù)對(duì)接方式、用戶使用方式等都被DataHub封裝整合在內(nèi),不管是數(shù)據(jù)擁有方還是數(shù)據(jù)使用方面對(duì)的都是一站式的DataHub用戶界面,所有的數(shù)據(jù)鏈路Pattern、自動(dòng)化流程和最佳技術(shù)選型和實(shí)踐都被透明化封裝在DataHub里,這也是工具化到平臺(tái)化的價(jià)值所在。

來源:宜信技術(shù)學(xué)院

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI