溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

螞蟻金服數(shù)據(jù)質(zhì)量治理架構(gòu)與實(shí)踐

發(fā)布時(shí)間:2020-08-08 23:02:29 來源:ITPUB博客 閱讀:238 作者:支付寶技術(shù)團(tuán)隊(duì) 欄目:互聯(lián)網(wǎng)科技

摘要 :以“數(shù)字金融新原力(The New Force of Digital Finance)”為主題,螞蟻金服ATEC城市峰會(huì)于2019年1月4日上海如期舉辦。金融智能專場(chǎng)分論壇上,螞蟻金服數(shù)據(jù)平臺(tái)部高級(jí)數(shù)據(jù)技術(shù)專家李俊華做了主題為《螞蟻金服數(shù)據(jù)治理之?dāng)?shù)據(jù)質(zhì)量治理實(shí)踐》的精彩分享。

演講中,李俊華介紹了螞蟻金服數(shù)據(jù)架構(gòu)體系的免疫系統(tǒng)——數(shù)據(jù)質(zhì)量治理體系,此外還著重介紹了數(shù)據(jù)質(zhì)量實(shí)施的相關(guān)內(nèi)容,以及螞蟻的數(shù)據(jù)質(zhì)量治理實(shí)踐與所面對(duì)的實(shí)際挑戰(zhàn)。
螞蟻金服數(shù)據(jù)質(zhì)量治理架構(gòu)與實(shí)踐
李俊華 螞蟻金服數(shù)據(jù)平臺(tái)部高級(jí)數(shù)據(jù)技術(shù)專家

本文將主要圍繞以下三部分進(jìn)行分享:

  1. 數(shù)據(jù)治理概況

  2. 數(shù)據(jù)質(zhì)量治理挑戰(zhàn)

  3. 數(shù)據(jù)質(zhì)量治理實(shí)踐

一、數(shù)據(jù)治理概況

近年來,螞蟻金服不斷在數(shù)據(jù)架構(gòu)上進(jìn)行升級(jí)改造,其目的在于解決螞蟻所面臨的數(shù)據(jù)物理孤島問題。如今,螞蟻以及整個(gè)阿里巴巴集團(tuán)的底座都統(tǒng)一到了同一個(gè)平臺(tái)上,這樣當(dāng)實(shí)現(xiàn)第五代數(shù)據(jù)架構(gòu)體系升級(jí)時(shí),就降低了一站式研發(fā)的整體門檻,并使得螞蟻金服的所有工程師都可以在平臺(tái)上輕松玩轉(zhuǎn)數(shù)據(jù)。如今,在螞蟻的數(shù)據(jù)架構(gòu)中已經(jīng)能夠很好地解決數(shù)據(jù)孤島問題,而如今在數(shù)據(jù)治理體系中所需要關(guān)注的就是邏輯的孤島。
螞蟻金服數(shù)據(jù)質(zhì)量治理架構(gòu)與實(shí)踐
在對(duì)數(shù)據(jù)治理展開論述之前,先談一談數(shù)據(jù)價(jià)值。之前的情況是,當(dāng)數(shù)據(jù)首先需要經(jīng)過專門團(tuán)隊(duì)負(fù)責(zé)處理,刪除沒有價(jià)值的數(shù)據(jù),負(fù)責(zé)上線或者下線數(shù)據(jù)。但是,對(duì)于數(shù)據(jù)價(jià)值的判斷也是一個(gè)非常令人頭疼的問題,大部分的數(shù)據(jù)只會(huì)上線不會(huì)下線,這樣就造成了大量沒有價(jià)值的數(shù)據(jù)的堆積。而如今,螞蟻不僅關(guān)心下線沒有價(jià)值的數(shù)據(jù),同時(shí)也側(cè)重?cái)?shù)據(jù)資產(chǎn)的價(jià)值最大化。在數(shù)據(jù)價(jià)值方面,螞蟻有一套完整的數(shù)據(jù)資產(chǎn)等級(jí)以及數(shù)據(jù)資產(chǎn)的易用模型,這樣就能夠驅(qū)動(dòng)自身充分利用數(shù)據(jù)資產(chǎn),來創(chuàng)造更多的價(jià)值。但是如果這些數(shù)據(jù)被使用了,但是質(zhì)量卻很低,這樣就會(huì)使得數(shù)據(jù)資產(chǎn)的價(jià)值大打折扣。

數(shù)據(jù)質(zhì)量產(chǎn)生分析

接下來將重點(diǎn)介紹螞蟻金服在數(shù)據(jù)治理質(zhì)量領(lǐng)域的實(shí)踐思路和方案,并與大家分享兩個(gè)案例。如下圖所示的是抽象數(shù)據(jù)抽取的全流程圖。當(dāng)某個(gè)業(yè)務(wù)同學(xué)錄入數(shù)據(jù)的時(shí)候出現(xiàn)一點(diǎn)錯(cuò)誤,就會(huì)造成數(shù)據(jù)的質(zhì)量問題,比如把客戶的行業(yè)信息填錯(cuò)或者打錯(cuò)了一個(gè)字都會(huì)造成數(shù)據(jù)質(zhì)量問題,而這樣的問題很容易出現(xiàn)。在基于傳統(tǒng)數(shù)據(jù)庫(kù)資產(chǎn)開發(fā)數(shù)據(jù)應(yīng)用的時(shí)候,基本都是從數(shù)據(jù)源端產(chǎn)數(shù)據(jù)過來,經(jīng)過加工、分析再將數(shù)據(jù)發(fā)送出去,也就是“從業(yè)務(wù)中來,最后回到業(yè)務(wù)中去”?,F(xiàn)在的方案與之前存在很大區(qū)別,以前做數(shù)據(jù)處理時(shí),從數(shù)據(jù)生產(chǎn)的采集數(shù)據(jù)來,加工之后就給出去了,而如今螞蟻很多數(shù)據(jù)應(yīng)用將數(shù)據(jù)處理之后還會(huì)回到數(shù)據(jù)系統(tǒng)中。比如芝麻信用分的計(jì)算中存在很多大家看不到的場(chǎng)景,這些數(shù)據(jù)處理之后還會(huì)回到系統(tǒng)之中,而這個(gè)過程中每個(gè)環(huán)節(jié)都可能存在數(shù)據(jù)質(zhì)量問題。
螞蟻金服數(shù)據(jù)質(zhì)量治理架構(gòu)與實(shí)踐

二、數(shù)據(jù)質(zhì)量治理的挑戰(zhàn)

在下圖中的左側(cè)展示了螞蟻的業(yè)務(wù)形態(tài)。如今,螞蟻的業(yè)務(wù)場(chǎng)景已經(jīng)不再僅限于統(tǒng)計(jì)分析,而在螞蟻的芝麻分、花唄、借唄以及“310”放款的背后都是數(shù)據(jù)在進(jìn)行支撐并驅(qū)動(dòng)著其發(fā)展。今天,螞蟻的業(yè)務(wù)形態(tài)成為了“技術(shù)+數(shù)據(jù)+算法”三者的融合來追求價(jià)值最大化。與此同時(shí),數(shù)據(jù)質(zhì)量治理也存在著諸多挑戰(zhàn),它們來自于業(yè)務(wù)方面、數(shù)據(jù)方面、用戶方面。
螞蟻金服數(shù)據(jù)質(zhì)量治理架構(gòu)與實(shí)踐

三、數(shù)據(jù)質(zhì)量治理實(shí)踐

數(shù)據(jù)質(zhì)量治理思路

從事金融業(yè)務(wù)的同學(xué)往往深有感觸,互聯(lián)網(wǎng)金融時(shí)代業(yè)務(wù)的生命周期縮短了很多,并且變化也非常頻繁,相比于原本銀行的節(jié)奏顯得非???。此外,目前無論是螞蟻金服還是阿里巴巴都在談“數(shù)據(jù)業(yè)務(wù)化、業(yè)務(wù)數(shù)據(jù)化”,數(shù)據(jù)和業(yè)務(wù)一同共同發(fā)展和前進(jìn),并且已經(jīng)進(jìn)入了發(fā)展的深水區(qū)。之前的幾年,螞蟻在業(yè)務(wù)上偏向于“T+1”,而如今,原來的架構(gòu)體系不足以支撐螞蟻未來繼續(xù)發(fā)展以及高時(shí)效性的訴求。同時(shí),如今螞蟻的數(shù)據(jù)體量很大,而數(shù)據(jù)業(yè)務(wù)也驅(qū)動(dòng)螞蟻的整個(gè)人才體系的升級(jí)?,F(xiàn)在,除了本身做數(shù)據(jù)算法研發(fā)的同學(xué)之外,其他的技術(shù)同學(xué)也都會(huì)在平臺(tái)上使用數(shù)據(jù),這些同學(xué)可能對(duì)于數(shù)據(jù)的認(rèn)知不同,那么在數(shù)據(jù)驅(qū)動(dòng)下真正保證數(shù)據(jù)質(zhì)量就顯得異常重要。

那么如何實(shí)現(xiàn)數(shù)據(jù)質(zhì)量治理呢?首先,需要有一套明確的組織,這是持續(xù)建設(shè)企業(yè)文化的土壤,而數(shù)據(jù)質(zhì)量治理文化的建設(shè)一定是一個(gè)確定的、有組織的并且需要長(zhǎng)期持續(xù)推進(jìn)的事情。在組織保障和質(zhì)量文化的基礎(chǔ)之上,螞蟻還側(cè)重了研發(fā)流和數(shù)據(jù)流。在金融領(lǐng)域,研發(fā)流的管控更嚴(yán)格,也更嚴(yán)謹(jǐn)。而對(duì)于如今的互聯(lián)網(wǎng)金融而言,也需要進(jìn)行強(qiáng)管控,這是因?yàn)闃I(yè)務(wù)形態(tài)決定了研發(fā)周期很短,現(xiàn)在螞蟻在研發(fā)流做了強(qiáng)管控,在一站式數(shù)據(jù)研發(fā)平臺(tái)上,使用了分級(jí)管控。需求提出之后就會(huì)被等級(jí)管理,并且進(jìn)行打標(biāo),進(jìn)而走入不同流程。此外,研發(fā)流上還側(cè)重分級(jí)管控,在同一套標(biāo)準(zhǔn)上定義級(jí)別,拉平不同的研發(fā)流。對(duì)于數(shù)據(jù)流而言,當(dāng)一個(gè)應(yīng)用發(fā)布到生產(chǎn)環(huán)境之后,大部分精力花費(fèi)在數(shù)據(jù)流中,每天需要從生產(chǎn)環(huán)境將數(shù)據(jù)采集到處理平臺(tái),然后運(yùn)行算法計(jì)算,之后將數(shù)據(jù)返回到生產(chǎn)環(huán)境中,走這樣的閉環(huán)。如今,螞蟻在數(shù)據(jù)流鏈路上做了很多事情,也建設(shè)了很多能力。對(duì)于數(shù)據(jù)流而言,如果源頭被污染了,如果不能控制其污染到下游,那么越往下修復(fù)成本就越大。
螞蟻金服數(shù)據(jù)質(zhì)量治理架構(gòu)與實(shí)踐
基于以上的數(shù)據(jù)質(zhì)量治理思路,螞蟻金服做了很多有意思的東西,在數(shù)據(jù)平臺(tái)運(yùn)行時(shí)會(huì)將整個(gè)體系監(jiān)控起來,如果出現(xiàn)數(shù)據(jù)質(zhì)量故障,就能夠及時(shí)進(jìn)行修復(fù)。此外,從研發(fā)到生產(chǎn)的各個(gè)環(huán)節(jié),螞蟻都做了大量的工作,這是因?yàn)榛谄脚_(tái)進(jìn)行數(shù)據(jù)研發(fā)的同學(xué)很多,需要盡量降低使用門檻。對(duì)于全數(shù)據(jù)流而言,主要建設(shè)了四大能力,包括感知能力、識(shí)別能力、智愈能力和運(yùn)營(yíng)能力。平臺(tái)需要能夠感知發(fā)布任務(wù)的故障問題以及數(shù)據(jù)質(zhì)量問題,此外,平臺(tái)需要能夠識(shí)別出潛在風(fēng)險(xiǎn),因?yàn)樾枰浅<皶r(shí)地了解被破壞的數(shù)據(jù)。當(dāng)風(fēng)險(xiǎn)被識(shí)別出來之后,就需要智愈能力,之所以使用“智”,是因?yàn)樵緮?shù)據(jù)處理任務(wù)往往是離線的,可能從凌晨開始到早上8點(diǎn)鐘左右屬于數(shù)據(jù)生產(chǎn)高峰,在這段時(shí)間里會(huì)有人員參與質(zhì)量保障任務(wù)。而智愈能力就希望通過AI算法來配合數(shù)據(jù)處理工作,使得感知能力疊加算法能力,能夠?qū)τ跀?shù)據(jù)感染進(jìn)行自愈。最后是運(yùn)營(yíng)能力,數(shù)據(jù)質(zhì)量不會(huì)被展現(xiàn)在前臺(tái),如果數(shù)據(jù)質(zhì)量足夠好,完全可以實(shí)現(xiàn)無感知,使用者不用再擔(dān)心數(shù)據(jù)能不能用,也不會(huì)出現(xiàn)敢不敢用的疑惑,因此數(shù)據(jù)質(zhì)量對(duì)于運(yùn)營(yíng)而言也非常重要。其實(shí),數(shù)據(jù)質(zhì)量問題既不僅屬于研發(fā)也不僅屬于業(yè)務(wù),而是需要全員參與,共同來解決,這就是數(shù)據(jù)治理的思路。

螞蟻數(shù)據(jù)質(zhì)量治理架構(gòu)

如下圖所示的是螞蟻金服的數(shù)據(jù)質(zhì)量治理架構(gòu)體系。在系統(tǒng)層,按照上述所談到的具體思路,研發(fā)階段主要集中在數(shù)據(jù)測(cè)試、發(fā)布管控以及變更管理等方面的建設(shè),這里著重提及變更問題,數(shù)據(jù)的變更不僅僅設(shè)計(jì)到系統(tǒng)層的變更管理,也會(huì)涉及到在線系統(tǒng)的相互打通。如今,在線數(shù)據(jù)源的變更,也會(huì)使得數(shù)據(jù)運(yùn)營(yíng)發(fā)生變更,更可能會(huì)導(dǎo)致數(shù)據(jù)運(yùn)營(yíng)的數(shù)據(jù)質(zhì)量問題。在線研發(fā)部分為數(shù)據(jù)運(yùn)營(yíng)系統(tǒng)提供了一些相關(guān)的接口,能夠通知使用者線上的哪些變更會(huì)影響到數(shù)據(jù)運(yùn)營(yíng)。對(duì)于發(fā)布管控能力而言,螞蟻投入了大量精力進(jìn)行研發(fā)。目前在螞蟻已經(jīng)沒有專職負(fù)責(zé)數(shù)據(jù)測(cè)試的同學(xué),基本上全部都是全棧工程師,所以對(duì)于研發(fā)而言可能管控不是非常強(qiáng),但卻實(shí)現(xiàn)了強(qiáng)大的發(fā)布管控能力,將與經(jīng)驗(yàn)、規(guī)范、性能以及質(zhì)量相關(guān)的檢測(cè)全部在這部分執(zhí)行。
螞蟻金服數(shù)據(jù)質(zhì)量治理架構(gòu)與實(shí)踐
在生產(chǎn)階段,則主要側(cè)重于質(zhì)量監(jiān)控、應(yīng)急演練以及質(zhì)量治理這三個(gè)系統(tǒng)能力。質(zhì)量監(jiān)控告警系統(tǒng)能力在大部分的數(shù)據(jù)系統(tǒng)架構(gòu)中應(yīng)該都有,其功能類似于汽車的剎車功能,因此肯定是存在的。而螞蟻卻做了一件很有意思的事情——數(shù)據(jù)攻防演練,工程師會(huì)人為創(chuàng)造故障,然后測(cè)試系統(tǒng)能否在短時(shí)間內(nèi)發(fā)現(xiàn)故障并進(jìn)行有效修復(fù),這部分也是目前螞蟻在重點(diǎn)進(jìn)行建設(shè)的能力。在質(zhì)量治理部分,會(huì)根據(jù)不同應(yīng)用的級(jí)別,發(fā)布到生產(chǎn)環(huán)境之后進(jìn)行定期巡檢,分析是否會(huì)影響數(shù)據(jù)質(zhì)量。總之,對(duì)于數(shù)據(jù)質(zhì)量架構(gòu)體系的系統(tǒng)層而言,不僅原數(shù)據(jù)非常重要,如今更是結(jié)合機(jī)器學(xué)習(xí)來自動(dòng)配置一些相關(guān)策略。

數(shù)據(jù)質(zhì)量治理方案

如下圖所示的是螞蟻金服在實(shí)踐中的事前、事中、事后的數(shù)據(jù)質(zhì)量質(zhì)量方案。整體而言,事前包括需求、研發(fā)、和預(yù)發(fā)三個(gè)階段,而如今螞蟻在事前可以做到的可管控、可仿真、可灰度。在事中,監(jiān)控問題是重點(diǎn)建設(shè)的,出現(xiàn)問題不可怕,但是需要實(shí)現(xiàn)自主發(fā)現(xiàn)問題。而為了使得防御能力更強(qiáng),螞蟻實(shí)現(xiàn)了主動(dòng)的攻擊演練,而正是通過攻防演練,幫助螞蟻發(fā)現(xiàn)了自身很多薄弱的地方。除此之外,還在事中提供了強(qiáng)大的應(yīng)急能力,某些事件將會(huì)觸發(fā)應(yīng)急預(yù)案,在這部分,保證數(shù)據(jù)質(zhì)量其實(shí)就是把不確定的數(shù)據(jù)風(fēng)險(xiǎn)變成確定的東西。在事后,數(shù)據(jù)質(zhì)量也非常重要,事后需要通過有效的指標(biāo)和管控手段來進(jìn)行審計(jì)和度量,以此發(fā)現(xiàn)整個(gè)鏈路上不完善的地方并持續(xù)完善。
螞蟻金服數(shù)據(jù)質(zhì)量治理架構(gòu)與實(shí)踐
數(shù)據(jù)質(zhì)量治理案例

最后為大家分享螞蟻金服在數(shù)據(jù)質(zhì)量治理方面的兩個(gè)案例:

案例1:在螞蟻數(shù)據(jù)治理架構(gòu)體系下的發(fā)布環(huán)節(jié),實(shí)現(xiàn)了一個(gè)發(fā)布強(qiáng)管控的流程。任何腳本在提交時(shí)都需要經(jīng)過檢測(cè),然后發(fā)布到線上,并再進(jìn)行一次檢測(cè)。
案例2:數(shù)據(jù)治理涉及到整個(gè)鏈路,而針對(duì)不同鏈路上的數(shù)據(jù)版本,數(shù)據(jù)采集主要是將數(shù)據(jù)從一端搬運(yùn)到另一端,不存在加工的過程,此時(shí)可以人為注入一些故障,分析數(shù)據(jù)質(zhì)量治理體系能否發(fā)現(xiàn)問題并作出修改,因此這就產(chǎn)生了“攻”與“防”雙方。數(shù)據(jù)加工處理又另外一套體系結(jié)構(gòu),其涉及邏輯的加工,更多地需要考慮注入怎樣的故障,需要面臨什么。如今,在螞蟻真正落地?cái)?shù)據(jù)質(zhì)量治理體系的時(shí)候,在攻防演練環(huán)節(jié)投入了大量精力。
點(diǎn)擊 閱讀更多 ,查看更多詳情

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI