您好,登錄后才能下訂單哦!
今天就跟大家聊聊有關(guān)Dataphin怎樣幫助企業(yè)萃取數(shù)據(jù)中心,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結(jié)了以下內(nèi)容,希望大家根據(jù)這篇文章可以有所收獲。
Dataphin作為阿里巴巴數(shù)據(jù)中臺OneData (OneModel、OneID、OneService)方法論的產(chǎn)品載體,幫助企業(yè)構(gòu)建三大數(shù)據(jù)中心:基于數(shù)據(jù)集成形成的垂直數(shù)據(jù)中心、基于數(shù)據(jù)開發(fā)沉淀的公共數(shù)據(jù)中心和基于標(biāo)簽工廠構(gòu)建的萃取數(shù)據(jù)中心。今天我們就一起來看看,Dataphin是如何基于OneID思想構(gòu)建數(shù)據(jù)萃取中心,連接上下游應(yīng)用為企業(yè)創(chuàng)造更多價值的吧~
為什么要建立萃取數(shù)據(jù)中心:提升數(shù)據(jù)價值密度
首先,我們來看看Dataphin為什么要幫助企業(yè)構(gòu)建自己的萃取數(shù)據(jù)中心?
大數(shù)據(jù)時代,任何微小的數(shù)據(jù)都可能產(chǎn)生不可思議的價值。作為智能數(shù)據(jù)構(gòu)建與管理平臺,Dataphin的規(guī)范建模、數(shù)據(jù)處理等核心功能幫助企業(yè)高效整合來自不同業(yè)務(wù)數(shù)據(jù)庫的海量數(shù)據(jù),沉淀數(shù)據(jù)資產(chǎn),構(gòu)建自己的數(shù)據(jù)中臺,應(yīng)對大數(shù)據(jù)時代Volume(大量)、Variety(多樣)、Velocity(高速)方面的挑戰(zhàn)。然而,相比于傳統(tǒng)的小數(shù)據(jù),大數(shù)據(jù)更大的價值在于從海量不相關(guān)的各類數(shù)據(jù)中,挖掘出對預(yù)測分析有參考意義的數(shù)據(jù),提升數(shù)據(jù)價值密度并應(yīng)用于指導(dǎo)生產(chǎn),從而幫助企業(yè)實現(xiàn)提效降本的目的。Dataphin的數(shù)據(jù)萃取功能正提供了這樣的能力。
從業(yè)務(wù)視角來看,日常生產(chǎn)和營銷活動中,不管是人群圈選、選址還是個性化投放,都離不開標(biāo)簽的指導(dǎo)。標(biāo)簽是對一個實體的立體刻畫(不局限于人,任何可被描述和分析的存在都可以是實體,如商品、公司等)。不同維度的標(biāo)簽從不同角度對實體進(jìn)行描述,例如以零售視角為切入點,我們可以從自然屬性(如性別、年齡)、社會屬性(如經(jīng)濟(jì)狀況、婚姻狀態(tài))、興趣偏好(如喜歡整潔的環(huán)境、希望有漂亮的牙齒)和行業(yè)消費(fèi)偏好(如美妝偏好、母嬰偏好)來對消費(fèi)者進(jìn)行描述。高質(zhì)量、全面的標(biāo)簽?zāi)軌蛴行У爻橄蟪鲆粋€實體的信息全貌,為精準(zhǔn)營銷奠定了基礎(chǔ)。
數(shù)據(jù)只有融通才能產(chǎn)生更大的價值,我們不僅希望可以分析和應(yīng)用大數(shù)據(jù),更希望得到通過跨業(yè)務(wù)單元連接起來的數(shù)據(jù)和精細(xì)化萃取的數(shù)據(jù)。這種情況下,Dataphin數(shù)據(jù)萃取模塊基于業(yè)務(wù)數(shù)據(jù)庫的原始數(shù)據(jù)和建模研發(fā)等沉淀的數(shù)據(jù)資產(chǎn),將全系統(tǒng)中主數(shù)據(jù)——即貫穿各個隔離業(yè)務(wù)的核心對象,進(jìn)行識別與關(guān)聯(lián)連接,打通業(yè)務(wù)數(shù)據(jù)孤島,進(jìn)一步提煉可直接應(yīng)用的高價值標(biāo)簽數(shù)據(jù),從而幫助企業(yè)構(gòu)建自己的萃取數(shù)據(jù)中心,并對接上游應(yīng)用(QuickAudience等)進(jìn)一步指導(dǎo)生產(chǎn)營銷活動。
如何高效建立萃取數(shù)據(jù)中心:可視化配置,自動化生產(chǎn)
Dataphin研發(fā)模塊下的數(shù)據(jù)萃取為我們提供了連接行為數(shù)據(jù)并實現(xiàn)標(biāo)簽萃取的功能,現(xiàn)階段優(yōu)先支持以消費(fèi)者為對象的數(shù)據(jù)體系,功能模塊主要包括3 大部分:ID中心、行為中心和標(biāo)簽中心(目前ID中心暫未上線)。此外,運(yùn)維模塊下還提供單獨(dú)的萃取運(yùn)維子模塊,支持從業(yè)務(wù)視角查看萃取相關(guān)的調(diào)度任務(wù)。下面,我們將從幾個功能模塊的視角給大家介紹Dataphin如何幫助企業(yè)構(gòu)建自己的萃取數(shù)據(jù)中心。
cdn.com/95221d8f99c5611687fcfb363c72554d0071f209.png">
1)ID中心:相關(guān)ID自動化識別與連接
Dataphin基于OneID的思想,以唯一標(biāo)識打通來自不同平臺、系統(tǒng)、渠道的數(shù)據(jù),支持通過可視化界面參數(shù)配置的方式,從所有數(shù)據(jù)中提煉并基于算法自動識別各類型ID 之間的映射關(guān)系(購物會員ID、視頻觀看者ID、購物設(shè)備mac、觀看設(shè)備IP 等),并將屬于同一實體的不同類型ID通過唯一的One ID進(jìn)行連接,使得基于ID生產(chǎn)的標(biāo)簽可以聚合到同一實體,從而對實體進(jìn)行更精準(zhǔn)、全面的刻畫。
2)行為中心:沉淀行為元素,構(gòu)建行為規(guī)則
Dataphin目前支持以人的相關(guān)ID 為中心,通過可視化界面表單配置的方式,從來源行為數(shù)據(jù)中提煉進(jìn)而聚攏不同業(yè)務(wù)域下的行為數(shù)據(jù)(如電商購物、視頻觀看)。
首先,我們需要從業(yè)務(wù)視角對行為數(shù)據(jù)進(jìn)行梳理,從中提煉出可復(fù)用的行為元素(行為域、業(yè)務(wù)線、動作、對象、對象屬性),并通過對行為元素進(jìn)行組合定義不同的行為(行為域-業(yè)務(wù)線-動作-對象)。行為域聚合業(yè)務(wù)含義一致的行為數(shù)據(jù),如電商域、文娛域;業(yè)務(wù)線基于行為域?qū)⑿袨閿?shù)據(jù)進(jìn)一步細(xì)分,各業(yè)務(wù)線之間相對獨(dú)立,如淘寶業(yè)務(wù)線、天貓業(yè)務(wù)線;動作指行為主體發(fā)出的操作,如購買、瀏覽;對象指行為主體操作的具體事物,如商品、電影;對象屬性是對象的描述性信息,如名稱、品牌、年份。通過抽取沉淀行為元素,我們可以將來源數(shù)據(jù)更好地進(jìn)行劃分組合以得到具有明確業(yè)務(wù)含義的行為,如電商域-淘寶-購買-商品、文娛域-優(yōu)酷-瀏覽-電影。通過沉淀行為元素,我們可以更好地規(guī)范來源數(shù)據(jù),并減少重復(fù)建設(shè)和人力投入。
給同一行為選擇不同的來源表并添加配置,即生成不同的行為規(guī)則(由行為+來源表唯一確定),后續(xù)標(biāo)簽生產(chǎn)將依賴已經(jīng)構(gòu)建的行為和行為規(guī)則。規(guī)則配置主要包括行為主體ID、對象、對象屬性和行為發(fā)生次數(shù),從來源表選擇相應(yīng)的字段,再通過行為規(guī)則的周期調(diào)度任務(wù),我們就能得到持續(xù)更新的行為數(shù)據(jù)作為標(biāo)簽生產(chǎn)的來源。
3)標(biāo)簽中心:高效標(biāo)簽生產(chǎn)
構(gòu)建完成行為和行為規(guī)則后,進(jìn)一步地,我們將基于算法模型,通過簡單的界面配置定義標(biāo)簽的生成規(guī)則。
標(biāo)簽的配置分為兩大步驟:第一步首先基于定義的行為圈選出某標(biāo)簽需要依賴的行為數(shù)據(jù),接著對預(yù)期得到的標(biāo)簽值和打標(biāo)方式進(jìn)行配置;第二步需要對已選的行為數(shù)據(jù)設(shè)置時間衰減模式,并基于業(yè)務(wù)含義給不同的行為分配不同的權(quán)重。例如,我們認(rèn)為“購買母嬰用品”和“觀看親子視頻”的用戶都可以被打上“母嬰人群”的標(biāo)簽,那么第一步,我們將這兩種行為相關(guān)的數(shù)據(jù)都勾選出來,設(shè)置預(yù)期標(biāo)簽值為“母嬰人群”;第二步,我們認(rèn)為近期的行為比之前發(fā)生的行為更有參考性,因此選擇線性衰減模式,給近期行為賦予更大的時間權(quán)重;同時,基于業(yè)務(wù)經(jīng)驗,我們認(rèn)為“購買母嬰用品”比“觀看親子視頻”更能精確定位到目標(biāo)用戶,所以給“購買母嬰用品”行為分配更大的權(quán)重。這樣,我們就完成了“母嬰人群”這樣一個購物偏好標(biāo)簽的生產(chǎn)。
不同于傳統(tǒng)標(biāo)簽生產(chǎn),Dataphin數(shù)據(jù)萃取的用戶只需要關(guān)心標(biāo)簽的具體業(yè)務(wù)含義和規(guī)則,而不用關(guān)心底層算法的實現(xiàn),通過簡單的界面操作即可完成標(biāo)簽的配置,并自動生成代碼和周期調(diào)度任務(wù),極大程度上降低了標(biāo)簽生產(chǎn)的難度和門檻。
4)萃取運(yùn)維
最后,我們在萃取模塊配置的行為規(guī)則和標(biāo)簽都會生成自動化調(diào)度的周期任務(wù)。在“運(yùn)維”界面的“萃取運(yùn)維”子模塊下,我們可以從業(yè)務(wù)視角更清晰明了地查看相應(yīng)任務(wù)和對應(yīng)生成的實例,并針對異常調(diào)度通過補(bǔ)數(shù)據(jù)等操作回復(fù)生產(chǎn)。如此一來,業(yè)務(wù)人員也可以配置并查看萃取任務(wù),大大降低了對技術(shù)人員的依賴。
Dataphin數(shù)據(jù)萃取功能上線后,批量生產(chǎn)十幾個同類型的標(biāo)簽的時間從兩周縮短到兩天左右,而且可以監(jiān)控標(biāo)簽生產(chǎn)任務(wù),不管是速度還是正確性上都得到了很大的提升;參與的人員也從原本的數(shù)據(jù)產(chǎn)品經(jīng)理、數(shù)據(jù)研發(fā)工程師、數(shù)據(jù)科學(xué)家為主導(dǎo)轉(zhuǎn)變?yōu)楦嗟臉I(yè)務(wù)角色可以參與甚至主導(dǎo)。
Dataphin萃取數(shù)據(jù)中心的建立,幫助企業(yè)更好的實現(xiàn)了目標(biāo)對象相關(guān)ID 的識別與連接、目標(biāo)對象所有行為的規(guī)范化結(jié)構(gòu)化聚集和目標(biāo)對象相關(guān)標(biāo)簽屬性的快速創(chuàng)建,從而快速構(gòu)建企業(yè)自己用戶數(shù)據(jù)資產(chǎn),以便對接數(shù)據(jù)應(yīng)用類產(chǎn)品,實現(xiàn)營銷投放等。
看完上述內(nèi)容,你們對Dataphin怎樣幫助企業(yè)萃取數(shù)據(jù)中心有進(jìn)一步的了解嗎?如果還想了解更多知識或者相關(guān)內(nèi)容,請關(guān)注億速云行業(yè)資訊頻道,感謝大家的支持。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。