您好,登錄后才能下訂單哦!
數(shù)據(jù)的一組固有屬性滿足數(shù)據(jù)消費(fèi)者要求的程度。
1)數(shù)據(jù)固有屬性
2)高質(zhì)量數(shù)據(jù)滿足要求(消費(fèi)者角度)
數(shù)據(jù)質(zhì)量管理,是指對(duì)數(shù)據(jù)從計(jì)劃、獲取、存儲(chǔ)、共享、維護(hù)、應(yīng)用、消亡生命周期的每個(gè)階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題,進(jìn)行識(shí)別、度量、監(jiān)控、預(yù)警等一系列管理活動(dòng),并通過改善和提高組織的管理水平使得數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高。
任何改善都是建立在評(píng)估的基礎(chǔ)上,知道問題在哪才能實(shí)施改進(jìn)。通常數(shù)據(jù)質(zhì)量評(píng)估和管理評(píng)估需通過以下幾個(gè)維度衡量。常見的以下維度:
1)完整性
完整性,是指數(shù)據(jù)信息是否完整,是否存在缺失情況。數(shù)據(jù)缺失的情況可能是整個(gè)數(shù)據(jù)記錄缺失,也可能是數(shù)據(jù)中某個(gè)字段信息的記錄缺失。記錄的完整性,一般使用統(tǒng)計(jì)的記錄數(shù)和唯一值個(gè)數(shù)。完整性的另一方面,記錄中某個(gè)字段的數(shù)據(jù)缺失,可使用統(tǒng)計(jì)信息中的NULL的個(gè)數(shù)進(jìn)行審核。一般空值的占比基本恒定,同樣可以使用統(tǒng)計(jì)的空值個(gè)數(shù)來計(jì)算空值占比,如果空值的占比明顯增大,很可能這個(gè)字段的記錄出現(xiàn)了問題,信息出現(xiàn)缺失。總而言之,完整性可用記錄數(shù)、均值、唯一值、空值占比等指標(biāo)來衡量。
2)規(guī)范性
規(guī)范性,是指記錄是否符合規(guī)范,是否按照規(guī)定的格式存儲(chǔ)(例如標(biāo)準(zhǔn)編碼規(guī)則)。數(shù)據(jù)規(guī)范性審核是數(shù)據(jù)質(zhì)量審核中比較重要也是比較復(fù)雜的一塊。規(guī)范性檢驗(yàn)主要是檢驗(yàn)數(shù)據(jù)和數(shù)據(jù)定義是否一致,因此可以通過合規(guī)記錄的比率來衡量。比如取值范圍是枚舉集合的數(shù)據(jù),其實(shí)際值超出范圍之外的數(shù)據(jù)占比,比如存在特定編碼規(guī)則的屬性值不符合其編碼規(guī)則的記錄占比。
3)一致性
一致性,是指數(shù)據(jù)是否符合邏輯,數(shù)據(jù)內(nèi)單項(xiàng)或多項(xiàng)數(shù)據(jù)間存在邏輯關(guān)系。一致性檢驗(yàn),存在邏輯關(guān)系的屬性之間的校驗(yàn),比如屬性A取某定值時(shí),屬性B的值應(yīng)該在某個(gè)特定的數(shù)據(jù)范圍內(nèi),都可以通過合規(guī)率來衡量。
4)準(zhǔn)確性
準(zhǔn)確性,用于度量哪些數(shù)據(jù)和信息是不正確的,或者數(shù)據(jù)是超期的。準(zhǔn)確性可能存在于個(gè)別記錄,也可能存在于整個(gè)數(shù)據(jù)集上。準(zhǔn)確性和規(guī)范性的差別在于規(guī)范性關(guān)注合規(guī),表示統(tǒng)一,而準(zhǔn)確性關(guān)注數(shù)據(jù)錯(cuò)誤。因此,同樣的數(shù)據(jù)表現(xiàn),比如數(shù)據(jù)實(shí)際值不在定義的范圍內(nèi),如果定義的范圍準(zhǔn)確,值完全沒有意義,那么這屬于數(shù)據(jù)錯(cuò)誤。
數(shù)據(jù)的準(zhǔn)確性可能存在于個(gè)別記錄,也可能存在于整個(gè)數(shù)據(jù)集。如果整個(gè)數(shù)據(jù)集的某個(gè)字段的數(shù)據(jù)存在錯(cuò)誤,這種錯(cuò)誤很容易發(fā)現(xiàn),利用平均數(shù)和中位數(shù)也可以發(fā)現(xiàn)這類問題。當(dāng)數(shù)據(jù)集中存在個(gè)別的異常值時(shí),可使用最大值和最小值的統(tǒng)計(jì)量去審核,或者使用箱線圖也可以讓異常一目了然。
還有幾個(gè)準(zhǔn)確性的審核問題,字符亂碼的問題或者字符被截?cái)嗟膯栴},可以使用分布來發(fā)現(xiàn)這類問題,一般的數(shù)據(jù)記錄基本符合正態(tài)分布或者類正態(tài)分布,那么那些占比異常小的數(shù)據(jù)項(xiàng)很可能存在問題。如果數(shù)據(jù)并沒有顯著異常,但仍然可能記錄的值是錯(cuò)誤的,只是這些值和正常值比較接近而已,這類準(zhǔn)確性檢驗(yàn)最困難,一般只能與其他來源或者統(tǒng)計(jì)結(jié)果進(jìn)行對(duì)比來發(fā)現(xiàn)問題。
5)時(shí)效性
數(shù)據(jù)從產(chǎn)生到可以查看的時(shí)間間隔,也叫數(shù)據(jù)的延時(shí)時(shí)長。某些實(shí)時(shí)分析和決策需要用到小時(shí)或者分鐘級(jí)的數(shù)據(jù),這些需求對(duì)數(shù)據(jù)的時(shí)效性要求極高,所以及時(shí)性也是數(shù)據(jù)質(zhì)量的組成要素之一。例如定義某張表在每月最晚達(dá)到的日期是幾號(hào)。
6)唯一性
唯一性,用于度量哪些數(shù)據(jù)是重復(fù)數(shù)據(jù)或者數(shù)據(jù)的哪些屬性是重復(fù)的。即對(duì)存在于系統(tǒng)內(nèi)或系統(tǒng)間的特定字段、記錄或數(shù)據(jù)集意外重復(fù)的測量標(biāo)準(zhǔn)。
7)合理性
合理性,是從業(yè)務(wù)邏輯角度判斷數(shù)據(jù)是否正確。評(píng)估方面可參照規(guī)范性、一致性做法。
8)冗余性
冗余性,是指多層次數(shù)據(jù)中是否存在不必要的數(shù)據(jù)冗余。
9)獲取性
獲取性,是指數(shù)據(jù)是否易于獲取、易于理解和易于使用。
影響數(shù)據(jù)質(zhì)量的因素主要來源于四方面:信息因素、技術(shù)因素、流程因素和管理因素。
1)信息因素
產(chǎn)生這部分?jǐn)?shù)據(jù)質(zhì)量問題的原因主要有:元數(shù)據(jù)描述及理解錯(cuò)誤、數(shù)據(jù)度量的各種性質(zhì)(如:數(shù)據(jù)源規(guī)格不統(tǒng)一)得不到保證和變化頻度不恰當(dāng)?shù)取?/p>
2)技術(shù)因素
主要是指由于具體數(shù)據(jù)處理的各技術(shù)環(huán)節(jié)的異常造成的數(shù)據(jù)質(zhì)量問題。數(shù)據(jù)質(zhì)量問題的產(chǎn)生環(huán)節(jié)主要包括數(shù)據(jù)創(chuàng)建、數(shù)據(jù)獲取、數(shù)據(jù)傳輸、數(shù)據(jù)裝載、數(shù)據(jù)使用、數(shù)據(jù)維護(hù)等方面的內(nèi)容。
3)流程因素
是指由于系統(tǒng)作業(yè)流程和人工操作流程設(shè)置不當(dāng)造成的數(shù)據(jù)質(zhì)量問題,主要來源于系統(tǒng)數(shù)據(jù)的創(chuàng)建流程、傳遞流程、裝載流程、使用流程、維護(hù)流程和稽核流程等各環(huán)節(jié)。
4)管理因素
是指由于人員素質(zhì)及管理機(jī)制方面的原因造成的數(shù)據(jù)質(zhì)量問題。如人員培訓(xùn)、人員管理、培訓(xùn)或者獎(jiǎng)懲措施不當(dāng)導(dǎo)致的管理缺失或者管理缺陷。
可以遵從下面的十步法原則(此部分摘自御數(shù)坊公開材料)。
圖1
找出有哪些業(yè)務(wù)受到數(shù)據(jù)質(zhì)量問題的影響,或者由于數(shù)據(jù)質(zhì)量的改進(jìn)將會(huì)為企業(yè)帶來更好的業(yè)務(wù)效益的需求,評(píng)估這些業(yè)務(wù)需求并按照重要等級(jí)排序,作為本次數(shù)據(jù)質(zhì)量提升的目標(biāo)與范圍。只有明確了業(yè)務(wù)需求與方法,才能確保要解決的數(shù)據(jù)質(zhì)量問題是與業(yè)務(wù)需求相關(guān)的,從而真正的解決了業(yè)務(wù)問題。
細(xì)化已定義的業(yè)務(wù)需求,識(shí)別出業(yè)務(wù)需求與數(shù)據(jù)、數(shù)據(jù)規(guī)范、流程、組織和技術(shù)(如系統(tǒng)、軟件等)之間的關(guān)聯(lián)信息,定義信息生命周期,確定數(shù)據(jù)來源及范圍。通過分析信息環(huán)境,不僅可以為后續(xù)的原因分析提供幫助,也可以使我們對(duì)數(shù)據(jù)問題及現(xiàn)狀有一個(gè)更全面、直觀的理解與認(rèn)識(shí)。
從相關(guān)數(shù)據(jù)源提取數(shù)據(jù),圍繞已定義的業(yè)務(wù)需求,設(shè)計(jì)數(shù)據(jù)評(píng)估維度并利用相關(guān)工具完成評(píng)估,將數(shù)據(jù)質(zhì)量評(píng)估結(jié)果以圖表或報(bào)告形式準(zhǔn)確的表達(dá)出來,使相關(guān)領(lǐng)導(dǎo)或業(yè)務(wù)人員都能夠清晰的、直觀的了解實(shí)際的數(shù)據(jù)質(zhì)量情況,確保數(shù)據(jù)問題是與業(yè)務(wù)需求相關(guān)的,并能夠得到相關(guān)領(lǐng)導(dǎo)或業(yè)務(wù)人員的重視與支持。
了解低質(zhì)量數(shù)據(jù)是如何影響業(yè)務(wù)的,為什么這些數(shù)據(jù)很重要,如果改善這些問題會(huì)帶來哪些業(yè)務(wù)價(jià)值。評(píng)估方式的復(fù)雜度越高所花費(fèi)的時(shí)間越長,不過與評(píng)估效果卻并不一定成正比,所以在評(píng)估業(yè)務(wù)影響時(shí)也要注意方法的選擇。另外,要將業(yè)務(wù)影響評(píng)估結(jié)果及時(shí)歸檔,這樣,隨著時(shí)間的推移即便問題被淡化,也能夠有跡可查。
在糾正數(shù)據(jù)問題之前要先確定其根本原因,產(chǎn)生問題的根源有很多。不過,有些問題的發(fā)生僅是表象,并不一定是導(dǎo)致錯(cuò)誤數(shù)據(jù)的根本原因,所以在分析的過程中,要不斷的去追蹤數(shù)據(jù)進(jìn)行問題定位,確定問題最早出現(xiàn)的根本原因;或者多問自己幾遍“WHY”以弄清楚問題的根本原因,進(jìn)而使問題得到有效的解決,達(dá)到治標(biāo)又治本的效果。
通過前面幾步詳細(xì)的問題分析及原因確定,在這一步則可以有針對(duì)性的制定出合理的數(shù)據(jù)質(zhì)量改進(jìn)方案,包括對(duì)已知數(shù)據(jù)問題的改進(jìn)建議及如何預(yù)防未來類似錯(cuò)誤數(shù)據(jù)的發(fā)生。
根據(jù)解決方案的設(shè)計(jì),預(yù)防未來錯(cuò)誤數(shù)據(jù)的發(fā)生。
根據(jù)解決方案的設(shè)計(jì),解決現(xiàn)有數(shù)據(jù)問題。這一步更多是”臟活累活”,但對(duì)于最終質(zhì)量目標(biāo)的達(dá)成至關(guān)重要。
實(shí)施持續(xù)的監(jiān)測,確定是否已經(jīng)達(dá)到預(yù)期效果。
對(duì)結(jié)果和項(xiàng)目進(jìn)展情況溝通,保證整體項(xiàng)目的持續(xù)推進(jìn)。
1)質(zhì)量評(píng)估
提供全方位數(shù)據(jù)質(zhì)量評(píng)估能力,如數(shù)據(jù)的重復(fù)性、關(guān)聯(lián)性、正確性、完全性、一致性、合規(guī)性等,對(duì)數(shù)據(jù)進(jìn)行體檢進(jìn)而識(shí)別和理解數(shù)據(jù)質(zhì)量問題。有評(píng)價(jià)體系作為參照,需要進(jìn)行數(shù)據(jù)的采集、分析和監(jiān)控,為數(shù)據(jù)質(zhì)量提供全面可靠的信息。在數(shù)據(jù)流轉(zhuǎn)環(huán)節(jié)的關(guān)鍵點(diǎn)上設(shè)置采集點(diǎn),根據(jù)系統(tǒng)對(duì)數(shù)據(jù)質(zhì)量的要求,配置相應(yīng)的采集規(guī)則,通過在采集點(diǎn)處進(jìn)行質(zhì)量數(shù)據(jù)采集并進(jìn)行統(tǒng)計(jì)分析,就可以得到采集點(diǎn)處的數(shù)據(jù)分析報(bào)告。
2)檢核執(zhí)行
提供配置化的度量規(guī)則和檢核方法生成能力,提供檢核腳本的定時(shí)調(diào)度執(zhí)行和第三方調(diào)度工具的調(diào)度執(zhí)行功能。
3)質(zhì)量監(jiān)控
系統(tǒng)提供報(bào)警機(jī)制,對(duì)檢核規(guī)則或方法進(jìn)行閥值設(shè)置,對(duì)超出閥值的規(guī)則進(jìn)行不同級(jí)別的告警和通知。
4)問題管理
對(duì)數(shù)據(jù)問題進(jìn)行流程處理支持,規(guī)范問題處理機(jī)制和步驟,強(qiáng)化問題認(rèn)證,提升數(shù)據(jù)質(zhì)量。通過質(zhì)量評(píng)價(jià)體系和質(zhì)量數(shù)據(jù)采集系統(tǒng),可以發(fā)現(xiàn)問題,之后還需要對(duì)發(fā)現(xiàn)的問題及時(shí)作出反應(yīng),追溯問題原因和形成機(jī)制,根據(jù)問題種類采取相應(yīng)的改進(jìn)措施,并持續(xù)跟蹤驗(yàn)證改進(jìn)之后的數(shù)據(jù)質(zhì)量提升效果,形成正反饋,達(dá)到數(shù)據(jù)質(zhì)量持續(xù)改良的效果。
在源頭建立數(shù)據(jù)標(biāo)準(zhǔn)或接入標(biāo)準(zhǔn),規(guī)范數(shù)據(jù)定義,在數(shù)據(jù)流轉(zhuǎn)過程中建立監(jiān)控?cái)?shù)據(jù)轉(zhuǎn)換質(zhì)量的流程和體系,盡量做到在哪發(fā)現(xiàn)問題就在哪解決問題,不把問題數(shù)據(jù)帶到后端。
5)質(zhì)量報(bào)告
系統(tǒng)提供了豐富的API可進(jìn)行定制化數(shù)據(jù)質(zhì)量包括開發(fā),另外系統(tǒng)內(nèi)置了常用質(zhì)量報(bào)告。
6)質(zhì)量分析
提供多種問題分析能力,包括血統(tǒng)分析,影響分析,全鏈分析,定位問題產(chǎn)生的根源。
作者:韓鋒
首發(fā)于作者個(gè)人公號(hào)《韓鋒頻道》。
來源:宜信技術(shù)學(xué)院
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。