溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

做數(shù)據(jù)分析解決哪兩類數(shù)據(jù)質(zhì)量問(wèn)題

發(fā)布時(shí)間:2021-12-07 11:30:58 來(lái)源:億速云 閱讀:150 作者:柒染 欄目:大數(shù)據(jù)

本篇文章給大家分享的是有關(guān)做數(shù)據(jù)分析解決哪兩類數(shù)據(jù)質(zhì)量問(wèn)題,小編覺(jué)得挺實(shí)用的,因此分享給大家學(xué)習(xí),希望大家閱讀完這篇文章后可以有所收獲,話不多說(shuō),跟著小編一起來(lái)看看吧。

為了能夠系統(tǒng)化地、高效地解決出現(xiàn)的任何問(wèn)題,我們必須學(xué)會(huì)將這些問(wèn)題分而治之。畢竟,知己知彼方是解決問(wèn)題的首重至要。由此,我們才會(huì)發(fā)現(xiàn)解決之道就在其中。而對(duì)于提高數(shù)據(jù)質(zhì)量同樣適用:每一個(gè)解決問(wèn)題的方法都有不同的階段與角度。

當(dāng)一個(gè)數(shù)據(jù)質(zhì)量改進(jìn)程序在啟動(dòng)時(shí),僅知道數(shù)據(jù)庫(kù)中有多少錯(cuò)誤計(jì)算或重復(fù)錄入是遠(yuǎn)遠(yuǎn)不夠的。不止于此,我們還需要知道不同類型的錯(cuò)誤在收集的資源中是如何分配的。

據(jù) Jim barker  一篇很有意思的博客所述,數(shù)據(jù)質(zhì)量被分解成兩種不同類型。而在本文中,我會(huì)帶領(lǐng)大家仔細(xì)區(qū)分這些“類型”有何不同,并且如何利用這些“類型”在開(kāi)發(fā)預(yù)算中確保我們的優(yōu)勢(shì)資源放在何處。

數(shù)據(jù)類型

被譽(yù)為“數(shù)據(jù)博士”的Jim barker,借用了一個(gè)簡(jiǎn)單的醫(yī)學(xué)概念來(lái)定義數(shù)據(jù)質(zhì)量問(wèn)題。  在他的博客中介紹了如何將這兩種“類型”組合在一起,并且成功激發(fā)了那些一直糾結(jié)于找到在數(shù)據(jù)庫(kù)中拉低數(shù)據(jù)質(zhì)量的幺蛾子的數(shù)據(jù)分析師們的興趣。

I型數(shù)據(jù)質(zhì)量問(wèn)題我們可以使用自動(dòng)化工具檢測(cè)到。II型數(shù)據(jù)質(zhì)量問(wèn)題就非常隱秘了。大家都知道它是存在的,但它看不見(jiàn)摸不著,更處理不了,因?yàn)樗枰旁谔厥馇榫巢拍鼙粰z測(cè)到。

它們之間的區(qū)別簡(jiǎn)而言之可歸納為如下幾點(diǎn):

  • 型數(shù)據(jù)質(zhì)量問(wèn)題首先需要“知其然”才能來(lái)檢測(cè)數(shù)據(jù)的完整性、一致性、***性和有效性。這些屬性靠數(shù)據(jù)質(zhì)量軟件甚至手動(dòng)很好地找到。你不需要有很多的背景知識(shí),或者數(shù)據(jù)分析經(jīng)驗(yàn)。只要按照4個(gè)屬性驗(yàn)證它的存在,就可以判定它錯(cuò)誤的。例如,如果我們?cè)谛詣e領(lǐng)域插入一個(gè)3,我們就可以判定它到底是不是一個(gè)有效值。

  • 型數(shù)據(jù)質(zhì)量問(wèn)題需要“知其所以然”來(lái)檢測(cè)時(shí)效性、一致性和準(zhǔn)確性屬性。需要研究能力、洞察力和經(jīng)驗(yàn),而不是簡(jiǎn)簡(jiǎn)單單就可以找得出來(lái)的。這些數(shù)據(jù)集經(jīng)常從表面上看起來(lái)沒(méi)有問(wèn)題。但幺蛾子往往存在于細(xì)節(jié)中,需要時(shí)間去發(fā)現(xiàn)。Jim舉的例子就是一份退休人員的雇傭記錄。如果我們不知道他們?cè)缫淹诵莸脑?,是看不出?lái)這個(gè)數(shù)據(jù)是錯(cuò)的。

所以,解決這些數(shù)據(jù)質(zhì)量問(wèn)題的關(guān)鍵就是需要一個(gè)復(fù)雜的、戰(zhàn)略化的方法,而非孤立的、片面的來(lái)看問(wèn)題。一旦數(shù)據(jù)質(zhì)量不好,我們就需要尋求自動(dòng)化與人工的方式才能解決這個(gè)問(wèn)題了,真可謂是“屋漏偏逢連夜雨”啊。

成本調(diào)整

所以,我們?nèi)绾谓鉀QI型和II型數(shù)據(jù)質(zhì)量問(wèn)題呢?處理它們所花費(fèi)的費(fèi)用是可比的,還是完全不同的?

要記住重要的一點(diǎn)是,I型數(shù)據(jù)的驗(yàn)證問(wèn)題可以在邏輯上定義,這意味著我們可以靠編寫(xiě)軟件來(lái)查找并顯示它。軟件自動(dòng)修復(fù)的速度快、成本低,甚至配合手動(dòng)審查就可以完成。考慮到I型數(shù)據(jù)質(zhì)量問(wèn)題實(shí)際上是作為表格內(nèi)字段型的驗(yàn)證,一旦解決了表格字段的問(wèn)題,I型數(shù)據(jù)質(zhì)量問(wèn)題實(shí)際上也就解決了。

根據(jù)我們以往的經(jīng)驗(yàn):I型數(shù)據(jù)基本涵蓋了80%的數(shù)據(jù)質(zhì)量問(wèn)題,但消耗了我們20%的經(jīng)費(fèi)成本。

第二類數(shù)據(jù)問(wèn)題往往需要多方的輸入,以便發(fā)現(xiàn)、標(biāo)記和根除。雖然我們客戶關(guān)系管理系統(tǒng)中的每個(gè)人都有購(gòu)買日期,但購(gòu)買日期可能不正確,或者與發(fā)票或發(fā)貨清單不符。只有專家才能通過(guò)仔細(xì)核查其內(nèi)容來(lái)解決問(wèn)題并手動(dòng)改進(jìn)客戶關(guān)系管理系統(tǒng)。

通常情況下,企業(yè)很難做到資源的合理分配,原因有二,特別是企業(yè)處于快速增長(zhǎng)階段;或者處于人才流失的時(shí)候。你別看這些II類問(wèn)題較少,可能僅占數(shù)據(jù)問(wèn)題剩余的20%,但它們很有可能需要消耗超過(guò)80%的成本預(yù)算。所以,如果當(dāng)企業(yè)處于人才大量流失,卻又對(duì)此無(wú)能為力的時(shí)候。你會(huì)發(fā)現(xiàn)第二類數(shù)據(jù)問(wèn)題更難處理,因?yàn)槿斯そ鉀Q的途徑已不復(fù)存在了。

提高精確程度

為了提高數(shù)據(jù)的準(zhǔn)確性,我們必須將I型和II型數(shù)據(jù)問(wèn)題作為單獨(dú)的,但同時(shí)存在的問(wèn)題進(jìn)行研究。I類型數(shù)據(jù)質(zhì)量的挑戰(zhàn)可以呈現(xiàn)快速獲勝,但第II類問(wèn)題提出了一個(gè)挑戰(zhàn),必須依靠人類的專業(yè)知識(shí)才可以解決。

隨著時(shí)間的推移,數(shù)據(jù)庫(kù)會(huì)超過(guò)使用期限。為保其時(shí)效性,這需要持續(xù)不斷的努力。數(shù)據(jù)可以在數(shù)據(jù)庫(kù)中進(jìn)行清洗,或在使用階段進(jìn)行清理,但由于如導(dǎo)入/導(dǎo)出、損壞、手動(dòng)編輯、人為導(dǎo)致錯(cuò)誤等多種原因,仍然要注意I型錯(cuò)誤的發(fā)生。第II類數(shù)據(jù)問(wèn)題在這階段自然而然地發(fā)生,因?yàn)榫退銛?shù)據(jù)經(jīng)過(guò)驗(yàn)證和審查之后看起來(lái)正確,但對(duì)于現(xiàn)在來(lái)說(shuō)仍有可能是不正確的,因?yàn)榇藭r(shí)已非彼時(shí),數(shù)據(jù)的使用環(huán)境改變了。

確保數(shù)據(jù)的完整

數(shù)據(jù)的完整會(huì)有助于我們觀察整個(gè)事物的全貌并推動(dòng)其對(duì)事物的決策。正如我們前面所說(shuō),發(fā)現(xiàn)I型數(shù)據(jù)質(zhì)量問(wèn)題是比較簡(jiǎn)單、廉價(jià)和快速的。但如果企業(yè)的工作業(yè)務(wù)還沒(méi)有采用某種數(shù)據(jù)質(zhì)量軟件來(lái)解決I型數(shù)據(jù)質(zhì)量問(wèn)題的話,那現(xiàn)在也應(yīng)該著手考慮了,因?yàn)檫@樣才可能避免將來(lái)出現(xiàn)的資源浪費(fèi)、損害品牌效應(yīng)和來(lái)自大眾的誤解。

而對(duì)于第II類數(shù)據(jù)問(wèn)題,關(guān)鍵是要理解它為什么會(huì)發(fā)生,并采取措施以防止它的發(fā)生。從日常工作中,處事的變通以及員工疏忽常導(dǎo)致數(shù)據(jù)的質(zhì)量不佳。隨著時(shí)間的推移,資源分配失當(dāng)也會(huì)增加II型數(shù)據(jù)問(wèn)題的增加。而改善它的費(fèi)用也會(huì)成倍增加,因?yàn)槟阈枰邆鋵<业难酃夥侥茉诿C5臄?shù)據(jù)中找到它的存在。

以上就是做數(shù)據(jù)分析解決哪兩類數(shù)據(jù)質(zhì)量問(wèn)題,小編相信有部分知識(shí)點(diǎn)可能是我們?nèi)粘9ぷ鲿?huì)見(jiàn)到或用到的。希望你能通過(guò)這篇文章學(xué)到更多知識(shí)。更多詳情敬請(qǐng)關(guān)注億速云行業(yè)資訊頻道。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI