您好,登錄后才能下訂單哦!
如何淺析大數(shù)據(jù)預(yù)處理,很多新手對(duì)此不是很清楚,為了幫助大家解決這個(gè)難題,下面小編將為大家詳細(xì)講解,有這方面需求的人可以來學(xué)習(xí)下,希望你能有所收獲。
數(shù)據(jù)分析一般分為兩條主線:
第一條主線是數(shù)據(jù)層面
第二條主線是業(yè)務(wù)層面
數(shù)據(jù)分析的一般步驟:
產(chǎn)生數(shù)據(jù)—>收集數(shù)據(jù)—>存儲(chǔ)數(shù)據(jù)—>提取數(shù)據(jù)—>數(shù)據(jù)預(yù)處理—>數(shù)據(jù)分析—>數(shù)據(jù)可視化—>數(shù)據(jù)報(bào)告的解釋說明
一、數(shù)據(jù)預(yù)處理的必要性
目前,數(shù)據(jù)挖掘的研究工作大都集中在算法的探討而忽視對(duì)數(shù)據(jù)處理的研究。事實(shí)上,數(shù)據(jù)預(yù)處理對(duì)數(shù)據(jù)挖掘十分重要,一些成熟的算法對(duì)其處理的數(shù)據(jù)集合都有一定的要求:比如數(shù)據(jù)的完整性好,冗余性小,屬性的相關(guān)性小等。
數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘的重要一環(huán),而且必不可少。要使挖掘算法挖掘出有效的知識(shí),必須為其提供干凈,準(zhǔn)確,簡(jiǎn)潔的數(shù)據(jù)。然而,實(shí)際應(yīng)用系統(tǒng)中收集的數(shù)據(jù)通常是“臟”數(shù)據(jù)。
二、數(shù)據(jù)存在的問題
不完整: # 缺少數(shù)據(jù)值 #缺少一些重要屬性 #僅包含聚集數(shù)據(jù)
有噪聲:#包含錯(cuò)誤或者孤立點(diǎn) #例如,工資=-100
數(shù)據(jù)不一致:#在編碼或者命名上存在差異 #例如,過去的等級(jí)“1,23″而現(xiàn)在的等級(jí)“A,B,C #重復(fù)記錄間的不一致性
三、數(shù)據(jù)存在問題的原因
不完整數(shù)據(jù)的成因
數(shù)據(jù)收集的時(shí)候就缺乏合適的值
數(shù)據(jù)收集時(shí)和數(shù)據(jù)分析時(shí)的不同考慮因素
人為/硬件/軟件問題
噪聲數(shù)據(jù)(不正確的值)的成因
數(shù)據(jù)收集工具的問題
數(shù)據(jù)輸入時(shí)的人為計(jì)算機(jī)錯(cuò)誤
數(shù)據(jù)傳輸中產(chǎn)生的錯(cuò)誤
數(shù)據(jù)不一致性的成因
不同的數(shù)據(jù)源
違反了函數(shù)依賴性
四、預(yù)處理重要性
沒有高質(zhì)量的數(shù)據(jù),就沒有高質(zhì)量的挖掘結(jié)果
高質(zhì)量的決策必須依賴高質(zhì)量的數(shù)據(jù)
例如,重復(fù)值或者空缺值將會(huì)產(chǎn)生不正確的或者令人誤導(dǎo)的統(tǒng)計(jì)
數(shù)據(jù)倉庫需要對(duì)高質(zhì)量的數(shù)據(jù)進(jìn)行一致地集成
PS:數(shù)據(jù)預(yù)處理是數(shù)據(jù)分析流程中工作量最大的
五、數(shù)據(jù)預(yù)處理的常規(guī)方法
1數(shù)據(jù)清洗
去掉噪聲和無關(guān)數(shù)據(jù)
2數(shù)據(jù)集成
將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)中
3數(shù)據(jù)變換
把原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式
4數(shù)據(jù)歸約
主要方法包括:數(shù)據(jù)立方體聚集,維歸約,數(shù)據(jù)壓縮,數(shù)值歸約,
離散化和概念分層等
淺析下實(shí)際工作中數(shù)據(jù)分析的預(yù)處理階段:
數(shù)據(jù)層面的分析:
數(shù)據(jù)預(yù)處理:【空值,缺失值,異常值等】—>處理方法主要是刪,填(一般填中位數(shù),均值等)
預(yù)處理的邏輯操作:一般邏輯順序如下
1.異常值:測(cè)量值減去均值大于2倍的標(biāo)準(zhǔn)差,我則認(rèn)為這是異常值?!?gt;箱型圖也能看出異常值。datahoop跑箱型圖也能看出異常值。
也可以不處理:不處理也要說明理由。但是主要看占比和實(shí)際業(yè)務(wù)情況。記住現(xiàn)實(shí)生活中重要的一點(diǎn):存在即合理。
2.數(shù)據(jù)標(biāo)準(zhǔn)化:把數(shù)據(jù)縮放。先構(gòu)造新變量后再做標(biāo)準(zhǔn)化,防止量綱變大影響數(shù)據(jù)模型算法。
3.量綱:量綱的大小變化會(huì)影響大多數(shù),自變量波動(dòng)很大時(shí)會(huì)影響大多數(shù)數(shù)據(jù)模型算法。所以我們要做數(shù)據(jù)標(biāo)準(zhǔn)化。數(shù)據(jù)標(biāo)準(zhǔn)化就是把所有數(shù)據(jù)歸于一個(gè)范圍區(qū)間內(nèi)?!?gt;Z值公式:自變量x=(原值減去均值)除以標(biāo)準(zhǔn)差。
4.共線性:目的是降維,共線性——相關(guān)系數(shù)矩陣。
相關(guān)系數(shù)小于0.3即為弱相關(guān)。相關(guān)系數(shù)0.7到0.9左右的話即認(rèn)為是強(qiáng)相關(guān)。
做算法之前,一定要去看相關(guān)性。
想要降相關(guān)性的方法—>一般有兩種方法:1.增大樣板容量的量2.構(gòu)造新變量(增量法和比值法)—>降維(因子分析和主成份分析)。
主成分分析與因子分析的區(qū)別:
主成分分析:主成分分析就是設(shè)法將原來眾多具有一定相關(guān)性,重新組合成一組新的互相無關(guān)的綜合指標(biāo)來代替原來的指標(biāo)。綜合指標(biāo)即為主成分。所得出的少數(shù)幾個(gè)主成分,要盡可能地保留原始變量的信息,且彼此不相關(guān)。
因子分析是研究如何以最少的信息丟失,將眾多原始變量分解成少數(shù)幾個(gè)因子變量,以及如何使因子變量具有較強(qiáng)的可解釋性的一種多元統(tǒng)計(jì)分析方法。
因子分析:因子分析不是對(duì)原始變量的重新組合,而是對(duì)原始變量進(jìn)行分解,分解為公共因子和特殊因子兩部分。具體說,就是要找出某個(gè)問題中科直接測(cè)量的具有一定相關(guān)性的諸指標(biāo) ,如何受少數(shù)幾個(gè)在專業(yè)中有意義、又不可直接測(cè)量到、且相對(duì)獨(dú)立的因子支配的規(guī)律,從而可用各指標(biāo)的測(cè)定來間接確定各因子狀態(tài)。
因子分析只能解釋部分變異,主成分分析能解釋所有變異 。
數(shù)據(jù)預(yù)處理的思路一定要完整,要給出數(shù)據(jù)預(yù)處理的處理理由。
舉例練習(xí):活用Excel2016版本以上,基本上都有數(shù)據(jù)分析的功能。
刪除空值
看完上述內(nèi)容是否對(duì)您有幫助呢?如果還想對(duì)相關(guān)知識(shí)有進(jìn)一步的了解或閱讀更多相關(guān)文章,請(qǐng)關(guān)注億速云行業(yè)資訊頻道,感謝您對(duì)億速云的支持。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。