您好,登錄后才能下訂單哦!
這篇文章主要介紹“如何用Python進(jìn)行數(shù)據(jù)清洗”的相關(guān)知識(shí),小編通過實(shí)際案例向大家展示操作過程,操作方法簡單快捷,實(shí)用性強(qiáng),希望這篇“如何用Python進(jìn)行數(shù)據(jù)清洗”文章能幫助大家解決問題。
數(shù)據(jù)清洗是數(shù)據(jù)分析的必備環(huán)節(jié),在進(jìn)行分析過程中,會(huì)有很多不符合分析要求的數(shù)據(jù),例如重復(fù)、錯(cuò)誤、缺失、異常類數(shù)據(jù)。
01 重復(fù)值處理
數(shù)據(jù)錄入過程、數(shù)據(jù)整合過程都可能會(huì)產(chǎn)生重復(fù)數(shù)據(jù),直接刪除是重復(fù)數(shù)據(jù)處理的主要方法。pandas提供查看、處理重復(fù)數(shù)據(jù)的方法duplicated和drop_duplicates。以如下數(shù)據(jù)為例:
>sample = pd.DataFrame({'id':[1,1,1,3,4,5],
'name':['Bob','Bob','Mark','Miki','Sully','Rose'],
'score':[99,99,87,77,77,np.nan],
'group':[1,1,1,2,1,2],})
>sample
group id name score
0 1 1 Bob 99.0
1 1 1 Bob 99.0
2 1 1 Mark 87.0
3 2 3 Miki 77.0
4 1 4 Sully 77.0
5 2 5 Rose NaN
發(fā)現(xiàn)重復(fù)數(shù)據(jù)通過duplicated方法完成,如下所示,可以通過該方法查看重復(fù)的數(shù)據(jù)。
>sample[sample.duplicated()]
group id name score
1 1 1 Bob 99.0
需要去重時(shí),可drop_duplicates方法完成:
>sample.drop_duplicates()
group id name score
0 1 1 Bob 99.0
2 1 1 Mark 87.0
3 2 3 Miki 77.0
4 1 4 Sully 77.0
5 2 5 Rose NaN
drop_duplicates方法還可以按照某列去重,例如去除id列重復(fù)的所有記錄:
>sample.drop_duplicates('id')
group id name score
0 1 1 Bob 99.0
3 2 3 Miki 77.0
4 1 4 Sully 77.0
5 2 5 Rose NaN
02 缺失值處理
缺失值是數(shù)據(jù)清洗中比較常見的問題,缺失值一般由NA表示,在處理缺失值時(shí)要遵循一定的原則。
首先,需要根據(jù)業(yè)務(wù)理解處理缺失值,弄清楚缺失值產(chǎn)生的原因是故意缺失還是隨機(jī)缺失,再通過一些業(yè)務(wù)經(jīng)驗(yàn)進(jìn)行填補(bǔ)。一般來說當(dāng)缺失值少于20%時(shí),連續(xù)變量可以使用均值或中位數(shù)填補(bǔ);分類變量不需要填補(bǔ),單算一類即可,或者也可以用眾數(shù)填補(bǔ)分類變量。
當(dāng)缺失值處于20%-80%之間時(shí),填補(bǔ)方法同上。另外每個(gè)有缺失值的變量可以生成一個(gè)指示啞變量,參與后續(xù)的建模。當(dāng)缺失值多于80%時(shí),每個(gè)有缺失值的變量生成一個(gè)指示啞變量,參與后續(xù)的建模,不使用原始變量。
在下圖中展示了中位數(shù)填補(bǔ)缺失值和缺失值指示變量的生成過程。
Pandas提供了fillna方法用于替換缺失值數(shù)據(jù),其功能類似于之前的replace方法,例如對于如下數(shù)據(jù):
> sample
group id name score
0 1.0 1.0 Bob 99.0
1 1.0 1.0 Bob NaN
2 NaN 1.0 Mark 87.0
3 2.0 3.0 Miki 77.0
4 1.0 4.0 Sully 77.0
5 NaN NaN NaN NaN
分步驟進(jìn)行缺失值的查看和填補(bǔ)如下:
1. 查看缺失情況
在進(jìn)行數(shù)據(jù)分析前,一般需要了解數(shù)據(jù)的缺失情況,在Python中可以構(gòu)造一個(gè)lambda函數(shù)來查看缺失值,該lambda函數(shù)中,sum(col.isnull())表示當(dāng)前列有多少缺失,col.size表示當(dāng)前列總共多少行數(shù)據(jù):
>sample.apply(lambda col:sum(col.isnull())/col.size)
group 0.333333
id 0.166667
name 0.166667
score 0.333333
dtype: float64
2. 以指定值填補(bǔ)
pandas數(shù)據(jù)框提供了fillna方法完成對缺失值的填補(bǔ),例如對sample表的列score填補(bǔ)缺失值,填補(bǔ)方法為均值:
>sample.score.fillna(sample.score.mean())
0 99.0
1 85.0
2 87.0
3 77.0
4 77.0
5 85.0
Name: score, dtype: float64
當(dāng)然還可以以分位數(shù)等方法進(jìn)行填補(bǔ):
>sample.score.fillna(sample.score.median())
0 99.0
1 82.0
2 87.0
3 77.0
4 77.0
5 82.0
Name: score, dtype: float64
3. 缺失值指示變量
pandas數(shù)據(jù)框?qū)ο罂梢灾苯诱{(diào)用方法isnull產(chǎn)生缺失值指示變量,例如產(chǎn)生score變量的缺失值指示變量:
>sample.score.isnull()
0 False
1 True
2 False
3 False
4 False
5 True
Name: score, dtype: bool
若想轉(zhuǎn)換為數(shù)值0,1型指示變量,可以使用apply方法,int表示將該列替換為int類型。
>sample.score.isnull().apply(int)
0 0
1 1
2 0
3 0
4 0
5 1
Name: score, dtype: int64
關(guān)于“如何用Python進(jìn)行數(shù)據(jù)清洗”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí),可以關(guān)注億速云行業(yè)資訊頻道,小編每天都會(huì)為大家更新不同的知識(shí)點(diǎn)。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。