溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

如何用Python進(jìn)行數(shù)據(jù)清洗

發(fā)布時(shí)間:2022-03-16 09:50:19 來源:億速云 閱讀:187 作者:iii 欄目:web開發(fā)

這篇文章主要介紹“如何用Python進(jìn)行數(shù)據(jù)清洗”的相關(guān)知識(shí),小編通過實(shí)際案例向大家展示操作過程,操作方法簡單快捷,實(shí)用性強(qiáng),希望這篇“如何用Python進(jìn)行數(shù)據(jù)清洗”文章能幫助大家解決問題。

數(shù)據(jù)清洗是數(shù)據(jù)分析的必備環(huán)節(jié),在進(jìn)行分析過程中,會(huì)有很多不符合分析要求的數(shù)據(jù),例如重復(fù)、錯(cuò)誤、缺失、異常類數(shù)據(jù)。

01 重復(fù)值處理

數(shù)據(jù)錄入過程、數(shù)據(jù)整合過程都可能會(huì)產(chǎn)生重復(fù)數(shù)據(jù),直接刪除是重復(fù)數(shù)據(jù)處理的主要方法。pandas提供查看、處理重復(fù)數(shù)據(jù)的方法duplicated和drop_duplicates。以如下數(shù)據(jù)為例:

>sample = pd.DataFrame({'id':[1,1,1,3,4,5],

                       'name':['Bob','Bob','Mark','Miki','Sully','Rose'],

                       'score':[99,99,87,77,77,np.nan],

                       'group':[1,1,1,2,1,2],})

>sample

group  id   name  score

0      1   1    Bob   99.0

1      1   1    Bob   99.0

2      1   1   Mark   87.0

3      2   3   Miki   77.0

4      1   4  Sully   77.0

5      2   5   Rose    NaN

發(fā)現(xiàn)重復(fù)數(shù)據(jù)通過duplicated方法完成,如下所示,可以通過該方法查看重復(fù)的數(shù)據(jù)。

>sample[sample.duplicated()]

group  id   name  score

1      1   1    Bob   99.0

需要去重時(shí),可drop_duplicates方法完成:

>sample.drop_duplicates()

group  id   name  score

0      1   1    Bob   99.0

2      1   1   Mark   87.0

3      2   3   Miki   77.0

4      1   4  Sully   77.0

5      2   5   Rose    NaN

drop_duplicates方法還可以按照某列去重,例如去除id列重復(fù)的所有記錄:

>sample.drop_duplicates('id')

group  id   name  score

0      1   1    Bob   99.0

3      2   3   Miki   77.0

4      1   4  Sully   77.0

5      2   5   Rose    NaN

02 缺失值處理

缺失值是數(shù)據(jù)清洗中比較常見的問題,缺失值一般由NA表示,在處理缺失值時(shí)要遵循一定的原則。

首先,需要根據(jù)業(yè)務(wù)理解處理缺失值,弄清楚缺失值產(chǎn)生的原因是故意缺失還是隨機(jī)缺失,再通過一些業(yè)務(wù)經(jīng)驗(yàn)進(jìn)行填補(bǔ)。一般來說當(dāng)缺失值少于20%時(shí),連續(xù)變量可以使用均值或中位數(shù)填補(bǔ);分類變量不需要填補(bǔ),單算一類即可,或者也可以用眾數(shù)填補(bǔ)分類變量。

當(dāng)缺失值處于20%-80%之間時(shí),填補(bǔ)方法同上。另外每個(gè)有缺失值的變量可以生成一個(gè)指示啞變量,參與后續(xù)的建模。當(dāng)缺失值多于80%時(shí),每個(gè)有缺失值的變量生成一個(gè)指示啞變量,參與后續(xù)的建模,不使用原始變量。

在下圖中展示了中位數(shù)填補(bǔ)缺失值和缺失值指示變量的生成過程。

Pandas提供了fillna方法用于替換缺失值數(shù)據(jù),其功能類似于之前的replace方法,例如對于如下數(shù)據(jù):

> sample

    group  id   name  score

0    1.0  1.0    Bob   99.0

1    1.0  1.0    Bob    NaN

2    NaN  1.0   Mark   87.0

3    2.0  3.0   Miki   77.0

4    1.0  4.0  Sully   77.0

5    NaN  NaN    NaN    NaN

分步驟進(jìn)行缺失值的查看和填補(bǔ)如下:

1. 查看缺失情況

在進(jìn)行數(shù)據(jù)分析前,一般需要了解數(shù)據(jù)的缺失情況,在Python中可以構(gòu)造一個(gè)lambda函數(shù)來查看缺失值,該lambda函數(shù)中,sum(col.isnull())表示當(dāng)前列有多少缺失,col.size表示當(dāng)前列總共多少行數(shù)據(jù):

>sample.apply(lambda col:sum(col.isnull())/col.size)

group    0.333333

id       0.166667

name     0.166667

score    0.333333

dtype: float64

2. 以指定值填補(bǔ)

pandas數(shù)據(jù)框提供了fillna方法完成對缺失值的填補(bǔ),例如對sample表的列score填補(bǔ)缺失值,填補(bǔ)方法為均值:

>sample.score.fillna(sample.score.mean())

0    99.0

1    85.0

2    87.0

3    77.0

4    77.0

5    85.0

Name: score, dtype: float64

當(dāng)然還可以以分位數(shù)等方法進(jìn)行填補(bǔ):

>sample.score.fillna(sample.score.median())

0    99.0

1    82.0

2    87.0

3    77.0

4    77.0

5    82.0

Name: score, dtype: float64

3. 缺失值指示變量

pandas數(shù)據(jù)框?qū)ο罂梢灾苯诱{(diào)用方法isnull產(chǎn)生缺失值指示變量,例如產(chǎn)生score變量的缺失值指示變量:

>sample.score.isnull()

0    False

1     True

2    False

3    False

4    False

5     True

Name: score, dtype: bool

若想轉(zhuǎn)換為數(shù)值0,1型指示變量,可以使用apply方法,int表示將該列替換為int類型。

>sample.score.isnull().apply(int)

0    0

1    1

2    0

3    0

4    0

5    1

Name: score, dtype: int64

關(guān)于“如何用Python進(jìn)行數(shù)據(jù)清洗”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí),可以關(guān)注億速云行業(yè)資訊頻道,小編每天都會(huì)為大家更新不同的知識(shí)點(diǎn)。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI