<source id="hiqle"></source>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時(shí)！

請點(diǎn)擊重新獲取二維碼

如何用Python進(jìn)行數(shù)據(jù)清洗

發(fā)布時(shí)間：2022-03-16 09:50:19 來源：億速云閱讀：187 作者：iii 欄目：web開發(fā)

這篇文章主要介紹“如何用Python進(jìn)行數(shù)據(jù)清洗”的相關(guān)知識(shí)，小編通過實(shí)際案例向大家展示操作過程，操作方法簡單快捷，實(shí)用性強(qiáng)，希望這篇“如何用Python進(jìn)行數(shù)據(jù)清洗”文章能幫助大家解決問題。

數(shù)據(jù)清洗是數(shù)據(jù)分析的必備環(huán)節(jié)，在進(jìn)行分析過程中，會(huì)有很多不符合分析要求的數(shù)據(jù)，例如重復(fù)、錯(cuò)誤、缺失、異常類數(shù)據(jù)。

01 重復(fù)值處理

數(shù)據(jù)錄入過程、數(shù)據(jù)整合過程都可能會(huì)產(chǎn)生重復(fù)數(shù)據(jù)，直接刪除是重復(fù)數(shù)據(jù)處理的主要方法。pandas提供查看、處理重復(fù)數(shù)據(jù)的方法duplicated和drop_duplicates。以如下數(shù)據(jù)為例:

>sample = pd.DataFrame({'id':[1,1,1,3,4,5],

'name':['Bob','Bob','Mark','Miki','Sully','Rose'],

'score':[99,99,87,77,77,np.nan],

'group':[1,1,1,2,1,2],})

>sample

group id name score

0 1 1 Bob 99.0

1 1 1 Bob 99.0

2 1 1 Mark 87.0

3 2 3 Miki 77.0

4 1 4 Sully 77.0

5 2 5 Rose NaN

發(fā)現(xiàn)重復(fù)數(shù)據(jù)通過duplicated方法完成，如下所示，可以通過該方法查看重復(fù)的數(shù)據(jù)。

>sample[sample.duplicated()]

group id name score

1 1 1 Bob 99.0

需要去重時(shí)，可drop_duplicates方法完成：

>sample.drop_duplicates()

group id name score

0 1 1 Bob 99.0

2 1 1 Mark 87.0

3 2 3 Miki 77.0

4 1 4 Sully 77.0

5 2 5 Rose NaN

drop_duplicates方法還可以按照某列去重，例如去除id列重復(fù)的所有記錄：

>sample.drop_duplicates('id')

group id name score

0 1 1 Bob 99.0

3 2 3 Miki 77.0

4 1 4 Sully 77.0

5 2 5 Rose NaN

02 缺失值處理

缺失值是數(shù)據(jù)清洗中比較常見的問題，缺失值一般由NA表示，在處理缺失值時(shí)要遵循一定的原則。

首先，需要根據(jù)業(yè)務(wù)理解處理缺失值，弄清楚缺失值產(chǎn)生的原因是故意缺失還是隨機(jī)缺失，再通過一些業(yè)務(wù)經(jīng)驗(yàn)進(jìn)行填補(bǔ)。一般來說當(dāng)缺失值少于20%時(shí)，連續(xù)變量可以使用均值或中位數(shù)填補(bǔ)；分類變量不需要填補(bǔ)，單算一類即可，或者也可以用眾數(shù)填補(bǔ)分類變量。

當(dāng)缺失值處于20%-80%之間時(shí)，填補(bǔ)方法同上。另外每個(gè)有缺失值的變量可以生成一個(gè)指示啞變量，參與后續(xù)的建模。當(dāng)缺失值多于80%時(shí)，每個(gè)有缺失值的變量生成一個(gè)指示啞變量，參與后續(xù)的建模，不使用原始變量。

在下圖中展示了中位數(shù)填補(bǔ)缺失值和缺失值指示變量的生成過程。

Pandas提供了fillna方法用于替換缺失值數(shù)據(jù)，其功能類似于之前的replace方法，例如對于如下數(shù)據(jù)：

> sample

group id name score

0 1.0 1.0 Bob 99.0

1 1.0 1.0 Bob NaN

2 NaN 1.0 Mark 87.0

3 2.0 3.0 Miki 77.0

4 1.0 4.0 Sully 77.0

5 NaN NaN NaN NaN

分步驟進(jìn)行缺失值的查看和填補(bǔ)如下：

1. 查看缺失情況

在進(jìn)行數(shù)據(jù)分析前，一般需要了解數(shù)據(jù)的缺失情況，在Python中可以構(gòu)造一個(gè)lambda函數(shù)來查看缺失值，該lambda函數(shù)中，sum(col.isnull())表示當(dāng)前列有多少缺失，col.size表示當(dāng)前列總共多少行數(shù)據(jù)：

>sample.apply(lambda col:sum(col.isnull())/col.size)

group 0.333333

id 0.166667

name 0.166667

score 0.333333

dtype: float64

2. 以指定值填補(bǔ)

pandas數(shù)據(jù)框提供了fillna方法完成對缺失值的填補(bǔ)，例如對sample表的列score填補(bǔ)缺失值，填補(bǔ)方法為均值：

>sample.score.fillna(sample.score.mean())

0 99.0

1 85.0

2 87.0

3 77.0

4 77.0

5 85.0

Name: score, dtype: float64

當(dāng)然還可以以分位數(shù)等方法進(jìn)行填補(bǔ)：

>sample.score.fillna(sample.score.median())

0 99.0

1 82.0

2 87.0

3 77.0

4 77.0

5 82.0

Name: score, dtype: float64

3. 缺失值指示變量

pandas數(shù)據(jù)框?qū)ο罂梢灾苯诱{(diào)用方法isnull產(chǎn)生缺失值指示變量，例如產(chǎn)生score變量的缺失值指示變量：

>sample.score.isnull()

0 False

1 True

2 False

3 False

4 False

5 True

Name: score, dtype: bool

若想轉(zhuǎn)換為數(shù)值0，1型指示變量，可以使用apply方法，int表示將該列替換為int類型。

>sample.score.isnull().apply(int)

0 0

1 1

2 0

3 0

4 0

5 1

Name: score, dtype: int64

關(guān)于“如何用Python進(jìn)行數(shù)據(jù)清洗”的內(nèi)容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)，可以關(guān)注億速云行業(yè)資訊頻道，小編每天都會(huì)為大家更新不同的知識(shí)點(diǎn)。

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
css3中flexbox的概念是什么
下一篇新聞：
DIV CSS如何實(shí)現(xiàn)表單輸入單元點(diǎn)擊刪除

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼

<source id="pjtoz"></source>

<code id="pjtoz"><pre id="pjtoz"></pre></code>

<ol id="pjtoz"><progress id="pjtoz"></progress></ol>