<var id="x7mbz"><legend id="x7mbz"></legend></var>

<var id="x7mbz"></var>

<var id="x7mbz"></var>

<var id="x7mbz"></var>

<var id="x7mbz"><meter id="x7mbz"></meter></var>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

Python中Pandas數(shù)據(jù)清洗的流程

發(fā)布時(shí)間：2020-10-20 13:42:17 來(lái)源：億速云閱讀：604 作者：小新欄目：編程語(yǔ)言

這篇文章主要介紹Python中Pandas數(shù)據(jù)清洗的流程，文中介紹的非常詳細(xì)，具有一定的參考價(jià)值，感興趣的小伙伴們一定要看完！

針對(duì)數(shù)據(jù)統(tǒng)計(jì)分析來(lái)講，數(shù)據(jù)信息是無(wú)可置疑的核心內(nèi)容。但并非是全部的數(shù)據(jù)信息都是有價(jià)值的，絕大部分?jǐn)?shù)據(jù)信息是良莠不齊的，基本概念層次不清的，量級(jí)有所不同的，這就給后期的數(shù)據(jù)統(tǒng)計(jì)分析和數(shù)據(jù)挖掘造成了很大的不便，甚至是造成不正確的理論依據(jù)。因此很有必要對(duì)數(shù)據(jù)信息開(kāi)展預(yù)處理。

說(shuō)到python與數(shù)據(jù)分析，那肯定少不了pandas的身影。

一、數(shù)據(jù)清洗是什么

數(shù)據(jù)清洗是指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識(shí)別的錯(cuò)誤的最后一道程序，包括檢查數(shù)據(jù)一致性，處理無(wú)效值和缺失值等。與問(wèn)卷審核不同，錄入后的數(shù)據(jù)清理一般是由計(jì)算機(jī)而不是人工完成。

數(shù)據(jù)清洗從名字上也看的出就是把“臟”的“洗掉”，指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識(shí)別的錯(cuò)誤的最后一道程序，包括檢查數(shù)據(jù)一致性，處理無(wú)效值和缺失值等。因?yàn)閿?shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是面向某一主題的數(shù)據(jù)的集合，這些數(shù)據(jù)從多個(gè)業(yè)務(wù)系統(tǒng)中抽取而來(lái)而且包含歷史數(shù)據(jù)，這樣就避免不了有的數(shù)據(jù)是錯(cuò)誤數(shù)據(jù)、有的數(shù)據(jù)相互之間有沖突，這些錯(cuò)誤的或有沖突的數(shù)據(jù)顯然是我們不想要的，稱為“臟數(shù)據(jù)”。我們要按照一定的規(guī)則把“臟數(shù)據(jù)”“洗掉”，這就是數(shù)據(jù)清洗。而數(shù)據(jù)清洗的任務(wù)是過(guò)濾那些不符合要求的數(shù)據(jù)，將過(guò)濾的結(jié)果交給業(yè)務(wù)主管部門，確認(rèn)是否過(guò)濾掉還是由業(yè)務(wù)單位修正之后再進(jìn)行抽取。不符合要求的數(shù)據(jù)主要是有不完整的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)、重復(fù)的數(shù)據(jù)三大類。數(shù)據(jù)清洗是與問(wèn)卷審核不同，錄入后的數(shù)據(jù)清理一般是由計(jì)算機(jī)而不是人工完成。

Python中Pandas數(shù)據(jù)清洗的流程

二、Python pandas數(shù)據(jù)清洗流程

1.導(dǎo)入方法read_excel

# 導(dǎo)入數(shù)據(jù)
import pandas as pda
import matplotlib.pylab as pyl

a = pda.read_excel("D:\\迅雷下載\\工具\(yùn)\表格\\練習(xí).xls")	# 路徑使用雙反斜杠，否則會(huì)報(bào)錯(cuò)
print(len(a))   # 數(shù)據(jù)框的長(zhǎng)度，是按行統(tǒng)計(jì)的
123456

2.發(fā)現(xiàn)缺失值

先打開(kāi)excel表，查看下有多少缺失值，缺失值是指值為0或空統(tǒng)計(jì)發(fā)現(xiàn)有10個(gè)缺失值，同理其他列也有部分缺失值然后著手把0值置空，保證所有的缺失值都是統(tǒng)一形式，方便處理

Python中Pandas數(shù)據(jù)清洗的流程

b = ["price", "trade"]
for i in b:
    a[i][(a[i] == 0)] = None
# a["price"] == 0  判斷語(yǔ)句，返回True或False  ,對(duì)列表的每一個(gè)值進(jìn)行判斷，如果有0，該處值置為none，然后進(jìn)行判斷直至完成
1234

3.缺失值處理

遍歷所有的空值，統(tǒng)一賦值

x = 0
for j in b:
    for k in range(len(a)):
        if (a[j].isnull())[k]:  
            a[j][k] = 36
            x += 1
print(x)

三、異常數(shù)據(jù)處理

異常數(shù)據(jù)指數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中未滿足一般規(guī)律的數(shù)據(jù)信息對(duì)象，又叫作孤立點(diǎn)。異常的數(shù)據(jù)信息可由執(zhí)行程序出現(xiàn)失誤形成，也可能會(huì)因設(shè)施設(shè)備內(nèi)部故障造成的。異常數(shù)據(jù)信息可能是刪去的噪聲，也可能是帶有重要信息的數(shù)據(jù)單元。異常的數(shù)據(jù)信息的監(jiān)測(cè)具體有根據(jù)統(tǒng)計(jì)學(xué)、根據(jù)距離和根據(jù)偏離3類方法。采取數(shù)據(jù)信息審時(shí)的辦法能夠?qū)崿F(xiàn)異常的數(shù)據(jù)信息的智能化監(jiān)測(cè)，該辦法也叫作數(shù)據(jù)質(zhì)量挖掘(DOQM)。DQM具體由2步組成:第1步，采取數(shù)理統(tǒng)計(jì)辦法對(duì)數(shù)據(jù)分布展開(kāi)概化描述，自動(dòng)獲得數(shù)據(jù)信息的總體分布特征；第2步針對(duì)特定的數(shù)據(jù)質(zhì)量問(wèn)題展開(kāi)挖掘以發(fā)現(xiàn)數(shù)據(jù)信息異常的。

以上是Python中Pandas數(shù)據(jù)清洗的流程的所有內(nèi)容，感謝各位的閱讀！希望分享的內(nèi)容對(duì)大家有幫助，更多相關(guān)知識(shí)，歡迎關(guān)注億速云行業(yè)資訊頻道！

向AI問(wèn)一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
MySQL下載安裝的操作步驟
下一篇新聞：
使用Python進(jìn)行網(wǎng)絡(luò)爬蟲(chóng)的案例分析

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼

<table id="rnvxx"></table>

<samp id="rnvxx"></samp>