溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Python如何實(shí)現(xiàn)Excel數(shù)據(jù)的探索和清洗

發(fā)布時(shí)間:2021-04-28 10:27:41 來(lái)源:億速云 閱讀:266 作者:小新 欄目:編程語(yǔ)言

這篇文章主要介紹了Python如何實(shí)現(xiàn)Excel數(shù)據(jù)的探索和清洗,具有一定借鑒價(jià)值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。

python是什么意思

Python是一種跨平臺(tái)的、具有解釋性、編譯性、互動(dòng)性和面向?qū)ο蟮哪_本語(yǔ)言,其最初的設(shè)計(jì)是用于編寫(xiě)自動(dòng)化腳本,隨著版本的不斷更新和新功能的添加,常用于用于開(kāi)發(fā)獨(dú)立的項(xiàng)目和大型項(xiàng)目。

數(shù)據(jù)的探索和清洗

1、讀取Excel文件的數(shù)據(jù)并轉(zhuǎn)換為dataframe

# 1.讀取Excel文件的數(shù)據(jù)并轉(zhuǎn)換為dataframe
file = "d:/test/Summary/Data_Summary.xlsx"
data_raw = pd.read_excel(file, header=0, index_col=0)   
# header設(shè)定為0:是為了使第1行的數(shù)據(jù)成為列的字段名

2、查看數(shù)據(jù)集的整體狀態(tài),了解基本特征列的情況

data_raw.head()

3、刪除無(wú)效的數(shù)據(jù)列

remove_col = ["序號(hào)"]
data_prep0 = data_raw.drop(columns=remove_col, axis=1, inplace=None)
data_prep0.head()

4、查看數(shù)據(jù)集的整體信息,了解缺失值的分布情況

data_prep0.info()

5、檢看數(shù)據(jù)集中缺失值的狀態(tài)并刪除缺失值

data_prep = data_prep0.dropna(subset=["產(chǎn)品"], axis=0)
data_prep.info()

6、檢查數(shù)據(jù)集中重復(fù)值的狀態(tài)并刪除重復(fù)值

print("數(shù)據(jù)集中的重復(fù)值數(shù)量:", np.sum(data_prep.duplicated()))
# 如果重復(fù)值的數(shù)量不為"0", 則表示有重復(fù)值存在,可使用下列代碼刪除
# data_prep.drop_duplicates(keep="first", inplace=True)

感謝你能夠認(rèn)真閱讀完這篇文章,希望小編分享的“Python如何實(shí)現(xiàn)Excel數(shù)據(jù)的探索和清洗”這篇文章對(duì)大家有幫助,同時(shí)也希望大家多多支持億速云,關(guān)注億速云行業(yè)資訊頻道,更多相關(guān)知識(shí)等著你來(lái)學(xué)習(xí)!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI