溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

怎么用python實現(xiàn)文件讀寫和數(shù)據(jù)清洗

發(fā)布時間：2022-08-25 11:17:47 來源：億速云閱讀：151 作者：iii 欄目：開發(fā)技術(shù)

這篇文章主要介紹“怎么用python實現(xiàn)文件讀寫和數(shù)據(jù)清洗”，在日常操作中，相信很多人在怎么用python實現(xiàn)文件讀寫和數(shù)據(jù)清洗問題上存在疑惑，小編查閱了各式資料，整理出簡單好用的操作方法，希望對大家解答”怎么用python實現(xiàn)文件讀寫和數(shù)據(jù)清洗”的疑惑有所幫助！接下來，請跟著小編一起來學習吧！

一、文件操作

pandas內(nèi)置了10多種數(shù)據(jù)源讀取函數(shù),常見的就是CSV和EXCEL
使用read_csv方法讀取，結(jié)果為dataframe格式
在讀取csv文件時，文件名稱盡量是英文
讀取csv時，注意編碼，常用編碼為utf-8、gbk 、gbk2312和gb18030等
使用to_csv方法快速保存

1.1 csv文件讀寫

#讀取文件，以下兩種方式：
#使用pandas讀入需要處理的表格及sheet頁
import pandas as pd
df = pd.read_csv("test.csv",sheet_name='sheet1') #默認是utf-8編碼
#或者使用with關(guān)鍵字
with open("test.csv",encoding="utf-8")as df: 
    #按行遍歷
    for row in df:
        #修正
        row = row.replace('陰性','0').replace('00.','0.')
        ...
        print(row)

#將處理后的結(jié)果寫入新表
#建議用utf-8編碼或者中文gbk編碼,默認是utf-8編碼,index=False表示不寫出行索引
df.to_csv('df_new.csv',encoding='utf-8',index=False)

1.2 excel文件讀寫

#讀入需要處理的表格及sheet頁
df = pd.read_excel('測試.xlsx',sheet_name='test')  
df = pd.read_excel(r'測試.xlsx') #默認讀入第一個sheet

#將處理后的結(jié)果寫入新表
df1.to_excel('處理后的數(shù)據(jù).xlsx',index=False)

二、數(shù)據(jù)清洗

2.1 刪除空值

# 刪除空值行
# 使用索引
df.dropna(axis=0,how='all')#刪除全部值為空的行
df_1 = df[df['價格'].notna()] #刪除某一列值為空的行
df = df.dropna(axis=0,how='all',subset=['1','2','3','4','5'])# 這5列值均為空，刪除整行
df = df.dropna(axis=0,how='any',subset=['1','2','3','4','5'])#這5列值任何出現(xiàn)一個空，即刪除整行

2.2 刪除不需要的列

# 使用del, 一次只能刪除一列，不能一次刪除多列 
del df['sample_1']  #修改源文件，且一次只能刪除一個
del df[['sample_1', 'sample_2']]  #報錯

#使用drop，有兩種方法：
#使用列名
df = df.drop(['sample_1', 'sample_2'], axis=1) # axis=1 表示刪除列
df.drop(['sample_1', 'sample_2'], axis=1, inplace=True) # inplace=True, 直接從內(nèi)部刪除
#使用索引
df.drop(df.columns[[0, 1, 2]], axis=1, inplace=True) # df.columns[ ] #直接使用索引查找列，刪除前3列

2.3 刪除不需要的行

#使用drop，有兩種方法：
#使用行名
df = df.drop(['行名1', '行名2']) # 默認axis=0 表示刪除行
df.drop(['行名1', '行名2'], inplace=True) # inplace=True, 直接從內(nèi)部刪除
#使用索引
df.drop(df.index[[1, 3, 5]]) # df.index[ ]直接使用索引查找行，刪除1,3，5行
df = df[df.index % 2 == 0]#刪除偶數(shù)行

2.4 重置索引

#在刪除了行列數(shù)據(jù)后，造成索引混亂，可通過 reset_index重新生成連續(xù)索引
df.reset_index()#獲得新的index，原來的index變成數(shù)據(jù)列，保留下來
df.reset_index(drop=True)#不想保留原來的index，使用參數(shù) drop=True，默認 False
df.reset_index(drop=True,inplace=True)#修改源文件
#使用某一列作為索引
df.set_index('column_name').head()

2.5 統(tǒng)計缺失

#每列的缺失數(shù)量
df.isnull().sum()
#每列缺失占比
df3.isnull().sum()/df.shape[0]
#每行的缺失數(shù)量
df3.isnull().sum(axis=1)
#每行缺失占比
df3.isnull().sum(axis=1)/df.shape[1]

2.6 排序

#按每行缺失值進行降序排序
df3.isnull().sum(axis=1).sort_values(ascending=False)
#按每列缺失率進行降序排序
(df.isnull().sum()/df.isnull().count()).sort_values(ascending=False)

到此，關(guān)于“怎么用python實現(xiàn)文件讀寫和數(shù)據(jù)清洗”的學習就結(jié)束了，希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習，快去試試吧！若想繼續(xù)學習更多相關(guān)知識，請繼續(xù)關(guān)注億速云網(wǎng)站，小編會繼續(xù)努力為大家?guī)砀鄬嵱玫奈恼拢?/p>

向AI問一下細節(jié)

推薦閱讀：

免責聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
怎么用Qt實現(xiàn)畫筆功能
下一篇新聞：
Vue3中怎么使用pnpm搭建monorepo開發(fā)環(huán)境

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機網(wǎng)站二維碼

<legend id="fsfef"><menu id="fsfef"></menu></legend>

<dfn id="fsfef"></dfn>