您好,登錄后才能下訂單哦!
今天小編給大家分享一下pandas重復(fù)行刪除操作df.drop_duplicates和df.duplicated的區(qū)別是什么的相關(guān)知識點(diǎn),內(nèi)容詳細(xì),邏輯清晰,相信大部分人都還太了解這方面的知識,所以分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后有所收獲,下面我們一起來了解一下吧。
使用df.cuplicated()來查看重復(fù)數(shù)據(jù),返回True,False,數(shù)據(jù)類型是bool.
也可以指定某一列是否有重復(fù)值df.cuplidated(‘colname’),不指定則默認(rèn)為第一列。
用來刪除重復(fù)行。
讀取數(shù)據(jù)
# %% 提取數(shù)據(jù) 從sqlite import pandas as pd from sqlalchemy import create_engine '''創(chuàng)建sqlite3連接''' eg = create_engine('sqlite:///I:/jianguoyun/Udoc/WorkDb/dataset2022.db') #創(chuàng)建數(shù)據(jù)庫連接 # 讀取數(shù)據(jù)庫文件 q_store = """ select * from pj_store20220525 """ # 讀取表 cols= ['貨號','品類','節(jié)慶','庫位','合格','換包裝','錯碼','維修','總數(shù)量' ] df = pd.read_sql(q_store,eg)[cols]
計(jì)算重復(fù)項(xiàng)
# df.duplicated 計(jì)算重復(fù)項(xiàng) cond = df.duplicated('貨號') # 查看貨號相同的項(xiàng) df.duplicated返回的是布爾值 def_line = df[cond] def_line
計(jì)算有多少個重復(fù)行
#有多少個重復(fù)行 dep_data = df.duplicated('貨號').sum() dep_data
用df.drop_duplicates提取夏季品類
# 用df.drop_duplicates提取夏季品類 df_category = df.query('節(jié)慶=="夏季"').drop_duplicates('品類',keep='last',inplace=False) df_category['品類'].sort_values()
參數(shù):
keep ,保留最后last還是第一行first,
inplace:是否替換原列表,false:不替換,True,替換。
以上就是“pandas重復(fù)行刪除操作df.drop_duplicates和df.duplicated的區(qū)別是什么”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家閱讀完這篇文章都有很大的收獲,小編每天都會為大家更新不同的知識,如果還想學(xué)習(xí)更多的知識,請關(guān)注億速云行業(yè)資訊頻道。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。