溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

去重計(jì)數(shù)有哪些實(shí)現(xiàn)方式

發(fā)布時(shí)間:2021-06-15 15:03:32 來(lái)源:億速云 閱讀:217 作者:chen 欄目:編程語(yǔ)言

這篇文章主要講解了“去重計(jì)數(shù)有哪些實(shí)現(xiàn)方式”,文中的講解內(nèi)容簡(jiǎn)單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來(lái)研究和學(xué)習(xí)“去重計(jì)數(shù)有哪些實(shí)現(xiàn)方式”吧!

這是一個(gè)關(guān)于 pandas 從基礎(chǔ)到進(jìn)階的練習(xí)題系列,來(lái)源于 github 上的 guipsamora/pandas_exercises  。這個(gè)項(xiàng)目從基礎(chǔ)到進(jìn)階,可以檢驗(yàn)?zāi)阌卸嗝戳私?pandas。

我會(huì)挑選一些題目,并且提供比原題庫(kù)更多的解決方法以及更詳盡的解析。

如下數(shù)據(jù):

去重計(jì)數(shù)有哪些實(shí)現(xiàn)方式

數(shù)據(jù)描述:

  • 此數(shù)據(jù)是訂單明細(xì)表。一個(gè)訂單會(huì)包含很多明細(xì)項(xiàng),表中每個(gè)樣本(每一行)表示一個(gè)明細(xì)項(xiàng)

  • order_id 列存在重復(fù)

  • quantity 是明細(xì)項(xiàng)數(shù)量

需求:數(shù)據(jù)中共有多少個(gè)訂單?

下面是答案了

方式1

因?yàn)?order_id 列是存在重復(fù)的,那么一種比較直觀的方式就是去重+計(jì)數(shù):

len(df.order_id.drop_duplicates()) 1834
  • Series.drop_duplicates() 返回的仍然是一個(gè) Series

  • len 函數(shù)可以計(jì)算 Series 值數(shù)量

但是你可能不知道的是,這個(gè)方式是不準(zhǔn)確的!

方式2

之所以說(shuō)上一種方式是不準(zhǔn)確,是因?yàn)闆](méi)有考慮到空值的問(wèn)題。

len 函數(shù)不會(huì)忽略空值(nan) ,因此如果列中有空值,那么就比正確結(jié)果數(shù)量多。

正確的做法是:

len(df.order_id.drop_duplicates().dropna())
  • 使用 Series.dropna() 方法可以去掉 nan 值

提示:

即使列中有多個(gè) nan ,經(jīng)過(guò)去重后只會(huì)保留一個(gè) nan 值

方式3

實(shí)際上,pandas 本身有提供一個(gè)忽略 nan 的計(jì)數(shù)方法:

df.order_id.drop_duplicates().count()

點(diǎn)評(píng):

這種方式個(gè)人認(rèn)為最合適

方式4

pandas 為列(Series)提供了一個(gè)快速匯總計(jì)數(shù)方法:

df.order_id.value_counts()

去重計(jì)數(shù)有哪些實(shí)現(xiàn)方式

  • Series.value_counts() 相當(dāng)于 根據(jù) order id 分組,統(tǒng)計(jì)數(shù)量。并且排除 nan

這相當(dāng)于實(shí)現(xiàn)了去重,因此:

df.order_id.value_counts().count()

感謝各位的閱讀,以上就是“去重計(jì)數(shù)有哪些實(shí)現(xiàn)方式”的內(nèi)容了,經(jīng)過(guò)本文的學(xué)習(xí)后,相信大家對(duì)去重計(jì)數(shù)有哪些實(shí)現(xiàn)方式這一問(wèn)題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是億速云,小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI