溫馨提示×

duplicated()函數(shù)在Pandas庫中的具體用法是什么

小樊
88
2024-09-12 18:31:51
欄目: 編程語言

duplicated() 函數(shù)在 Pandas 庫中用于檢查 DataFrame 或 Series 中的重復(fù)項

以下是 duplicated() 函數(shù)的基本用法:

  1. 對于一個 Pandas Series:
import pandas as pd

data = pd.Series(['A', 'B', 'A', 'C', 'B'])
duplicates = data.duplicated()

print(duplicates)

輸出結(jié)果將會是:

0    False
1    False
2     True
3    False
4     True
dtype: bool
  1. 對于一個 Pandas DataFrame:
import pandas as pd

data = {'Column1': ['A', 'B', 'A', 'C', 'B'],
        'Column2': [1, 2, 1, 3, 2]}

df = pd.DataFrame(data)
duplicates = df.duplicated()

print(duplicates)

輸出結(jié)果將會是:

0    False
1    False
2     True
3    False
4     True
dtype: bool

你還可以使用 duplicated() 函數(shù)的參數(shù)來自定義重復(fù)項檢測的行為。例如,你可以設(shè)置 keep 參數(shù)來指定保留哪個重復(fù)項。默認情況下,keep 參數(shù)設(shè)置為 'first',表示保留第一個出現(xiàn)的重復(fù)項,并將其他重復(fù)項標(biāo)記為 True。你還可以將 keep 設(shè)置為 'last',這樣最后一個出現(xiàn)的重復(fù)項將被保留。此外,你還可以將 keep 設(shè)置為 False,這樣所有重復(fù)項都將被標(biāo)記為 True。

例如:

import pandas as pd

data = {'Column1': ['A', 'B', 'A', 'C', 'B'],
        'Column2': [1, 2, 1, 3, 2]}

df = pd.DataFrame(data)
duplicates = df.duplicated(keep='last')

print(duplicates)

輸出結(jié)果將會是:

0     True
1     True
2    False
3    False
4    False
dtype: bool

0