duplicated()
函數(shù)在 Pandas 庫中用于檢查 DataFrame 或 Series 中的重復(fù)項
以下是 duplicated()
函數(shù)的基本用法:
import pandas as pd
data = pd.Series(['A', 'B', 'A', 'C', 'B'])
duplicates = data.duplicated()
print(duplicates)
輸出結(jié)果將會是:
0 False
1 False
2 True
3 False
4 True
dtype: bool
import pandas as pd
data = {'Column1': ['A', 'B', 'A', 'C', 'B'],
'Column2': [1, 2, 1, 3, 2]}
df = pd.DataFrame(data)
duplicates = df.duplicated()
print(duplicates)
輸出結(jié)果將會是:
0 False
1 False
2 True
3 False
4 True
dtype: bool
你還可以使用 duplicated()
函數(shù)的參數(shù)來自定義重復(fù)項檢測的行為。例如,你可以設(shè)置 keep
參數(shù)來指定保留哪個重復(fù)項。默認情況下,keep
參數(shù)設(shè)置為 'first'
,表示保留第一個出現(xiàn)的重復(fù)項,并將其他重復(fù)項標(biāo)記為 True
。你還可以將 keep
設(shè)置為 'last'
,這樣最后一個出現(xiàn)的重復(fù)項將被保留。此外,你還可以將 keep
設(shè)置為 False
,這樣所有重復(fù)項都將被標(biāo)記為 True
。
例如:
import pandas as pd
data = {'Column1': ['A', 'B', 'A', 'C', 'B'],
'Column2': [1, 2, 1, 3, 2]}
df = pd.DataFrame(data)
duplicates = df.duplicated(keep='last')
print(duplicates)
輸出結(jié)果將會是:
0 True
1 True
2 False
3 False
4 False
dtype: bool