溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

pandas的get_dummies()與factorize()怎么使用

發(fā)布時間:2022-02-24 17:39:44 來源:億速云 閱讀:148 作者:iii 欄目:開發(fā)技術

這篇文章主要介紹了pandas的get_dummies()與factorize()怎么使用的相關知識,內(nèi)容詳細易懂,操作簡單快捷,具有一定借鑒價值,相信大家閱讀完這篇pandas的get_dummies()與factorize()怎么使用文章都會有所收獲,下面我們一起來看看吧。

1.get_dummies()

pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None,sparse=False, drop_first=False):Convert categorical variable into dummy/indicator variables

>>> import pandas as pd
>>> s = pd.Series(list('abca'))
>>> pd.get_dummies(s)
   a  b  c
0  1  0  0
1  0  1  0
2  0  0  1
3  1  0  0

2.pd.factorize()

pandas.factorize(values, sort=False, order=None, na_sentinel=-1,size_hint=None):Encode input values as an enumerated type or categorical variable

Series.factorize(sort=False, na_sentinel=-1):Encode the object as an enumerated type or categorical variable

Pandas有一個方法叫做factorize(),它可以創(chuàng)建一些數(shù)字,來表示類別變量,對每一個類別映射一個ID,這種映射最后只生成一個特征,不像dummy那樣生成多個特征。

Parameters:

sort : boolean, default False

Sort by values

na_sentinel: int, default -1

Value to mark “not found”

Returns:

labels : the indexer to the original array

uniques : the unique Index

labels:對應的編碼array

uniques:需要編碼的類型

補充:pandas.get_dummies 的使用及含義

get_dummies 是利用pandas實現(xiàn)one hot encode的方式

get_dummies參數(shù)如下:

pandas.get_dummies(data,prefix = None,prefix_sep ='_',dummy_na = False,columns = None,sparse = False,drop_first = False,dtype = None )

data : array-like,Series或DataFrame

prefix :string,字符串列表或字符串dict,默認為None,

用于追加DataFrame列名的字符串。在DataFrame上調(diào)用get_dummies時,傳遞一個長度等于列數(shù)的列表?;蛘?,前綴 可以是將列名稱映射到前綴的字典。

prefix_sep : string,默認為'_'

如果附加前綴,分隔符/分隔符要使用。或者傳遞與前綴一樣的列表或字典。

dummy_na : bool,默認為False

如果忽略False NaN,則添加一列以指示NaN。

columns : 類似列表,默認為無

要編碼的DataFrame中的列名稱。如果列是None,那么所有與列 對象或類別 D型細胞將被轉(zhuǎn)換。

sparse : bool,默認為False

偽編碼列是否應由SparseArray(True)或常規(guī)NumPy數(shù)組(False)支持。

drop_first : bool,默認為False

是否通過刪除第一級別從k分類級別獲得k-1個假人。

版本0.18.0中的新功能。

dtype: D型,默認np.uint8

新列的數(shù)據(jù)類型。只允許一個dtype。

版本0.23.0中的新功能。

關于“pandas的get_dummies()與factorize()怎么使用”這篇文章的內(nèi)容就介紹到這里,感謝各位的閱讀!相信大家對“pandas的get_dummies()與factorize()怎么使用”知識都有一定的了解,大家如果還想學習更多知識,歡迎關注億速云行業(yè)資訊頻道。

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權內(nèi)容。

AI