您好,登錄后才能下訂單哦!
這篇文章將為大家詳細(xì)講解有關(guān)pandas中對(duì)特征進(jìn)行硬編碼和onehot編碼的實(shí)現(xiàn)方法,小編覺(jué)得挺實(shí)用的,因此分享給大家做個(gè)參考,希望大家閱讀完這篇文章后可以有所收獲。
首先介紹兩種編碼方式硬編碼和onehot編碼,在模型訓(xùn)練所需要數(shù)據(jù)中,特征要么為連續(xù),要么為離散特征,對(duì)于那些值為非數(shù)字的離散特征,我們要么對(duì)他們進(jìn)行硬編碼,要么進(jìn)行onehot編碼,轉(zhuǎn)化為模型可以用于訓(xùn)練的特征
初始化一個(gè)DataFrame
import pandas as pd df = pd.DataFrame([ ['green', 'M', 20, 'class1'], ['red', 'L', 21, 'class2'], ['blue', 'XL',30, 'class3']]) df.columns = ['color', 'size', 'weight', 'class label']
硬編碼:
將feature的值從0(或者1)開(kāi)始進(jìn)行連續(xù)編碼,比如color進(jìn)行硬編碼,color的值有三個(gè),分別為編碼為1,2,3
可以用如下操作,對(duì)color字段下的值進(jìn)行硬編碼
colorMap = {elem:index+1 for index,elem in enumerate(set(df["color"]))} df['color'] = df['color'].map(colorMap)
這樣可以進(jìn)行硬編碼了,之前我的寫(xiě)法是,先生成map,然后對(duì)每一行進(jìn)行apply,顯然沒(méi)有上述代碼簡(jiǎn)便
onehot編碼:
將某個(gè)字段下所有值橫向展開(kāi),對(duì)于每條數(shù)據(jù),其在對(duì)應(yīng)展開(kāi)的值上的值就是1,聽(tīng)起來(lái)比較繞口,看下面的例子就知道了,python中,pandas 用get_dummies()方法即可
data1 = pd.get_dummies(df[["color"]])
如果要對(duì)多個(gè)feature 進(jìn)行onehot,這樣即可df[[fea1,fea2..]]
對(duì)于onehot以后的數(shù)據(jù),如果需要原有的數(shù)據(jù)合并,直接拿原來(lái)的join onehot的數(shù)據(jù)即可
res = df.join(data1)
join操作默認(rèn)是根據(jù)index來(lái)進(jìn)行join的,而get_dummies()不會(huì)改變index
關(guān)于“pandas中對(duì)特征進(jìn)行硬編碼和onehot編碼的實(shí)現(xiàn)方法”這篇文章就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,使各位可以學(xué)到更多知識(shí),如果覺(jué)得文章不錯(cuò),請(qǐng)把它分享出去讓更多的人看到。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。