溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

pandas中對(duì)特征進(jìn)行硬編碼和onehot編碼的實(shí)現(xiàn)方法

發(fā)布時(shí)間:2021-05-31 13:32:58 來(lái)源:億速云 閱讀:227 作者:小新 欄目:開(kāi)發(fā)技術(shù)

這篇文章將為大家詳細(xì)講解有關(guān)pandas中對(duì)特征進(jìn)行硬編碼和onehot編碼的實(shí)現(xiàn)方法,小編覺(jué)得挺實(shí)用的,因此分享給大家做個(gè)參考,希望大家閱讀完這篇文章后可以有所收獲。

首先介紹兩種編碼方式硬編碼和onehot編碼,在模型訓(xùn)練所需要數(shù)據(jù)中,特征要么為連續(xù),要么為離散特征,對(duì)于那些值為非數(shù)字的離散特征,我們要么對(duì)他們進(jìn)行硬編碼,要么進(jìn)行onehot編碼,轉(zhuǎn)化為模型可以用于訓(xùn)練的特征

初始化一個(gè)DataFrame

import pandas as pd
df = pd.DataFrame([
 ['green', 'M', 20, 'class1'],
 ['red', 'L', 21, 'class2'],
 ['blue', 'XL',30, 'class3']])
df.columns = ['color', 'size', 'weight', 'class label']

pandas中對(duì)特征進(jìn)行硬編碼和onehot編碼的實(shí)現(xiàn)方法

硬編碼:

將feature的值從0(或者1)開(kāi)始進(jìn)行連續(xù)編碼,比如color進(jìn)行硬編碼,color的值有三個(gè),分別為編碼為1,2,3

可以用如下操作,對(duì)color字段下的值進(jìn)行硬編碼

colorMap = {elem:index+1 for index,elem in enumerate(set(df["color"]))}
df['color'] = df['color'].map(colorMap)

這樣可以進(jìn)行硬編碼了,之前我的寫(xiě)法是,先生成map,然后對(duì)每一行進(jìn)行apply,顯然沒(méi)有上述代碼簡(jiǎn)便

onehot編碼:

將某個(gè)字段下所有值橫向展開(kāi),對(duì)于每條數(shù)據(jù),其在對(duì)應(yīng)展開(kāi)的值上的值就是1,聽(tīng)起來(lái)比較繞口,看下面的例子就知道了,python中,pandas 用get_dummies()方法即可

data1 = pd.get_dummies(df[["color"]])

pandas中對(duì)特征進(jìn)行硬編碼和onehot編碼的實(shí)現(xiàn)方法

如果要對(duì)多個(gè)feature 進(jìn)行onehot,這樣即可df[[fea1,fea2..]]

對(duì)于onehot以后的數(shù)據(jù),如果需要原有的數(shù)據(jù)合并,直接拿原來(lái)的join onehot的數(shù)據(jù)即可

res = df.join(data1)

pandas中對(duì)特征進(jìn)行硬編碼和onehot編碼的實(shí)現(xiàn)方法

join操作默認(rèn)是根據(jù)index來(lái)進(jìn)行join的,而get_dummies()不會(huì)改變index

關(guān)于“pandas中對(duì)特征進(jìn)行硬編碼和onehot編碼的實(shí)現(xiàn)方法”這篇文章就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,使各位可以學(xué)到更多知識(shí),如果覺(jué)得文章不錯(cuò),請(qǐng)把它分享出去讓更多的人看到。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI