溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

pandas數(shù)據(jù)處理之標(biāo)簽列字符轉(zhuǎn)數(shù)字的實現(xiàn)

發(fā)布時間:2021-03-18 14:38:29 來源:億速云 閱讀:739 作者:小新 欄目:開發(fā)技術(shù)

這篇文章主要介紹pandas數(shù)據(jù)處理之標(biāo)簽列字符轉(zhuǎn)數(shù)字的實現(xiàn),文中介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們一定要看完!

機器學(xué)習(xí)中,當(dāng)我們在進行數(shù)據(jù)預(yù)處理的時候,對于標(biāo)簽列非字符的數(shù)據(jù),我們往往需要將其轉(zhuǎn)換成字符,因為有的算法可能不支持非數(shù)字類型來做特征。

1.構(gòu)建測試數(shù)據(jù)

import pandas as pd
array = ['good','bad','well','bad','good','good','well','good']

2.數(shù)據(jù)轉(zhuǎn)換下,并獲取標(biāo)簽列的字典

df = pd.DataFrame(array,columns=['status'])
status_dict = df['status'].unique().tolist()

pandas數(shù)據(jù)處理之標(biāo)簽列字符轉(zhuǎn)數(shù)字的實現(xiàn)

3.使用函數(shù)進行轉(zhuǎn)換

df['transfromed']=df['status'].apply(lambda x : status_dict.index(x))

pandas數(shù)據(jù)處理之標(biāo)簽列字符轉(zhuǎn)數(shù)字的實現(xiàn)

這樣,就將標(biāo)簽列處理好了哈

等用完之后,再轉(zhuǎn)回來

df['transfromed1']= df['transfromed'].apply(lambda x : status_dict[x])

pandas數(shù)據(jù)處理之標(biāo)簽列字符轉(zhuǎn)數(shù)字的實現(xiàn)

補充:pandas factorize將字符串特征轉(zhuǎn)化為數(shù)字特征

將原始數(shù)據(jù)中的字符串特征轉(zhuǎn)化為模型可以識別的數(shù)字特征可是使用pandas自帶的factorzie方法。

原始數(shù)據(jù)的job特征值如下

pandas數(shù)據(jù)處理之標(biāo)簽列字符轉(zhuǎn)數(shù)字的實現(xiàn)

都是字符串特征,無法用于訓(xùn)練,當(dāng)然可以單獨建立map硬編碼處理,但是pandas已經(jīng)封裝好了相應(yīng)的方法。

data = pd.read_csv("data/test_set.csv")
data["job"] = pd.factorize(data["job"])[0].astype(np.uint16)

pandas數(shù)據(jù)處理之標(biāo)簽列字符轉(zhuǎn)數(shù)字的實現(xiàn)

以上是“pandas數(shù)據(jù)處理之標(biāo)簽列字符轉(zhuǎn)數(shù)字的實現(xiàn)”這篇文章的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對大家有幫助,更多相關(guān)知識,歡迎關(guān)注億速云行業(yè)資訊頻道!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI