溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Python如何利用隨機(jī)森林對(duì)特征重要性計(jì)算評(píng)估

發(fā)布時(shí)間:2021-10-12 10:05:16 來源:億速云 閱讀:527 作者:iii 欄目:開發(fā)技術(shù)

這篇文章主要介紹“Python如何利用隨機(jī)森林對(duì)特征重要性計(jì)算評(píng)估”,在日常操作中,相信很多人在Python如何利用隨機(jī)森林對(duì)特征重要性計(jì)算評(píng)估問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對(duì)大家解答”Python如何利用隨機(jī)森林對(duì)特征重要性計(jì)算評(píng)估”的疑惑有所幫助!接下來,請(qǐng)跟著小編一起來學(xué)習(xí)吧!

目錄
  • 1 前言

  • 2 隨機(jī)森林(RF)簡介

  • 3 特征重要性評(píng)估

  • 4 舉個(gè)例子

1 前言

隨機(jī)森林是以決策樹為基學(xué)習(xí)器的集成學(xué)習(xí)算法。隨機(jī)森林非常簡單,易于實(shí)現(xiàn),計(jì)算開銷也很小,更令人驚奇的是它在分類和回歸上表現(xiàn)出了十分驚人的性能,因此,隨機(jī)森林也被譽(yù)為“代表集成學(xué)習(xí)技術(shù)水平的方法”。

2 隨機(jī)森林(RF)簡介

只要了解決策樹的算法,那么隨機(jī)森林是相當(dāng)容易理解的。隨機(jī)森林的算法可以用如下幾個(gè)步驟概括:

1.用有抽樣放回的方法(bootstrap)從樣本集中選取n個(gè)樣本作為一個(gè)訓(xùn)練集

2.用抽樣得到的樣本集生成一棵決策樹。在生成的每一個(gè)結(jié)點(diǎn):

  •  隨機(jī)不重復(fù)地選擇d個(gè)特征

  • 利用這d個(gè)特征分別對(duì)樣本集進(jìn)行劃分,找到最佳的劃分特征(可用基尼系數(shù)、增益率或者信息增益判別)

3.重復(fù)步驟1到步驟2共k次,k即為隨機(jī)森林中決策樹的個(gè)數(shù)。

4.用訓(xùn)練得到的隨機(jī)森林對(duì)測(cè)試樣本進(jìn)行預(yù)測(cè),并用票選法決定預(yù)測(cè)的結(jié)果。

下圖比較直觀地展示了隨機(jī)森林算法(圖片出自文獻(xiàn)2):

Python如何利用隨機(jī)森林對(duì)特征重要性計(jì)算評(píng)估

圖1:隨機(jī)森林算法示意圖

沒錯(cuò),就是這個(gè)到處都是隨機(jī)取值的算法,在分類和回歸上有著極佳的效果,是不是覺得強(qiáng)的沒法解釋~

然而本文的重點(diǎn)不是這個(gè),而是接下來的特征重要性評(píng)估。

3 特征重要性評(píng)估

現(xiàn)實(shí)情況下,一個(gè)數(shù)據(jù)集中往往有成百上前個(gè)特征,如何在其中選擇比結(jié)果影響最大的那幾個(gè)特征,以此來縮減建立模型時(shí)的特征數(shù)是我們比較關(guān)心的問題。這樣的方法其實(shí)很多,比如主成分分析,lasso等等。不過,這里我們要介紹的是用隨機(jī)森林來對(duì)進(jìn)行特征篩選。

用隨機(jī)森林進(jìn)行特征重要性評(píng)估的思想其實(shí)很簡單,說白了就是看看每個(gè)特征在隨機(jī)森林中的每顆樹上做了多大的貢獻(xiàn),然后取個(gè)平均值,最后比一比特征之間的貢獻(xiàn)大小。

好了,那么這個(gè)貢獻(xiàn)是怎么一個(gè)說法呢?通??梢杂没嶂笖?shù)(Gini index)或者袋外數(shù)據(jù)(OOB)錯(cuò)誤率作為評(píng)價(jià)指標(biāo)來衡量。

我們這里只介紹用基尼指數(shù)來評(píng)價(jià)的方法,想了解另一種方法的可以參考文獻(xiàn)2。

Python如何利用隨機(jī)森林對(duì)特征重要性計(jì)算評(píng)估

Python如何利用隨機(jī)森林對(duì)特征重要性計(jì)算評(píng)估

4 舉個(gè)例子

值得慶幸的是, sklearn已經(jīng)幫我們封裝好了一切,我們只需要調(diào)用其中的函數(shù)即可。

我們以UCI上葡萄酒的例子為例,首先導(dǎo)入數(shù)據(jù)集。

import pandas as pd
url = 'http://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'
df = pd.read_csv(url, header = None)
df.columns = ['Class label', 'Alcohol', 'Malic acid', 'Ash', 
              'Alcalinity of ash', 'Magnesium', 'Total phenols', 
              'Flavanoids', 'Nonflavanoid phenols', 'Proanthocyanins', 
              'Color intensity', 'Hue', 'OD280/OD315 of diluted wines', 'Proline']

然后,我們來大致看下這時(shí)一個(gè)怎么樣的數(shù)據(jù)集

import numpy as np
np.unique(df['Class label'])

輸出為

array([1, 2, 3], dtype=int64)

可見共有3個(gè)類別。然后再來看下數(shù)據(jù)的信息:

df.info()

輸出為

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 178 entries, 0 to 177
Data columns (total 14 columns):
Class label                     178 non-null int64
Alcohol                         178 non-null float64
Malic acid                      178 non-null float64
Ash                             178 non-null float64
Alcalinity of ash               178 non-null float64
Magnesium                       178 non-null int64
Total phenols                   178 non-null float64
Flavanoids                      178 non-null float64
Nonflavanoid phenols            178 non-null float64
Proanthocyanins                 178 non-null float64
Color intensity                 178 non-null float64
Hue                             178 non-null float64
OD280/OD315 of diluted wines    178 non-null float64
Proline                         178 non-null int64
dtypes: float64(11), int64(3)
memory usage: 19.5 KB

可見除去class label之外共有13個(gè)特征,數(shù)據(jù)集的大小為178。

按照常規(guī)做法,將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集。

from sklearn.cross_validation import train_test_split
from sklearn.ensemble import RandomForestClassifier
x, y = df.iloc[:, 1:].values, df.iloc[:, 0].values
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3, random_state = 0)
feat_labels = df.columns[1:]
forest = RandomForestClassifier(n_estimators=10000, random_state=0, n_jobs=-1)
forest.fit(x_train, y_train)

好了,這樣一來隨機(jī)森林就訓(xùn)練好了,其中已經(jīng)把特征的重要性評(píng)估也做好了,我們拿出來看下。

importances = forest.feature_importances_
indices = np.argsort(importances)[::-1]
for f in range(x_train.shape[1]):
    print("%2d) %-*s %f" % (f + 1, 30, feat_labels[indices[f]], importances[indices[f]]))

輸出的結(jié)果為

 1) Color intensity                0.182483
 2) Proline                        0.158610
 3) Flavanoids                     0.150948
 4) OD280/OD315 of diluted wines   0.131987
 5) Alcohol                        0.106589
 6) Hue                            0.078243
 7) Total phenols                  0.060718
 8) Alcalinity of ash              0.032033
 9) Malic acid                     0.025400
10) Proanthocyanins                0.022351
11) Magnesium                      0.022078
12) Nonflavanoid phenols           0.014645
13) Ash                            0.013916

對(duì)的就是這么方便。

如果要篩選出重要性比較高的變量的話,這么做就可以

threshold = 0.15
x_selected = x_train[:, importances > threshold]
x_selected.shape

輸出為

(124, 3)

到此,關(guān)于“Python如何利用隨機(jī)森林對(duì)特征重要性計(jì)算評(píng)估”的學(xué)習(xí)就結(jié)束了,希望能夠解決大家的疑惑。理論與實(shí)踐的搭配能更好的幫助大家學(xué)習(xí),快去試試吧!若想繼續(xù)學(xué)習(xí)更多相關(guān)知識(shí),請(qǐng)繼續(xù)關(guān)注億速云網(wǎng)站,小編會(huì)繼續(xù)努力為大家?guī)砀鄬?shí)用的文章!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI