溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

大數(shù)據(jù)中從概念到應(yīng)用理解決策樹的示例分析

發(fā)布時間:2021-12-06 15:31:35 來源:億速云 閱讀:198 作者:柒染 欄目:大數(shù)據(jù)

這篇文章將為大家詳細講解有關(guān)大數(shù)據(jù)中從概念到應(yīng)用理解決策樹的示例分析,文章內(nèi)容質(zhì)量較高,因此小編分享給大家做個參考,希望大家閱讀完這篇文章后對相關(guān)知識有一定的了解。

盡管決策樹在機器學(xué)習(xí)中的使用已經(jīng)存在了一段時間,但該技術(shù)仍然強大且受歡迎。向您展示如何構(gòu)建決策樹,計算重要的分析參數(shù)以及繪制結(jié)果樹。

大數(shù)據(jù)中從概念到應(yīng)用理解決策樹的示例分析

決策樹是我學(xué)到的流行且功能強大的機器學(xué)習(xí)算法之一。這是一種非參數(shù)監(jiān)督學(xué)習(xí)方法,可用于分類和回歸任務(wù)。目的是創(chuàng)建一個模型,該模型通過學(xué)習(xí)從數(shù)據(jù)特征推斷出的簡單決策規(guī)則來預(yù)測目標變量的值。對于分類模型,目標值本質(zhì)上是離散的,而對于回歸模型,目標值由連續(xù)值表示。與黑盒算法(例如神經(jīng)網(wǎng)絡(luò))不同, 決策樹 比較容易理解,因為它共享內(nèi)部決策邏輯(您將在下一節(jié)中找到詳細信息)。

盡管許多數(shù)據(jù)科學(xué)家認為這是一種舊方法,但由于過度擬合的問題,他們可能對其準確性有所懷疑,但最近的基于樹的模型(例如,隨機森林(裝袋法),梯度增強(提升方法) )和XGBoost(增強方法)建立在決策樹算法的頂部。因此,決策樹 背后的概念和算法 非常值得理解!

決策樹算法有4種流行類型:  ID3,  CART(分類樹和回歸樹), 卡方和 方差減少。

在此文章中,我將僅關(guān)注分類樹以及ID3和CART的說明。

想象一下,您每個星期日都打網(wǎng)球,并且每次都邀請您最好的朋友克萊爾(Clare)陪伴您??巳R爾有時會加入,但有時不會。對她而言,這取決于許多因素,例如天氣,溫度,濕度和風。我想使用下面的數(shù)據(jù)集來預(yù)測克萊爾是否會和我一起打網(wǎng)球。一種直觀的方法是通過決策樹。

大數(shù)據(jù)中從概念到應(yīng)用理解決策樹的示例分析

大數(shù)據(jù)中從概念到應(yīng)用理解決策樹的示例分析

在此 決策樹 圖中,我們具有:

  1. 根節(jié)點:決定整個總體或樣本數(shù)據(jù)的第一個拆分應(yīng)進一步分為兩個或更多同構(gòu)集合。在我們的例子中,是Outlook節(jié)點。

  2. 拆分:這是將一個節(jié)點分為兩個或多個子節(jié)點的過程。

  3. 決策節(jié)點:該節(jié)點決定是否/何時將一個子節(jié)點拆分為其他子節(jié)點。在這里,我們有Outlook節(jié)點,Humidity節(jié)點和Windy節(jié)點。

  4. 葉子:預(yù)測結(jié)果(分類或連續(xù)值)的終端節(jié)點。有色節(jié)點(即“是”和“否”節(jié)點)是葉子。

問題:基于哪個屬性(功能)進行拆分?最佳分割是什么?

答:使用具有最高的屬性 信息增益  基尼增益

ID3(迭代二分法)

ID3決策樹算法使用信息增益來確定分裂點。為了衡量我們獲得了多少信息,我們可以使用 熵 來計算樣本的同質(zhì)性。

問題:什么是“熵”?它的功能是什么?

答:這是對數(shù)據(jù)集中不確定性量的度量。 熵控制決策樹如何決定拆分 數(shù)據(jù)。它實際上影響決策樹如何  繪制邊界。

熵方程:

大數(shù)據(jù)中從概念到應(yīng)用理解決策樹的示例分析

大數(shù)據(jù)中從概念到應(yīng)用理解決策樹的示例分析

定義:決策樹中的熵代表同質(zhì)性。

如果樣本是完全均勻的,則熵為0(概率= 0或1),并且如果樣本均勻地分布在各個類別中,則其熵為1(概率= 0.5)。

下一步是進行拆分,以最大程度地減少熵。我們使用 信息增益 來確定最佳拆分。

讓我向您展示在打網(wǎng)球的情況下如何逐步計算信息增益。在這里,我僅向您展示如何計算Outlook的信息增益和熵。

步驟1:計算一個屬性的熵—預(yù)測:克萊爾將打網(wǎng)球/克萊爾將不打網(wǎng)球

在此示例中,我將使用此列聯(lián)表來計算目標變量的熵:已播放?(是/否)。有14個觀測值(10個“是”和4個“否”)。'是'的概率(p)為0.71428(10/14),'否'的概率為0.28571(4/14)。然后,您可以使用上面的公式計算目標變量的熵。

大數(shù)據(jù)中從概念到應(yīng)用理解決策樹的示例分析

步驟2:使用列聯(lián)表計算每個特征的熵

為了說明這一點,我以O(shè)utlook為例,說明如何計算其熵。共有14個觀測值。匯總各行,我們可以看到其中5個屬于Sunny,4個屬于陰雨,還有5個屬于Rainy。因此,我們可以找到晴天,陰天和多雨的概率,然后使用上述公式逐一計算它們的熵。計算步驟如下所示。

大數(shù)據(jù)中從概念到應(yīng)用理解決策樹的示例分析

計算特征2(Outlook)的熵的示例。

定義:信息增益 是節(jié)點分裂時熵值的減少或增加。

信息增益方程式:

大數(shù)據(jù)中從概念到應(yīng)用理解決策樹的示例分析

XY上獲得的信息

大數(shù)據(jù)中從概念到應(yīng)用理解決策樹的示例分析

大數(shù)據(jù)中從概念到應(yīng)用理解決策樹的示例分析

sklearn.tree。DecisionTreeClassifier:  “熵”表示獲取信息

為了可視化如何使用信息增益構(gòu)建決策樹 ,我僅應(yīng)用了sklearn.tree。DecisionTreeClassifier 生成圖。

步驟3:選擇信息增益最大的屬性  作為根節(jié)點

“濕度”的信息增益最高,為0.918。濕度是根節(jié)點。

步驟4: 熵為0的分支是葉節(jié)點,而熵大于0的分支需要進一步拆分。

步驟5:以ID3算法遞歸地增長節(jié)點,直到對所有數(shù)據(jù)進行分類。

您可能聽說過C4.5算法,對ID3的改進使用了“ 增益比” 作為信息增益的擴展。使用增益比的優(yōu)點是通過使用Split Info標準化信息增益來處理偏差問題。在這里我不會詳細介紹C4.5。有關(guān)更多信息,請在此處簽出  (DataCamp)。

CART(分類和回歸樹)

CART的另一種決策樹算法使用 Gini方法 創(chuàng)建分割點,包括Gini索引(Gini雜質(zhì))和Gini增益。

基尼系數(shù)的定義:通過隨機選擇標簽將錯誤的標簽分配給樣品的概率,也用于測量樹中特征的重要性。

大數(shù)據(jù)中從概念到應(yīng)用理解決策樹的示例分析

大數(shù)據(jù)中從概念到應(yīng)用理解決策樹的示例分析

在為每個屬性計算Gini增益后,創(chuàng)建sklearn.tree。DecisionTreeClassifier 將選擇具有最大Gini增益的屬性  作為根節(jié)點。 甲 以0基尼分支是葉節(jié)點,而具有基尼分支大于0需要進一步分裂。遞歸地增長節(jié)點,直到對所有數(shù)據(jù)進行分類為止(請參見下面的詳細信息)。

如前所述,CART還可以使用不同的分割標準來處理回歸問題:確定分割點的均方誤差(MSE)?;貧w樹的輸出變量是數(shù)字變量,輸入變量允許連續(xù)變量和分類變量混合使用。您可以通過DataCamp查看有關(guān)回歸樹的更多信息 。

大!您現(xiàn)在應(yīng)該了解如何計算熵,信息增益,基尼系數(shù)和基尼增益!

問題:那么……我應(yīng)該使用哪個?基尼系數(shù)還是熵?

答:通常,結(jié)果應(yīng)該是相同的……我個人更喜歡基尼指數(shù),因為它不涉及計算量更大的 日志 。但是為什么不都嘗試。

讓我以表格形式總結(jié)一下!

大數(shù)據(jù)中從概念到應(yīng)用理解決策樹的示例分析

使用Scikit Learn構(gòu)建決策樹

Scikit Learn 是針對Python編程語言的免費軟件機器學(xué)習(xí)庫。

步驟1:導(dǎo)入數(shù)據(jù)

大數(shù)據(jù)中從概念到應(yīng)用理解決策樹的示例分析

步驟2:將分類變量轉(zhuǎn)換為虛擬變量/指標變量

大數(shù)據(jù)中從概念到應(yīng)用理解決策樹的示例分析

大數(shù)據(jù)中從概念到應(yīng)用理解決策樹的示例分析

“溫度”,“ Outlook”和“風”的類別變量都轉(zhuǎn)換為虛擬變量。

步驟3:將訓(xùn)練集和測試集分開

大數(shù)據(jù)中從概念到應(yīng)用理解決策樹的示例分析

第4步:通過Sklean導(dǎo)入決策樹分類器

大數(shù)據(jù)中從概念到應(yīng)用理解決策樹的示例分析

步驟5:可視化決策樹圖

大數(shù)據(jù)中從概念到應(yīng)用理解決策樹的示例分析

大數(shù)據(jù)中從概念到應(yīng)用理解決策樹的示例分析

有關(guān)代碼和數(shù)據(jù)集,請點擊此處查看。

大數(shù)據(jù)中從概念到應(yīng)用理解決策樹的示例分析

為了提高模型性能(超參數(shù)優(yōu)化),應(yīng)調(diào)整超參數(shù)。有關(guān)更多詳細信息,請在 此處查看。

決策樹的主要缺點是過擬合,尤其是當樹特別深時。幸運的是,最近的基于樹的模型(包括隨機森林和XGBoost)建立在決策樹算法的頂部,并且它們通常具有強大的建模技術(shù),并且比單個決策樹更具動態(tài)性,因此性能更好。因此,了解背后的概念和算法 決策樹 完全 是構(gòu)建學(xué)習(xí)數(shù)據(jù)科學(xué)和機器學(xué)習(xí)打下良好的基礎(chǔ)超級有用。

關(guān)于大數(shù)據(jù)中從概念到應(yīng)用理解決策樹的示例分析就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,可以學(xué)到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI