<small id="ur30q"><ul id="ur30q"></ul></small>

<address id="ur30q"></address>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時(shí)！

請點(diǎn)擊重新獲取二維碼

機(jī)器學(xué)習(xí)筆記-決策樹跟分類規(guī)則

發(fā)布時(shí)間：2020-06-19 16:10:43 來源：網(wǎng)絡(luò) 閱讀：2560 作者：simon_wzing 欄目：開發(fā)技術(shù)

決策樹(Decision Tree)

決策樹學(xué)習(xí)，建立一顆樹結(jié)構(gòu)的模型。此模型由一系列邏輯決策構(gòu)成。在此結(jié)構(gòu)中決策點(diǎn)代表某個(gè)屬性上的決策，分支表示決策選擇項(xiàng)，樹的葉子節(jié)點(diǎn)是一系列聯(lián)合決策的結(jié)論。

決策樹通過分而治之（Divide and conquer）方式-遞歸劃分（recurisive partitioning）來建立。在這個(gè)建立過程中，我們從代表所有數(shù)據(jù)的根節(jié)點(diǎn)出發(fā)，選擇通向目標(biāo)分類的特性把樣本拆分成不同的組,如此直至觸及停止標(biāo)準(zhǔn)。有幾類停止標(biāo)準(zhǔn), 節(jié)點(diǎn)上的所有或幾乎所有的樣本都是屬于同一類;沒有特征能對樣本進(jìn)行繼續(xù)分類了;樹已經(jīng)觸及預(yù)定義的大小限制.

建立決策樹面對的第一個(gè)挑戰(zhàn)就是從哪個(gè)特征著手進(jìn)行切分。如果我們切分出來的分段數(shù)據(jù)僅包含一類數(shù)據(jù)，那我們說這個(gè)“一致”（Pure）的。

我們用熵來度量一個(gè)集合的無序程度。度量無序程度還可以用基尼不純度（Gini impurity）。這里我先學(xué)習(xí)了熵。

c

Entropy(S) = Σ -Pi log2(Pi)

i=1

熵計(jì)算公式中各個(gè)部分的意義如下。在一個(gè)分段S上有c個(gè)類層次。Pi是第i個(gè)類層次的占比。

有了一致性衡量的熵，我們就可以來解決如何拆分樣本。這里就得說到信息增益（Information Gain）

InfoGain(F) = Entropy(S1) - Entropy(S2)

信息增益就是樣本拆分前后的熵的差值。拆分后的熵的計(jì)算公式如下：

n

Entropy(S) = Σ wi Entropy(Pi)

i=1

這個(gè)就是拆分后各部分的熵Entropy(Pi)如這一部分在總樣本中所占比的乘積的總和。

信息增益越高表明分拆越有效。

決策樹算法：

a. C5.0

優(yōu)點(diǎn)	缺點(diǎn)
適用于大多數(shù)情況的多用途分類器	模型偏向于具有大量層級的特征
高自動(dòng)化學(xué)習(xí)過程,可以處理數(shù)據(jù)跟名詞性特征以及確實(shí)數(shù)據(jù)	容易過擬合（overfit）與欠擬合（underfit）
只需用到重要特征	由于基于axis-parallel建模一些關(guān)系時(shí)會比較棘手
適用于訓(xùn)練樣本相不少或是很大的情況	訓(xùn)練數(shù)據(jù)小的改變會很大地改變決策邏輯
生成相對小的樹，對樹的解釋不需要大量的數(shù)學(xué)背景。	大的樹難于理解，達(dá)成不直覺的決策。
性比其它復(fù)雜的模型，這個(gè)更有效

在C5.0里我們用熵（entropy）來衡量一致性。熵為0則表示樣本是完全同質(zhì)的。熵值越高則表示越無序。

當(dāng)樹膨脹到一定大小后會導(dǎo)致決策過于特殊化, 得出的模型過擬合?？朔爽F(xiàn)象的做法有pre-pruning跟post-pruning。 pre-pruning就是當(dāng)決策點(diǎn)達(dá)到某個(gè)量時(shí)或者決策節(jié)點(diǎn)中只包含少量樣本是就停止樹的構(gòu)建。pre-pruning無法預(yù)知會不會遺漏掉某些細(xì)微的但是有相當(dāng)重要的模式。

pre-pruning之外的另一個(gè)方法就是post-pruning。當(dāng)樹構(gòu)建的相當(dāng)大后，我們用某些基于誤碼率的修剪標(biāo)準(zhǔn)來修建樹。這個(gè)方式通常比pre-pruning更有效。

在post-pruning的過程有連個(gè)可能的處理，一個(gè)是子樹提升（subtree raising）,還有一個(gè)是子樹置換（subtree replacement）

C5.0很容易通過調(diào)整訓(xùn)練選項(xiàng)來在過擬合跟欠擬合間達(dá)成平衡。

C5.0比C4.5增加了自適應(yīng)增強(qiáng)（adaptive boosting）.前一個(gè)分類器分錯(cuò)的樣本會被用來訓(xùn)練下一個(gè)分類器。AdaBoost方法對于噪聲數(shù)據(jù)和異常數(shù)據(jù)很敏感。但在一些問題中，AdaBoost方法相對于大多數(shù)其它學(xué)習(xí)算法而言，不會很容易出現(xiàn)過擬合現(xiàn)象。AdaBoost方法中使用的分類器可能很弱（比如出現(xiàn)很大錯(cuò)誤率），但只要它的分類效果比隨機(jī)好一點(diǎn)（比如兩類問題分類錯(cuò)誤率略小于0.5），就能夠改善最終得到的模型。而錯(cuò)誤率高于隨機(jī)分類器的弱分類器也是有用的，因?yàn)樵谧罱K得到的多個(gè)分類器的線性組合中，可以給它們賦予負(fù)系數(shù)，同樣也能提升分類效果。

除了自適應(yīng)增強(qiáng)，C5.0還可以提供一個(gè)成本矩陣（cost matrix）來修正模型。

http://sjchen.im.nuu.edu.tw/MachineLearning/final/CLS_DT.pdf

分類規(guī)則（classification rule）

分類規(guī)則表示的是if-else形式的知識,規(guī)則由先導(dǎo)（antecedent）跟后繼（consequence）構(gòu)成一個(gè)假設(shè)。

One rule算法

RIPPER算法（Repeated Incremental Pruning to Produce Error Reduction）

發(fā)展

修剪

優(yōu)化

從決策樹到規(guī)則

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
Java-高性能服務(wù)器架構(gòu)設(shè)計(jì)企業(yè)必備技能之Redis集群詳解
下一篇新聞：
PHP中堆排序的原理和應(yīng)用

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機(jī)網(wǎng)站二維碼

<legend id="atgag"><menu id="atgag"></menu></legend>

<small id="atgag"></small>