溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

數(shù)據(jù)挖掘中的樸素貝葉斯算法總結(jié)

發(fā)布時(shí)間:2020-08-03 04:40:56 來源:網(wǎng)絡(luò) 閱讀:1763 作者:1039972866 欄目:開發(fā)技術(shù)

 樸素貝葉斯分類器是基于貝葉斯理論中屬性獨(dú)立假設(shè)而創(chuàng)造的一種算法。算法思路簡(jiǎn)單:只要是哪個(gè)類的后驗(yàn)概率大待測(cè)樣本即為該類別。所謂后驗(yàn)概率就是在給定條件發(fā)生的情況下,該樣本被判定為某個(gè)類別的概率。后驗(yàn)概率P(Y|X)表示在屬性集合X(X1,X2,...,Xn)發(fā)生的條件下Y類別發(fā)生的概率,所以只要計(jì)算這個(gè)概率就行了,問題的關(guān)鍵在于這個(gè)概率該怎么求?

 下面貝葉斯告訴了我們一種方法來求這個(gè)概率:

 P(Y|X) = P(X|Y)P(Y)/P(X),我們稱P(X|Y)為類條件概率密度,P(Y)為先驗(yàn)概率。假設(shè)待測(cè)分類問題是個(gè)二分問題兩個(gè)類別分別為Y1、Y2。所以我們要做的就是求出P(Y1|X)和P(Y2|X)的大小,如果P(Y1|X)>P(Y2|X)則樣本被判為類別Y1,反之亦然。從上面的分析中我們知道P(Y|X)可以利用貝葉斯公式進(jìn)行轉(zhuǎn)化,而且對(duì)于不同的類分母P(X)都是相同的,即只需要比較P(X|Y)P(Y)大小就可以了。

 現(xiàn)在我們需要求兩個(gè)值:1、P(X|Y) 2、P(Y)

 P(X|Y)的求解依賴一個(gè)假設(shè),即假設(shè)屬性之間條件獨(dú)立。用公式表示為:P(X|Y1) =∏P(Xi|Y=Y1) (i = 1,2,...,n)。

 P(Y),可以用數(shù)據(jù)表中的數(shù)據(jù)直接得到。

 舉個(gè)列子:

 數(shù)據(jù)挖掘中的樸素貝葉斯算法總結(jié)

 有了上面這些表格我們就可以很方便的計(jì)算某個(gè)待測(cè)樣本的后驗(yàn)概率了,比如給定一個(gè)樣本X = (有房=否,婚姻狀況=已婚,年收入=120),判定該樣本屬于哪個(gè)類?

 有上面的分析我們只需計(jì)算兩個(gè)概率P(No|X)和P(Yes|X):

 P(No|X)= P(有房=No) * P(婚姻=已婚|No)* P(年收入=120) = 4/7 * 4/7 * 0.0072 = 0.0024

 P (Yes|X) = P(有房=Yes) * P(婚姻=已婚|Yes)* P(年收入=120) = 1 * 0 * 1.2*10e(-9) = 0

 因?yàn)镻(No|X) > P (Yes|X),所以判定樣本屬于類No。

 但是上述計(jì)算過程中有兩個(gè)問題:

 1、對(duì)于零次出現(xiàn)的屬性它的概率怎么處理,因?yàn)槿绻@個(gè)屬性集合如(婚姻=已婚|Yes)沒有出現(xiàn)所以導(dǎo)致任何出現(xiàn)包含該集合的屬性集的后驗(yàn)概率一律為零,顯然這是不合理的。

 2、對(duì)于屬性集中的連續(xù)屬性如何求它的概率(如上面的年收入)?

 對(duì)第一個(gè)問題我們采用拉普拉斯平滑(也稱加一平滑)方法也即對(duì)每個(gè)屬性組合的頻數(shù)都加一之后再求他的概率,如下所示

    數(shù)據(jù)挖掘中的樸素貝葉斯算法總結(jié)

 對(duì)第二個(gè)問題我們可以用分布估計(jì)的方法來處理,如上對(duì)于年收入屬性我們可以假設(shè)它符合高斯分布,我么可以用如下的公式估計(jì)參數(shù):

 數(shù)據(jù)挖掘中的樸素貝葉斯算法總結(jié)

 得到最后一個(gè)公式之后就可以計(jì)算相應(yīng)給定樣本的概率了。

 樸素貝葉斯分類器的特點(diǎn):

 1、抗干擾能力強(qiáng),對(duì)鼓勵(lì)的噪聲點(diǎn)健壯,因?yàn)樗谇蟾怕实倪^程中將噪聲平均化;

 2、面對(duì)無關(guān)屬性,分類器健壯,因?yàn)轭悧l件概率不會(huì)對(duì)后驗(yàn)概率計(jì)算產(chǎn)生影響;

 3、相關(guān)屬性會(huì)降低分類器性能,因?yàn)闂l件獨(dú)立假設(shè)此時(shí)不成

 需要總結(jié)的大概就是這么多,歡迎批評(píng)指正!


向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI