您好,登錄后才能下訂單哦!
樸素貝葉斯分類器是基于貝葉斯理論中屬性獨(dú)立假設(shè)而創(chuàng)造的一種算法。算法思路簡(jiǎn)單:只要是哪個(gè)類的后驗(yàn)概率大待測(cè)樣本即為該類別。所謂后驗(yàn)概率就是在給定條件發(fā)生的情況下,該樣本被判定為某個(gè)類別的概率。后驗(yàn)概率P(Y|X)表示在屬性集合X(X1,X2,...,Xn)發(fā)生的條件下Y類別發(fā)生的概率,所以只要計(jì)算這個(gè)概率就行了,問題的關(guān)鍵在于這個(gè)概率該怎么求?
下面貝葉斯告訴了我們一種方法來求這個(gè)概率:
P(Y|X) = P(X|Y)P(Y)/P(X),我們稱P(X|Y)為類條件概率密度,P(Y)為先驗(yàn)概率。假設(shè)待測(cè)分類問題是個(gè)二分問題兩個(gè)類別分別為Y1、Y2。所以我們要做的就是求出P(Y1|X)和P(Y2|X)的大小,如果P(Y1|X)>P(Y2|X)則樣本被判為類別Y1,反之亦然。從上面的分析中我們知道P(Y|X)可以利用貝葉斯公式進(jìn)行轉(zhuǎn)化,而且對(duì)于不同的類分母P(X)都是相同的,即只需要比較P(X|Y)P(Y)大小就可以了。
現(xiàn)在我們需要求兩個(gè)值:1、P(X|Y) 2、P(Y)
P(X|Y)的求解依賴一個(gè)假設(shè),即假設(shè)屬性之間條件獨(dú)立。用公式表示為:P(X|Y1) =∏P(Xi|Y=Y1) (i = 1,2,...,n)。
P(Y),可以用數(shù)據(jù)表中的數(shù)據(jù)直接得到。
舉個(gè)列子:
有了上面這些表格我們就可以很方便的計(jì)算某個(gè)待測(cè)樣本的后驗(yàn)概率了,比如給定一個(gè)樣本X = (有房=否,婚姻狀況=已婚,年收入=120),判定該樣本屬于哪個(gè)類?
有上面的分析我們只需計(jì)算兩個(gè)概率P(No|X)和P(Yes|X):
P(No|X)= P(有房=No) * P(婚姻=已婚|No)* P(年收入=120) = 4/7 * 4/7 * 0.0072 = 0.0024
P (Yes|X) = P(有房=Yes) * P(婚姻=已婚|Yes)* P(年收入=120) = 1 * 0 * 1.2*10e(-9) = 0
因?yàn)镻(No|X) > P (Yes|X),所以判定樣本屬于類No。
但是上述計(jì)算過程中有兩個(gè)問題:
1、對(duì)于零次出現(xiàn)的屬性它的概率怎么處理,因?yàn)槿绻@個(gè)屬性集合如(婚姻=已婚|Yes)沒有出現(xiàn)所以導(dǎo)致任何出現(xiàn)包含該集合的屬性集的后驗(yàn)概率一律為零,顯然這是不合理的。
2、對(duì)于屬性集中的連續(xù)屬性如何求它的概率(如上面的年收入)?
對(duì)第一個(gè)問題我們采用拉普拉斯平滑(也稱加一平滑)方法,也即對(duì)每個(gè)屬性組合的頻數(shù)都加一之后再求他的概率,如下所示
對(duì)第二個(gè)問題我們可以用分布估計(jì)的方法來處理,如上對(duì)于年收入屬性我們可以假設(shè)它符合高斯分布,我么可以用如下的公式估計(jì)參數(shù):
得到最后一個(gè)公式之后就可以計(jì)算相應(yīng)給定樣本的概率了。
樸素貝葉斯分類器的特點(diǎn):
1、抗干擾能力強(qiáng),對(duì)鼓勵(lì)的噪聲點(diǎn)健壯,因?yàn)樗谇蟾怕实倪^程中將噪聲平均化;
2、面對(duì)無關(guān)屬性,分類器健壯,因?yàn)轭悧l件概率不會(huì)對(duì)后驗(yàn)概率計(jì)算產(chǎn)生影響;
3、相關(guān)屬性會(huì)降低分類器性能,因?yàn)闂l件獨(dú)立假設(shè)此時(shí)不成
需要總結(jié)的大概就是這么多,歡迎批評(píng)指正!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。