您好,登錄后才能下訂單哦!
引言:樸素貝葉斯分類器作為基礎(chǔ)的分類算法,早在基礎(chǔ)數(shù)學(xué)時期就已經(jīng)被使用,目前在各行各業(yè)中更是被廣泛使用。近幾年車?yán)遄釉谥袊貐^(qū)賣得火熱,面對車?yán)遄雍蜋烟?,很多老百姓很難分清楚,那么算法能幫我們區(qū)分嗎?
本文選自《大數(shù)據(jù)時代的算法:機(jī)器學(xué)習(xí)、人工智能及其典型實例》。
車?yán)遄邮菣烟覇??它們有區(qū)別是什么呢?通過在水果市場采集,獲得了一些關(guān)于車?yán)遄雍蜋烟业南嚓P(guān)特征數(shù)據(jù)。
通過現(xiàn)有的車?yán)遄雍蜋烟业臄?shù)據(jù),在包含車?yán)遄雍蜋烟业幕旌纤?,隨機(jī)給一個車?yán)遄踊蛘邫烟遥R別它是櫻桃或者車?yán)遄拥目赡苄阅膫€大? 本文我們將用樸素貝葉斯(Naive Beyesian)來解決這個問題,但在開始之前我們來簡單了解下一些相關(guān)知識。
樸素貝葉斯是以貝葉斯定理為基礎(chǔ)的概率分類模型。貝葉斯定理是概率論中的一個定理,它跟隨機(jī)變量的條件概率及邊緣概率分布有關(guān)。在有些關(guān)于概率的解說中,貝葉斯定理能夠告知我們?nèi)绾卫眯伦C據(jù)修改已有的看法。這個名稱來自于托馬斯·貝葉斯。
通常,事件A在事件B(發(fā)生)的條件下的概率與事件B在事件A的條件下的概率是不一樣的;然而,這兩者有著確定的關(guān)系,貝葉斯定理就是對這種關(guān)系的表示。貝葉斯公式定義在事件B出現(xiàn)的前提下,事件A出現(xiàn)的概率等于事件A出現(xiàn)的前提下事件B發(fā)生的概率乘以時間A出現(xiàn)的概率再除以時間B出現(xiàn)的概率。通過聯(lián)系事件A與事件B,計算從一個事件產(chǎn)生另一事件的概率,即從結(jié)果上溯原。因此,貝葉斯定理公式如下所示:
在理解貝葉斯定理的基礎(chǔ)上,可以較好地理解基于樸素貝葉斯的分類模型。信息分類是信息處理中最基本的模塊,每一段信息無論長或短,都由若干特征組成,因此可以將所有特征視為一個向量集W=(w1,w2,w3,…,wn),其中wi即表示其中第i個特征。而信息的分類也可以視為一個分類標(biāo)記的集合C={c1,c2,c3,…,cm}。在進(jìn)行特征學(xué)習(xí)之前,特征wi與分類標(biāo)記cj的關(guān)系不是確定值,因此需要提前計算P(C|W),也就是在特征wi出現(xiàn)的情況下,信息屬于分類標(biāo)記C的概率,可根據(jù)貝葉斯計算,公式如下:
因此,可以從信息分類的角度理解貝葉斯公式,即表示為:在特征wi出現(xiàn)的情況下是否是特征類別cj取決于在特征分類標(biāo)記cj情況下特征wi出現(xiàn)的概率以及wi在所有特征中出現(xiàn)的概率。P(W)的意義在于如果這個特征在所有信息中出現(xiàn),那么用特征wi去判定是否屬于分類標(biāo)識cj的概率越低,越不具備代表性。
樸素貝葉斯是一種有監(jiān)督的學(xué)習(xí)方式,可以利用伯努利模型(Bernoulli Model)以文件為粒度進(jìn)行文本分類。
(有監(jiān)督學(xué)習(xí)是有監(jiān)督分類的實質(zhì),有監(jiān)督分類是指根據(jù)已有的訓(xùn)練集提供的樣本,通過不斷計算,從樣本中學(xué)習(xí)選擇特征參數(shù),對分類器建立判別函數(shù)以對被識別的樣本進(jìn)行分類。有監(jiān)督分類方式可以有效利用先驗數(shù)據(jù),對后驗數(shù)據(jù)進(jìn)行校驗,但是缺點也比較明顯。首先,訓(xùn)練數(shù)據(jù)是人為收集,具有一定的主觀性,并且人為收集數(shù)據(jù)也會導(dǎo)致花費一定的人力成本;其次,最終分類器分類的結(jié)果中,分類結(jié)果只可能是訓(xùn)練數(shù)據(jù)中的分類類型,不會產(chǎn)生新的類型。)
假設(shè)訓(xùn)練集樣本的特征滿足高斯分布,得到下表。
我們認(rèn)為兩種類別是等概率的,也就是P(車?yán)遄?=P(櫻桃)=0.5。概率密度函數(shù)如下:
驗證過程先給出一個待確定屬于車?yán)遄舆€是櫻桃的測試樣本,見下表。
驗證的標(biāo)準(zhǔn)則是:得到的樣本屬于櫻桃還是車?yán)遄拥暮篁灨怕蚀笳摺?nbsp;
上述式子用于求取車?yán)遄拥暮篁灨怕剩?nbsp;
上式用于求取櫻桃的后驗概率。證據(jù)因子evidence(通常是常數(shù))用來對各類的后驗概率之和進(jìn)行歸一化。
證據(jù)因子是一個常數(shù)(在高斯分布中通常是一個常數(shù)),所以可以忽略,只需計算后驗概率式子中的分子即可。接下來通過樣本的特征值來判別樣本所屬的類別。
其中,μ=0.8,α=0.018257419,二者均為訓(xùn)練集樣本的高斯分布參數(shù)。注意,這里計算的是概率密度而不是概率。
通過上述計算可以看出,車?yán)遄拥暮篁灨怕史肿虞^大,由此可以預(yù)計這個樣本屬于車?yán)遄拥目赡苄暂^大。
本文選自《大數(shù)據(jù)時代的算法:機(jī)器學(xué)習(xí)、人工智能及其典型實例》,點此鏈接可在博文視點官網(wǎng)查看此書。
想及時獲得更多精彩文章,可在微信中搜索“博文視點”或者掃描下方二維碼并關(guān)注。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。