溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

利用算法識別車?yán)遄优c櫻桃

發(fā)布時間:2020-05-08 00:04:54 來源:網(wǎng)絡(luò) 閱讀:463 作者:博文視點 欄目:開發(fā)技術(shù)

引言:樸素貝葉斯分類器作為基礎(chǔ)的分類算法,早在基礎(chǔ)數(shù)學(xué)時期就已經(jīng)被使用,目前在各行各業(yè)中更是被廣泛使用。近幾年車?yán)遄釉谥袊貐^(qū)賣得火熱,面對車?yán)遄雍蜋烟?,很多老百姓很難分清楚,那么算法能幫我們區(qū)分嗎? 
本文選自《大數(shù)據(jù)時代的算法:機(jī)器學(xué)習(xí)、人工智能及其典型實例》。

利用算法識別車?yán)遄优c櫻桃
  車?yán)遄邮菣烟覇??它們有區(qū)別是什么呢?通過在水果市場采集,獲得了一些關(guān)于車?yán)遄雍蜋烟业南嚓P(guān)特征數(shù)據(jù)。 
利用算法識別車?yán)遄优c櫻桃
  通過現(xiàn)有的車?yán)遄雍蜋烟业臄?shù)據(jù),在包含車?yán)遄雍蜋烟业幕旌纤?,隨機(jī)給一個車?yán)遄踊蛘邫烟遥R別它是櫻桃或者車?yán)遄拥目赡苄阅膫€大? 本文我們將用樸素貝葉斯(Naive Beyesian)來解決這個問題,但在開始之前我們來簡單了解下一些相關(guān)知識。

貝葉斯定理

  樸素貝葉斯是以貝葉斯定理為基礎(chǔ)的概率分類模型。貝葉斯定理是概率論中的一個定理,它跟隨機(jī)變量的條件概率及邊緣概率分布有關(guān)。在有些關(guān)于概率的解說中,貝葉斯定理能夠告知我們?nèi)绾卫眯伦C據(jù)修改已有的看法。這個名稱來自于托馬斯·貝葉斯。 
  通常,事件A在事件B(發(fā)生)的條件下的概率與事件B在事件A的條件下的概率是不一樣的;然而,這兩者有著確定的關(guān)系,貝葉斯定理就是對這種關(guān)系的表示。貝葉斯公式定義在事件B出現(xiàn)的前提下,事件A出現(xiàn)的概率等于事件A出現(xiàn)的前提下事件B發(fā)生的概率乘以時間A出現(xiàn)的概率再除以時間B出現(xiàn)的概率。通過聯(lián)系事件A與事件B,計算從一個事件產(chǎn)生另一事件的概率,即從結(jié)果上溯原。因此,貝葉斯定理公式如下所示: 
利用算法識別車?yán)遄优c櫻桃

  在理解貝葉斯定理的基礎(chǔ)上,可以較好地理解基于樸素貝葉斯的分類模型。信息分類是信息處理中最基本的模塊,每一段信息無論長或短,都由若干特征組成,因此可以將所有特征視為一個向量集W=(w1,w2,w3,…,wn),其中wi即表示其中第i個特征。而信息的分類也可以視為一個分類標(biāo)記的集合C={c1,c2,c3,…,cm}。在進(jìn)行特征學(xué)習(xí)之前,特征wi與分類標(biāo)記cj的關(guān)系不是確定值,因此需要提前計算P(C|W),也就是在特征wi出現(xiàn)的情況下,信息屬于分類標(biāo)記C的概率,可根據(jù)貝葉斯計算,公式如下: 
利用算法識別車?yán)遄优c櫻桃

  因此,可以從信息分類的角度理解貝葉斯公式,即表示為:在特征wi出現(xiàn)的情況下是否是特征類別cj取決于在特征分類標(biāo)記cj情況下特征wi出現(xiàn)的概率以及wi在所有特征中出現(xiàn)的概率。P(W)的意義在于如果這個特征在所有信息中出現(xiàn),那么用特征wi去判定是否屬于分類標(biāo)識cj的概率越低,越不具備代表性。

車?yán)遄优c櫻桃問題的解決

  樸素貝葉斯是一種有監(jiān)督的學(xué)習(xí)方式,可以利用伯努利模型(Bernoulli Model)以文件為粒度進(jìn)行文本分類。 
(有監(jiān)督學(xué)習(xí)是有監(jiān)督分類的實質(zhì),有監(jiān)督分類是指根據(jù)已有的訓(xùn)練集提供的樣本,通過不斷計算,從樣本中學(xué)習(xí)選擇特征參數(shù),對分類器建立判別函數(shù)以對被識別的樣本進(jìn)行分類。有監(jiān)督分類方式可以有效利用先驗數(shù)據(jù),對后驗數(shù)據(jù)進(jìn)行校驗,但是缺點也比較明顯。首先,訓(xùn)練數(shù)據(jù)是人為收集,具有一定的主觀性,并且人為收集數(shù)據(jù)也會導(dǎo)致花費一定的人力成本;其次,最終分類器分類的結(jié)果中,分類結(jié)果只可能是訓(xùn)練數(shù)據(jù)中的分類類型,不會產(chǎn)生新的類型。) 
假設(shè)訓(xùn)練集樣本的特征滿足高斯分布,得到下表。 
利用算法識別車?yán)遄优c櫻桃

  我們認(rèn)為兩種類別是等概率的,也就是P(車?yán)遄?=P(櫻桃)=0.5。概率密度函數(shù)如下: 
利用算法識別車?yán)遄优c櫻桃

  驗證過程先給出一個待確定屬于車?yán)遄舆€是櫻桃的測試樣本,見下表。 
利用算法識別車?yán)遄优c櫻桃

  驗證的標(biāo)準(zhǔn)則是:得到的樣本屬于櫻桃還是車?yán)遄拥暮篁灨怕蚀笳摺?nbsp;
利用算法識別車?yán)遄优c櫻桃

  上述式子用于求取車?yán)遄拥暮篁灨怕剩?nbsp;
利用算法識別車?yán)遄优c櫻桃

  上式用于求取櫻桃的后驗概率。證據(jù)因子evidence(通常是常數(shù))用來對各類的后驗概率之和進(jìn)行歸一化。 
利用算法識別車?yán)遄优c櫻桃

  證據(jù)因子是一個常數(shù)(在高斯分布中通常是一個常數(shù)),所以可以忽略,只需計算后驗概率式子中的分子即可。接下來通過樣本的特征值來判別樣本所屬的類別。 
利用算法識別車?yán)遄优c櫻桃

  其中,μ=0.8,α=0.018257419,二者均為訓(xùn)練集樣本的高斯分布參數(shù)。注意,這里計算的是概率密度而不是概率。 
利用算法識別車?yán)遄优c櫻桃

  通過上述計算可以看出,車?yán)遄拥暮篁灨怕史肿虞^大,由此可以預(yù)計這個樣本屬于車?yán)遄拥目赡苄暂^大。 
  本文選自《大數(shù)據(jù)時代的算法:機(jī)器學(xué)習(xí)、人工智能及其典型實例》,點此鏈接可在博文視點官網(wǎng)查看此書。 
                     利用算法識別車?yán)遄优c櫻桃

  想及時獲得更多精彩文章,可在微信中搜索“博文視點”或者掃描下方二維碼并關(guān)注。
                    利用算法識別車?yán)遄优c櫻桃


向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI