您好,登錄后才能下訂單哦!
這篇文章主要介紹“機器學(xué)習(xí)樸素貝葉斯分類器原理是什么”的相關(guān)知識,小編通過實際案例向大家展示操作過程,操作方法簡單快捷,實用性強,希望這篇“機器學(xué)習(xí)樸素貝葉斯分類器原理是什么”文章能幫助大家解決問題。
什么是分類器?
分類器是一種機器學(xué)習(xí)模型,用于基于某些特征來區(qū)分不同的對象。
樸素貝葉斯分類器的原理:
樸素貝葉斯分類器是一種概率性機器學(xué)習(xí)模型,用于分類任務(wù)。分類器基于貝葉斯定理。
貝葉斯定理:
使用貝葉斯定理,我們可以找到已知B發(fā)生,A發(fā)生的可能性。在這里,B是證據(jù),A是假設(shè)。這里所做的假設(shè)是預(yù)測變量/特征是獨立的。也就是說,一個特定功能的存在不會影響其他功能。因此,它被稱為樸素。
例如:
讓我們以一個例子來獲得更好的直覺??紤]打高爾夫球的問題。數(shù)據(jù)集如下所示。
根據(jù)一天的特點,我們對一天是否適合打高爾夫球進行分類。列代表這些功能,行代表各個條目。如果我們?nèi)?shù)據(jù)集的第一行,則可以觀察到如果前景多雨,溫度高,濕度高且不大風(fēng),則不適合打高爾夫球。我們在此做出兩個假設(shè),如上所述,我們認(rèn)為這些預(yù)測變量是獨立的。即,如果溫度高,則不一定表示濕度高。這里所做的另一個假設(shè)是,所有預(yù)測變量對結(jié)果的影響均等。即,有風(fēng)的日子在決定是否打高爾夫球方面沒有更多的重要性。
根據(jù)此示例,貝葉斯定理可以重寫為:
變量y是類別變量(打高爾夫球),它表示是否適合打高爾夫球或沒有給定條件。變量X代表參數(shù)/特征。
X給出為:
這里的x_1,x_2….x_n代表這些特征,即可以將它們映射到外觀,溫度,濕度和大風(fēng)。通過替換X并使用鏈?zhǔn)揭?guī)則擴展,我們得到:
現(xiàn)在,您可以通過查看數(shù)據(jù)集并將其替換為方程式來獲取每個值。對于數(shù)據(jù)集中的所有條目,分母不會更改,而是保持不變。因此,可以去除分母并且可以引入比例。
在我們的例子中,類變量(y)只有兩個結(jié)果,是或否。在某些情況下,分類可能是多元的。因此,我們需要找到概率最大的y類。
使用上面的函數(shù),我們可以得到給定預(yù)測變量的類。
樸素貝葉斯分類器的類型:
多項式樸素貝葉斯:
這主要用于文檔分類問題,即文檔是否屬于體育,政治,技術(shù)等類別。分類器使用的特征/預(yù)測詞是文檔中出現(xiàn)的單詞的頻率。
伯努利·樸素貝葉斯:
這類似于多項式樸素貝葉斯,但預(yù)測變量是布爾變量。 我們用于預(yù)測類變量的參數(shù)僅采用yes或no值,例如,是否在文本中出現(xiàn)單詞。
高斯樸素貝葉斯:
當(dāng)預(yù)測變量采用連續(xù)值并且不是離散值時,我們假定這些值是從高斯分布中采樣的。
高斯分布(正態(tài)分布)
由于值在數(shù)據(jù)集中的顯示方式發(fā)生了變化,因此條件概率公式變?yōu)椋?/p>
結(jié)論:
樸素貝葉斯算法主要用于情感分析(NLP問題),垃圾郵件過濾,推薦系統(tǒng)等。它們快速,易于實現(xiàn),但最大的缺點是預(yù)測變量要求獨立。在大多數(shù)現(xiàn)實生活中,預(yù)測變量是相互依賴的,這會妨礙分類器的性能。
關(guān)于“機器學(xué)習(xí)樸素貝葉斯分類器原理是什么”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識,可以關(guān)注億速云行業(yè)資訊頻道,小編每天都會為大家更新不同的知識點。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。