溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

大數(shù)據(jù)中的貝葉斯法則是怎樣的

發(fā)布時(shí)間:2021-12-10 10:27:29 來源:億速云 閱讀:158 作者:柒染 欄目:大數(shù)據(jù)

這篇文章給大家介紹大數(shù)據(jù)中的貝葉斯法則是怎樣的,內(nèi)容非常詳細(xì),感興趣的小伙伴們可以參考借鑒,希望對(duì)大家能有所幫助。

貝葉斯法則可能是概率論中最有生命力的一個(gè)公式。它可以用來計(jì)算條件概率或者主觀概率。

貝葉斯法則的思想非常簡(jiǎn)單:隨機(jī)事件發(fā)生的概率隨著相關(guān)條件的發(fā)生而改變,一個(gè)命題真假的信念即主觀概率隨著相關(guān)證據(jù)的發(fā)現(xiàn)而改變。當(dāng)正相關(guān)條件發(fā)生時(shí),條件概率上調(diào),當(dāng)負(fù)相關(guān)條件發(fā)生時(shí),條件概率下調(diào)。當(dāng)有利證據(jù)發(fā)現(xiàn)時(shí),主觀概率上調(diào),當(dāng)不利證據(jù)發(fā)現(xiàn)時(shí),主觀概率下調(diào)。

然而,貝葉斯法則具有非常深刻的哲學(xué)意義和廣泛的應(yīng)用價(jià)值。哲學(xué)家們用它來解決休謨歸納問題;生命科學(xué)家用它來研究基因是如何被控制的;教育學(xué)家突然意識(shí)到,學(xué)生的學(xué)習(xí)過程正是貝葉斯法則的運(yùn)用;基金經(jīng)理用貝葉斯法則找到投資策略;Google用貝葉斯法則改進(jìn)搜索功能;人工智能,機(jī)器翻譯中大量用到貝葉斯法則……

小編將通過公式推演和3個(gè)簡(jiǎn)單的范例,帶領(lǐng)大家讀懂貝葉斯法則并領(lǐng)略其獨(dú)特的魅力。

一,條件概率和貝葉斯定理

條件概率P(A|B)表示隨機(jī)事件B發(fā)生的前提下隨機(jī)事件A發(fā)生的概率。條件概率P(A|B)也被稱為后驗(yàn)概率,P(A)是其對(duì)應(yīng)的先驗(yàn)概率。

大數(shù)據(jù)中的貝葉斯法則是怎樣的

大數(shù)據(jù)中的貝葉斯法則是怎樣的

以下為第1個(gè)應(yīng)用舉例:

HIV攜帶檢測(cè)

假設(shè)艾滋病毒HIV在人群中的攜帶比率為0.01%,目前檢測(cè)它的醫(yī)學(xué)技術(shù)非常高超,如果一個(gè)人真的攜帶有HIV,那么血液檢測(cè)有99.9%的概率為陽性,即檢測(cè)出來的概率很高。如果一個(gè)人不攜帶有HIV,那么血液檢測(cè)只有0.01%的概率為陽性,即冤枉一個(gè)正常人的概率很低?,F(xiàn)在從街頭上隨機(jī)找個(gè)人給他做檢查,發(fā)現(xiàn)檢測(cè)結(jié)果不妙,是HIV陽性,那么他真的攜帶有HIV病毒的概率為多大?

大數(shù)據(jù)中的貝葉斯法則是怎樣的

從這個(gè)例子中,我們發(fā)現(xiàn)如果一個(gè)事件發(fā)生的先驗(yàn)概率很低,那么即使出現(xiàn)了非常有力的證據(jù),這個(gè)事件發(fā)生的后驗(yàn)概率也不一定會(huì)很高。

二,樸素貝葉斯方法

在實(shí)際應(yīng)用貝葉斯法則的時(shí)候,通常會(huì)存在許多的條件,而不是單個(gè)條件。此時(shí)為了簡(jiǎn)化問題,我們有時(shí)候會(huì)做一個(gè)非常天真的假設(shè),即這些條件事件之間是相互獨(dú)立的,這時(shí)候我們會(huì)得到樸素貝葉斯方法。

大數(shù)據(jù)中的貝葉斯法則是怎樣的

以下是第2個(gè)應(yīng)用范例:

垃圾郵件識(shí)別

假設(shè)現(xiàn)在收到一封郵件,內(nèi)容如下:


"東南亞7日游,只要6999。"

那么這封郵件是否是一封垃圾郵件呢?為了用算法對(duì)垃圾郵件進(jìn)行分類,我們對(duì)100000封郵件進(jìn)行了標(biāo)注,其中正常郵件有80000封,垃圾郵件有20000封。我們把收到的這封郵件進(jìn)行分詞處理,得到"東南亞"、"7日游","只要","6999"這4個(gè)詞。統(tǒng)計(jì)它們?cè)谝褬?biāo)注郵件中出現(xiàn)的次數(shù)如下。

大數(shù)據(jù)中的貝葉斯法則是怎樣的

現(xiàn)在利用樸素貝葉斯方法,我們可以計(jì)算這封郵件是否為垃圾郵件的概率了。

大數(shù)據(jù)中的貝葉斯法則是怎樣的

大數(shù)據(jù)中的貝葉斯法則是怎樣的

于是,這封郵件有0.96的概率是一封垃圾郵件。

三,貝葉斯排序模型

在對(duì)多條件下的后驗(yàn)概率進(jìn)行展開時(shí),除了運(yùn)用樸素貝葉斯假設(shè)外,我們還可以使用另外一種迭代的方法。

大數(shù)據(jù)中的貝葉斯法則是怎樣的

當(dāng)存在更多的條件時(shí),可以繼續(xù)按照這個(gè)模式展開。以上展開表達(dá)式和各個(gè)條件事件的迭代順序無關(guān)。下面是一個(gè)簡(jiǎn)單的證明。

大數(shù)據(jù)中的貝葉斯法則是怎樣的

利用這種迭代展開式,我們可以構(gòu)造一種貝葉斯排序模型,對(duì)諸多信息進(jìn)行加工,生成主觀概率。

以下為第3個(gè)應(yīng)用范例:


貝葉斯排序模型

有兩個(gè)同類別商品A和B,A有1個(gè)五星好評(píng),B有5個(gè)五星好評(píng)和1個(gè)四星好評(píng),那么你覺得這兩個(gè)商品哪個(gè)更好一些呢?

有的同學(xué)會(huì)覺得商品A更好一些,因?yàn)锳的平均星級(jí)就是5,而B的平均星級(jí)為4.83。

另外一些同學(xué)會(huì)覺得B更好一些,因?yàn)锽有更多的五星好評(píng),可靠性更大。

實(shí)際上我們?cè)趯?duì)商品的諸多評(píng)論信息加工出一個(gè)對(duì)商品的整體評(píng)價(jià)時(shí),使用的就是貝葉斯公式。

大數(shù)據(jù)中的貝葉斯法則是怎樣的

在沒有任何信息的前提下,我們假設(shè)一個(gè)商品為非常棒的商品的概率為0.5。

大數(shù)據(jù)中的貝葉斯法則是怎樣的

并且我們假設(shè),一個(gè)非常棒的商品獲得各個(gè)星級(jí)的評(píng)價(jià)的概率分別如下,即我們假設(shè)非常棒的商品傾向于獲得較高的評(píng)級(jí)。

大數(shù)據(jù)中的貝葉斯法則是怎樣的

一個(gè)不是非常棒的商品獲得各個(gè)星級(jí)的評(píng)價(jià)的概率分別如下,即我們假設(shè)不是非常棒的商品傾向于獲得較低的評(píng)級(jí)。

大數(shù)據(jù)中的貝葉斯法則是怎樣的

迭代計(jì)算如下。

大數(shù)據(jù)中的貝葉斯法則是怎樣的

于是我們得出結(jié)論:B商品更好。

大數(shù)據(jù)中的貝葉斯法則是怎樣的

關(guān)于大數(shù)據(jù)中的貝葉斯法則是怎樣的就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺得文章不錯(cuò),可以把它分享出去讓更多的人看到。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI