溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

機(jī)器學(xué)習(xí)筆記-模式識(shí)別

發(fā)布時(shí)間:2020-08-03 15:09:50 來(lái)源:網(wǎng)絡(luò) 閱讀:544 作者:simon_wzing 欄目:開發(fā)技術(shù)
  1. 平均分布(Uniform Distribution) 跟正態(tài)分布(normaldistribution)

    分布特性可以讓我們通過(guò)一部分的數(shù)了解整體的分布

     正態(tài)分布特性:

         平均值(mean) = 中位數(shù)(median) = 眾數(shù)(model)

       密度函數(shù)關(guān)于平均值對(duì)稱

                            函數(shù)曲線下68.268949%的面積在平均數(shù)左右的一個(gè)標(biāo)準(zhǔn)差范圍內(nèi)

                          95.449974%的面積在平均數(shù)左右兩個(gè)標(biāo)準(zhǔn)差{\displaystyle 2\sigma }機(jī)器學(xué)習(xí)筆記-模式識(shí)別的范圍內(nèi)。

                         99.730020%的面積在平均數(shù)左右三個(gè)標(biāo)準(zhǔn)差{\displaystyle 3\sigma }機(jī)器學(xué)習(xí)筆記-模式識(shí)別的范圍內(nèi)

                            99.993666%的面積在平均數(shù)左右四個(gè)標(biāo)準(zhǔn)差{\displaystyle 4\sigma }機(jī)器學(xué)習(xí)筆記-模式識(shí)別的范圍內(nèi)

                            函數(shù)曲線的反曲點(diǎn)(inflection point)為離平均數(shù)一個(gè)標(biāo)準(zhǔn)差距離的位置

 2.方差(Variance

Var(X) = σ2 = 1/n∑(xi-u)2


模式識(shí)別

  1. 基本概念


分類(classification)

    識(shí)別出樣本所屬的類別。根據(jù)識(shí)別前是否需要進(jìn)行訓(xùn)練,可分為有監(jiān)督分類(supervised classification)何無(wú)監(jiān)督分類(unsupervised classification)。

    有監(jiān)督分類:根據(jù)已知訓(xùn)練區(qū)提供的樣本,通過(guò)計(jì)算選擇特征參數(shù),建立判別函數(shù)以對(duì)樣本進(jìn)行的分類。

    無(wú)監(jiān)督分類:指人們事先對(duì)分類過(guò)程不施加任何的先驗(yàn)知識(shí),而僅憑數(shù)據(jù),即自然聚類的特性,進(jìn)行“盲目”的分類;其分類的結(jié)果只是對(duì)不同類別達(dá)到了區(qū)分,但不能確定類別的屬性。

回歸(regression)

      統(tǒng)計(jì)學(xué)上分析數(shù)據(jù)的方法,目的在于了解連個(gè)或多個(gè)變數(shù)間是否相關(guān)、相關(guān)方向與強(qiáng)度,并建立數(shù)學(xué)模型以便觀察待定變數(shù)來(lái)預(yù)測(cè)研究者感興趣的變數(shù)。更具體的來(lái)說(shuō),回歸分析可以幫助人們了解在只有一個(gè)自變量變化時(shí)因變量的變化量。

非參數(shù)統(tǒng)計(jì)(nonparametric statistics)

    統(tǒng)計(jì)學(xué)的分支,適用于母群體分布情況未明、小樣本、母群體分布不為常態(tài)也不以轉(zhuǎn)換為常態(tài)。

惰性學(xué)習(xí)(Lazing Leaning) 也即 基于實(shí)例的學(xué)習(xí)(Instance-based Learning),機(jī)械學(xué)習(xí)(Rote Learning)。

    概率分類(Probabilistic classification), 基于概率分類,分類器給出一個(gè)最優(yōu)類別猜測(cè)結(jié)果,同時(shí)給出這個(gè)猜測(cè)的概率估計(jì)值。概率分類器機(jī)器學(xué)習(xí)筆記-模式識(shí)別, 給定一個(gè)機(jī)器學(xué)習(xí)筆記-模式識(shí)別(X是樣本集),賦予概率值到所有的機(jī)器學(xué)習(xí)筆記-模式識(shí)別(Y是分類標(biāo)簽集),這些概率值的和使1。

    文氏圖(Venn diagram),不太嚴(yán)格意義下用一表示集合/類的一種草圖。尤其適合表示集合/類之間的“大致關(guān)系”。機(jī)器學(xué)習(xí)筆記-模式識(shí)別

    


    B.算法

  1. 最近鄰居法(KNN)

    一種用于分類和回歸的非參數(shù)統(tǒng)計(jì)方法。在這兩種情況下,輸入包含特征空間中的k個(gè)最接近的訓(xùn)練樣本。是一種基于實(shí)例的學(xué)習(xí),或者是局部近似和將所有計(jì)算推遲到分類之后的惰性學(xué)習(xí)。衡量鄰居的權(quán)重非常有用。

    在K-NN分類中,輸出是一個(gè)分類族群。一個(gè)對(duì)象的分類是由其鄰居的“多數(shù)表決”確定的,k個(gè)最近鄰居中最常見的分類決定了賦予該對(duì)象的類別。若k=1,則該對(duì)象的類別直接由最近的一個(gè)節(jié)點(diǎn)賦予。

    在k-NN回歸中,輸出是該對(duì)象的屬性值,該值是其k個(gè)最近鄰居的值的平均值。

    這個(gè)算法的計(jì)算量相當(dāng)大,耗時(shí)。 Ko和Seo提出了TCFP(text categorization feature projection)。所需時(shí)間是這個(gè)算法的1/50。

    長(zhǎng)處:

           簡(jiǎn)單有效

           不對(duì)數(shù)據(jù)的分布做假設(shè)

           訓(xùn)練階段快

    短處:

           不生成model, 在洞見feature之間關(guān)系上能力有限

           分類階段慢

           內(nèi)存需求大

           定類特征(Nominal feature)和丟失數(shù)據(jù)(missing data)需要進(jìn)行附加的處理


    距離計(jì)算,可以用歐幾里得距離(Euclidean distance)

    在選擇k值時(shí),我們要注意方差平衡(Bias-Variance Tradeoff)。大的k值可以減少噪聲數(shù)據(jù)的影響,但是可能導(dǎo)致我們忽視掉小而重要的模式。通常地K值可以取訓(xùn)練樣本數(shù)的平方根。最好是多嘗試幾個(gè)k值,找到相對(duì)合理的k值。如果訓(xùn)練樣本所具的代表性高,數(shù)量大,k的取值會(huì)變得不那么重要。

    我們要注意各個(gè)特征的取值范圍。大取值范圍的特征可以會(huì)主導(dǎo)距離值。

    特征值重新調(diào)解的方法有:

    極值歸一化(min-max normalization)

                      Xnew = (X-min(X))/(max(X) - min(X))

    Z-分?jǐn)?shù)標(biāo)準(zhǔn)化(Z-score standardization)

                      Xnew = (X-u)/σ = (X-Mean(X))/StdDev(X)     

    這個(gè)算法是lazy Learning 算法。 在整個(gè)過(guò)程中沒有抽象的過(guò)程。嚴(yán)格意義上lazing Learning沒有真   正的學(xué)習(xí)發(fā)生。


  2. 樸素貝葉斯(Naive Bayes)

    貝葉斯方法(Bayesian Method),基于已有的證據(jù)對(duì)事件的發(fā)生概率進(jìn)行估計(jì)。

    獨(dú)立事件(Independent event)A,B同時(shí)發(fā)生的概率P(A∩B) = P(A)*P(B)。

    相依事件(Dependent event)時(shí)預(yù)測(cè)性建模(Predictive modeling)的基礎(chǔ)。我們可以用貝葉斯理論來(lái)描述相依事件的關(guān)系。

    P(A|B) = P(B|A)P(A)/P(B) = P(A∩B)/P(B)

    樸素貝葉斯算法是應(yīng)用貝葉斯方法的一種機(jī)器學(xué)習(xí)方法之一。

    長(zhǎng)處:

         簡(jiǎn)單,快速,非常高效

         很好地處理噪聲跟缺失數(shù)據(jù)

         只需要相對(duì)少的樣本進(jìn)行訓(xùn)練,當(dāng)然也很很好地工作在大量樣本數(shù)據(jù)的情況

         可以簡(jiǎn)單地獲得估計(jì)概率

    短處:

         依賴于現(xiàn)實(shí)情況出錯(cuò)率高的假設(shè) - 所有特征同等重要且獨(dú)立 

         對(duì)大量數(shù)值型特征的數(shù)據(jù)集效果不理想

        預(yù)計(jì)分類比估計(jì)的概率更可靠

    樸素貝葉斯算法得名它對(duì)數(shù)據(jù)進(jìn)行了一些"naive"的假設(shè)(見短處中的第一項(xiàng))。例如,判斷垃圾郵件時(shí),發(fā)件人信息比消息內(nèi)容更重要。雖然很多情況都不違背了一些假設(shè),但是這個(gè)算法還是表現(xiàn)不俗。

    在處理數(shù)值類的特征是我們要對(duì)數(shù)值進(jìn)行分類,其中一個(gè)簡(jiǎn)單的方法就是離散化(Discretize)。


        實(shí)現(xiàn):

            其中一種簡(jiǎn)單實(shí)現(xiàn)就是采用詞集模型(set-of-words)。此模型只考慮此是否在文中出現(xiàn),不關(guān)注詞出線的次數(shù)。實(shí)現(xiàn)方法就是先定義詞集。然后標(biāo)示文檔,判斷某個(gè)詞在文檔中是否出現(xiàn)。在文檔樣本里如果某詞在n個(gè)文檔中出現(xiàn),那該詞計(jì)為n,然后進(jìn)行概率計(jì)算。

            如果用Wi代表在文檔中出現(xiàn)的詞i。用Ck代表第k個(gè)分類。那么我們分類的方法就是要判斷P(Ck)當(dāng)k取哪個(gè)值時(shí)這個(gè)概率最大,取到的最大概率對(duì)應(yīng)的分類就是此文檔的分類。 那么P(Ck) = Σ P(Ck/Wi)。而P(Ck/Wi) = P(Wi/Ck) * P(Ck) / P(Wi) 。 我們來(lái)看 P(Ck/Wi) 通過(guò)計(jì)算特別是一些四舍五入后結(jié)果可能是0。這樣某些詞的的影響就被這樣計(jì)算掉了。 為了更能放映每個(gè)詞的作用有兩點(diǎn)可以考慮。第一點(diǎn)我們?cè)谒阏麄€(gè)樣本時(shí)可以給每個(gè)詞都加上一個(gè)初始量。第二點(diǎn),我們可以用ln()計(jì)算的結(jié)構(gòu)來(lái)進(jìn)行概率比較, f(x) 跟 ln(f(x))在f(x) > 0 時(shí)有相同的斜率變化。另外,這連個(gè)函數(shù)的極值也是在相同的x點(diǎn)的位置。 這樣 ln(ΣP(Ck/Wi)*P(Ck)/P(Wi)) = ln(ΣP(Wi/Ck)) + ln(P(Ck)) - ln(P(Wi)) 。 如果算P(Ck)的話,不論計(jì)算那個(gè)類別 Σln(P(Wi)) 都是相同的值。所以可以省略掉ln(P(Wi))的計(jì)算。如是我們就剩下了  (lnΣP(Wi/Ck)) + ln(P(Ck))。在實(shí)際中可能每個(gè)類別所出現(xiàn)的概率更有影響力。所以最終我們只需計(jì)算 ΣP(Wi/Ck) + ln(P(Ck)) 來(lái)進(jìn)行概率比較。

        

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI