溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

【機器學習】(4):監(jiān)督式學習

發(fā)布時間:2020-08-17 15:39:24 來源:網(wǎng)絡 閱讀:1105 作者:windhawk 欄目:網(wǎng)絡安全

     機器學習中監(jiān)督式學習是非常重要的一類,因為ML的主要出發(fā)點是利用獲得的數(shù)據(jù)來補償未知的知識,所以從訓練集出發(fā)學習數(shù)據(jù)中的模式規(guī)律就是最為自然的一類 情況。今天開始自己決定利用兩周左右的時間,來記錄整理自己學習機器學習的筆記,主要的參考資料是Ethen Alpaydin的《機器學習導論》,如有錯誤或疏漏,還請各位童鞋批評指正。今天主要來宏觀地談談監(jiān)督學習,大致的要點如下:

1. 一個監(jiān)督式學習實例;

2. 監(jiān)督式學習算法的維;

3. 學習算法的能力--VC維;

4. 學習算法樣本量的確定--概率逼近;

      好了,長話短說,下面我們來介紹機器學習中的監(jiān)督式學習。


一、一個監(jiān)督式學習實例

      從一個例子著手是最為形象最為容易理解的,比如現(xiàn)在我們有一個判斷“家用汽車”的任務,具體根據(jù)汽車價格和發(fā)動機功率兩個特征進行判斷,實際中也許有更多 的因素,在這里為了簡單起見我們暫且只考慮這兩個特征。算法的任務是通過訓練集的學習,能夠?qū)σ粋€新的樣本進行判斷是否是“家用汽車”。我們可以將認為是 家用汽車的標記為正例(Positive Example),其他的都被標記為負例(Negative Example),類學習就是要找到一個包含所有正例但是不包含任何負例的描述。

【機器學習】(4):監(jiān)督式學習

      上面的公式描述了我們這個實例,向量x的兩個分量分別表示汽車價格和發(fā)動機的功率,而向量r則表示輸出,當為正例時輸出1,負例時輸出0;第一個集合表示N個樣本訓練集,每個元素都由樣本特征x和標準判斷r組成。我們現(xiàn)在的目標是可以找到一個算法,可以通過訓練集找到某個分類方法,適用于所有的訓練集(包含所有正例但是不包含任何負例),然后利用這個分類方法去預測判斷新的樣本。

      這里在具體實現(xiàn)的時候,人們往往首先要有一個假設類(Hypothesis class),比如可以采用一個矩形集合(假定位于某個價格區(qū)間且同時位于某個發(fā)動機功率區(qū)間的汽車為家用汽車,即一個判別式),來包含所有的正例,同時 卻不包含任何的負例。符合這樣條件的矩形可能有多個,因此存在一個最小的矩形,即最特殊的假設(most specific hypothesis),比如S,再小就會有一個正例不包含在假設中;同時也存在一個最一般的假設(most general hypothesis),比如G,再大的假設就會包含一個或多個負例。因此我們尋找的假設應該位于S與G之間。一般認為可以選在S與G的中間,因為這樣可 以獲得較大的邊緣(margin),所謂邊緣就是邊界和它最近的實例之間的距離。

      由于在S與G之間存在多個可用的假設,但是不同的假設對于新的樣本可能做出不同的預測和判斷,因此這便引出了泛化(generalization)的問題,即我們的假設對不在訓練集中的未來實例的分類的準確率如何。


二、監(jiān)督式學習算法的維度

      監(jiān)督式學習簡單來說就是通過訓練集讓計算機學習數(shù)據(jù)間的規(guī)律和模式,然后以此進行分類和回歸預測。訓練集的表示就如同上面的結(jié)合X, 其中樣本應當是獨立同分布的,對于分類而言,兩類學習輸出就是0和1,而K類學習就是一個K維向量,其中只有一個分量為1,其余分量均為0,這個要求也就 是說任何一樣本最多只能屬于一個類別。對于回歸而言,輸出是一個實數(shù)值??梢赃@樣簡單地來區(qū)分分類和回歸問題:分類輸出是離散值,而回歸輸出是連續(xù)值。下 面我們來看看監(jiān)督式學習的維度, 也就是監(jiān)督學習的基本步驟。

1. 確定假設類,比如假設了函數(shù)模型G(x,A),A表示一個參數(shù)向量,而x表示我們的樣本輸入,我們通過訓練集學習確定最好的A,使得假設可以對新的樣本進行判斷;

2. 滿足訓練集的假設可能會有很多,因此我們要選擇最合適的那個,標準就是一個損失函數(shù)L(Loss Function),比如L是x與G(x, A)的平方差或者絕對值,用于表示我們的假設與訓練集的差異,我們尋求最小的那個。當然,損失函數(shù)還可以有其他的定義,但是基本思想都是用來表示假設與訓練集數(shù)據(jù)的差異;

3. 有了損失函數(shù)L,接下來我們就進入了最優(yōu)化過程,即使得L最小,這一步有多種方法可以實現(xiàn),比如將L對所有的特征分量求偏導數(shù),確定極小值;或者使用梯度下降、模擬退火以及遺傳算法等。

      不同的機器學習方法的之間的區(qū)別,要么是假設類不同(假設模型或歸納偏倚),要么是所使用的損失函數(shù)不同,再者就是使用的最優(yōu)化過程不同??梢哉f,假設模型、損失度量和最優(yōu)化過程是機器學習的三個基本維度。


三、學習算法的能力--VC維

      學習算法的能力通過VC維度來度量,即一個假設類散列的數(shù)據(jù)點的個數(shù)。假定一個數(shù)據(jù)集中有N個數(shù)據(jù)點,對于正例和負例的判斷而言,就有2的N次方種不同的學習問題,如果對于這些學習問題中的任何一個都可以找到假設類H中的一個假設h可以將正例和負例分開,我們就稱該假設類H散列這N個點。因此VC維度量假設類的學習能力。


四、學習算法樣本量的確定--概率逼近

      概率逼近主要用于針對特定的假設類,確定最少需要多少樣本量就可以保證學習的結(jié)果獲得一定的置信率,其實也就是說如果我們想達到一個較好的假設,那么最少需要多大的訓練集呢?根據(jù)我們期望的置信率和不同的假設,我們可以計算其概率逼近的最小樣本量。

      好了,今天的基本概念就到這里,明天繼續(xù)!

Refer:

《機器學習導論》,Ethen Alpaydin(土耳其),機械工業(yè)出版社


向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI