【機器學習】（4）：監(jiān)督式學習

發(fā)布時間：2020-08-17 15:39:24 來源：網(wǎng)絡閱讀：1105 作者：windhawk 欄目：網(wǎng)絡安全

機器學習中監(jiān)督式學習是非常重要的一類，因為ML的主要出發(fā)點是利用獲得的數(shù)據(jù)來補償未知的知識，所以從訓練集出發(fā)學習數(shù)據(jù)中的模式規(guī)律就是最為自然的一類情況。今天開始自己決定利用兩周左右的時間，來記錄整理自己學習機器學習的筆記，主要的參考資料是Ethen Alpaydin的《機器學習導論》，如有錯誤或疏漏，還請各位童鞋批評指正。今天主要來宏觀地談談監(jiān)督學習，大致的要點如下：

1. 一個監(jiān)督式學習實例；

2. 監(jiān)督式學習算法的維；

3. 學習算法的能力--VC維；

4. 學習算法樣本量的確定--概率逼近；

好了，長話短說，下面我們來介紹機器學習中的監(jiān)督式學習。

一、一個監(jiān)督式學習實例

從一個例子著手是最為形象最為容易理解的，比如現(xiàn)在我們有一個判斷“家用汽車”的任務，具體根據(jù)汽車價格和發(fā)動機功率兩個特征進行判斷，實際中也許有更多的因素，在這里為了簡單起見我們暫且只考慮這兩個特征。算法的任務是通過訓練集的學習，能夠?qū)σ粋€新的樣本進行判斷是否是“家用汽車”。我們可以將認為是家用汽車的標記為正例（Positive Example），其他的都被標記為負例（Negative Example），類學習就是要找到一個包含所有正例但是不包含任何負例的描述。

【機器學習】（4）：監(jiān)督式學習

上面的公式描述了我們這個實例，向量x的兩個分量分別表示汽車價格和發(fā)動機的功率，而向量r則表示輸出，當為正例時輸出1，負例時輸出0；第一個集合表示N個樣本訓練集，每個元素都由樣本特征x和標準判斷r組成。我們現(xiàn)在的目標是可以找到一個算法，可以通過訓練集找到某個分類方法，適用于所有的訓練集（包含所有正例但是不包含任何負例），然后利用這個分類方法去預測判斷新的樣本。

這里在具體實現(xiàn)的時候，人們往往首先要有一個假設類（Hypothesis class），比如可以采用一個矩形集合（假定位于某個價格區(qū)間且同時位于某個發(fā)動機功率區(qū)間的汽車為家用汽車，即一個判別式），來包含所有的正例，同時卻不包含任何的負例。符合這樣條件的矩形可能有多個，因此存在一個最小的矩形，即最特殊的假設（most specific hypothesis），比如S，再小就會有一個正例不包含在假設中；同時也存在一個最一般的假設（most general hypothesis），比如G，再大的假設就會包含一個或多個負例。因此我們尋找的假設應該位于S與G之間。一般認為可以選在S與G的中間，因為這樣可以獲得較大的邊緣（margin），所謂邊緣就是邊界和它最近的實例之間的距離。

由于在S與G之間存在多個可用的假設，但是不同的假設對于新的樣本可能做出不同的預測和判斷，因此這便引出了泛化（generalization）的問題，即我們的假設對不在訓練集中的未來實例的分類的準確率如何。

二、監(jiān)督式學習算法的維度

監(jiān)督式學習簡單來說就是通過訓練集讓計算機學習數(shù)據(jù)間的規(guī)律和模式，然后以此進行分類和回歸預測。訓練集的表示就如同上面的結(jié)合X，其中樣本應當是獨立同分布的，對于分類而言，兩類學習輸出就是0和1，而K類學習就是一個K維向量，其中只有一個分量為1，其余分量均為0，這個要求也就是說任何一樣本最多只能屬于一個類別。對于回歸而言，輸出是一個實數(shù)值?？梢赃@樣簡單地來區(qū)分分類和回歸問題：分類輸出是離散值，而回歸輸出是連續(xù)值。下面我們來看看監(jiān)督式學習的維度，也就是監(jiān)督學習的基本步驟。

1. 確定假設類，比如假設了函數(shù)模型G(x,A)，A表示一個參數(shù)向量，而x表示我們的樣本輸入，我們通過訓練集學習確定最好的A，使得假設可以對新的樣本進行判斷；

2. 滿足訓練集的假設可能會有很多，因此我們要選擇最合適的那個，標準就是一個損失函數(shù)L（Loss Function），比如L是x與G(x, A)的平方差或者絕對值，用于表示我們的假設與訓練集的差異，我們尋求最小的那個。當然，損失函數(shù)還可以有其他的定義，但是基本思想都是用來表示假設與訓練集數(shù)據(jù)的差異；

3. 有了損失函數(shù)L，接下來我們就進入了最優(yōu)化過程，即使得L最小，這一步有多種方法可以實現(xiàn)，比如將L對所有的特征分量求偏導數(shù)，確定極小值；或者使用梯度下降、模擬退火以及遺傳算法等。

不同的機器學習方法的之間的區(qū)別，要么是假設類不同（假設模型或歸納偏倚），要么是所使用的損失函數(shù)不同，再者就是使用的最優(yōu)化過程不同?？梢哉f，假設模型、損失度量和最優(yōu)化過程是機器學習的三個基本維度。

三、學習算法的能力--VC維

學習算法的能力通過VC維度來度量，即一個假設類散列的數(shù)據(jù)點的個數(shù)。假定一個數(shù)據(jù)集中有N個數(shù)據(jù)點，對于正例和負例的判斷而言，就有2的N次方種不同的學習問題，如果對于這些學習問題中的任何一個都可以找到假設類H中的一個假設h可以將正例和負例分開，我們就稱該假設類H散列這N個點。因此VC維度量假設類的學習能力。

四、學習算法樣本量的確定--概率逼近

概率逼近主要用于針對特定的假設類，確定最少需要多少樣本量就可以保證學習的結(jié)果獲得一定的置信率，其實也就是說如果我們想達到一個較好的假設，那么最少需要多大的訓練集呢？根據(jù)我們期望的置信率和不同的假設，我們可以計算其概率逼近的最小樣本量。

好了，今天的基本概念就到這里，明天繼續(xù)！

Refer：

《機器學習導論》，Ethen Alpaydin（土耳其），機械工業(yè)出版社

向AI問一下細節(jié)

【機器學習】（4）：監(jiān)督式學習

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標簽