機器學習【一】：緒論

發(fā)布時間：2020-06-18 09:05:10 來源：網(wǎng)絡(luò) 閱讀：517 作者：windhawk 欄目：網(wǎng)絡(luò)安全

    由于工作的關(guān)系，開始接觸機器學習這個技術(shù)領(lǐng)域，雖然自己的工作看似和機器學習關(guān)系不大，但是利用機器學習進行大數(shù)據(jù)的分析卻是至關(guān)重要的。因此從今天開始自己再開始一個關(guān)于“機器學習”的系列筆記，將主要記錄整理自己學習的收獲。今天是對于機器學習的一個基本的介紹。
一、什么是機器學習？為什么需要機器學習？
    所謂機器學習，英文就是Machine Learning，最早的形式類似于數(shù)據(jù)挖掘、模式識別、人工智能等。無論其如何變化，應(yīng)用到哪個具體的領(lǐng)域，其核心的思想都沒有變：利用數(shù)據(jù)分析技術(shù)發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的規(guī)律或模式。這里的主要問題面向那些算法還不清晰，無法直接編程實現(xiàn)解決的問題。比如對于序列排序問題，我們已經(jīng)有了成熟的冒泡等算法；但是對于識別手寫字體或從音頻中提取出一個人說的話等，大腦的處理機制尚且不清晰，又何談編程實現(xiàn)呢？因此對于此類難以編程實現(xiàn)的問題，我們采取數(shù)據(jù)分析的方法；而之所以我們可以通過數(shù)據(jù)分析獲得模式或者近似的描述，本質(zhì)上則是因為數(shù)據(jù)本身不是隨機的，其中已經(jīng)包含著我們還未發(fā)現(xiàn)的規(guī)律，我們利用數(shù)據(jù)分析的目的，就是發(fā)現(xiàn)、找到這些規(guī) 律或者這些規(guī)律的近似描述。而這里的數(shù)據(jù)分析，就是我們今天說的機器學習，讓計算機通過大量的數(shù)據(jù)分析，去自己學會解決該問題的算法，所以機器學習的算法也可以稱作是“學習型算法”。
二、監(jiān)督式學習
    接下來我們來分別看看機器學習四個具體的方面：監(jiān)督式學習、算法理論、非監(jiān)督式學習以及增強學習。首先我們來看看監(jiān)督式學習。所謂監(jiān)督式學習，也許定義有許多說法，不過我們只要把握一點就可以了：監(jiān)督式學習需要一組“監(jiān)督數(shù)據(jù)”來作為訓(xùn)練學習。這里的“監(jiān)督數(shù)據(jù)”指的是一組明確標準輸入對應(yīng)的標準輸出的數(shù)據(jù)，也就是“正確”結(jié)果明了的數(shù)據(jù)，我們所做的是運行算法，使得算法根據(jù)這些標準數(shù)據(jù)學習其中的映射關(guān)系，因此是“監(jiān)督”的。
    常見的監(jiān)督式學習有回歸和分類。所謂回歸常見的例子就想不同月份房價的數(shù)據(jù)，一年12個月的房價（平米均價）各不相同，如果我們以時間為x軸，房屋均價為y軸，那么可以繪出一年中的房價/月份漲跌圖。如果我們想知道來年一月份的房價，我們只需要找到一條最符合已知數(shù)據(jù)的曲線就可以了，然后以此預(yù)測未來的房屋均價。
    至于分類，最常用的例子是關(guān)于腫瘤良性/惡性與大小的關(guān)系數(shù)據(jù)，以腫瘤大小為x軸，良性/惡性為y軸，自根據(jù)已有的腫瘤大小和性質(zhì)的數(shù)據(jù)，來對新的病例腫瘤性質(zhì)進行判斷。這里的y軸不再像回歸例子中是連續(xù)變化的數(shù)值（比如房屋均價），而是離散的數(shù)值（1：良性；0：惡性）。我們同樣可以進行機器學習算法訓(xùn)練，然后根據(jù)找到的規(guī)律來判斷新的病例。將分類的思想推廣出去，現(xiàn)在我們只是考慮腫瘤大小一個因素，如果加上病者年齡，那么將得到一個三維的函數(shù)圖；如果再考慮病人的性別，那么維數(shù)將繼續(xù)增加。如果我們面臨的問題需要考慮的因素很多，那么我們就可能需要一個高維平面。但是這個高維平面式什么樣子呢？這個時候空間中的規(guī)律又如何尋找呢？值得慶幸的是，最近幾年人們找到了SVM來解決這種高位向量空間的分類問題。SVM現(xiàn)在應(yīng)用越來越廣泛，這個在以后的章節(jié)會繼續(xù)介紹。
三、算法理論
    機器學習依賴于多種多樣的算法，這些算法大多基于數(shù)學和統(tǒng)計學，因此理解這些算法有時候需要掌握一定的數(shù)學基礎(chǔ)。統(tǒng)計學上比如隨機變量的期望、方差、相關(guān) 系數(shù)等；而數(shù)學上則需要比較多的代數(shù)知識，比如矩陣的計算、轉(zhuǎn)置、求逆以及特征向量等。一般來說，如果只是使用機器學習現(xiàn)有的算法，那么不需要對于其中的數(shù)學原理透徹理解，只需要理解各個算法和使用的條件就可以了。我們學習機器學習的目的分為三個層次：
-1. 了解機器學習領(lǐng)域，知道重要的算法；
-2. 可以根據(jù)自己的實際問題，靈活地應(yīng)用機器學習算法來解決問題；
-3. 理解算法，提出已有算法的改進；
    這里自己的目標也就是到第二個層次了，能夠使用機器學習算法解決面臨的數(shù)據(jù)分析問題就可以了。機器學習是一門很有用的數(shù)據(jù)分析工具。
四、非監(jiān)督式學習
    同監(jiān)督式學習對應(yīng)的就是非監(jiān)督式學習，非監(jiān)督式學習的特點就是開始的時候沒有一組知道結(jié)果的標準數(shù)據(jù)，完完全全是從一堆毫無頭緒的數(shù)據(jù)中去發(fā)現(xiàn)規(guī)律。常見的非監(jiān)督式學習的例子就是聚類。一個經(jīng)典的例子就是“雞尾酒會”問題，這個是說在一個人聲嘈雜的雞尾酒會上，你如何從聲音的疊加中提取出你想聽的某個人的聲音。這里就需要對聲頻數(shù)據(jù)進行大量的聚類分析，應(yīng)用領(lǐng)域可以在聲音識別、圖像像素分析、計算機視覺、社交網(wǎng)絡(luò)/市場劃分等。
五、增強學習
    前面所說的數(shù)據(jù)分析的輸入都是一次性的大量數(shù)據(jù)，然后對一個新的輸入做出預(yù)測/判斷。但是有些問題需要對一個輸入的序列進行分析，也就是說這個時候我們關(guān) 注的不是一個輸入的結(jié)果，而是一個輸入序列的“策略”。比如無人駕駛飛機的導(dǎo)航程序，一個“上升”或“下降”的指令并不會導(dǎo)致飛機事故，相反只有一系列連續(xù)的升降指令才會導(dǎo)致飛機失事。這里的應(yīng)用領(lǐng)域往往是關(guān)注“策略”的領(lǐng)域，如游戲（RTS等）、無人機、機器人導(dǎo)航等。
六、小結(jié)
    可以說，機器學習的領(lǐng)域主要是上面所說的三個方面：監(jiān)督式學習、非監(jiān)督式學習以及增強學習，但是具體的應(yīng)用領(lǐng)域則涉及醫(yī)學、生物學、電子工程、人工智能等多個領(lǐng)域。機器學習作為一個強大的工具在不同的領(lǐng)域?qū)?shù)據(jù)分析發(fā)揮著不可替代的作用。

向AI問一下細節(jié)

機器學習【一】：緒論

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標簽