您好,登錄后才能下訂單哦!
由于工作的關(guān)系,開始接觸機器學習這個技術(shù)領(lǐng)域,雖然自己的工作看似和機器學習關(guān)系不大,但是利用機器學習進行大數(shù)據(jù)的分析卻是至關(guān)重要的。因此從今天開始自己再開始一個關(guān)于“機器學習”的系列筆記,將主要記錄整理自己學習的收獲。今天是對于機器學習的一個基本的介紹。
一、什么是機器學習?為什么需要機器學習?
所謂機器學習,英文就是Machine Learning,最早的形式類似于數(shù)據(jù)挖掘、模式識別、人工智能等。無論其如何變化,應(yīng)用到哪個具體的領(lǐng)域,其核心的思想都沒有變:利用數(shù)據(jù)分析技術(shù)發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的規(guī)律或模式。
這里的主要問題面向那些算法還不清晰,無法直接編程實現(xiàn)解決的問題。比如對于序列排序問題,我們已經(jīng)有了成熟的冒泡等算法;但是對于識別手寫字體或從音頻
中提取出一個人說的話等,大腦的處理機制尚且不清晰,又何談編程實現(xiàn)呢?因此對于此類難以編程實現(xiàn)的問題,我們采取數(shù)據(jù)分析的方法;而之所以我們可以通過
數(shù)據(jù)分析獲得模式或者近似的描述,本質(zhì)上則是因為數(shù)據(jù)本身不是隨機的,其中已經(jīng)包含著我們還未發(fā)現(xiàn)的規(guī)律,我們利用數(shù)據(jù)分析的目的,就是發(fā)現(xiàn)、找到這些規(guī)
律或者這些規(guī)律的近似描述。而這里的數(shù)據(jù)分析,就是我們今天說的機器學習,讓計算機通過大量的數(shù)據(jù)分析,去自己學會解決該問題的算法,所以機器學習的算法
也可以稱作是“學習型算法”。
二、監(jiān)督式學習
接下來我們來分別看看機器學習四個具體的方面:監(jiān)督式學習、算法理論、非監(jiān)督式學習以及增強學習。首先我們來看看監(jiān)督式學習。所謂監(jiān)督式學習,也許定義有許多說法,不過我們只要把握一點就可以了:監(jiān)督式學習需要一組“監(jiān)督數(shù)據(jù)”來作為訓(xùn)練學習。這里的“監(jiān)督數(shù)據(jù)”指的是一組明確標準輸入對應(yīng)的標準輸出的數(shù)據(jù),也就是“正確”結(jié)果明了的數(shù)據(jù),我們所做的是運行算法,使得算法根據(jù)這些標準數(shù)據(jù)學習其中的映射關(guān)系,因此是“監(jiān)督”的。
常見的監(jiān)督式學習有回歸和分類。所謂回歸常見的例子就
想不同月份房價的數(shù)據(jù),一年12個月的房價(平米均價)各不相同,如果我們以時間為x軸,房屋均價為y軸,那么可以繪出一年中的房價/月份漲跌圖。如果我
們想知道來年一月份的房價,我們只需要找到一條最符合已知數(shù)據(jù)的曲線就可以了,然后以此預(yù)測未來的房屋均價。
至于分類,最常用的例子是關(guān)于腫瘤良性/惡性與大小的關(guān)系數(shù)據(jù),以腫瘤大小為x軸,良性/惡性為y軸,自根據(jù)已有的腫瘤大小和性質(zhì)的數(shù)據(jù),來對新的病例腫瘤性質(zhì)進行判斷。這里的y軸不再像回歸例
子中是連續(xù)變化的數(shù)值(比如房屋均價),而是離散的數(shù)值(1:良性;0:惡性)。我們同樣可以進行機器學習算法訓(xùn)練,然后根據(jù)找到的規(guī)律來判斷新的病例。
將分類的思想推廣出去,現(xiàn)在我們只是考慮腫瘤大小一個因素,如果加上病者年齡,那么將得到一個三維的函數(shù)圖;如果再考慮病人的性別,那么維數(shù)將繼續(xù)增加。
如果我們面臨的問題需要考慮的因素很多,那么我們就可能需要一個高維平面。但是這個高維平面式什么樣子呢?這個時候空間中的規(guī)律又如何尋找呢?值得慶幸的
是,最近幾年人們找到了SVM來解決這種高位向量空間的分類問題。SVM現(xiàn)在應(yīng)用越來越廣泛,這個在以后的章節(jié)會繼續(xù)介紹。
三、算法理論
機器學習依賴于多種多樣的算法,這些算法大多基于數(shù)學和統(tǒng)計學,因此理解這些算法有時候需要掌握一定的數(shù)學基礎(chǔ)。統(tǒng)計學上比如隨機變量的期望、方差、相關(guān)
系數(shù)等;而數(shù)學上則需要比較多的代數(shù)知識,比如矩陣的計算、轉(zhuǎn)置、求逆以及特征向量等。一般來說,如果只是使用機器學習現(xiàn)有的算法,那么不需要對于其中的
數(shù)學原理透徹理解,只需要理解各個算法和使用的條件就可以了。我們學習機器學習的目的分為三個層次:
-1. 了解機器學習領(lǐng)域,知道重要的算法;
-2. 可以根據(jù)自己的實際問題,靈活地應(yīng)用機器學習算法來解決問題;
-3. 理解算法,提出已有算法的改進;
這里自己的目標也就是到第二個層次了,能夠使用機器學習算法解決面臨的數(shù)據(jù)分析問題就可以了。機器學習是一門很有用的數(shù)據(jù)分析工具。
四、非監(jiān)督式學習
同監(jiān)督式學習對應(yīng)的就是非監(jiān)督式學習,非監(jiān)督式學習的特點就是開始的時候沒有一組知道結(jié)果的標準數(shù)據(jù),完完全全是從一堆毫無頭緒的數(shù)據(jù)中去發(fā)現(xiàn)規(guī)律。常見
的非監(jiān)督式學習的例子就是聚類。一個經(jīng)典的例子就是“雞尾酒會”問題,這個是說在一個人聲嘈雜的雞尾酒會上,你如何從聲音的疊加中提取出你想聽的某個人的
聲音。這里就需要對聲頻數(shù)據(jù)進行大量的聚類分析,應(yīng)用領(lǐng)域可以在聲音識別、圖像像素分析、計算機視覺、社交網(wǎng)絡(luò)/市場劃分等。
五、增強學習
前面所說的數(shù)據(jù)分析的輸入都是一次性的大量數(shù)據(jù),然后對一個新的輸入做出預(yù)測/判斷。但是有些問題需要對一個輸入的序列進行分析,也就是說這個時候我們關(guān)
注的不是一個輸入的結(jié)果,而是一個輸入序列的“策略”。比如無人駕駛飛機的導(dǎo)航程序,一個“上升”或“下降”的指令并不會導(dǎo)致飛機事故,相反只有一系列連
續(xù)的升降指令才會導(dǎo)致飛機失事。這里的應(yīng)用領(lǐng)域往往是關(guān)注“策略”的領(lǐng)域,如游戲(RTS等)、無人機、機器人導(dǎo)航等。
六、小結(jié)
可以說,機器學習的領(lǐng)域主要是上面所說的三個方面:監(jiān)督式學習、非監(jiān)督式學習以及增強學習,但是具體的應(yīng)用領(lǐng)域則涉及醫(yī)學、生物學、電子工程、人工智能等多個領(lǐng)域。機器學習作為一個強大的工具在不同的領(lǐng)域?qū)?shù)據(jù)分析發(fā)揮著不可替代的作用。
免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。