常見的機器學(xué)習(xí)算法有哪些

發(fā)布時間：2020-06-10 14:18:29 來源：億速云閱讀：231 作者：元一欄目：編程語言

機器學(xué)習(xí)(Machine Learning, ML)是一門多領(lǐng)域交叉學(xué)科，涉及概率論、統(tǒng)計學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。專門研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為，以獲取新的知識或技能，重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。
它是人工智能的核心，是使計算機具有智能的根本途徑，其應(yīng)用遍及人工智能的各個領(lǐng)域，它主要使用歸納、綜合而不是演繹。

機器學(xué)習(xí)有哪些算法？本文將為大家盤點十大經(jīng)典機器學(xué)習(xí)算法，其中包括了支持向量機、人工神經(jīng)網(wǎng)絡(luò)、邏輯回歸、樸素貝葉斯、決策樹、K- 均值、K- 最近鄰算法、隨機森林、線性回歸和降維。當(dāng)然盤點的目的，并不是要把這些機器學(xué)習(xí)算法進行一個排名對比，畢竟算法之間并沒有優(yōu)劣之分，每個算法都有自己的使用的場景。下面我們就來具體分析一下機器學(xué)習(xí)的十大算法。

1、支持向量機
　　

支持向量機是一種用于分類問題的監(jiān)督算法。支持向量機試圖在數(shù)據(jù)點之間繪制兩條線，它們之間的邊距最大。為此，我們將數(shù)據(jù)項繪制為n維空間中的點，其中，n是輸入特征的數(shù)量。在此基礎(chǔ)上，支持向量機找到一個最優(yōu)邊界，稱為超平面（Hyperplane），它通過類標(biāo)簽將可能的輸出進行最佳分離。超平面與最近的類點之間的距離稱為邊距。最優(yōu)超平面具有最大的邊界，可以對點進行分類，從而使最近的數(shù)據(jù)點與這兩個類之間的距離最大化。
　　

2、人工神經(jīng)網(wǎng)絡(luò)
　　

人工神經(jīng)網(wǎng)絡(luò)可以處理大型復(fù)雜的機器學(xué)習(xí)任務(wù)。神經(jīng)網(wǎng)絡(luò)本質(zhì)上是一組帶有權(quán)值的邊和節(jié)點組成的相互連接的層，稱為神經(jīng)元。在輸入層和輸出層之間，我們可以插入多個隱藏層。人工神經(jīng)網(wǎng)絡(luò)使用了兩個隱藏層。除此之外，還需要處理深度學(xué)習(xí)。人工神經(jīng)網(wǎng)絡(luò)的工作原理與大腦的結(jié)構(gòu)類似。一組神經(jīng)元被賦予一個隨機權(quán)重，以確定神經(jīng)元如何處理輸入數(shù)據(jù)。通過對輸入數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)輸入和輸出之間的關(guān)系。在訓(xùn)練階段，系統(tǒng)可以訪問正確的答案。如果網(wǎng)絡(luò)不能準(zhǔn)確識別輸入，系統(tǒng)就會調(diào)整權(quán)重。經(jīng)過充分的訓(xùn)練后，它將始終如一地識別出正確的模式。
　　

3、邏輯回歸
　　

邏輯回歸與線性回歸類似，但它是用于輸出為二進制的情況（即，當(dāng)結(jié)果只能有兩個可能的值）。對最終輸出的預(yù)測是一個非線性的S型函數(shù)，稱為 logistic function, g()。這個邏輯函數(shù)將中間結(jié)果值映射到結(jié)果變量 Y，其值范圍從0到1。然后，這些值可以解釋為 Y 出現(xiàn)的概率。S型邏輯函數(shù)的性質(zhì)使得邏輯回歸更適合用于分類任務(wù)。
　　

4、樸素貝葉斯
　　

樸素貝葉斯是基于貝葉斯定理，應(yīng)用最為廣泛的分類算法之一。對于給定的訓(xùn)練數(shù)據(jù)集，首先基于特征條件獨立假設(shè)學(xué)習(xí)輸入/輸出的聯(lián)合概率分布；然后基于此模型，對給定的輸入 xx ，利用貝葉斯定理求出后驗概率最大的輸出 yy 。
　　

5、決策樹
　　

決策樹可用于回歸和分類任務(wù)。在這一算法中，訓(xùn)練模型通過學(xué)習(xí)樹表示（Tree representation）的決策規(guī)則來學(xué)習(xí)預(yù)測目標(biāo)變量的值。樹是由具有相應(yīng)屬性的節(jié)點組成的。在每個節(jié)點上，我們根據(jù)可用的特征詢問有關(guān)數(shù)據(jù)的問題。左右分支代表可能的答案。最終節(jié)點（即葉節(jié)點）對應(yīng)于一個預(yù)測值。每個特征的重要性是通過自頂向下方法確定的。節(jié)點越高，其屬性就越重要。
　　

6、K- 均值
　　

K- 均值（K-means）是通過對數(shù)據(jù)集進行分類來聚類的。例如，這個算法可用于根據(jù)購買歷史將用戶分組。它在數(shù)據(jù)集中找到 K 個聚類。K- 均值用于無監(jiān)督學(xué)習(xí)，因此，我們只需使用訓(xùn)練數(shù)據(jù) X，以及我們想要識別的聚類數(shù)量 K。該算法根據(jù)每個數(shù)據(jù)點的特征，將每個數(shù)據(jù)點迭代地分配給 K 個組中的一個組。它為每個 K- 聚類（稱為質(zhì)心）選擇 K 個點?；谙嗨贫龋瑢⑿碌臄?shù)據(jù)點添加到具有最近質(zhì)心的聚類中。這個過程一直持續(xù)到質(zhì)心停止變化為止。
　　

7、K- 最近鄰算法
　　

K- 最近鄰算法（K-Nearest Neighbors，KNN）非常簡單。KNN 通過在整個訓(xùn)練集中搜索 K 個最相似的實例，即 K 個鄰居，并為所有這些 K 個實例分配一個公共輸出變量，來對對象進行分類。K 的選擇很關(guān)鍵：較小的值可能會得到大量的噪聲和不準(zhǔn)確的結(jié)果，而較大的值是不可行的。它最常用于分類，但也適用于回歸問題。用于評估實例之間相似性的距離可以是歐幾里得距離、曼哈頓距離或明氏距離。歐幾里得距離是兩點之間的普通直線距離。它實際上是點坐標(biāo)之差平方和的平方根。
　　

8、隨機森林
　　

隨機森林（Random Forest）是一種非常流行的集成機器學(xué)習(xí)算法。這個算法的基本思想是，許多人的意見要比個人的意見更準(zhǔn)確。在隨機森林中，我們使用決策樹集成。為了對新對象進行分類，我們從每個決策樹中進行投票，并結(jié)合結(jié)果，然后根據(jù)多數(shù)投票做出最終決定。
　　

9、線性回歸
　　

線性回歸算得上是最流行的機器學(xué)習(xí)算法，它是利用數(shù)理統(tǒng)計中回歸分析，來確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法，目前線性回歸的運用十分廣泛。線性回歸就是要找一條直線，并且讓這條直線盡可能地擬合散點圖中的數(shù)據(jù)點。它試圖通過將直線方程與該數(shù)據(jù)擬合來表示自變量（x 值）和數(shù)值結(jié)果（y 值）。然后就可以用這條線來預(yù)測未來的值！這種算法最常用的技術(shù)是最小二乘法。這個方法計算出最佳擬合線，以使得與直線上每個數(shù)據(jù)點的垂直距離最小?？偩嚯x是所有數(shù)據(jù)點的垂直距離（綠線）的平方和。其思想是通過最小化這個平方誤差或距離來擬合模型。
　　

10、降維
　　

由于我們今天能夠捕獲的數(shù)據(jù)量之大，機器學(xué)習(xí)問題變得更加復(fù)雜。這就意味著訓(xùn)練極其緩慢，而且很難找到一個好的解決方案。這一問題，通常被稱為“維數(shù)災(zāi)難”。降維試圖在不丟失最重要信息的情況下，通過將特定的特征組合成更高層次的特征來解決這個問題。主成分分析是最流行的降維技術(shù)。主成分分析通過將數(shù)據(jù)集壓縮到低維線或超平面 / 子空間來降低數(shù)據(jù)集的維數(shù)。這盡可能地保留了原始數(shù)據(jù)的顯著特征。

向AI問一下細節(jié)

常見的機器學(xué)習(xí)算法有哪些

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽