機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

發(fā)布時(shí)間：2021-12-16 14:44:53 來(lái)源：億速云閱讀：173 作者：小新欄目：云計(jì)算

這篇文章將為大家詳細(xì)講解有關(guān)機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些，小編覺(jué)得挺實(shí)用的，因此分享給大家做個(gè)參考，希望大家閱讀完這篇文章后可以有所收獲。

算法分類(lèi)

監(jiān)督式學(xué)習(xí)：

在監(jiān)督式學(xué)習(xí)下，輸入數(shù)據(jù)被稱(chēng)為“訓(xùn)練數(shù)據(jù)”，每組訓(xùn)練數(shù)據(jù)有一個(gè)明確的標(biāo)識(shí)或結(jié)果，如對(duì)防垃圾郵件系統(tǒng)中“垃圾郵件”“非垃圾郵件”，對(duì)手寫(xiě)數(shù)字識(shí)別中的“1“，”2“，”3“，”4“等。在建立預(yù)測(cè)模型的時(shí)候，監(jiān)督式學(xué)習(xí)建立一個(gè)學(xué)習(xí)過(guò)程，將預(yù)測(cè)結(jié)果與“訓(xùn)練數(shù)據(jù)”的實(shí)際結(jié)果進(jìn)行比較，不斷的調(diào)整預(yù)測(cè)模型，直到模型的預(yù)測(cè)結(jié)果達(dá)到一個(gè)預(yù)期的準(zhǔn)確率。監(jiān)督式學(xué)習(xí)的常見(jiàn)應(yīng)用場(chǎng)景如分類(lèi)問(wèn)題和回歸問(wèn)題。常見(jiàn)算法有邏輯回歸（Logistic Regression）和反向傳遞神經(jīng)網(wǎng)絡(luò)（Back Propagation Neural Network）。

非監(jiān)督式學(xué)習(xí)：

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

在非監(jiān)督式學(xué)習(xí)中，數(shù)據(jù)并不被特別標(biāo)識(shí)，學(xué)習(xí)模型是為了推斷出數(shù)據(jù)的一些內(nèi)在結(jié)構(gòu)。非監(jiān)督學(xué)習(xí)模型是用來(lái)從原始數(shù)據(jù)（無(wú)訓(xùn)練數(shù)據(jù)）中找到隱藏的模式或者關(guān)系，因而非監(jiān)督學(xué)習(xí)模型是基于未標(biāo)記數(shù)據(jù)集的.常見(jiàn)的應(yīng)用場(chǎng)景包括關(guān)聯(lián)規(guī)則的學(xué)習(xí)以及聚類(lèi)等。常見(jiàn)算法包括Apriori算法以及k-Means算法。例子: 社交網(wǎng)絡(luò)，語(yǔ)言預(yù)測(cè)

半監(jiān)督式學(xué)習(xí)：

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

在此學(xué)習(xí)方式下，輸入數(shù)據(jù)部分被標(biāo)識(shí)，部分沒(méi)有被標(biāo)識(shí)，這種學(xué)習(xí)模型可以用來(lái)進(jìn)行預(yù)測(cè)，但是模型首先需要學(xué)習(xí)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)以便合理的組織數(shù)據(jù)來(lái)進(jìn)行預(yù)測(cè)。應(yīng)用場(chǎng)景包括分類(lèi)和回歸，算法包括一些對(duì)常用監(jiān)督式學(xué)習(xí)算法的延伸，這些算法首先試圖對(duì)未標(biāo)識(shí)數(shù)據(jù)進(jìn)行建模，在此基礎(chǔ)上再對(duì)標(biāo)識(shí)的數(shù)據(jù)進(jìn)行預(yù)測(cè)。如圖論推理算法（Graph Inference）或者拉普拉斯支持向量機(jī)（Laplacian SVM.）等。例子：圖像分類(lèi)、語(yǔ)音識(shí)別

強(qiáng)化學(xué)習(xí)：

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

在這種學(xué)習(xí)模式下，輸入數(shù)據(jù)作為對(duì)模型的反饋，不像監(jiān)督模型那樣，輸入數(shù)據(jù)僅僅是作為一個(gè)檢查模型對(duì)錯(cuò)的方式，在強(qiáng)化學(xué)習(xí)下，輸入數(shù)據(jù)直接反饋到模型，模型必須對(duì)此立刻作出調(diào)整。強(qiáng)化學(xué)習(xí)模型通過(guò)不同的行為來(lái)尋找目標(biāo)回報(bào)函數(shù)最大化。常見(jiàn)的應(yīng)用場(chǎng)景包括動(dòng)態(tài)系統(tǒng)以及機(jī)器人控制，人工智能 AI等。常見(jiàn)算法包括Q-Learning以及時(shí)間差學(xué)習(xí)（Temporal difference learning）。

在企業(yè)數(shù)據(jù)應(yīng)用的場(chǎng)景下，人們最常用的可能就是監(jiān)督式學(xué)習(xí)和非監(jiān)督式學(xué)習(xí)的模型。在圖像識(shí)別等領(lǐng)域，由于存在大量的非標(biāo)識(shí)的數(shù)據(jù)和少量的可標(biāo)識(shí)數(shù)據(jù)，目前半監(jiān)督式學(xué)習(xí)是一個(gè)很熱的話題。而強(qiáng)化學(xué)習(xí)更多的應(yīng)用在機(jī)器人控制及其他需要進(jìn)行系統(tǒng)控制的領(lǐng)域。

算法類(lèi)似性

根據(jù)算法的功能和形式的類(lèi)似性，我們可以把算法分類(lèi)，比如說(shuō)基于樹(shù)的算法，基于神經(jīng)網(wǎng)絡(luò)的算法等等。當(dāng)然，機(jī)器學(xué)習(xí)的范圍非常龐大，有些算法很難明確歸類(lèi)到某一類(lèi)。而對(duì)于有些分類(lèi)來(lái)說(shuō)，同一分類(lèi)的算法可以針對(duì)不同類(lèi)型的問(wèn)題。這里，我們盡量把常用的算法按照最容易理解的方式進(jìn)行分類(lèi)。

回歸算法：

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

回歸算法是試圖采用對(duì)誤差的衡量來(lái)探索變量之間的關(guān)系的一類(lèi)算法?；貧w算法是統(tǒng)計(jì)機(jī)器學(xué)習(xí)的利器。在機(jī)器學(xué)習(xí)領(lǐng)域，人們說(shuō)起回歸，有時(shí)候是指一類(lèi)問(wèn)題，有時(shí)候是指一類(lèi)算法，這一點(diǎn)常常會(huì)使初學(xué)者有所困惑。常見(jiàn)的回歸算法包括：最小二乘法（Ordinary Least Square），邏輯回歸（Logistic Regression），逐步式回歸（Stepwise Regression），多元自適應(yīng)回歸樣條（Multivariate Adaptive Regression Splines）以及本地散點(diǎn)平滑估計(jì)（Locally Estimated Scatterplot Smoothing）。

基于實(shí)例的算法

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

基于實(shí)例的算法常常用來(lái)對(duì)決策問(wèn)題建立模型，這樣的模型常常先選取一批樣本數(shù)據(jù)，然后根據(jù)某些近似性把新數(shù)據(jù)與樣本數(shù)據(jù)進(jìn)行比較。通過(guò)這種方式來(lái)尋找最佳的匹配。因此，基于實(shí)例的算法常常也被稱(chēng)為“贏家通吃”學(xué)習(xí)或者“基于記憶的學(xué)習(xí)”。常見(jiàn)的算法包括 k-Nearest Neighbor(KNN), 學(xué)習(xí)矢量量化（Learning Vector Quantization， LVQ），以及自組織映射算法（Self-Organizing Map ， SOM）

正則化方法

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

正則化方法是其他算法（通常是回歸算法）的延伸，根據(jù)算法的復(fù)雜度對(duì)算法進(jìn)行調(diào)整。正則化方法通常對(duì)簡(jiǎn)單模型予以獎(jiǎng)勵(lì)而對(duì)復(fù)雜算法予以懲罰。常見(jiàn)的算法包括：Ridge Regression， Least Absolute Shrinkage and Selection Operator（LASSO），以及彈性網(wǎng)絡(luò)（Elastic Net）。

決策樹(shù)學(xué)習(xí)

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

決策樹(shù)算法根據(jù)數(shù)據(jù)的屬性采用樹(shù)狀結(jié)構(gòu)建立決策模型，決策樹(shù)模型常常用來(lái)解決分類(lèi)和回歸問(wèn)題。常見(jiàn)的算法包括：分類(lèi)及回歸樹(shù)（Classification And Regression Tree， CART）， ID3 (Iterative Dichotomiser 3)， C4.5， Chi-squared Automatic Interaction Detection(CHAID), Decision Stump, 隨機(jī)森林（Random Forest），多元自適應(yīng)回歸樣條（MARS）以及梯度推進(jìn)機(jī)（Gradient Boosting Machine， GBM）

貝葉斯方法

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

貝葉斯方法算法是基于貝葉斯定理的一類(lèi)算法，主要用來(lái)解決分類(lèi)和回歸問(wèn)題。常見(jiàn)算法包括：樸素貝葉斯算法，平均單依賴(lài)估計(jì)（Averaged One-Dependence Estimators， AODE），以及Bayesian Belief Network（BBN）。

基于核的算法

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

基于核的算法中最著名的莫過(guò)于支持向量機(jī)（SVM）了。基于核的算法把輸入數(shù)據(jù)映射到一個(gè)高階的向量空間，在這些高階向量空間里，有些分類(lèi)或者回歸問(wèn)題能夠更容易的解決。常見(jiàn)的基于核的算法包括：支持向量機(jī)（Support Vector Machine， SVM），徑向基函數(shù)（Radial Basis Function ，RBF)，以及線性判別分析（Linear Discriminate Analysis ，LDA)等

聚類(lèi)算法

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

聚類(lèi)，就像回歸一樣，有時(shí)候人們描述的是一類(lèi)問(wèn)題，有時(shí)候描述的是一類(lèi)算法。聚類(lèi)算法通常按照中心點(diǎn)或者分層的方式對(duì)輸入數(shù)據(jù)進(jìn)行歸并。所以的聚類(lèi)算法都試圖找到數(shù)據(jù)的內(nèi)在結(jié)構(gòu)，以便按照最大的共同點(diǎn)將數(shù)據(jù)進(jìn)行歸類(lèi)。常見(jiàn)的聚類(lèi)算法包括 k-Means算法以及期望最大化算法（Expectation Maximization， EM）。

關(guān)聯(lián)規(guī)則學(xué)習(xí)

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

關(guān)聯(lián)規(guī)則學(xué)習(xí)通過(guò)尋找最能夠解釋數(shù)據(jù)變量之間關(guān)系的規(guī)則，來(lái)找出大量多元數(shù)據(jù)集中有用的關(guān)聯(lián)規(guī)則。常見(jiàn)算法包括 Apriori算法和Eclat算法等。

人工神經(jīng)網(wǎng)絡(luò)

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

人工神經(jīng)網(wǎng)絡(luò)算法模擬生物神經(jīng)網(wǎng)絡(luò)，是一類(lèi)模式匹配算法。通常用于解決分類(lèi)和回歸問(wèn)題。人工神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)的一個(gè)龐大的分支，有幾百種不同的算法。（其中深度學(xué)習(xí)就是其中的一類(lèi)算法，我們會(huì)單獨(dú)討論），重要的人工神經(jīng)網(wǎng)絡(luò)算法包括：感知器神經(jīng)網(wǎng)絡(luò)（Perceptron Neural Network）, 反向傳遞（Back Propagation）， Hopfield網(wǎng)絡(luò)，自組織映射（Self-Organizing Map, SOM）。學(xué)習(xí)矢量量化（Learning Vector Quantization， LVQ）

深度學(xué)習(xí)

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

深度學(xué)習(xí)算法是對(duì)人工神經(jīng)網(wǎng)絡(luò)的發(fā)展。在近期贏得了很多關(guān)注，特別是百度也開(kāi)始發(fā)力深度學(xué)習(xí)后，更是在國(guó)內(nèi)引起了很多關(guān)注。在計(jì)算能力變得日益廉價(jià)的今天，深度學(xué)習(xí)試圖建立大得多也復(fù)雜得多的神經(jīng)網(wǎng)絡(luò)。很多深度學(xué)習(xí)的算法是半監(jiān)督式學(xué)習(xí)算法，用來(lái)處理存在少量未標(biāo)識(shí)數(shù)據(jù)的大數(shù)據(jù)集。常見(jiàn)的深度學(xué)習(xí)算法包括：受限波爾茲曼機(jī)（Restricted Boltzmann Machine， RBN）， Deep Belief Networks（DBN），卷積網(wǎng)絡(luò)（Convolutional Network）, 堆棧式自動(dòng)編碼器（Stacked Auto-encoders）。

降低維度算法

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

像聚類(lèi)算法一樣，降低維度算法試圖分析數(shù)據(jù)的內(nèi)在結(jié)構(gòu)，不過(guò)降低維度算法是以非監(jiān)督學(xué)習(xí)的方式試圖利用較少的信息來(lái)歸納或者解釋數(shù)據(jù)。這類(lèi)算法可以用于高維數(shù)據(jù)的可視化或者用來(lái)簡(jiǎn)化數(shù)據(jù)以便監(jiān)督式學(xué)習(xí)使用。常見(jiàn)的算法包括：主成份分析（Principle Component Analysis， PCA），偏最小二乘回歸（Partial Least Square Regression，PLS）， Sammon映射，多維尺度（Multi-Dimensional Scaling, MDS）, 投影追蹤（Projection Pursuit）等。

集成算法：

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

集成算法用一些相對(duì)較弱的學(xué)習(xí)模型獨(dú)立地就同樣的樣本進(jìn)行訓(xùn)練，然后把結(jié)果整合起來(lái)進(jìn)行整體預(yù)測(cè)。集成算法的主要難點(diǎn)在于究竟集成哪些獨(dú)立的較弱的學(xué)習(xí)模型以及如何把學(xué)習(xí)結(jié)果整合起來(lái)。這是一類(lèi)非常強(qiáng)大的算法，同時(shí)也非常流行。常見(jiàn)的算法包括：Boosting， Bootstrapped Aggregation（Bagging）， AdaBoost，堆疊泛化（Stacked Generalization， Blending），梯度推進(jìn)機(jī)（Gradient Boosting Machine, GBM），隨機(jī)森林（Random Forest）。

機(jī)器學(xué)習(xí)8大算法比較

機(jī)器學(xué)習(xí)算法太多了，分類(lèi)、回歸、聚類(lèi)、推薦、圖像識(shí)別領(lǐng)域等等，要想找到一個(gè)合適算法真的不容易，所以在實(shí)際應(yīng)用中，我們一般都是采用啟發(fā)式學(xué)習(xí)方式來(lái)實(shí)驗(yàn)。

通常最開(kāi)始我們都會(huì)選擇大家普遍認(rèn)同的算法，諸如SVM，GBDT，Adaboost，現(xiàn)在深度學(xué)習(xí)很火熱，神經(jīng)網(wǎng)絡(luò)也是一個(gè)不錯(cuò)的選擇。

假如你在乎精度(accuracy)的話，最好的方法就是通過(guò)交叉驗(yàn)證(cross-validation)對(duì)各個(gè)算法一個(gè)個(gè)地進(jìn)行測(cè)試，進(jìn)行比較，然后調(diào)整參數(shù)確保每個(gè)算法達(dá)到最優(yōu)解，最后選擇最好的一個(gè)。

但是如果你只是在尋找一個(gè)“足夠好”的算法來(lái)解決你的問(wèn)題，或者這里有些技巧可以參考，下面來(lái)分析下各個(gè)算法的優(yōu)缺點(diǎn)，基于算法的優(yōu)缺點(diǎn)，更易于我們?nèi)ミx擇它。

偏差&方差

在統(tǒng)計(jì)學(xué)中，一個(gè)模型好壞，是根據(jù)偏差和方差來(lái)衡量的，所以我們先來(lái)普及一下偏差和方差：

偏差：描述的是預(yù)測(cè)值(估計(jì)值)的期望E’與真實(shí)值Y之間的差距。偏差越大，越偏離真實(shí)數(shù)據(jù)。

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

方差：描述的是預(yù)測(cè)值P的變化范圍，離散程度，是預(yù)測(cè)值的方差，也就是離其期望值E的距離。方差越大，數(shù)據(jù)的分布越分散。

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

模型的真實(shí)誤差是兩者之和，如下圖：機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

如果是小訓(xùn)練集，高偏差/低方差的分類(lèi)器(例如，樸素貝葉斯NB)要比低偏差/高方差大分類(lèi)的優(yōu)勢(shì)大(例如，KNN)，因?yàn)楹笳邥?huì)過(guò)擬合。

但是，隨著你訓(xùn)練集的增長(zhǎng)，模型對(duì)于原數(shù)據(jù)的預(yù)測(cè)能力就越好，偏差就會(huì)降低，此時(shí)低偏差/高方差分類(lèi)器就會(huì)漸漸的表現(xiàn)其優(yōu)勢(shì)(因?yàn)樗鼈冇休^低的漸近誤差)，此時(shí)高偏差分類(lèi)器此時(shí)已經(jīng)不足以提供準(zhǔn)確的模型了。

當(dāng)然，你也可以認(rèn)為這是生成模型(NB)與判別模型(KNN)的一個(gè)區(qū)別。

為什么說(shuō)樸素貝葉斯是高偏差低方差?

首先，假設(shè)你知道訓(xùn)練集和測(cè)試集的關(guān)系。簡(jiǎn)單來(lái)講是我們要在訓(xùn)練集上學(xué)習(xí)一個(gè)模型，然后拿到測(cè)試集去用，效果好不好要根據(jù)測(cè)試集的錯(cuò)誤率來(lái)衡量。

但很多時(shí)候，我們只能假設(shè)測(cè)試集和訓(xùn)練集的是符合同一個(gè)數(shù)據(jù)分布的，但卻拿不到真正的測(cè)試數(shù)據(jù)。這時(shí)候怎么在只看到訓(xùn)練錯(cuò)誤率的情況下，去衡量測(cè)試錯(cuò)誤率呢?

由于訓(xùn)練樣本很少(至少不足夠多)，所以通過(guò)訓(xùn)練集得到的模型，總不是真正正確的。(就算在訓(xùn)練集上正確率100%，也不能說(shuō)明它刻畫(huà)了真實(shí)的數(shù)據(jù)分布，要知道刻畫(huà)真實(shí)的數(shù)據(jù)分布才是我們的目的，而不是只刻畫(huà)訓(xùn)練集的有限的數(shù)據(jù)點(diǎn))。

而且，實(shí)際中，訓(xùn)練樣本往往還有一定的噪音誤差，所以如果太追求在訓(xùn)練集上的完美而采用一個(gè)很復(fù)雜的模型，會(huì)使得模型把訓(xùn)練集里面的誤差都當(dāng)成了真實(shí)的數(shù)據(jù)分布特征，從而得到錯(cuò)誤的數(shù)據(jù)分布估計(jì)。

這樣的話，到了真正的測(cè)試集上就錯(cuò)的一塌糊涂了(這種現(xiàn)象叫過(guò)擬合)。但是也不能用太簡(jiǎn)單的模型，否則在數(shù)據(jù)分布比較復(fù)雜的時(shí)候，模型就不足以刻畫(huà)數(shù)據(jù)分布了(體現(xiàn)為連在訓(xùn)練集上的錯(cuò)誤率都很高，這種現(xiàn)象較欠擬合)。

過(guò)擬合表明采用的模型比真實(shí)的數(shù)據(jù)分布更復(fù)雜，而欠擬合表示采用的模型比真實(shí)的數(shù)據(jù)分布要簡(jiǎn)單。

在統(tǒng)計(jì)學(xué)習(xí)框架下，大家刻畫(huà)模型復(fù)雜度的時(shí)候，有這么個(gè)觀點(diǎn)，認(rèn)為Error = Bias + Variance。這里的Error大概可以理解為模型的預(yù)測(cè)錯(cuò)誤率，是有兩部分組成的，一部分是由于模型太簡(jiǎn)單而帶來(lái)的估計(jì)不準(zhǔn)確的部分(Bias)，另一部分是由于模型太復(fù)雜而帶來(lái)的更大的變化空間和不確定性(Variance)。

所以，這樣就容易分析樸素貝葉斯了。它簡(jiǎn)單的假設(shè)了各個(gè)數(shù)據(jù)之間是無(wú)關(guān)的，是一個(gè)被嚴(yán)重簡(jiǎn)化了的模型。所以，對(duì)于這樣一個(gè)簡(jiǎn)單模型，大部分場(chǎng)合都會(huì)Bias部分大于Variance部分，也就是說(shuō)高偏差而低方差。

在實(shí)際中，為了讓Error盡量小，我們?cè)谶x擇模型的時(shí)候需要平衡Bias和Variance所占的比例，也就是平衡over-fitting和under-fitting。

偏差和方差與模型復(fù)雜度的關(guān)系使用下圖更加明了：

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

當(dāng)模型復(fù)雜度上升的時(shí)候，偏差會(huì)逐漸變小，而方差會(huì)逐漸變大。

常見(jiàn)算法優(yōu)缺點(diǎn)

1.樸素貝葉斯

樸素貝葉斯屬于生成式模型(關(guān)于生成模型和判別式模型，主要還是在于是否是要求聯(lián)合分布)，非常簡(jiǎn)單，你只是做了一堆計(jì)數(shù)。

如果注有條件獨(dú)立性假設(shè)(一個(gè)比較嚴(yán)格的條件)，樸素貝葉斯分類(lèi)器的收斂速度將快于判別模型，如邏輯回歸，所以你只需要較少的訓(xùn)練數(shù)據(jù)即可。即使NB條件獨(dú)立假設(shè)不成立，NB分類(lèi)器在實(shí)踐中仍然表現(xiàn)的很出色。

它的主要缺點(diǎn)是它不能學(xué)習(xí)特征間的相互作用，用mRMR中R來(lái)講，就是特征冗余。引用一個(gè)比較經(jīng)典的例子，比如，雖然你喜歡Brad Pitt和Tom Cruise的電影，但是它不能學(xué)習(xí)出你不喜歡他們?cè)谝黄鹧莸碾娪啊?/p>

優(yōu)點(diǎn)：

樸素貝葉斯模型發(fā)源于古典數(shù)學(xué)理論，有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)，以及穩(wěn)定的分類(lèi)效率。

對(duì)小規(guī)模的數(shù)據(jù)表現(xiàn)很好，能個(gè)處理多分類(lèi)任務(wù)，適合增量式訓(xùn)練;

對(duì)缺失數(shù)據(jù)不太敏感，算法也比較簡(jiǎn)單，常用于文本分類(lèi)。

缺點(diǎn)：

需要計(jì)算先驗(yàn)概率;

分類(lèi)決策存在錯(cuò)誤率;

對(duì)輸入數(shù)據(jù)的表達(dá)形式很敏感。

2.邏輯回歸

屬于判別式模型，有很多正則化模型的方法(L0， L1，L2，etc)，而且你不必像在用樸素貝葉斯那樣擔(dān)心你的特征是否相關(guān)。

與決策樹(shù)與SVM機(jī)相比，你還會(huì)得到一個(gè)不錯(cuò)的概率解釋?zhuān)闵踔量梢暂p松地利用新數(shù)據(jù)來(lái)更新模型(使用在線梯度下降算法，online gradient descent)。

如果你需要一個(gè)概率架構(gòu)(比如，簡(jiǎn)單地調(diào)節(jié)分類(lèi)閾值，指明不確定性，或者是要獲得置信區(qū)間)，或者你希望以后將更多的訓(xùn)練數(shù)據(jù)快速整合到模型中去，那么使用它吧。

Sigmoid函數(shù)：

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

優(yōu)點(diǎn)：

實(shí)現(xiàn)簡(jiǎn)單，廣泛的應(yīng)用于工業(yè)問(wèn)題上;

分類(lèi)時(shí)計(jì)算量非常小，速度很快，存儲(chǔ)資源低;

便利的觀測(cè)樣本概率分?jǐn)?shù);

對(duì)邏輯回歸而言，多重共線性并不是問(wèn)題，它可以結(jié)合L2正則化來(lái)解決該問(wèn)題;

缺點(diǎn)：

當(dāng)特征空間很大時(shí)，邏輯回歸的性能不是很好;

容易欠擬合，一般準(zhǔn)確度不太高

不能很好地處理大量多類(lèi)特征或變量;

只能處理兩分類(lèi)問(wèn)題(在此基礎(chǔ)上衍生出來(lái)的softmax可以用于多分類(lèi))，且必須線性可分;

對(duì)于非線性特征，需要進(jìn)行轉(zhuǎn)換;

3.線性回歸

線性回歸是用于回歸的，而不像Logistic回歸是用于分類(lèi)，其基本思想是用梯度下降法對(duì)最小二乘法形式的誤差函數(shù)進(jìn)行優(yōu)化，當(dāng)然也可以用normal equation直接求得參數(shù)的解，結(jié)果為：

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

而在LWLR(局部加權(quán)線性回歸)中，參數(shù)的計(jì)算表達(dá)式為:

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

由此可見(jiàn)LWLR與LR不同，LWLR是一個(gè)非參數(shù)模型，因?yàn)槊看芜M(jìn)行回歸計(jì)算都要遍歷訓(xùn)練樣本至少一次。

優(yōu)點(diǎn)：

實(shí)現(xiàn)簡(jiǎn)單，計(jì)算簡(jiǎn)單

缺點(diǎn)：

不能擬合非線性數(shù)據(jù).

4.最近鄰算法——KNN

KNN即最近鄰算法，其主要過(guò)程為：

1. 計(jì)算訓(xùn)練樣本和測(cè)試樣本中每個(gè)樣本點(diǎn)的距離(常見(jiàn)的距離度量有歐式距離，馬氏距離等);

2. 對(duì)上面所有的距離值進(jìn)行排序;

3. 選前k個(gè)最小距離的樣本;

4. 根據(jù)這k個(gè)樣本的標(biāo)簽進(jìn)行投票，得到最后的分類(lèi)類(lèi)別;

如何選擇一個(gè)最佳的K值，這取決于數(shù)據(jù)。一般情況下，在分類(lèi)時(shí)較大的K值能夠減小噪聲的影響。但會(huì)使類(lèi)別之間的界限變得模糊。

一個(gè)較好的K值可通過(guò)各種啟發(fā)式技術(shù)來(lái)獲取，比如，交叉驗(yàn)證。另外噪聲和非相關(guān)性特征向量的存在會(huì)使K近鄰算法的準(zhǔn)確性減小。

近鄰算法具有較強(qiáng)的一致性結(jié)果。隨著數(shù)據(jù)趨于無(wú)限，算法保證錯(cuò)誤率不會(huì)超過(guò)貝葉斯算法錯(cuò)誤率的兩倍。對(duì)于一些好的K值，K近鄰保證錯(cuò)誤率不會(huì)超過(guò)貝葉斯理論誤差率。

優(yōu)點(diǎn)：

理論成熟，思想簡(jiǎn)單，既可以用來(lái)做分類(lèi)也可以用來(lái)做回歸;

可用于非線性分類(lèi);

訓(xùn)練時(shí)間復(fù)雜度為O(n);

對(duì)數(shù)據(jù)沒(méi)有假設(shè)，準(zhǔn)確度高，對(duì)outlier不敏感;

缺點(diǎn)：

計(jì)算量大;

樣本不平衡問(wèn)題(即有些類(lèi)別的樣本數(shù)量很多，而其它樣本的數(shù)量很少);

需要大量的內(nèi)存;

5.決策樹(shù)

易于解釋。它可以毫無(wú)壓力地處理特征間的交互關(guān)系并且是非參數(shù)化的，因此你不必?fù)?dān)心異常值或者數(shù)據(jù)是否線性可分(舉個(gè)例子，決策樹(shù)能輕松處理好類(lèi)別A在某個(gè)特征維度x的末端，類(lèi)別B在中間，然后類(lèi)別A又出現(xiàn)在特征維度x前端的情況)。

它的缺點(diǎn)之一就是不支持在線學(xué)習(xí)，于是在新樣本到來(lái)后，決策樹(shù)需要全部重建。

另一個(gè)缺點(diǎn)就是容易出現(xiàn)過(guò)擬合，但這也就是諸如隨機(jī)森林RF(或提升樹(shù)boosted tree)之類(lèi)的集成方法的切入點(diǎn)。

另外，隨機(jī)森林經(jīng)常是很多分類(lèi)問(wèn)題的贏家(通常比支持向量機(jī)好上那么一丁點(diǎn))，它訓(xùn)練快速并且可調(diào)，同時(shí)你無(wú)須擔(dān)心要像支持向量機(jī)那樣調(diào)一大堆參數(shù)，所以在以前都一直很受歡迎。

決策樹(shù)中很重要的一點(diǎn)就是選擇一個(gè)屬性進(jìn)行分枝，因此要注意一下信息增益的計(jì)算公式，并深入理解它。

信息熵的計(jì)算公式如下:

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

其中的n代表有n個(gè)分類(lèi)類(lèi)別(比如假設(shè)是2類(lèi)問(wèn)題，那么n=2)。分別計(jì)算這2類(lèi)樣本在總樣本中出現(xiàn)的概率p1和p2，這樣就可以計(jì)算出未選中屬性分枝前的信息熵。

現(xiàn)在選中一個(gè)屬性xixi用來(lái)進(jìn)行分枝，此時(shí)分枝規(guī)則是：如果xi=vxi=v的話，將樣本分到樹(shù)的一個(gè)分支;如果不相等則進(jìn)入另一個(gè)分支。

很顯然，分支中的樣本很有可能包括2個(gè)類(lèi)別，分別計(jì)算這2個(gè)分支的熵H1和H2,計(jì)算出分枝后的總信息熵H’ =p1 H1+p2 H2,則此時(shí)的信息增益ΔH = H - H’。以信息增益為原則，把所有的屬性都測(cè)試一邊，選擇一個(gè)使增益最大的屬性作為本次分枝屬性。

優(yōu)點(diǎn)

計(jì)算簡(jiǎn)單，易于理解，可解釋性強(qiáng);

比較適合處理有缺失屬性的樣本;

能夠處理不相關(guān)的特征;

在相對(duì)短的時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果。

缺點(diǎn)

容易發(fā)生過(guò)擬合(隨機(jī)森林可以很大程度上減少過(guò)擬合);

忽略了數(shù)據(jù)之間的相關(guān)性;

對(duì)于那些各類(lèi)別樣本數(shù)量不一致的數(shù)據(jù)，在決策樹(shù)當(dāng)中,信息增益的結(jié)果偏向于那些具有更多數(shù)值的特征(只要是使用了信息增益，都有這個(gè)缺點(diǎn)，如RF)。

5.1 Adaboosting

Adaboost是一種加和模型，每個(gè)模型都是基于上一次模型的錯(cuò)誤率來(lái)建立的，過(guò)分關(guān)注分錯(cuò)的樣本，而對(duì)正確分類(lèi)的樣本減少關(guān)注度，逐次迭代之后，可以得到一個(gè)相對(duì)較好的模型。是一種典型的boosting算法。下面是總結(jié)下它的優(yōu)缺點(diǎn)。

優(yōu)點(diǎn)

adaboost是一種有很高精度的分類(lèi)器。

可以使用各種方法構(gòu)建子分類(lèi)器，Adaboost算法提供的是框架。

當(dāng)使用簡(jiǎn)單分類(lèi)器時(shí)，計(jì)算出的結(jié)果是可以理解的，并且弱分類(lèi)器的構(gòu)造極其簡(jiǎn)單。

簡(jiǎn)單，不用做特征篩選。

不容易發(fā)生overfitting。

關(guān)于隨機(jī)森林和GBDT等組合算法，參考這篇文章：機(jī)器學(xué)習(xí)-組合算法總結(jié)

缺點(diǎn)：
對(duì)outlier比較敏感

6.SVM支持向量機(jī)

高準(zhǔn)確率，為避免過(guò)擬合提供了很好的理論保證，而且就算數(shù)據(jù)在原特征空間線性不可分，只要給個(gè)合適的核函數(shù)，它就能運(yùn)行得很好。

在動(dòng)輒超高維的文本分類(lèi)問(wèn)題中特別受歡迎?？上?nèi)存消耗大，難以解釋?zhuān)\(yùn)行和調(diào)參也有些煩人，而隨機(jī)森林卻剛好避開(kāi)了這些缺點(diǎn)，比較實(shí)用。

優(yōu)點(diǎn)

可以解決高維問(wèn)題，即大型特征空間;

能夠處理非線性特征的相互作用;

無(wú)需依賴(lài)整個(gè)數(shù)據(jù);

可以提高泛化能力;

缺點(diǎn)

當(dāng)觀測(cè)樣本很多時(shí)，效率并不是很高;

對(duì)非線性問(wèn)題沒(méi)有通用解決方案，有時(shí)候很難找到一個(gè)合適的核函數(shù);

對(duì)缺失數(shù)據(jù)敏感;

對(duì)于核的選擇也是有技巧的(libsvm中自帶了四種核函數(shù)：線性核、多項(xiàng)式核、RBF以及sigmoid核)：

第一，如果樣本數(shù)量小于特征數(shù)，那么就沒(méi)必要選擇非線性核，簡(jiǎn)單的使用線性核就可以了;

第二，如果樣本數(shù)量大于特征數(shù)目，這時(shí)可以使用非線性核，將樣本映射到更高維度，一般可以得到更好的結(jié)果;

第三，如果樣本數(shù)目和特征數(shù)目相等，該情況可以使用非線性核，原理和第二種一樣。

對(duì)于第一種情況，也可以先對(duì)數(shù)據(jù)進(jìn)行降維，然后使用非線性核，這也是一種方法。

7. 人工神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點(diǎn)

優(yōu)點(diǎn)：

分類(lèi)的準(zhǔn)確度高;

并行分布處理能力強(qiáng),分布存儲(chǔ)及學(xué)習(xí)能力強(qiáng)，

對(duì)噪聲神經(jīng)有較強(qiáng)的魯棒性和容錯(cuò)能力，能充分逼近復(fù)雜的非線性關(guān)系;

具備聯(lián)想記憶的功能。

缺點(diǎn)：

神經(jīng)網(wǎng)絡(luò)需要大量的參數(shù)，如網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、權(quán)值和閾值的初始值;

不能觀察之間的學(xué)習(xí)過(guò)程，輸出結(jié)果難以解釋?zhuān)瑫?huì)影響到結(jié)果的可信度和可接受程度;

學(xué)習(xí)時(shí)間過(guò)長(zhǎng),甚至可能達(dá)不到學(xué)習(xí)的目的。

關(guān)于“機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些”這篇文章就分享到這里了，希望以上內(nèi)容可以對(duì)大家有一定的幫助，使各位可以學(xué)到更多知識(shí)，如果覺(jué)得文章不錯(cuò)，請(qǐng)把它分享出去讓更多的人看到。

向AI問(wèn)一下細(xì)節(jié)

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

算法分類(lèi)

監(jiān)督式學(xué)習(xí)：

非監(jiān)督式學(xué)習(xí)：

半監(jiān)督式學(xué)習(xí)：

強(qiáng)化學(xué)習(xí)：

算法類(lèi)似性

回歸算法：

基于實(shí)例的算法

正則化方法

決策樹(shù)學(xué)習(xí)

貝葉斯方法

基于核的算法

聚類(lèi)算法

關(guān)聯(lián)規(guī)則學(xué)習(xí)

人工神經(jīng)網(wǎng)絡(luò)

深度學(xué)習(xí)

降低維度算法

集成算法：

機(jī)器學(xué)習(xí)8大算法比較

偏差&方差

為什么說(shuō)樸素貝葉斯是高偏差低方差?

常見(jiàn)算法優(yōu)缺點(diǎn)

1.樸素貝葉斯

優(yōu)點(diǎn)：

缺點(diǎn)：

2.邏輯回歸

優(yōu)點(diǎn)：

缺點(diǎn)：

3.線性回歸

優(yōu)點(diǎn)：

缺點(diǎn)：

4.最近鄰算法——KNN

優(yōu)點(diǎn)：

缺點(diǎn)：

5.決策樹(shù)

優(yōu)點(diǎn)

缺點(diǎn)

5.1 Adaboosting

優(yōu)點(diǎn)

6.SVM支持向量機(jī)

優(yōu)點(diǎn)

缺點(diǎn)

7. 人工神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點(diǎn)

優(yōu)點(diǎn)：

缺點(diǎn)：

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽