溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

發(fā)布時(shí)間:2021-12-16 14:44:53 來(lái)源:億速云 閱讀:173 作者:小新 欄目:云計(jì)算

這篇文章將為大家詳細(xì)講解有關(guān)機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些,小編覺(jué)得挺實(shí)用的,因此分享給大家做個(gè)參考,希望大家閱讀完這篇文章后可以有所收獲。

算法分類(lèi)

監(jiān)督式學(xué)習(xí):

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

在監(jiān)督式學(xué)習(xí)下,輸入數(shù)據(jù)被稱(chēng)為“訓(xùn)練數(shù)據(jù)”,每組訓(xùn)練數(shù)據(jù)有一個(gè)明確的標(biāo)識(shí)或結(jié)果,如對(duì)防垃圾郵件系統(tǒng)中“垃圾郵件”“非垃圾郵件”,對(duì)手寫(xiě)數(shù)字識(shí)別中的“1“,”2“,”3“,”4“等。在建立預(yù)測(cè)模型的時(shí)候,監(jiān)督式學(xué)習(xí)建立一個(gè)學(xué)習(xí)過(guò)程,將預(yù)測(cè)結(jié)果與“訓(xùn)練數(shù)據(jù)”的實(shí)際結(jié)果進(jìn)行比較,不斷的調(diào)整預(yù)測(cè)模型,直到模型的預(yù)測(cè)結(jié)果達(dá)到一個(gè)預(yù)期的準(zhǔn)確率。監(jiān)督式學(xué)習(xí)的常見(jiàn)應(yīng)用場(chǎng)景如分類(lèi)問(wèn)題和回歸問(wèn)題。常見(jiàn)算法有邏輯回歸(Logistic Regression)和反向傳遞神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network)。

非監(jiān)督式學(xué)習(xí):

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

在非監(jiān)督式學(xué)習(xí)中,數(shù)據(jù)并不被特別標(biāo)識(shí),學(xué)習(xí)模型是為了推斷出數(shù)據(jù)的一些內(nèi)在結(jié)構(gòu)。非監(jiān)督學(xué)習(xí)模型是用來(lái)從原始數(shù)據(jù)(無(wú)訓(xùn)練數(shù)據(jù))中找到隱藏的模式或者關(guān)系,因而非監(jiān)督學(xué)習(xí)模型是基于未標(biāo)記數(shù)據(jù)集的.常見(jiàn)的應(yīng)用場(chǎng)景包括關(guān)聯(lián)規(guī)則的學(xué)習(xí)以及聚類(lèi)等。常見(jiàn)算法包括Apriori算法以及k-Means算法。例子: 社交網(wǎng)絡(luò),語(yǔ)言預(yù)測(cè)

半監(jiān)督式學(xué)習(xí):

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

在此學(xué)習(xí)方式下,輸入數(shù)據(jù)部分被標(biāo)識(shí),部分沒(méi)有被標(biāo)識(shí),這種學(xué)習(xí)模型可以用來(lái)進(jìn)行預(yù)測(cè),但是模型首先需要學(xué)習(xí)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)以便合理的組織數(shù)據(jù)來(lái)進(jìn)行預(yù)測(cè)。應(yīng)用場(chǎng)景包括分類(lèi)和回歸,算法包括一些對(duì)常用監(jiān)督式學(xué)習(xí)算法的延伸,這些算法首先試圖對(duì)未標(biāo)識(shí)數(shù)據(jù)進(jìn)行建模,在此基礎(chǔ)上再對(duì)標(biāo)識(shí)的數(shù)據(jù)進(jìn)行預(yù)測(cè)。如圖論推理算法(Graph Inference)或者拉普拉斯支持向量機(jī)(Laplacian SVM.)等。例子:圖像分類(lèi)、語(yǔ)音識(shí)別

強(qiáng)化學(xué)習(xí):

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

在這種學(xué)習(xí)模式下,輸入數(shù)據(jù)作為對(duì)模型的反饋,不像監(jiān)督模型那樣,輸入數(shù)據(jù)僅僅是作為一個(gè)檢查模型對(duì)錯(cuò)的方式,在強(qiáng)化學(xué)習(xí)下,輸入數(shù)據(jù)直接反饋到模型,模型必須對(duì)此立刻作出調(diào)整。強(qiáng)化學(xué)習(xí)模型通過(guò)不同的行為來(lái)尋找目標(biāo)回報(bào)函數(shù)最大化。常見(jiàn)的應(yīng)用場(chǎng)景包括動(dòng)態(tài)系統(tǒng)以及機(jī)器人控制,人工智能 AI等。常見(jiàn)算法包括Q-Learning以及時(shí)間差學(xué)習(xí)(Temporal difference learning)。

在企業(yè)數(shù)據(jù)應(yīng)用的場(chǎng)景下, 人們最常用的可能就是監(jiān)督式學(xué)習(xí)和非監(jiān)督式學(xué)習(xí)的模型。 在圖像識(shí)別等領(lǐng)域,由于存在大量的非標(biāo)識(shí)的數(shù)據(jù)和少量的可標(biāo)識(shí)數(shù)據(jù), 目前半監(jiān)督式學(xué)習(xí)是一個(gè)很熱的話題。 而強(qiáng)化學(xué)習(xí)更多的應(yīng)用在機(jī)器人控制及其他需要進(jìn)行系統(tǒng)控制的領(lǐng)域。

算法類(lèi)似性

根據(jù)算法的功能和形式的類(lèi)似性,我們可以把算法分類(lèi),比如說(shuō)基于樹(shù)的算法,基于神經(jīng)網(wǎng)絡(luò)的算法等等。當(dāng)然,機(jī)器學(xué)習(xí)的范圍非常龐大,有些算法很難明確歸類(lèi)到某一類(lèi)。而對(duì)于有些分類(lèi)來(lái)說(shuō),同一分類(lèi)的算法可以針對(duì)不同類(lèi)型的問(wèn)題。這里,我們盡量把常用的算法按照最容易理解的方式進(jìn)行分類(lèi)。

回歸算法:

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

回歸算法是試圖采用對(duì)誤差的衡量來(lái)探索變量之間的關(guān)系的一類(lèi)算法?;貧w算法是統(tǒng)計(jì)機(jī)器學(xué)習(xí)的利器。在機(jī)器學(xué)習(xí)領(lǐng)域,人們說(shuō)起回歸,有時(shí)候是指一類(lèi)問(wèn)題,有時(shí)候是指一類(lèi)算法,這一點(diǎn)常常會(huì)使初學(xué)者有所困惑。常見(jiàn)的回歸算法包括:最小二乘法(Ordinary Least Square),邏輯回歸(Logistic Regression),逐步式回歸(Stepwise Regression),多元自適應(yīng)回歸樣條(Multivariate Adaptive Regression Splines)以及本地散點(diǎn)平滑估計(jì)(Locally Estimated Scatterplot Smoothing)。

基于實(shí)例的算法

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

基于實(shí)例的算法常常用來(lái)對(duì)決策問(wèn)題建立模型,這樣的模型常常先選取一批樣本數(shù)據(jù),然后根據(jù)某些近似性把新數(shù)據(jù)與樣本數(shù)據(jù)進(jìn)行比較。通過(guò)這種方式來(lái)尋找最佳的匹配。因此,基于實(shí)例的算法常常也被稱(chēng)為“贏家通吃”學(xué)習(xí)或者“基于記憶的學(xué)習(xí)”。常見(jiàn)的算法包括 k-Nearest Neighbor(KNN), 學(xué)習(xí)矢量量化(Learning Vector Quantization, LVQ),以及自組織映射算法(Self-Organizing Map , SOM)

正則化方法

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

正則化方法是其他算法(通常是回歸算法)的延伸,根據(jù)算法的復(fù)雜度對(duì)算法進(jìn)行調(diào)整。正則化方法通常對(duì)簡(jiǎn)單模型予以獎(jiǎng)勵(lì)而對(duì)復(fù)雜算法予以懲罰。常見(jiàn)的算法包括:Ridge Regression, Least Absolute Shrinkage and Selection Operator(LASSO),以及彈性網(wǎng)絡(luò)(Elastic Net)。

決策樹(shù)學(xué)習(xí)

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

決策樹(shù)算法根據(jù)數(shù)據(jù)的屬性采用樹(shù)狀結(jié)構(gòu)建立決策模型, 決策樹(shù)模型常常用來(lái)解決分類(lèi)和回歸問(wèn)題。常見(jiàn)的算法包括:分類(lèi)及回歸樹(shù)(Classification And Regression Tree, CART), ID3 (Iterative Dichotomiser 3), C4.5, Chi-squared Automatic Interaction Detection(CHAID), Decision Stump, 隨機(jī)森林(Random Forest), 多元自適應(yīng)回歸樣條(MARS)以及梯度推進(jìn)機(jī)(Gradient Boosting Machine, GBM)

貝葉斯方法

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

貝葉斯方法算法是基于貝葉斯定理的一類(lèi)算法,主要用來(lái)解決分類(lèi)和回歸問(wèn)題。常見(jiàn)算法包括:樸素貝葉斯算法,平均單依賴(lài)估計(jì)(Averaged One-Dependence Estimators, AODE),以及Bayesian Belief Network(BBN)。

基于核的算法

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

基于核的算法中最著名的莫過(guò)于支持向量機(jī)(SVM)了。 基于核的算法把輸入數(shù)據(jù)映射到一個(gè)高階的向量空間, 在這些高階向量空間里, 有些分類(lèi)或者回歸問(wèn)題能夠更容易的解決。 常見(jiàn)的基于核的算法包括:支持向量機(jī)(Support Vector Machine, SVM), 徑向基函數(shù)(Radial Basis Function ,RBF), 以及線性判別分析(Linear Discriminate Analysis ,LDA)等

聚類(lèi)算法

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

聚類(lèi),就像回歸一樣,有時(shí)候人們描述的是一類(lèi)問(wèn)題,有時(shí)候描述的是一類(lèi)算法。聚類(lèi)算法通常按照中心點(diǎn)或者分層的方式對(duì)輸入數(shù)據(jù)進(jìn)行歸并。所以的聚類(lèi)算法都試圖找到數(shù)據(jù)的內(nèi)在結(jié)構(gòu),以便按照最大的共同點(diǎn)將數(shù)據(jù)進(jìn)行歸類(lèi)。常見(jiàn)的聚類(lèi)算法包括 k-Means算法以及期望最大化算法(Expectation Maximization, EM)。

關(guān)聯(lián)規(guī)則學(xué)習(xí)

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

關(guān)聯(lián)規(guī)則學(xué)習(xí)通過(guò)尋找最能夠解釋數(shù)據(jù)變量之間關(guān)系的規(guī)則,來(lái)找出大量多元數(shù)據(jù)集中有用的關(guān)聯(lián)規(guī)則。常見(jiàn)算法包括 Apriori算法和Eclat算法等。

人工神經(jīng)網(wǎng)絡(luò)

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

人工神經(jīng)網(wǎng)絡(luò)算法模擬生物神經(jīng)網(wǎng)絡(luò),是一類(lèi)模式匹配算法。通常用于解決分類(lèi)和回歸問(wèn)題。人工神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)的一個(gè)龐大的分支,有幾百種不同的算法。(其中深度學(xué)習(xí)就是其中的一類(lèi)算法,我們會(huì)單獨(dú)討論),重要的人工神經(jīng)網(wǎng)絡(luò)算法包括:感知器神經(jīng)網(wǎng)絡(luò)(Perceptron Neural Network), 反向傳遞(Back Propagation), Hopfield網(wǎng)絡(luò),自組織映射(Self-Organizing Map, SOM)。學(xué)習(xí)矢量量化(Learning Vector Quantization, LVQ)

深度學(xué)習(xí)

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

深度學(xué)習(xí)算法是對(duì)人工神經(jīng)網(wǎng)絡(luò)的發(fā)展。 在近期贏得了很多關(guān)注, 特別是百度也開(kāi)始發(fā)力深度學(xué)習(xí)后, 更是在國(guó)內(nèi)引起了很多關(guān)注。 在計(jì)算能力變得日益廉價(jià)的今天,深度學(xué)習(xí)試圖建立大得多也復(fù)雜得多的神經(jīng)網(wǎng)絡(luò)。很多深度學(xué)習(xí)的算法是半監(jiān)督式學(xué)習(xí)算法,用來(lái)處理存在少量未標(biāo)識(shí)數(shù)據(jù)的大數(shù)據(jù)集。常見(jiàn)的深度學(xué)習(xí)算法包括:受限波爾茲曼機(jī)(Restricted Boltzmann Machine, RBN), Deep Belief Networks(DBN),卷積網(wǎng)絡(luò)(Convolutional Network), 堆棧式自動(dòng)編碼器(Stacked Auto-encoders)。

降低維度算法

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

像聚類(lèi)算法一樣,降低維度算法試圖分析數(shù)據(jù)的內(nèi)在結(jié)構(gòu),不過(guò)降低維度算法是以非監(jiān)督學(xué)習(xí)的方式試圖利用較少的信息來(lái)歸納或者解釋數(shù)據(jù)。這類(lèi)算法可以用于高維數(shù)據(jù)的可視化或者用來(lái)簡(jiǎn)化數(shù)據(jù)以便監(jiān)督式學(xué)習(xí)使用。常見(jiàn)的算法包括:主成份分析(Principle Component Analysis, PCA),偏最小二乘回歸(Partial Least Square Regression,PLS), Sammon映射,多維尺度(Multi-Dimensional Scaling, MDS), 投影追蹤(Projection Pursuit)等。

集成算法:

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

集成算法用一些相對(duì)較弱的學(xué)習(xí)模型獨(dú)立地就同樣的樣本進(jìn)行訓(xùn)練,然后把結(jié)果整合起來(lái)進(jìn)行整體預(yù)測(cè)。集成算法的主要難點(diǎn)在于究竟集成哪些獨(dú)立的較弱的學(xué)習(xí)模型以及如何把學(xué)習(xí)結(jié)果整合起來(lái)。這是一類(lèi)非常強(qiáng)大的算法,同時(shí)也非常流行。常見(jiàn)的算法包括:Boosting, Bootstrapped Aggregation(Bagging), AdaBoost,堆疊泛化(Stacked Generalization, Blending),梯度推進(jìn)機(jī)(Gradient Boosting Machine, GBM),隨機(jī)森林(Random Forest)。

機(jī)器學(xué)習(xí)8大算法比較

機(jī)器學(xué)習(xí)算法太多了,分類(lèi)、回歸、聚類(lèi)、推薦、圖像識(shí)別領(lǐng)域等等,要想找到一個(gè)合適算法真的不容易,所以在實(shí)際應(yīng)用中,我們一般都是采用啟發(fā)式學(xué)習(xí)方式來(lái)實(shí)驗(yàn)。

通常最開(kāi)始我們都會(huì)選擇大家普遍認(rèn)同的算法,諸如SVM,GBDT,Adaboost,現(xiàn)在深度學(xué)習(xí)很火熱,神經(jīng)網(wǎng)絡(luò)也是一個(gè)不錯(cuò)的選擇。

假如你在乎精度(accuracy)的話,最好的方法就是通過(guò)交叉驗(yàn)證(cross-validation)對(duì)各個(gè)算法一個(gè)個(gè)地進(jìn)行測(cè)試,進(jìn)行比較,然后調(diào)整參數(shù)確保每個(gè)算法達(dá)到最優(yōu)解,最后選擇最好的一個(gè)。

但是如果你只是在尋找一個(gè)“足夠好”的算法來(lái)解決你的問(wèn)題,或者這里有些技巧可以參考,下面來(lái)分析下各個(gè)算法的優(yōu)缺點(diǎn),基于算法的優(yōu)缺點(diǎn),更易于我們?nèi)ミx擇它。

偏差&方差

在統(tǒng)計(jì)學(xué)中,一個(gè)模型好壞,是根據(jù)偏差和方差來(lái)衡量的,所以我們先來(lái)普及一下偏差和方差:

偏差:描述的是預(yù)測(cè)值(估計(jì)值)的期望E’與真實(shí)值Y之間的差距。偏差越大,越偏離真實(shí)數(shù)據(jù)。

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

方差:描述的是預(yù)測(cè)值P的變化范圍,離散程度,是預(yù)測(cè)值的方差,也就是離其期望值E的距離。方差越大,數(shù)據(jù)的分布越分散。

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

模型的真實(shí)誤差是兩者之和,如下圖:機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

如果是小訓(xùn)練集,高偏差/低方差的分類(lèi)器(例如,樸素貝葉斯NB)要比低偏差/高方差大分類(lèi)的優(yōu)勢(shì)大(例如,KNN),因?yàn)楹笳邥?huì)過(guò)擬合。

但是,隨著你訓(xùn)練集的增長(zhǎng),模型對(duì)于原數(shù)據(jù)的預(yù)測(cè)能力就越好,偏差就會(huì)降低,此時(shí)低偏差/高方差分類(lèi)器就會(huì)漸漸的表現(xiàn)其優(yōu)勢(shì)(因?yàn)樗鼈冇休^低的漸近誤差),此時(shí)高偏差分類(lèi)器此時(shí)已經(jīng)不足以提供準(zhǔn)確的模型了。

當(dāng)然,你也可以認(rèn)為這是生成模型(NB)與判別模型(KNN)的一個(gè)區(qū)別。

為什么說(shuō)樸素貝葉斯是高偏差低方差?

首先,假設(shè)你知道訓(xùn)練集和測(cè)試集的關(guān)系。簡(jiǎn)單來(lái)講是我們要在訓(xùn)練集上學(xué)習(xí)一個(gè)模型,然后拿到測(cè)試集去用,效果好不好要根據(jù)測(cè)試集的錯(cuò)誤率來(lái)衡量。

但很多時(shí)候,我們只能假設(shè)測(cè)試集和訓(xùn)練集的是符合同一個(gè)數(shù)據(jù)分布的,但卻拿不到真正的測(cè)試數(shù)據(jù)。這時(shí)候怎么在只看到訓(xùn)練錯(cuò)誤率的情況下,去衡量測(cè)試錯(cuò)誤率呢?

由于訓(xùn)練樣本很少(至少不足夠多),所以通過(guò)訓(xùn)練集得到的模型,總不是真正正確的。(就算在訓(xùn)練集上正確率100%,也不能說(shuō)明它刻畫(huà)了真實(shí)的數(shù)據(jù)分布,要知道刻畫(huà)真實(shí)的數(shù)據(jù)分布才是我們的目的,而不是只刻畫(huà)訓(xùn)練集的有限的數(shù)據(jù)點(diǎn))。

而且,實(shí)際中,訓(xùn)練樣本往往還有一定的噪音誤差,所以如果太追求在訓(xùn)練集上的完美而采用一個(gè)很復(fù)雜的模型,會(huì)使得模型把訓(xùn)練集里面的誤差都當(dāng)成了真實(shí)的數(shù)據(jù)分布特征,從而得到錯(cuò)誤的數(shù)據(jù)分布估計(jì)。

這樣的話,到了真正的測(cè)試集上就錯(cuò)的一塌糊涂了(這種現(xiàn)象叫過(guò)擬合)。但是也不能用太簡(jiǎn)單的模型,否則在數(shù)據(jù)分布比較復(fù)雜的時(shí)候,模型就不足以刻畫(huà)數(shù)據(jù)分布了(體現(xiàn)為連在訓(xùn)練集上的錯(cuò)誤率都很高,這種現(xiàn)象較欠擬合)。

過(guò)擬合表明采用的模型比真實(shí)的數(shù)據(jù)分布更復(fù)雜,而欠擬合表示采用的模型比真實(shí)的數(shù)據(jù)分布要簡(jiǎn)單。

在統(tǒng)計(jì)學(xué)習(xí)框架下,大家刻畫(huà)模型復(fù)雜度的時(shí)候,有這么個(gè)觀點(diǎn),認(rèn)為Error = Bias + Variance。這里的Error大概可以理解為模型的預(yù)測(cè)錯(cuò)誤率,是有兩部分組成的,一部分是由于模型太簡(jiǎn)單而帶來(lái)的估計(jì)不準(zhǔn)確的部分(Bias),另一部分是由于模型太復(fù)雜而帶來(lái)的更大的變化空間和不確定性(Variance)。

所以,這樣就容易分析樸素貝葉斯了。它簡(jiǎn)單的假設(shè)了各個(gè)數(shù)據(jù)之間是無(wú)關(guān)的,是一個(gè)被嚴(yán)重簡(jiǎn)化了的模型。所以,對(duì)于這樣一個(gè)簡(jiǎn)單模型,大部分場(chǎng)合都會(huì)Bias部分大于Variance部分,也就是說(shuō)高偏差而低方差。

在實(shí)際中,為了讓Error盡量小,我們?cè)谶x擇模型的時(shí)候需要平衡Bias和Variance所占的比例,也就是平衡over-fitting和under-fitting。

偏差和方差與模型復(fù)雜度的關(guān)系使用下圖更加明了:

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

當(dāng)模型復(fù)雜度上升的時(shí)候,偏差會(huì)逐漸變小,而方差會(huì)逐漸變大。

常見(jiàn)算法優(yōu)缺點(diǎn)


 

1.樸素貝葉斯

樸素貝葉斯屬于生成式模型(關(guān)于生成模型和判別式模型,主要還是在于是否是要求聯(lián)合分布),非常簡(jiǎn)單,你只是做了一堆計(jì)數(shù)。

如果注有條件獨(dú)立性假設(shè)(一個(gè)比較嚴(yán)格的條件),樸素貝葉斯分類(lèi)器的收斂速度將快于判別模型,如邏輯回歸,所以你只需要較少的訓(xùn)練數(shù)據(jù)即可。即使NB條件獨(dú)立假設(shè)不成立,NB分類(lèi)器在實(shí)踐中仍然表現(xiàn)的很出色。

它的主要缺點(diǎn)是它不能學(xué)習(xí)特征間的相互作用,用mRMR中R來(lái)講,就是特征冗余。引用一個(gè)比較經(jīng)典的例子,比如,雖然你喜歡Brad Pitt和Tom Cruise的電影,但是它不能學(xué)習(xí)出你不喜歡他們?cè)谝黄鹧莸碾娪啊?/p>

優(yōu)點(diǎn):

樸素貝葉斯模型發(fā)源于古典數(shù)學(xué)理論,有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類(lèi)效率。

對(duì)小規(guī)模的數(shù)據(jù)表現(xiàn)很好,能個(gè)處理多分類(lèi)任務(wù),適合增量式訓(xùn)練;

對(duì)缺失數(shù)據(jù)不太敏感,算法也比較簡(jiǎn)單,常用于文本分類(lèi)。

缺點(diǎn):

需要計(jì)算先驗(yàn)概率;

分類(lèi)決策存在錯(cuò)誤率;

對(duì)輸入數(shù)據(jù)的表達(dá)形式很敏感。

2.邏輯回歸

屬于判別式模型,有很多正則化模型的方法(L0, L1,L2,etc),而且你不必像在用樸素貝葉斯那樣擔(dān)心你的特征是否相關(guān)。

與決策樹(shù)與SVM機(jī)相比,你還會(huì)得到一個(gè)不錯(cuò)的概率解釋?zhuān)闵踔量梢暂p松地利用新數(shù)據(jù)來(lái)更新模型(使用在線梯度下降算法,online gradient descent)。

如果你需要一個(gè)概率架構(gòu)(比如,簡(jiǎn)單地調(diào)節(jié)分類(lèi)閾值,指明不確定性,或者是要獲得置信區(qū)間),或者你希望以后將更多的訓(xùn)練數(shù)據(jù)快速整合到模型中去,那么使用它吧。

Sigmoid函數(shù):

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

優(yōu)點(diǎn):

實(shí)現(xiàn)簡(jiǎn)單,廣泛的應(yīng)用于工業(yè)問(wèn)題上;

分類(lèi)時(shí)計(jì)算量非常小,速度很快,存儲(chǔ)資源低;

便利的觀測(cè)樣本概率分?jǐn)?shù);

對(duì)邏輯回歸而言,多重共線性并不是問(wèn)題,它可以結(jié)合L2正則化來(lái)解決該問(wèn)題;

缺點(diǎn):

當(dāng)特征空間很大時(shí),邏輯回歸的性能不是很好;

容易欠擬合,一般準(zhǔn)確度不太高

不能很好地處理大量多類(lèi)特征或變量;

只能處理兩分類(lèi)問(wèn)題(在此基礎(chǔ)上衍生出來(lái)的softmax可以用于多分類(lèi)),且必須線性可分;

對(duì)于非線性特征,需要進(jìn)行轉(zhuǎn)換;

3.線性回歸

線性回歸是用于回歸的,而不像Logistic回歸是用于分類(lèi),其基本思想是用梯度下降法對(duì)最小二乘法形式的誤差函數(shù)進(jìn)行優(yōu)化,當(dāng)然也可以用normal equation直接求得參數(shù)的解,結(jié)果為:

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

而在LWLR(局部加權(quán)線性回歸)中,參數(shù)的計(jì)算表達(dá)式為:

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

由此可見(jiàn)LWLR與LR不同,LWLR是一個(gè)非參數(shù)模型,因?yàn)槊看芜M(jìn)行回歸計(jì)算都要遍歷訓(xùn)練樣本至少一次。

優(yōu)點(diǎn):

 實(shí)現(xiàn)簡(jiǎn)單,計(jì)算簡(jiǎn)單

缺點(diǎn): 

不能擬合非線性數(shù)據(jù).

4.最近鄰算法——KNN

KNN即最近鄰算法,其主要過(guò)程為:

1. 計(jì)算訓(xùn)練樣本和測(cè)試樣本中每個(gè)樣本點(diǎn)的距離(常見(jiàn)的距離度量有歐式距離,馬氏距離等);

2. 對(duì)上面所有的距離值進(jìn)行排序;

3. 選前k個(gè)最小距離的樣本;

4. 根據(jù)這k個(gè)樣本的標(biāo)簽進(jìn)行投票,得到最后的分類(lèi)類(lèi)別;

如何選擇一個(gè)最佳的K值,這取決于數(shù)據(jù)。一般情況下,在分類(lèi)時(shí)較大的K值能夠減小噪聲的影響。但會(huì)使類(lèi)別之間的界限變得模糊。

一個(gè)較好的K值可通過(guò)各種啟發(fā)式技術(shù)來(lái)獲取,比如,交叉驗(yàn)證。另外噪聲和非相關(guān)性特征向量的存在會(huì)使K近鄰算法的準(zhǔn)確性減小。

近鄰算法具有較強(qiáng)的一致性結(jié)果。隨著數(shù)據(jù)趨于無(wú)限,算法保證錯(cuò)誤率不會(huì)超過(guò)貝葉斯算法錯(cuò)誤率的兩倍。對(duì)于一些好的K值,K近鄰保證錯(cuò)誤率不會(huì)超過(guò)貝葉斯理論誤差率。

優(yōu)點(diǎn):

理論成熟,思想簡(jiǎn)單,既可以用來(lái)做分類(lèi)也可以用來(lái)做回歸;

可用于非線性分類(lèi);

訓(xùn)練時(shí)間復(fù)雜度為O(n);

對(duì)數(shù)據(jù)沒(méi)有假設(shè),準(zhǔn)確度高,對(duì)outlier不敏感;

缺點(diǎn):

計(jì)算量大;

樣本不平衡問(wèn)題(即有些類(lèi)別的樣本數(shù)量很多,而其它樣本的數(shù)量很少);

需要大量的內(nèi)存;

5.決策樹(shù)

易于解釋。它可以毫無(wú)壓力地處理特征間的交互關(guān)系并且是非參數(shù)化的,因此你不必?fù)?dān)心異常值或者數(shù)據(jù)是否線性可分(舉個(gè)例子,決策樹(shù)能輕松處理好類(lèi)別A在某個(gè)特征維度x的末端,類(lèi)別B在中間,然后類(lèi)別A又出現(xiàn)在特征維度x前端的情況)。

它的缺點(diǎn)之一就是不支持在線學(xué)習(xí),于是在新樣本到來(lái)后,決策樹(shù)需要全部重建。

另一個(gè)缺點(diǎn)就是容易出現(xiàn)過(guò)擬合,但這也就是諸如隨機(jī)森林RF(或提升樹(shù)boosted tree)之類(lèi)的集成方法的切入點(diǎn)。

另外,隨機(jī)森林經(jīng)常是很多分類(lèi)問(wèn)題的贏家(通常比支持向量機(jī)好上那么一丁點(diǎn)),它訓(xùn)練快速并且可調(diào),同時(shí)你無(wú)須擔(dān)心要像支持向量機(jī)那樣調(diào)一大堆參數(shù),所以在以前都一直很受歡迎。

決策樹(shù)中很重要的一點(diǎn)就是選擇一個(gè)屬性進(jìn)行分枝,因此要注意一下信息增益的計(jì)算公式,并深入理解它。

信息熵的計(jì)算公式如下:

機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些

其中的n代表有n個(gè)分類(lèi)類(lèi)別(比如假設(shè)是2類(lèi)問(wèn)題,那么n=2)。分別計(jì)算這2類(lèi)樣本在總樣本中出現(xiàn)的概率p1和p2,這樣就可以計(jì)算出未選中屬性分枝前的信息熵。

現(xiàn)在選中一個(gè)屬性xixi用來(lái)進(jìn)行分枝,此時(shí)分枝規(guī)則是:如果xi=vxi=v的話,將樣本分到樹(shù)的一個(gè)分支;如果不相等則進(jìn)入另一個(gè)分支。

很顯然,分支中的樣本很有可能包括2個(gè)類(lèi)別,分別計(jì)算這2個(gè)分支的熵H1和H2,計(jì)算出分枝后的總信息熵H’ =p1 H1+p2 H2,則此時(shí)的信息增益ΔH = H - H’。以信息增益為原則,把所有的屬性都測(cè)試一邊,選擇一個(gè)使增益最大的屬性作為本次分枝屬性。

優(yōu)點(diǎn)

計(jì)算簡(jiǎn)單,易于理解,可解釋性強(qiáng);

比較適合處理有缺失屬性的樣本;

能夠處理不相關(guān)的特征;

在相對(duì)短的時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果。

缺點(diǎn)

容易發(fā)生過(guò)擬合(隨機(jī)森林可以很大程度上減少過(guò)擬合);

忽略了數(shù)據(jù)之間的相關(guān)性;

對(duì)于那些各類(lèi)別樣本數(shù)量不一致的數(shù)據(jù),在決策樹(shù)當(dāng)中,信息增益的結(jié)果偏向于那些具有更多數(shù)值的特征(只要是使用了信息增益,都有這個(gè)缺點(diǎn),如RF)。

5.1 Adaboosting

Adaboost是一種加和模型,每個(gè)模型都是基于上一次模型的錯(cuò)誤率來(lái)建立的,過(guò)分關(guān)注分錯(cuò)的樣本,而對(duì)正確分類(lèi)的樣本減少關(guān)注度,逐次迭代之后,可以得到一個(gè)相對(duì)較好的模型。是一種典型的boosting算法。下面是總結(jié)下它的優(yōu)缺點(diǎn)。

優(yōu)點(diǎn)

adaboost是一種有很高精度的分類(lèi)器。

可以使用各種方法構(gòu)建子分類(lèi)器,Adaboost算法提供的是框架。

當(dāng)使用簡(jiǎn)單分類(lèi)器時(shí),計(jì)算出的結(jié)果是可以理解的,并且弱分類(lèi)器的構(gòu)造極其簡(jiǎn)單。

簡(jiǎn)單,不用做特征篩選。

不容易發(fā)生overfitting。

關(guān)于隨機(jī)森林和GBDT等組合算法,參考這篇文章:機(jī)器學(xué)習(xí)-組合算法總結(jié)

缺點(diǎn):
對(duì)outlier比較敏感

6.SVM支持向量機(jī)

高準(zhǔn)確率,為避免過(guò)擬合提供了很好的理論保證,而且就算數(shù)據(jù)在原特征空間線性不可分,只要給個(gè)合適的核函數(shù),它就能運(yùn)行得很好。

在動(dòng)輒超高維的文本分類(lèi)問(wèn)題中特別受歡迎??上?nèi)存消耗大,難以解釋?zhuān)\(yùn)行和調(diào)參也有些煩人,而隨機(jī)森林卻剛好避開(kāi)了這些缺點(diǎn),比較實(shí)用。

優(yōu)點(diǎn)

可以解決高維問(wèn)題,即大型特征空間;

能夠處理非線性特征的相互作用;

無(wú)需依賴(lài)整個(gè)數(shù)據(jù);

可以提高泛化能力;

缺點(diǎn)

當(dāng)觀測(cè)樣本很多時(shí),效率并不是很高;

對(duì)非線性問(wèn)題沒(méi)有通用解決方案,有時(shí)候很難找到一個(gè)合適的核函數(shù);

對(duì)缺失數(shù)據(jù)敏感;

對(duì)于核的選擇也是有技巧的(libsvm中自帶了四種核函數(shù):線性核、多項(xiàng)式核、RBF以及sigmoid核):

第一,如果樣本數(shù)量小于特征數(shù),那么就沒(méi)必要選擇非線性核,簡(jiǎn)單的使用線性核就可以了;

第二,如果樣本數(shù)量大于特征數(shù)目,這時(shí)可以使用非線性核,將樣本映射到更高維度,一般可以得到更好的結(jié)果;

第三,如果樣本數(shù)目和特征數(shù)目相等,該情況可以使用非線性核,原理和第二種一樣。

對(duì)于第一種情況,也可以先對(duì)數(shù)據(jù)進(jìn)行降維,然后使用非線性核,這也是一種方法。

7. 人工神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點(diǎn)

優(yōu)點(diǎn):

分類(lèi)的準(zhǔn)確度高;

并行分布處理能力強(qiáng),分布存儲(chǔ)及學(xué)習(xí)能力強(qiáng),

對(duì)噪聲神經(jīng)有較強(qiáng)的魯棒性和容錯(cuò)能力,能充分逼近復(fù)雜的非線性關(guān)系;

具備聯(lián)想記憶的功能。

缺點(diǎn):

神經(jīng)網(wǎng)絡(luò)需要大量的參數(shù),如網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、權(quán)值和閾值的初始值;

不能觀察之間的學(xué)習(xí)過(guò)程,輸出結(jié)果難以解釋?zhuān)瑫?huì)影響到結(jié)果的可信度和可接受程度;

學(xué)習(xí)時(shí)間過(guò)長(zhǎng),甚至可能達(dá)不到學(xué)習(xí)的目的。

關(guān)于“機(jī)器學(xué)習(xí)使用場(chǎng)景有哪些”這篇文章就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,使各位可以學(xué)到更多知識(shí),如果覺(jué)得文章不錯(cuò),請(qǐng)把它分享出去讓更多的人看到。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI