溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

機(jī)器學(xué)習(xí)的中心極限定律怎么理解

發(fā)布時(shí)間:2021-12-08 14:24:59 來(lái)源:億速云 閱讀:152 作者:iii 欄目:大數(shù)據(jù)

本篇內(nèi)容介紹了“機(jī)器學(xué)習(xí)的中心極限定律怎么理解”的有關(guān)知識(shí),在實(shí)際案例的操作過程中,不少人都會(huì)遇到這樣的困境,接下來(lái)就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!

大數(shù)定律
   當(dāng)數(shù)據(jù)量很大的時(shí)候可以用頻率表示概率,

   在試驗(yàn)不變的條件下,重復(fù)試驗(yàn)多次,隨機(jī)事件的頻率近似于它的概率。偶然中包含著某種必然。

中心極限定理
  樣本的平均值約等于總體的平均值。
  不管總體是什么分布,任意一個(gè)總體的樣本平均值都會(huì)圍繞在總體的整體平均值周圍,并且呈正態(tài)分布。
  除以n和n-1  中心極限定理

一.中心極限定理

下圖形象的說(shuō)明了中心極限定理

機(jī)器學(xué)習(xí)的中心極限定律怎么理解

當(dāng)樣本量N逐漸趨于無(wú)窮大時(shí),N個(gè)抽樣樣本的均值的頻數(shù)逐漸趨于正態(tài)分布,其對(duì)原總體的分布不做任何要求,意味著無(wú)論總體是什么分布,其抽樣樣本的均值的頻數(shù)的分布都隨著抽樣數(shù)的增多而趨于正態(tài)分布,如上圖,這個(gè)正態(tài)分布的u會(huì)越來(lái)越逼近總體均值,并且其方差滿足a^2/n,a為總體的標(biāo)準(zhǔn)差,注意抽樣樣本要多次抽取,一個(gè)容量為N的抽樣樣本是無(wú)法構(gòu)成分布的。

二.中心極限定理和大數(shù)定律的區(qū)別

下面援引一段知乎上的回答:https://www.zhihu.com/question/48256489/answer/110106016

大數(shù)定律是說(shuō),n只要越來(lái)越大,我把這n個(gè)獨(dú)立同分布的數(shù)加起來(lái)去除以n得到的這個(gè)樣本均值(也是一個(gè)隨機(jī)變量)會(huì)依概率收斂到真值u,但是樣本均值的分布是怎樣的我們不知道。

中心極限定理是說(shuō),n只要越來(lái)越大,這n個(gè)數(shù)的樣本均值會(huì)趨近于正態(tài)分布,并且這個(gè)正態(tài)分布以u(píng)為均值,sigma^2/n為方差。

綜上所述,這兩個(gè)定律都是在說(shuō)樣本均值性質(zhì)。隨著n增大,大數(shù)定律說(shuō)樣本均值幾乎必然等于均值。中心極限定律說(shuō),他越來(lái)越趨近于正態(tài)分布。并且這個(gè)正態(tài)分布的方差越來(lái)越小。

直觀上來(lái)講,想到大數(shù)定律的時(shí)候,你腦海里浮現(xiàn)的應(yīng)該是一個(gè)樣本,而想到中心極限定理的時(shí)候腦海里應(yīng)該浮現(xiàn)出很多個(gè)樣本。

中心極限定理是說(shuō)一定條件下,當(dāng)變量的個(gè)數(shù)趨向于無(wú)窮大時(shí),變量總體趨向于正態(tài)分布。而大數(shù)定律是當(dāng)重復(fù)獨(dú)立試驗(yàn)次數(shù)趨于無(wú)窮大時(shí),平均值(包括頻率)具有穩(wěn)定性。兩者是完全不同的

最大似然估計(jì): 是利用已知的樣本的結(jié)果,在使用某個(gè)模型的基礎(chǔ)上,反推最有可能導(dǎo)致這樣結(jié)果的模型參數(shù)值。

舉個(gè)通俗的例子:假設(shè)一個(gè)袋子裝有白球與紅球,比例未知,現(xiàn)在抽取10次(每次抽完都放回,保證事件獨(dú)立性),假設(shè)抽到了7次白球和3次紅球,在此數(shù)據(jù)樣本條件下,可以采用最大似然估計(jì)法求解袋子中白球的比例(最大似然估計(jì)是一種“模型已定,參數(shù)未知”的方法)。當(dāng)然,這種數(shù)據(jù)情況下很明顯,白球的比例是70%。

說(shuō)的通俗一點(diǎn)啊,最大似然估計(jì),就是  利用已知的樣本結(jié)果,  反推最有可能(最大概率)導(dǎo)致這樣結(jié)果的參數(shù)值(模型已知,參數(shù)未知)。

基本思想

當(dāng)從模型總體隨機(jī)抽取n組樣本觀測(cè)值后,最合理的參數(shù)估計(jì)量應(yīng)該使得從模型中抽取該n組樣本觀測(cè)值的概率最大,而不是像最小二乘估計(jì)法旨在得到使得模型能最好地?cái)M合樣本數(shù)據(jù)的參數(shù)估計(jì)量。  

似然函數(shù)

對(duì)數(shù)似然函數(shù)

 當(dāng)樣本為獨(dú)立同分布時(shí),似然函數(shù)可簡(jiǎn)寫為L(zhǎng)(α)=Πp(xi;α),牽涉到乘法不好往下處理,于是對(duì)其取對(duì)數(shù)研究,得到對(duì)數(shù)似然函數(shù)l(α)=ln L(α)=Σln p(xi;α) 

求解極大似然

同樣使用多元函數(shù)求極值的方法。

例如:一個(gè)麻袋里有白球與黑球,但是我不知道它們之間的比例,那我就有放回的抽取10次,結(jié)果我發(fā)現(xiàn)我抽到了8次黑球2次白球,我要求最有可能的黑白球之間的比例時(shí),就采取最大似然估計(jì)法: 我假設(shè)我抽到黑球的概率為p,那得出8次黑球2次白球這個(gè)結(jié)果的概率為:

P(黑=8)=p^8*(1-p)^2,  

現(xiàn)在我想要得出p是多少啊,很簡(jiǎn)單,使得P(黑=8)最大的p就是我要求的結(jié)果,接下來(lái)求導(dǎo)的的過程就是求極值的過程啦。

可能你會(huì)有疑問,為什么要ln一下呢,這是因?yàn)閘n把乘法變成加法了,且不會(huì)改變極值的位置(單調(diào)性保持一致嘛)這樣求導(dǎo)會(huì)方便很多~

同樣,這樣一道題:設(shè)總體 X 的概率密度為
已知: X1,X2..Xn是樣本觀測(cè)值,  

求:θ的極大似然估計(jì)
這也一樣啊,要得到 X1,X2..Xn這樣一組樣本觀測(cè)值的概率是

P{x1=X1,x2=X2,...xn=Xn}= f(X1,θ)f(X2,θ)…f(Xn,θ) 

然后我們就求使得P最大的θ就好啦,一樣是求極值的過程,不再贅述。

“機(jī)器學(xué)習(xí)的中心極限定律怎么理解”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注億速云網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI