溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Python怎么實(shí)現(xiàn)中心極限定律

發(fā)布時(shí)間:2021-12-21 17:52:11 來源:億速云 閱讀:240 作者:iii 欄目:移動(dòng)開發(fā)

這篇文章主要講解了“Python怎么實(shí)現(xiàn)中心極限定律”,文中的講解內(nèi)容簡(jiǎn)單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來研究和學(xué)習(xí)“Python怎么實(shí)現(xiàn)中心極限定律”吧!

在整個(gè)概率論中,核心的問題是隨機(jī)變量的分布。正如我們?cè)? 離散分布和 連續(xù)分布中看到的,分布有許多種類。更夸張的是,在滿足 概率公理的前提下,我們完全可以自行設(shè)計(jì)分布。想像一下,如果有一天數(shù)學(xué)書上印一個(gè)Vamei分布,這是多么美好的事情?。∪欢?,這一愿望并不那么容易實(shí)現(xiàn)。那些“名流”分布,比如“泊松”,“高斯”,“伯努利”分布,往往在理論上很重要,所以得到了數(shù)學(xué)家的深入研究?!爸狈植嫉奶匦?比如它們的期望、方差、累計(jì)概率函數(shù))可以很容易在數(shù)學(xué)手冊(cè)中找到,這些研究成果也成為概率論“軍火庫”的重要部分。

另一方面,概率分布是否存在什么共性呢?我們的許多結(jié)論都是依賴于分布的具體類型。對(duì)于一個(gè)分布成立的結(jié)論,對(duì)于另一種分布可能并不成立。一個(gè)對(duì)任意分布都成立的結(jié)論可以大大簡(jiǎn)化我們的研究。這在自然科學(xué)和社會(huì)科學(xué)的研究中異常重要。在這些學(xué)科的研究中有許多隨機(jī)變量。比如說,為了研究金礦,往往需要知道石頭中含金量X的概率分布。然而,這些隨機(jī)變量的分布類型不可能提前獲知 (甚至于永遠(yuǎn)不能準(zhǔn)確的知道)。這樣的話,整個(gè)研究就被停在了第一步。如果我們可以得出一個(gè)對(duì)任意分布都成立的結(jié)論,那么我們就可以沿著這個(gè)結(jié)論繼續(xù)進(jìn)行下去。

自然有時(shí)候比我們想像的慷慨,它給出了一個(gè)概率論中相當(dāng)核心的一組定律:中心極限定律(central limit theorem)。這組定律不但對(duì)于任意分布都成立,還特別提示我們:要特別注意正態(tài)分布。我們下面看看,中心極限定律是如何說的。

中心極限定律

先來看中心極限定律的一個(gè)版本:

隨機(jī)變量X1,X2,...,XnX1,X2,...,Xn是相互獨(dú)立的隨機(jī)變量,并有相同的分布(IID, independent and identically distributed)。分布的期望為μμ,方差為σ2σ2,μ,σμ,σ都為有限值,且σ≠0σ≠0。這些隨機(jī)變量的均值為Xˉ=1n∑ni=1XiXˉ=1n∑i=1nXi。讓?duì)苙=Xˉ?μσ/n√ζn=Xˉ?μσ/n,那么

limn→∞P(ζn≤z)=Φ(z)limn→∞P(ζn≤z)=Φ(z)

其中Φ(z)Φ(z)是標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù)。

簡(jiǎn)單來說,我們尋找n個(gè)IID隨機(jī)變量的均值XˉXˉ。當(dāng)n趨進(jìn)無窮時(shí),這個(gè)均值(一個(gè)新的隨機(jī)變量)趨近一個(gè)正態(tài)分布。

(通過ζnζn的變換,可以從正態(tài)分布的XˉXˉ導(dǎo)出標(biāo)準(zhǔn)正態(tài)分布ζnζn。)

演示中心極限定律

我們下面取n個(gè)IID隨機(jī)變量,讓它們都符合λ=1λ=1的指數(shù)分布,并觀察它們均值的分布狀況。為了觀察它們的分布,我們使用隨機(jī)數(shù)生成器,來進(jìn)行10000次采樣。即進(jìn)行100000次實(shí)驗(yàn),每次實(shí)驗(yàn)獲得一組隨機(jī)變量的取值,得到一個(gè)均值。總共獲得10000個(gè)均值。繪制均值分布的直方圖。

分三種情況,分別讓n等于1,20, 100:

Python怎么實(shí)現(xiàn)中心極限定律

在第一種情況下,Xˉ=X1/1=X1Xˉ=X1/1=X1,即XˉXˉ本身是指數(shù)分布。

在第二、三種情況下,均值的分布越來越偏離一個(gè)指數(shù)分布,分布的形狀不斷趨近于一個(gè)正態(tài)分布。

代碼如下:

# By Vamei # Central Limit Theory # X is exponential distribution with lambda = 1 import matplotlib.pyplot as pltimport numpy as npfrom scipy.stats import expon# Get one sample of (X1 + X2 + ... + XN)/N def sample_mean(N):    # exponential distribution, with lambda = 1 
    one_sample = expon.rvs(scale = 1, size = N)    return one_sample.mean()# Increase N: 1, 20 , 1000. # Demo of Central Limit Theory in histogramplt.figure(figsize=(12, 4))for N, subp in zip([1, 20, 1000], [131, 132, 133]):    # generate samples 
    all_means = np.array([sample_mean(N) for i in range(10000)])    # plot figure    plt.subplot(subp)
    plt.hist(all_means,bins=100,color="blue")
    plt.title('Central Limit Theory n=%i' % N)
    plt.xlabel('sample means')
    plt.ylabel('Frequency')
plt.tight_layout()
plt.savefig('./central_limit.png', dpi=None, facecolor='w')

練習(xí):這段代碼檢驗(yàn)的是指數(shù)分布的均值??梢愿膶懗蓹z驗(yàn)其它分布是否符合中心極限定律,比如均勻分布的均值。 

證明 

我將使用矩生成函數(shù)來證明上面的定律。假設(shè)Xi?μXi?μ的矩生成函數(shù)為M(t)M(t)。因此,M′(t)=μ,M(2)(t)=σ2M′(t)=μ,M(2)(t)=σ2。

當(dāng)n趨近無窮時(shí),t/(σn??√)t/(σn)趨近0。M(t)可以展開為:

M(t)=1+12σ2t2+o(t2)M(t)=1+12σ2t2+o(t2)

o(t2)o(t2)表示比t2t2更高階的t的乘方。

根據(jù)矩生成函數(shù)的性質(zhì),ζnζn的矩生成函數(shù)寫為

Mζn=[M(tσn??√)]n=(1+t22n+o(t2/n))nMζn=[M(tσn)]n=(1+t22n+o(t2/n))n

o(t2/n)o(t2/n)表示,當(dāng)n趨于無窮時(shí),早于t2/nt2/n消失的項(xiàng)。

(根據(jù)微積分,證明從略):當(dāng)n趨近于無窮時(shí),上面的表達(dá)式趨近:

Mζn(t)→et2/2Mζn(t)→et2/2

這正是標(biāo)準(zhǔn)正態(tài)分布的矩生成函數(shù)。因此ZnZn的分布趨近于標(biāo)準(zhǔn)正態(tài)分布。

上面介紹的中心極限定律有一個(gè)先決條件,即產(chǎn)生均值的N個(gè)隨機(jī)變量為IID(獨(dú)立、同分布)隨機(jī)變量。在其它的版本的中心極限定律中,各個(gè)隨機(jī)變量可以不完全獨(dú)立。事實(shí)上,中心極限定律是一個(gè)還在積極研究中的領(lǐng)域。

花邊

中心極限定律的原型可以追溯到18世紀(jì)de Moivre的研究。他經(jīng)過實(shí)驗(yàn)發(fā)現(xiàn),大量正面拋硬幣的話,結(jié)果(1:正面,0:反面)的均值是一個(gè)正態(tài)分布。這里,de Moivre研究的分布是多個(gè)伯努利分布的隨機(jī)變量的均值。

Python怎么實(shí)現(xiàn)中心極限定律

硬幣投擲:均值的分布

(想像一下,當(dāng)時(shí)沒有計(jì)算機(jī),更別說隨機(jī)數(shù)生成器了。為了檢驗(yàn)結(jié)果,de Moivre真的投了幾千次硬幣…… 數(shù)學(xué)家是很神奇的動(dòng)物)

為了更加直觀的理解中心極限定律的結(jié)果。我們來設(shè)想一下,如果一個(gè)大米缸中混裝了黑白兩種米,各占一半。從中隨便抓一把,這一把中有n個(gè)米粒。如果n比較小的話,那么很有可能出現(xiàn)一些極端值,比如n = 3,出現(xiàn)三個(gè)純白的米粒。但是,如果“一把”很大,比如1000顆米粒,那么出現(xiàn)1000個(gè)米都是白色的概率很小,而白米和黑米一半一半的概率很大,也就是一個(gè)類似于正態(tài)分布的分布方式。

我們可以將中心極限定律方便的用于許多統(tǒng)計(jì)問題。需要注意的是,中心極限定律要求n趨近無窮。在實(shí)際應(yīng)用中,我們往往讓n等于一個(gè)“足夠”大的數(shù),比如上面的1000。這個(gè)數(shù)字是否足夠大呢?這取決于X是什么樣的分布。對(duì)于某些分布來說,均值分布趨近于正態(tài)分布的速度很慢,這要求我們采用更大的n值。

感謝各位的閱讀,以上就是“Python怎么實(shí)現(xiàn)中心極限定律”的內(nèi)容了,經(jīng)過本文的學(xué)習(xí)后,相信大家對(duì)Python怎么實(shí)現(xiàn)中心極限定律這一問題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是億速云,小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI