您好,登錄后才能下訂單哦!
如何理解R語言做正態(tài)性檢驗(yàn)的分析,相信很多沒有經(jīng)驗(yàn)的人對此束手無策,為此本文總結(jié)了問題出現(xiàn)的原因和解決方法,通過這篇文章希望你能解決這個(gè)問題。
R語言里做做正態(tài)性檢驗(yàn)通常用到的函數(shù)是shaporo.test()
,這個(gè)是叫Shapiro-Wilk(夏皮羅-威爾克)正態(tài)性性檢驗(yàn)。
對應(yīng)的原假設(shè)是 樣本X來自的總體具有正態(tài)性分布
比如代碼
> x<-rnorm(100)
> shapiro.test(x)
Shapiro-Wilk normality test
data: x
W = 0.99187, p-value = 0.8117
p值大于0.05接受原假設(shè)
今天一位同學(xué)提出 shaporo.test()
這個(gè)函數(shù)輸出數(shù)據(jù)的范圍是 3~5000,超出5000該如何做呢? 我自己之前還沒有注意到過樣本量超出5000的情況。
第一個(gè)想到的是 在大于5000的樣本里再隨機(jī)選一個(gè)小于5000的樣本就可以了
示例代碼
x<-rnorm(6000)
x1<-sample(x,3000,replace = F)
shapiro.test(x1)
但這種情況好像不太穩(wěn)定,我試了一下有時(shí)候算出來的p值是小于0.05的。那我們就可以多抽幾次,看p值小于0.05出現(xiàn)次數(shù)的多少
還找到一種方法是 直接可視化數(shù)據(jù)來觀察
可以選密度分布圖和qq圖
參考鏈接是 http://www.sthda.com/english/wiki/normality-test-in-r
示例代碼
x<-rnorm(6000)
library(ggpubr)
p1<-ggdensity(x)
p2<-ggqqplot(x)
library(cowplot)
plot_grid(p1,p2,ncol=2)
密度分布圖是山形,qq圖所有的點(diǎn)基本都分布在直線的周圍,那就可以判定數(shù)據(jù)符合正態(tài)分布了。
另外還找到一個(gè)函數(shù) ad.test()
這個(gè)函數(shù)對應(yīng)的R包 nortest
找到這個(gè)函數(shù)的鏈接是 https://github.com/jamovi/jmv/issues/160
這個(gè)函數(shù)對應(yīng)的是 Anderson-Darling test for normality 這個(gè)對應(yīng)的中文名是啥暫時(shí)還不知道。
示例代碼
library(nortest)
ad.test(rnorm(100, mean = 5, sd = 3))
Anderson-Darling normality test
data: rnorm(100, mean = 5, sd = 3)
A = 0.3425, p-value = 0.485
這個(gè)函數(shù)對應(yīng)的零假設(shè)應(yīng)該也是 樣本來自正態(tài)總體
比如試一下
ad.test(1:100)
Anderson-Darling normality test
data: 1:100
A = 1.0837, p-value = 0.007308
很明顯1:100不符合正態(tài)分布
這里得到p值小于0.05,拒絕原假設(shè),最終的結(jié)論就是數(shù)據(jù)總體不符合正態(tài)分布。
看完上述內(nèi)容,你們掌握如何理解R語言做正態(tài)性檢驗(yàn)的分析的方法了嗎?如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注億速云行業(yè)資訊頻道,感謝各位的閱讀!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。