您好,登錄后才能下訂單哦!
本篇文章為大家展示了如何進(jìn)行大數(shù)據(jù)中R語言的相關(guān)性分析及檢驗(yàn),內(nèi)容簡明扼要并且容易理解,絕對能使你眼前一亮,通過這篇文章的詳細(xì)介紹希望你能有所收獲。
相關(guān)系數(shù)可以用來描述定量變量之間的關(guān)系。結(jié)果的正負(fù)號分別表明正相關(guān)或負(fù)相關(guān),數(shù)值的大小則表示相關(guān)關(guān)系的強(qiáng)弱程度。
R可以計(jì)算多種相關(guān)系數(shù),今天主要介紹常見的三種:Pearson相關(guān)系數(shù)、Spearman相關(guān)系數(shù) 和 Kendall相關(guān)系數(shù)。這三種相關(guān)系數(shù)均可以通過R語言的cor函數(shù)計(jì)算,method函數(shù)指定即可。
一 相關(guān)性分析
1.1 Pearson相關(guān)系數(shù)
度量兩個(gè)連續(xù)變量之間的線性相關(guān)程度,需要兩個(gè)變量的標(biāo)準(zhǔn)差都不為零。此外皮爾遜相關(guān)系數(shù)適用條件為:
1)變量之間為線性關(guān)系,且均為連續(xù)數(shù)據(jù)。
2)變量總體呈正態(tài)分布,或接近正態(tài)。
x<-mtcars[,c("disp","hp","drat")]y<-mtcars[,c("disp","hp","drat")]cor(x,y,method = "pearson") disp hp dratdisp 1.0000000 0.7909486 -0.7102139hp 0.7909486 1.0000000 -0.4487591drat -0.7102139 -0.4487591 1.0000000
1.2 Spearman等級相關(guān)系數(shù)
衡量非線性關(guān)系變量間的相關(guān)系數(shù),是一種非參數(shù)的統(tǒng)計(jì)方法。變量是成對的等級評定,或者是由連續(xù)變量觀測資料轉(zhuǎn)化得到的等級資料。
x<-mtcars[,c("cyl","gear","carb")]y<-mtcars[,c("cyl","gear","carb")]cor(x,y,method = "spearman") cyl gear carbcyl 1.0000000 -0.5643105 0.580068gear -0.5643105 1.0000000 0.114887carb 0.5800680 0.1148870 1.000000
Spearman等級相關(guān)系數(shù)是根據(jù)每個(gè)值所處的排列位置的差值,求相關(guān)性系數(shù)??捎糜谟?jì)算實(shí)驗(yàn)數(shù)據(jù)分析中的不同組學(xué)數(shù)據(jù)之間的相關(guān)性。
1.3 Kendall秩相關(guān)系數(shù)
也是一種非參數(shù)的等級相關(guān)度量,類似Spearman相關(guān)系數(shù)。對象是分類變量。可以無序,性別(男、女)、血型(A、B、O、AB);可以有序,評分(優(yōu)、中、差)等。
X<- c(3,1,2,2,1,3)Y<- c(1,2,3,2,1,1)cor(X,Y,method="kendall")[1] -0.2611165
假設(shè)X Y 分別為兩個(gè)裁判對選手的評級---3為優(yōu),2為中,1為差,結(jié)果可以看出兩位裁判對選手們的看法呈相反趨勢,但相反程度不大。
二 相關(guān)性顯著性檢驗(yàn)
2.1 單次相關(guān)關(guān)系檢驗(yàn)
使用cor.test()函數(shù),cor.test(x,y,alternative=,method=)。
其中的x和y為要檢驗(yàn)相關(guān)性的變量,alternative指定進(jìn)行雙側(cè)檢驗(yàn)或單側(cè)檢驗(yàn)(取值"two.side"、"less"或"greater"),method指定計(jì)算的相關(guān)類型("pearson"、 "kendall"或"spearman")。
cor.test(mtcars[,"disp"],mtcars[,"hp"])
2.2 計(jì)算相關(guān)矩陣并進(jìn)行顯著性檢驗(yàn)
psych包中 corr.test()函數(shù)。corr.test(x, y = NULL, use = "pairwise",method="pearson",adjust="holm",alpha=.05,ci=TRUE,minlength=5)
corr.test(mtcars[,1:10], adjust = "none", use = "complete")
可得到矩陣數(shù)據(jù)集中兩兩變量之間得相關(guān)系數(shù)以及顯著性檢驗(yàn)得P值。
OK, 注意要根據(jù)變量的實(shí)際情況選擇合適的相關(guān)系數(shù)以及顯著性檢驗(yàn)的計(jì)算方式。
之前介紹了繪圖系列|R-corrplot相關(guān)圖進(jìn)行相關(guān)系數(shù)的可視化,后面也會再介紹一些其他的相關(guān)系數(shù)可視化的函數(shù)。
本文分享自微信公眾號 - 生信補(bǔ)給站(Bioinfo_R_Python)。
如有侵權(quán),請聯(lián)系 support@oschina.cn 刪除。
本文參與“OSC源創(chuàng)計(jì)劃”,歡迎正在閱讀的你也加入,一起分享。
上述內(nèi)容就是如何進(jìn)行大數(shù)據(jù)中R語言的相關(guān)性分析及檢驗(yàn),你們學(xué)到知識或技能了嗎?如果還想學(xué)到更多技能或者豐富自己的知識儲備,歡迎關(guān)注億速云行業(yè)資訊頻道。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。