您好,登錄后才能下訂單哦!
這篇文章將為大家詳細(xì)講解有關(guān)大數(shù)據(jù)卡方檢驗(yàn)在關(guān)聯(lián)分析中的應(yīng)用是怎樣的,文章內(nèi)容質(zhì)量較高,因此小編分享給大家做個參考,希望大家閱讀完這篇文章后對相關(guān)知識有一定的了解。
case/control的關(guān)聯(lián)分析,本質(zhì)是尋找在兩組間基因型分布有差異的SNP位點(diǎn),這些位點(diǎn)就是候選的關(guān)聯(lián)信號,常用的分析方法有以下幾種
卡方檢驗(yàn)
費(fèi)舍爾精確檢驗(yàn)
邏輯回歸
卡方檢驗(yàn)是一種用途廣泛的假設(shè)檢驗(yàn),屬于非參數(shù)的檢驗(yàn)一種,適合針對分類變量的分析。從形式上看,數(shù)據(jù)是由行和列對應(yīng)的兩個分類變量構(gòu)成的表格,示意如下
對于case/control的關(guān)聯(lián)分析,我們有兩個分類變量,第一個就是樣本的分組, 有case和control兩組;第二個是Allel或者基因型的類別,對于Allele而言有兩種,major和minor allele。對于基因型而言, 在上圖中有AA, Aa, aa3種,當(dāng)然在實(shí)際分析中,還會考慮遺傳模型進(jìn)一步對基因型的類別進(jìn)行劃分,常用的遺傳模型有以下幾種
domanant model, 顯性遺傳模型,只要有突變位點(diǎn)就會致病,所以雜合突變和純合突變歸位一類,基因型就劃分為兩類,第一類為AA和Aa, 第二類為aa
recessive model, 隱性模型, 只有純合突變會致病,基因型同樣劃分為兩類,第一類為純合突變AA, 第二類為非純合突變,Aa和aa
additive model, 相加模型,突變位點(diǎn)的個數(shù)會影響性狀的表型值,而且是累加關(guān)系,純合突變的突變位點(diǎn)個數(shù)是雜合突變的2倍,對應(yīng)的性狀是不同的,基因型劃分為3類, AA,Aa, aa
multiplicative model, 相乘模型,突變位點(diǎn)的個數(shù)會影響性狀的表型值,而且是相乘關(guān)系,純合突變的突變位點(diǎn)個數(shù)是雜合突變的4倍,對應(yīng)的性狀是不同的,基因型劃分為3類, AA,Aa, aa
以上模型根據(jù)劃分的類別可以分為3大類,第一類是顯性遺傳模型,第二類是隱性遺傳模型,第三類是additive, multiplicative model和常規(guī)的基因型分類,這三種模型都是劃分為了3種基因型。
對于卡方檢驗(yàn),首先需要根據(jù)表格中的頻數(shù)分布計算卡方統(tǒng)計量,公式如下
A表示實(shí)際頻數(shù),T表示理論頻數(shù),從公式可以看到,卡方統(tǒng)計量代表的是實(shí)際值與理論值之間的差異。看一個具體的例子
Genotype | AA | Aa | aa |
---|---|---|---|
Case | 30 | 15 | 55 |
Control | 28 | 12 | 60 |
上圖表示的是兩組實(shí)際觀測到的基因型頻數(shù)分布,對應(yīng)的頻率分布如下
Genotype | AA | Aa | aa |
---|---|---|---|
Case | 30% | 15% | 55% |
Control | 28% | 12% | 60% |
從數(shù)值上看,直觀的可以看兩組間分布有差異,但是這個差異是由抽樣導(dǎo)致的誤差還是真實(shí)存在的差異不知道。先假設(shè)兩組間沒有差異,合并樣本,再次統(tǒng)計對應(yīng)的頻率,分別為29%, 13.5%,57.5% ,這3個數(shù)值就是理論頻率, 根據(jù)這個頻率來計算理論頻數(shù)
Genotype | AA | Aa | aa |
---|---|---|---|
Case | 100 x 29% | 100 x 13.5% | 100 x 57.5% |
Control | 100 x 29% | 100 x 13.5 % | 100 x 57.5 % |
然后通過公式來計算卡方值,最終的計算結(jié)果為0.61969, 對應(yīng)的R代碼如下
從上圖可以看到,對于卡方檢驗(yàn),除了卡方值X-squared之外,還有df和p-value兩個值。df表示自由度,取值為(行數(shù) - 1) X (列數(shù) - 1), 上述數(shù)據(jù)為2X3的表格,自由度為2。為什么要考慮自由度呢?
這就要從卡方分布的定義說起,對于N個符合標(biāo)準(zhǔn)正態(tài)分布的變量,其平方和服從卡方分布,自由度指的就是這里的N, 不同自由度卡方分布是不同的,如下圖所示
上圖所示是不同自由度下卡方值的密度分布,不同自由度之間差別很大,所以我們需要先明確對應(yīng)的自由度才可以利用卡方值來做出判斷。利用自由度和卡方值,我們需要去查詢卡方值分布表,獲得對應(yīng)的p值。在R中對應(yīng)的操作代碼如下
1 - pchisq(0.6196902, df = 2)
[1] 0.7335606
pchisq代表是卡方值的累計分布函數(shù),代表卡方值小于0.6196902的概率??ǚ椒植急碇袨榇笥陂撝档母怕剩疽馊缦?/p>
卡方值越小,對應(yīng)的概率越大。自由度為2,P=0.05對應(yīng)的卡方臨界值為5.99, 上述示例的卡方值小于該臨界值,說明發(fā)生的概率大于0.05,拒絕原假設(shè),case/control組間差異不顯著。
卡方檢驗(yàn)雖然使用范圍廣泛,但還是有一些限制,樣本量必須大于40, 而且最小的頻數(shù)不能小于5, 這里的頻數(shù)指的是理論頻數(shù)
對于2X2的數(shù)據(jù),當(dāng)不滿足要求時,推薦使用費(fèi)舍爾精確檢驗(yàn)來進(jìn)行分析。
關(guān)于大數(shù)據(jù)卡方檢驗(yàn)在關(guān)聯(lián)分析中的應(yīng)用是怎樣的就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,可以學(xué)到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。