溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

怎么進行GWAS模型分析

發(fā)布時間:2022-01-20 13:52:36 來源:億速云 閱讀:237 作者:柒染 欄目:開發(fā)技術

怎么進行GWAS模型分析,很多新手對此不是很清楚,為了幫助大家解決這個難題,下面小編將為大家詳細講解,有這方面需求的人可以來學習下,希望你能有所收獲。

GWAS模型介紹

全基因組關聯(lián)分析(Genome wide association study,GWAS)是對多個個體在全基因組范圍的遺傳變異(標記)多態(tài)性進行檢測,獲得基因型,進而將基因型與可觀測的性狀,即表型,進行群體水平的統(tǒng)計學分析,根據統(tǒng)計量或顯著性 p 值篩選出最有可能影響該性狀的遺傳變異(標記),挖掘與性狀變異相關的基因。
GWAS是傳統(tǒng)雙親種群繪圖的替代方法,目前廣泛用于植物、動物、模式物種和人類,與傳統(tǒng)的QTL定位相比,GWAS優(yōu)點包括更高的分辨率、研究材料來源廣泛,可捕獲的變異豐富,無需構建遺傳群體節(jié)省時間。

GWAS是傳統(tǒng)雙親種群繪圖的替代方法,目前廣泛用于植物、動物、模式物種和人類,與傳統(tǒng)的QTL定位相比,GWAS優(yōu)點包括更高的分辨率、研究材料來源廣泛,可捕獲的變異豐富,無需構建遺傳群體節(jié)省時間。

GWAS分析模型介紹

GWAS 分析一般會構建回歸模型檢驗標記與表型之間是否存在關聯(lián)。GWAS中的零假設(H0 null hypothesis)是標記的回歸系數為零, 標記對表型沒有影響。備擇假設(H1,也叫對立假設,Alternative Hypothesis)是標記的回歸系數不為零,SNP和表型相關。GWAS中的模型主要分為兩種:

一般線性模型GLM(General Linear Model):y = Xα + Zβ + e
混合線性模型MLM(Mixed Linear Model):y = Xα+ Zβ + Wμ+ e

y: 所要研究的表型性狀;
Xα:固定效應(Fixed Effect),影響y的其他因素,主要指群體結構;
Zβ:標記效應(Marker Effect  SNP);
Wμ:隨機效應(RandomEffect),這里一般指個體的親緣關系。
e: 殘差

GWAS分析一直需要解決兩個問題,一個是隨著測序數據量的不斷增加,計算速度已經是影響GWAS分析的一個重要問題。二是統(tǒng)計的準確率能不能再增加一些。因此發(fā)展出了很多其他的模型,請看下面的圖形,圖中的河流代表GWAS分析方法的不斷發(fā)展,從由上角的Q模型到最下面的Blink,GWAS分析方法經歷了幾代人的努力。

GWAS模型詳細介紹:

一般線性模型GLM:直接將基因型x和表型y做回歸擬合。也可以加入群體結果控制假陽性。


混合線性模型MLM:GLM模型中,如果兩個表型差異很大,但群體本身還含有其他的遺傳差異(如地域等),則那些與該表型無關的遺傳差異也會影響到相關性。MLM模型可以把群體結構的影響設為協(xié)方差,把這種位點校正掉。此外,材料間的公共祖先關系也會導致非連鎖相關,可加入親緣關系矩陣作為隨機效應來矯正。

隨著二代測序技術的發(fā)展,基因分型變得越來越容易,用于關聯(lián)分析的樣本量和標記數不斷增大,原始的MLM模型求解所耗的時間可以用mpn3來表示(m為標記數目,p為求解過程的迭代次數,n為樣本數),可見,隨著樣本量的增加,每迭代一步,計算時間都會以樣本3次方增長,這使得計算的時間變得非常長。為解決這一問題,Zhang等提出了P3D(population parameters previously determined)和壓縮混合線性模型(compressed MLM, CMLM),并將這兩種方法整合到TASSEL軟件中,大大提高了計算效率,檢測功效也得到提高。P3D減少了重復計算方差組分的次數;CMLM通過聚類減少了實際參與計算的樣本數??紤]到8種聚類方法和3種組間親緣關系算法的組合可能得到不同的結果,檢測最優(yōu)組合的優(yōu)化壓縮混合線性模型(enriched CMLM, ECMLM)被提出,并整合在GAPIT軟件中。

CMLM壓縮混合線性模型:MLM的矯正過于嚴格,會把一些真實相關的SNP標記也過濾掉,因此CMLM模型目的是重新檢測到那些假陰性SNP標記。

SUPER:CMLM應該選擇哪些SNP來計算親緣關系矩陣,答案是使用所有跟表型相關的SNP(且排除了檢測到的那個SNP)來構建親緣關系矩陣的效果最好,這就是SUPER(Settlement of Kinship Under Progressively Exclusive Relationship, 逐步排他性親緣關系解決方案)。


FarmCPU:GWAS的瓶頸一是計算速度,二是統(tǒng)計準確性。FarmCPU能提升速度和準確性,首先把隨機效應的親緣關系矩陣(Kinship)轉換為固定效應的關聯(lián)SNP矩陣(S矩陣/QTNs矩陣),使計算速度大大加快;再利用QTN矩陣當做協(xié)變量,重新做關聯(lián)分析,提升準確率。Blink:Blink是進階版FarmCPU,也是為提高速度和準確率。先用上方的GLM模型獲得QTNs,然后用右側的GLM以QTNs當做協(xié)變量進行SNP檢測,得到的SNP根據LD信息確定QTNs的信息(根據染色體實際位置來選擇對應的bin大小),進而利用左側的GLM以BIC(Bayesianinformation criterion)策略進行QTNs準確性檢測,排除假設錯誤的部分,保留真實的QTNs,不斷循環(huán)這一過程,直到檢測到所有關聯(lián)SNP(即QTNs)。

其他模型:
Kang等通過減少需要估計的方差組分的個數和簡化矩陣逆運算的過程,提出了EMMA模型,在此基礎上,通過避免重復估計多基因方差和誤差方差,提出了EMMAX算法,并開發(fā)了EMMAX軟件,進一步提高了計算速度,但由于多基因方差和誤差方差的比值固定,EMMA和EMMAX都屬于近似算法,而Zhou等提出的GEMMA算法為EMMA的精確算法。

看完上述內容是否對您有幫助呢?如果還想對相關知識有進一步的了解或閱讀更多相關文章,請關注億速云行業(yè)資訊頻道,感謝您對億速云的支持。

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng)、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI