如何理解GWAS中Manhattan plot和QQ plot所傳遞的信息

發(fā)布時間：2021-12-08 17:50:02 來源：億速云閱讀：372 作者：柒染欄目：大數(shù)據(jù)

如何理解GWAS中Manhattan plot和QQ plot所傳遞的信息，很多新手對此不是很清楚，為了幫助大家解決這個難題，下面小編將為大家詳細講解，有這方面需求的人可以來學習下，希望你能有所收獲。

在GWAS研究中，Manhattan plot和QQ plot是最常畫的兩類圖，它們可以把跟研究的性狀（比如，基因型和身高）顯著相關的基因位點清晰地展現(xiàn)出來，不少讀者朋友應該都懂得如何畫這樣的圖，但我想應該不是每個人都能夠真正知道其中所蘊含的道理。

Manhattan plot（曼哈頓圖）比較簡單，它是把GWAS分析之后所有SNP位點的p-value在整個基因組上從左到右依次畫出來。并且，為了可以更加直觀地表達結果，通常都會將p-value轉(zhuǎn)換為-log10(p-value)。這樣的話，基因位點-log10(p-value)在Y軸的高度就對應了與表型性狀或者疾病的關聯(lián)程度，關聯(lián)度越強（即，p-value越低）就越高。而且，一般而言，由于連鎖不平衡（LD）關系的原因，那些在強關聯(lián)位點周圍的SNP也會跟著顯示出類似的信號強度，并依次往兩邊遞減。由于這個原因，我們在曼哈頓圖上就會看到一個個整齊的信號峰（如下圖紅色部分）。而這些峰所處的位置一般也是整個研究中真正關心的地方。

GWAS研究中的曼哈頓圖

GWAS研究中，p-value閾值一般要在10^-6次方甚至10^-8次方以下，也就說曼哈頓圖中Y軸大于6甚至大于8的那些SNP位點才是比較值得研究的，不過事無絕對，有些時候也要看你的實際數(shù)據(jù)表現(xiàn)。
另外，曼哈頓圖這個名字的由來實際上源自紐約曼哈頓區(qū)高樓大廈夜間的燈景在河面上的倒影（如下圖）。

曼哈頓夜景

Q-Q plot（QQ圖）雖然所用的數(shù)據(jù)和上面曼哈頓圖的一樣，但是它要表達的信息比起曼哈頓圖來要豐富得多，而且在這兩個圖中更加能夠體現(xiàn)GWAS結果好壞的是QQ plot——它是GWAS研究中更加重要的質(zhì)控圖。這也是我在這篇文章主要討論的內(nèi)容。

其實，一直以來QQ plot是統(tǒng)計學分析中的常用圖，在1968年Wilk.M.B的這篇文章（doi:10.1093/biomet/55.1.1）就提出了如何繪制這樣的圖已經(jīng)它的用途。

QQ plot全稱是quantile-quantile plot，也就是分位圖，是一種通過比較兩個概率分布的分位數(shù)從而實現(xiàn)對兩個概率分布進行比較的概率圖方法(在統(tǒng)計學上較常用)。之所以可以這樣做的原因是，如果兩個概率分布相同，那么它們的分位數(shù)也應該相同或者重疊在同一條直線上。

在GWAS分析中，當我們通過曼哈頓圖看到某些SNP和表型性狀（或者疾?。┯兄軓姷南嚓P信號（比如，p-value < 10^-6甚至10^-8）時，依然不能直接認為這些位點就與表型顯著相關的。這是因為基因組上基因位點的突變通常有兩個來源：

第一是自然選擇（Selection），我這里所說的自然選擇不僅指達爾文在《進化論》中所描述的物競天擇，還指所有對物種適應性有影響作用的“力量”，比如高輻射環(huán)境、疾病、病毒等，這也是我們在GWAS研究中真正關心的突變；

第二是遺傳漂變（genetics drift），它是一種比較隨機的基因組突變而且數(shù)量也不少，雖然也是物種演化的一種重要力量，但是由于它的突變都比較隨機，目前認為它與環(huán)境的變遷沒有必然聯(lián)系，但也會在某些時候，有些隨機的突變帶來了生存優(yōu)勢，便會在種群中顯示出它的作用。但絕大多數(shù)情況下，對于已經(jīng)在群體中穩(wěn)定存在的性狀而言，并不認為它們有明顯的作用，所以GWAS研究是不關心這一類突變的，我們要把它們?nèi)颗懦?。如果你發(fā)現(xiàn)自己得到的結果全部是這樣的變異的話，那么，應該重新考慮一下如何重新設計這個分析，包括是否應該增加樣本量以及想辦法排除技術錯誤以及干擾因素等方面，或者也可能它們之間就是沒有關系。

強關聯(lián)信號遺傳漂變的存在，在GWAS上會給我們帶來一個問題，那就是無法直觀地把它們識別并排除出去（很多時候是很難直接在曼哈頓圖上發(fā)現(xiàn)的），甚至你都判斷不了自己的研究是否只是充滿了這類無效信息。那么現(xiàn)在的問題就是，我們應該如何做才能夠有效地判斷出這個研究中所獲得關聯(lián)結果確實是與表型性狀或者疾病相關的呢？

這就是我們要用上QQ-plot的地方了。在GWAS分析里面，QQ-plot的縱軸是SNP位點的p-value值（這是實際得到的結果，observed），與曼哈頓圖一樣也是表示為 -log10(p-value)；橫軸是則是均勻分布的概率值（這是Expecte的結果），同樣也是換算為-log10。橫軸的這個概率值是如何計算的呢？實際上，它就是均勻分布的分位數(shù)——至于為何要用均勻分布而不是其它的分布，我會在下一段文字中進行詳述。分位數(shù)的個數(shù)與GWAS研究的SNP位點數(shù)是一一對應的。比如我們研究中使用了5百萬個基因位點，那么分位數(shù)的個數(shù)也是5百萬個，從1/5000000,2/5000000,3/5000000,...一直往下排直到5000000/5000000，當然都是轉(zhuǎn)換為-log10，然后與GWAS p-value一起作圖而成（如下圖）。

如何理解GWAS中Manhattan plot和QQ plot所傳遞的信息

GWAS研究的QQ圖

得到QQ plot之后，如果通過它來協(xié)作判斷我們的GWAS結果到底是好還是壞呢？

嚴格來講，這里其實是不應該用好壞來形容的，應該用是否與表型性狀相關來形容。

判斷的秘密就在橫軸為什么要用均勻分布而不是選擇其它分布上。這是因為均勻分布恰好可以用來近似描述基因組上的隨機漂變現(xiàn)象。如果表型性狀并非真的受自然選擇所左右，那么你應該會看到GWAS p-value的分布和均勻分布的結果將集中在一條直線上，如果不是那么就應該能夠看到相互分離的情況，特別是p-value越低的時候分離程度就越高，QQ-plot會翹起來（這是因為GWAS的零假設就是與隨機突變相比沒有區(qū)別）。

而且，我們知道基因組上的隨機漂變是一定存在的，所以一定會有位點與隨機漂變相關，特別是是在p-value比較大的位點看起來就應該和隨機漂變重疊，這就表現(xiàn)在QQ-plot的前半部分里。這位點的分布會和均勻分布重疊！而且，比較好的結果是，當p-value < 10^-3時，GWAS結果開始與均勻分布出現(xiàn)快速分離——也就是說，自然選擇的力量明顯地顯示出來了，使得結果在群體中快速擺脫隨機性，最后看到一個高高翹起的QQ-plot。這時基本就可以斷定，我們所研究的表型和基因型之間是存在著顯著相關的自然選擇作用的。

看完上述內(nèi)容是否對您有幫助呢？如果還想對相關知識有進一步的了解或閱讀更多相關文章，請關注億速云行業(yè)資訊頻道，感謝您對億速云的支持。

向AI問一下細節(jié)

如何理解GWAS中Manhattan plot和QQ plot所傳遞的信息

猜你喜歡

最新資訊

相關推薦

相關標簽