您好,登錄后才能下訂單哦!
怎么使用shapeit進(jìn)行單倍型分析,相信很多沒(méi)有經(jīng)驗(yàn)的人對(duì)此束手無(wú)策,為此本文總結(jié)了問(wèn)題出現(xiàn)的原因和解決方法,通過(guò)這篇文章希望你能解決這個(gè)問(wèn)題。
歡迎關(guān)注”生信修煉手冊(cè)”!
shapeit是一款單倍型分析工具,運(yùn)算速度快,準(zhǔn)確率高,是impute2官方推薦的pre-phasing工具。
通過(guò)隱馬可夫模型來(lái)分析單倍型,簡(jiǎn)化的模型示意如下
從上到下依次有5個(gè)子圖,用1到5來(lái)表示,需要分成3個(gè)部分來(lái)看。在1圖中,表示的是8個(gè)位點(diǎn)構(gòu)成的8種單倍型,每行表示一個(gè)單倍型,每一列代表一個(gè)位點(diǎn),2圖中用圖狀結(jié)構(gòu)來(lái)表示上述的單倍型,每個(gè)節(jié)點(diǎn)表示一個(gè)SNP位點(diǎn),依次用Z1到Z8表示,從1到8的完整路徑代表一個(gè)單倍型。觀察圖1可以發(fā)現(xiàn),前4個(gè)位點(diǎn)只有3種組成,后4個(gè)位點(diǎn)也是同樣的,通過(guò)4號(hào)位點(diǎn)和5號(hào)位點(diǎn)的不同連線可以表示所有的單倍型,每條邊上的數(shù)字代表對(duì)應(yīng)的頻數(shù)。
圖5表示的是某個(gè)樣本的分型結(jié)果,分別用0,1,2表示不同的狀態(tài),0表示沒(méi)有突變,1表示雜合突變,2表示純合突變,根據(jù)分型結(jié)果拆分成單倍型的時(shí)候,雜合突變對(duì)應(yīng)2個(gè)allel, 根據(jù)這個(gè)分型結(jié)果可以得到圖4中對(duì)應(yīng)的單倍型構(gòu)成,圖4中ref allel用空白方框表示,alt allel用黑色方框表示,對(duì)于前5個(gè)位點(diǎn),存在了2個(gè)雜合突變,所以有4種路徑,后3個(gè)位點(diǎn)也是4種。
圖3表示的是該軟件的隱馬可夫模型,將真實(shí)的單倍型當(dāng)做是隱藏序列,將根據(jù)分型結(jié)果預(yù)測(cè)的單倍型當(dāng)做是觀察序列,通過(guò)建模之后來(lái)分析隱藏序列的組成,就得到了真實(shí)的單倍型分析結(jié)果。
在文獻(xiàn)中,將該軟件與其他類似的工具進(jìn)行了比較,結(jié)果示意如下
采用了3個(gè)不同的數(shù)據(jù)集,比較了運(yùn)行時(shí)間和錯(cuò)誤率,shapeit錯(cuò)誤率最低,運(yùn)行速度最快。
該軟件的基本用法如下
shapeit \
--input-bed gwas.bed gwas.bim gwas.fam \
--input-map genetic_map.txt \
--output-max gwas.phased.haps gwas.phased.sample
--thread 8
需要指定的參數(shù)分成了以下3個(gè)部分
支持以下3種格式
ped/map
bed/bim/fam
gen/sample
vcf
前兩種為plink軟件的格式,是GWAS分析最常見(jiàn)的文件格式,第三種格式是WTCCC默認(rèn)的文件格式 第四種是最常見(jiàn)的VCF格式。
不同類型的輸入文件對(duì)應(yīng)的用法如下
shapeit \
--input-ped gwas.ped gwas.map \
-M genetic_map.txt \
--missing-code N \
-O gwas.phased
shapeit \
--input-bed gwas.bed gwas.bim gwas.fam \
-M genetic_map.txt \
-O gwas.phased
shapeit \
--input-gen gwas \
-M genetic_map.txt \
-O gwas.phased
shapeit \
--input-vcf gwas.vcf \
-M genetic_map.txt \
-O gwas.phased
對(duì)于gen/sample文件格式,可以通過(guò)gtool
這個(gè)軟件來(lái)進(jìn)行格式轉(zhuǎn)換,
參考基因組對(duì)應(yīng)的連鎖圖譜,可以提高單倍型分析的準(zhǔn)確性,官方提供了hapmap項(xiàng)目的連鎖圖譜供下載,鏈接如下
http://mathgen.stats.ox.ac.uk/genetics_software/shapeit/shapeit.html#formats
這個(gè)是一個(gè)可選參數(shù),沒(méi)有的情況下軟件會(huì)根據(jù)線性模型來(lái)進(jìn)行估算。
默認(rèn)用后綴為haps和sample的兩個(gè)文件來(lái)描述單倍型, haps文件的內(nèi)容如下所示
每列之間用空格分隔,第一列為snp位點(diǎn)所在的染色體名稱,第二列為snp id,第三列為染色體的位置,第四列為不同樣本中該位點(diǎn)的分型結(jié)果,0代表ref allle, 1代表alt allel, 每?jī)闪袑?duì)應(yīng)一個(gè)樣本。
后綴為sample的文件內(nèi)容如下所示
用來(lái)描述樣本的信息,同樣的空格分隔,前兩行內(nèi)容固定,后續(xù)每一行代表一個(gè)樣本,以上只是該文件最基本內(nèi)容的展示,還可以有更多的列,用來(lái)描述樣本的表型信息。
在impute2中,phased reference panel會(huì)用hap/legend/sample3個(gè)文件來(lái)表示,通過(guò)下列代表可以進(jìn)行格式轉(zhuǎn)換
shapeit \
-convert \
--input-haps gwas.phased \
--output-ref gwas.phased.hap gwas.phased.leg gwas.phased.sam
不同格式的詳細(xì)解釋參考以下鏈接
http://mathgen.stats.ox.ac.uk/genetics_software/shapeit/shapeit.html#formats
事先對(duì)需要填充的樣本進(jìn)行phasing, 可以有效提高填充的運(yùn)行效率,如果后續(xù)使用impute2進(jìn)行基因型填充,推薦使用shapeit對(duì)需要填充的樣本進(jìn)行單倍型分析。
看完上述內(nèi)容,你們掌握怎么使用shapeit進(jìn)行單倍型分析的方法了嗎?如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注億速云行業(yè)資訊頻道,感謝各位的閱讀!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。