您好,登錄后才能下訂單哦!
VCF轉(zhuǎn)換PLINK格式的3種方法是什么,相信很多沒有經(jīng)驗(yàn)的人對(duì)此束手無策,為此本文總結(jié)了問題出現(xiàn)的原因和解決方法,通過這篇文章希望你能解決這個(gè)問題。
plink是目前使用的最為廣泛的關(guān)聯(lián)分析軟件,其定義的ped/map文件系統(tǒng),及其對(duì)應(yīng)的二進(jìn)制bed/bim/fam已經(jīng)成為關(guān)聯(lián)分析的標(biāo)準(zhǔn)文件格式。在進(jìn)行關(guān)聯(lián)分析之前,我們首先要做的就是將其他格式的文件轉(zhuǎn)換為plink對(duì)應(yīng)的文件格式。
VCF格式作為存儲(chǔ)分型結(jié)果的一種標(biāo)準(zhǔn)格式,在實(shí)際分析中也廣泛應(yīng)用。本文總結(jié)了將vcf文件轉(zhuǎn)換為plink對(duì)應(yīng)文件格式的3種方式,詳細(xì)展示如下
在gatk3中,提供了一個(gè)名為VariantsToBinaryPed
的功能,可以將VCF格式轉(zhuǎn)換為plink對(duì)應(yīng)的二進(jìn)制bed文件,基本用法如下
java -jar GenomeAnalysisTK.jar \
-T VariantsToBinaryPed \
-R reference.fasta \
-V input.vcf \
-m input.fam \
-bed output.bed \
-bim output.bim \
-fam output.fam
要求三個(gè)輸入文件,-R
參數(shù)指定參考基因組的fasta文件,-V
參數(shù)指定VCF文件,-m
參數(shù)稱之為metadata, 保存了樣本對(duì)應(yīng)的家系信息,支持兩種文件格式,第一種示意如下
對(duì)應(yīng)ped文件的前六列內(nèi)容,如果樣本雙親信息不明確,則用unknown表示,簡寫成UNKN
, 表型信息沒有的話用-9表示。第二種示意如下
由于VCF文件中只保存了樣本的分型結(jié)果,所以家系信息通過一個(gè)額外的文件來補(bǔ)充。更多詳情請參考以下文檔
https://software.broadinstitute.org/gatk/documentation/tooldocs/3.8-0/org_broadinstitute_gatk_tools_walkers_variantutils_VariantsToBinaryPed.php
vcftools是操作vcf文件的一款常用工具,支持將vcf文件轉(zhuǎn)換成plink對(duì)應(yīng)的ped/map格式,基本用法如下
vcftools --vcf input.vcf --plink --out output
沒有額外的家系信息,在輸出結(jié)果中,family id和sample id是重復(fù)的,其他列全部為0,示意如下
plink1.9版本支持直接讀取vcf/gen等多種文件格式,所以使用該版本時(shí)其實(shí)不需要專門進(jìn)行格式轉(zhuǎn)換,軟件默認(rèn)會(huì)將不同的格式轉(zhuǎn)換為二進(jìn)制bed文件格式。這里只是展示下其格式轉(zhuǎn)換的用法,基本用法如下
plink --vcf input.vcf --recode --out output --double-id
默認(rèn)轉(zhuǎn)換為二進(jìn)制的bed格式,對(duì)于分析更加適用,這里添加--recode
參數(shù)將輸出結(jié)果調(diào)整為ped格式,可以更好的查看其轉(zhuǎn)換的規(guī)則。
plink默認(rèn)用下劃線對(duì)樣本名進(jìn)行分隔,分隔的兩個(gè)字段分別作為ped文件中的family id和sample id, 如果vcf中的樣本名含有多個(gè)下劃線,無法正確進(jìn)行劃分,軟件會(huì)報(bào)錯(cuò),此時(shí)可以修改--id-delim
參數(shù),該參數(shù)設(shè)定了分隔符,默認(rèn)是下劃線,可以設(shè)置成其他字符,以達(dá)到正確區(qū)分的目的。
除此之外,還有一種解決方案,通過參數(shù)指定family_id的設(shè)定方式,有兩種參數(shù),第一種如上述示例中的--double_id
, 將family id和sample id保持相同,輸出的ped文件的前六列示意如下
第二種參數(shù)用法如下所示
plink --vcf input.vcf --recode --out output --const-fid family_id
通過--const-fid
將family id設(shè)置成一個(gè)常量,默認(rèn)值是0,上述示例輸出的ped文件的前六列示意如下
雙親,性別默認(rèn)用0填充,表型默認(rèn)用-9填充。
看完上述內(nèi)容,你們掌握VCF轉(zhuǎn)換PLINK格式的3種方法是什么的方法了嗎?如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注億速云行業(yè)資訊頻道,感謝各位的閱讀!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。