溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

VCF轉(zhuǎn)換PLINK格式的3種方法是什么

發(fā)布時(shí)間:2021-11-11 16:29:53 來源:億速云 閱讀:721 作者:柒染 欄目:大數(shù)據(jù)

VCF轉(zhuǎn)換PLINK格式的3種方法是什么,相信很多沒有經(jīng)驗(yàn)的人對(duì)此束手無策,為此本文總結(jié)了問題出現(xiàn)的原因和解決方法,通過這篇文章希望你能解決這個(gè)問題。

plink是目前使用的最為廣泛的關(guān)聯(lián)分析軟件,其定義的ped/map文件系統(tǒng),及其對(duì)應(yīng)的二進(jìn)制bed/bim/fam已經(jīng)成為關(guān)聯(lián)分析的標(biāo)準(zhǔn)文件格式。在進(jìn)行關(guān)聯(lián)分析之前,我們首先要做的就是將其他格式的文件轉(zhuǎn)換為plink對(duì)應(yīng)的文件格式。

VCF格式作為存儲(chǔ)分型結(jié)果的一種標(biāo)準(zhǔn)格式,在實(shí)際分析中也廣泛應(yīng)用。本文總結(jié)了將vcf文件轉(zhuǎn)換為plink對(duì)應(yīng)文件格式的3種方式,詳細(xì)展示如下

1. gatk3

在gatk3中,提供了一個(gè)名為VariantsToBinaryPed的功能,可以將VCF格式轉(zhuǎn)換為plink對(duì)應(yīng)的二進(jìn)制bed文件,基本用法如下

java -jar GenomeAnalysisTK.jar \
-T VariantsToBinaryPed \
-R reference.fasta \
-V input.vcf \
-m input.fam \
-bed output.bed \
-bim output.bim \
-fam output.fam

要求三個(gè)輸入文件,-R參數(shù)指定參考基因組的fasta文件,-V參數(shù)指定VCF文件,-m參數(shù)稱之為metadata, 保存了樣本對(duì)應(yīng)的家系信息,支持兩種文件格式,第一種示意如下

VCF轉(zhuǎn)換PLINK格式的3種方法是什么

對(duì)應(yīng)ped文件的前六列內(nèi)容,如果樣本雙親信息不明確,則用unknown表示,簡寫成UNKN, 表型信息沒有的話用-9表示。第二種示意如下

VCF轉(zhuǎn)換PLINK格式的3種方法是什么

由于VCF文件中只保存了樣本的分型結(jié)果,所以家系信息通過一個(gè)額外的文件來補(bǔ)充。更多詳情請參考以下文檔

https://software.broadinstitute.org/gatk/documentation/tooldocs/3.8-0/org_broadinstitute_gatk_tools_walkers_variantutils_VariantsToBinaryPed.php

2. vcftools

vcftools是操作vcf文件的一款常用工具,支持將vcf文件轉(zhuǎn)換成plink對(duì)應(yīng)的ped/map格式,基本用法如下

vcftools  --vcf input.vcf --plink --out output

沒有額外的家系信息,在輸出結(jié)果中,family id和sample id是重復(fù)的,其他列全部為0,示意如下

VCF轉(zhuǎn)換PLINK格式的3種方法是什么

3. plink

plink1.9版本支持直接讀取vcf/gen等多種文件格式,所以使用該版本時(shí)其實(shí)不需要專門進(jìn)行格式轉(zhuǎn)換,軟件默認(rèn)會(huì)將不同的格式轉(zhuǎn)換為二進(jìn)制bed文件格式。這里只是展示下其格式轉(zhuǎn)換的用法,基本用法如下

plink --vcf input.vcf --recode --out output --double-id

默認(rèn)轉(zhuǎn)換為二進(jìn)制的bed格式,對(duì)于分析更加適用,這里添加--recode參數(shù)將輸出結(jié)果調(diào)整為ped格式,可以更好的查看其轉(zhuǎn)換的規(guī)則。

plink默認(rèn)用下劃線對(duì)樣本名進(jìn)行分隔,分隔的兩個(gè)字段分別作為ped文件中的family id和sample id, 如果vcf中的樣本名含有多個(gè)下劃線,無法正確進(jìn)行劃分,軟件會(huì)報(bào)錯(cuò),此時(shí)可以修改--id-delim參數(shù),該參數(shù)設(shè)定了分隔符,默認(rèn)是下劃線,可以設(shè)置成其他字符,以達(dá)到正確區(qū)分的目的。

除此之外,還有一種解決方案,通過參數(shù)指定family_id的設(shè)定方式,有兩種參數(shù),第一種如上述示例中的--double_id, 將family id和sample id保持相同,輸出的ped文件的前六列示意如下

VCF轉(zhuǎn)換PLINK格式的3種方法是什么

第二種參數(shù)用法如下所示

plink --vcf input.vcf --recode --out output --const-fid family_id

通過--const-fid將family id設(shè)置成一個(gè)常量,默認(rèn)值是0,上述示例輸出的ped文件的前六列示意如下

VCF轉(zhuǎn)換PLINK格式的3種方法是什么

雙親,性別默認(rèn)用0填充,表型默認(rèn)用-9填充。

看完上述內(nèi)容,你們掌握VCF轉(zhuǎn)換PLINK格式的3種方法是什么的方法了嗎?如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注億速云行業(yè)資訊頻道,感謝各位的閱讀!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI