溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

gtool工具有什么用

發(fā)布時間:2022-01-17 11:04:24 來源:億速云 閱讀:200 作者:小新 欄目:大數(shù)據(jù)

這篇文章主要介紹gtool工具有什么用,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!

有很多的軟件可以進行GWAS分析,不同軟件要求的輸入文件格式不盡相同,最常見的文件格式就是plink中的ped/map文件,除此之外還有g(shù)en/sample文件格式。

分型文件保存的是樣本中SNP位點的分型結(jié)果,有樣本和SNP分型結(jié)果兩類信息,首先來看下ped/map系統(tǒng),ped文件主要用于記錄樣本的分型結(jié)果和其他的表型信息,內(nèi)容示意如下

gtool工具有什么用

每列之間用空格分隔,第一列為樣本對應(yīng)的family id, 第二列為樣本的id, 第三列表示父親樣本的id, 第四列表示母親樣本的id, 第五列表示性別,1是男性,2是女性,第六列表示樣本的表型信息,沒有就用0填充,后面的每一列代表一個snp位點的分型結(jié)果。

map文件用于記錄SNP位點的信息,內(nèi)容如下所示

gtool工具有什么用

每列之間用空格分隔,第一列為snp位點所在的染色體名稱,第二列為snp id,第三列是snp位點的連鎖距離,沒有的話用0表示,第四列為snp位點在染色體上的位置。

在ped/map文件系統(tǒng)中,ped文件表示樣本的家系關(guān)系和分型結(jié)果,map文件表示snp位點的metadta, 再來看下gen/sample系統(tǒng),gen文件的內(nèi)容示意如下

gtool工具有什么用

每列之間用空格分隔,第一列為snp位點所在的染色體名稱,第二列為snp id,第三列為染色體的位置,第四列為不同樣本中該位點的分型結(jié)果,0代表ref allle, 1代表alt allel, 每兩列對應(yīng)一個樣本。sample文件內(nèi)容如下所示

gtool工具有什么用

前兩行內(nèi)容固定,后續(xù)每一行代表一個樣本,,miss表示缺失分型結(jié)果的位點比例,以上只是該文件最基本內(nèi)容的展示,還可以有更多的列,用來描述樣本的表型信息。gen/sample系統(tǒng)的命名更加直觀,gen就是genotype的簡寫,表示SNP位點分型的結(jié)果,sample則表示樣本的信息。

在實際操作中,我們經(jīng)常要做的就是格式轉(zhuǎn)換,文件格式的轉(zhuǎn)換是非常繁瑣卻又必須要掌握的一項技能,gtool是一款專門針對genotype data數(shù)據(jù)進行格式化的小工具,網(wǎng)址如下

https://www.well.ox.ac.uk/~cfreeman/software/gwas/gtool.html

經(jīng)典的應(yīng)用場景如下

  1. 從大的分型結(jié)果中提取子集

  2. 從ped格式轉(zhuǎn)換成gen格式

  3. 從gen格式轉(zhuǎn)換成ped格式

  4. 合并多個分型結(jié)果

  5. 對分型結(jié)果的正負(fù)鏈進行校正


每個功能對應(yīng)了一個運行模式,具體用法如下

1. Subset

從分型結(jié)果中提取子集,對樣本和SNP進行篩選,對應(yīng)的運行模式為-S,  基本用法如下

gtool -S \
--g  input.gen \
--s  input.sample \
--og filter.gen \
--os filter.sample \
--sample_id filter.sample.id.txt \
--inclusion filter.snp.id.txt

-g-s指定輸入的genotype data, --og--os指定輸出的genotype data, --sample指定需要保留的樣本id, --inclusion指定需要保留的snp id。

2. PED convert to GEN

將ped格式轉(zhuǎn)換為gen格式,對應(yīng)的運行模式為-P, 基本用法如下

gtool -P \
--ped input.ped \
--map input.map \
--og  out.gen \
--os  out.sample
3. GEN convert to PED

將gen格式轉(zhuǎn)換為ped格式,對應(yīng)的運行模式為-G, 基本用法如下

gtool -G \
--g   input.gen \
--s   input.sample \
--ped out.ped \
--map out.map \
4.  Merge

合并多個分型結(jié)果,對應(yīng)的運行模式為-M, 基本用法如下

gtool -M \
--g input1.gen input2.gen \
--s input1.sample input2.sample \
--log merge.log
5. Orient

將SNP位點統(tǒng)一調(diào)整成正鏈,對應(yīng)的運行模式為-O, 基本用法如下

gtool -O \
--g input.gen \
--strand input.strand \
--og output.gen \
--log orient.log

--strand參數(shù)指定一個文件,描述SNP位點的方向,是一個空格分隔的兩列文件,第一列為SNP在染色體上的位置,第二列為對應(yīng)的正負(fù)鏈信息,內(nèi)容示意如下

gtool工具有什么用

對于負(fù)鏈的SNP位點會進行反轉(zhuǎn),在顯示allel對應(yīng)的堿基時以正鏈進行展示。

以上是“gtool工具有什么用”這篇文章的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對大家有幫助,更多相關(guān)知識,歡迎關(guān)注億速云行業(yè)資訊頻道!

向AI問一下細節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI