溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

snpEff工具有什么用

發(fā)布時(shí)間:2022-01-17 11:06:58 來源:億速云 閱讀:124 作者:小新 欄目:大數(shù)據(jù)

這篇文章給大家分享的是有關(guān)snpEff工具有什么用的內(nèi)容。小編覺得挺實(shí)用的,因此分享給大家做個(gè)參考,一起跟隨小編過來看看吧。

1. 查詢所有可用的數(shù)據(jù)庫(kù)列表

命令如下

java -jar snpEff.jar databases > snpEff.databases.list.txt

目前共有42791個(gè)數(shù)據(jù)庫(kù),snpEff.databases.list.txt文件內(nèi)容如下

snpEff工具有什么用

給出了物種可用的數(shù)據(jù)庫(kù)和對(duì)應(yīng)的下載鏈接。

2. 下載數(shù)據(jù)庫(kù)

human為例,首先查看有哪些數(shù)據(jù)庫(kù)

grep -i “Homo_sapiens” snpEff.databases.list.txt | cut -f1

GRCh47.75                                                   
GRCh48.86                                                   
hg19                                                        
hg19kg                                                      
hg38                                                        
hg38kg                                                      
testHg19ChrM

GRCh48.86數(shù)據(jù)庫(kù)為例,下載的命令如下

java -jar snpEff.jar download GRCh48.86

下載成功之后,在軟件安裝目錄的data文件夾下,會(huì)有一個(gè)以數(shù)據(jù)庫(kù)名字命名的文件夾,里面就是下載好的所有文件

GRCh48.86/
├── cytoBand.txt.gz
├── interactions.bin
├── motif.bin
├── nextProt.bin
├── pwms.bin
├── sequence.X.bin
├── sequence.Y.bin
└── snpEffectPredictor.bin
3. 進(jìn)行注釋

命令如下:

java -jar snpEff.jar  GRCh48.86 examples/test.chr22.vcf > test.chr22.ann.vcf

GRCh48.86代表數(shù)據(jù)庫(kù)的名字,test.chr22.vcf為輸入文件,輸入文件格式為VCF, 內(nèi)容如下

snpEff工具有什么用

輸出文件test.chr22.ann.vcf內(nèi)容如下

snpEff工具有什么用

可以看到,就是在輸入文件的INFO列新增了一個(gè)字段信息,字段的名字叫做ANN, 關(guān)于ANN中各個(gè)部分的詳細(xì)信息可以參考VCF頭部的注釋部分。默認(rèn)情況下會(huì)給出以下幾種信息,以第一個(gè)突變位點(diǎn)為例進(jìn)行說明

1. Allele

突變之后的堿基,第一個(gè)突變位點(diǎn)由T堿基突變成了C堿基,對(duì)應(yīng)Allel的值為C

2.Annotation

sequence ontology定義的突變類型,第一個(gè)突變位點(diǎn)的downstream_gene_variant在SO系統(tǒng)中的定位如下

snpEff工具有什么用

如果變異位點(diǎn)屬于多個(gè)類型時(shí),多個(gè)類型之間用&符號(hào)連接,比如

intron_variant&nc_transcript_variant

3. Annotation_Impact

對(duì)變異位點(diǎn)有害程度的簡(jiǎn)單評(píng)估,取值有HIGH, MODERATE, LOW, MODIFIER 4種,含義如下

snpEff工具有什么用

4. Gene_Name

基因名稱

5. Gene_ID

基因ID

6. Feature_Type

想要分析的特征類型,transcript, motif, miRNA 等

7. Feature_ID

根據(jù)Feature Type指定的特征,給出對(duì)應(yīng)的ID

8. Transcript_BioType

轉(zhuǎn)錄本類型, 通常采用Ensembl數(shù)據(jù)庫(kù)的轉(zhuǎn)錄本類型

9. Rank

只有當(dāng)變異位點(diǎn)位于基因區(qū)域時(shí)才有值,會(huì)給出變異位點(diǎn)所處的exon/intron的編號(hào)和該基因的exon/intron的總數(shù),比如一個(gè)突變位點(diǎn)位于基因的第3個(gè)exon上,該基因一共有12個(gè)exon, 對(duì)應(yīng)的Rank的值為3/12
當(dāng)變異位點(diǎn)位于基因區(qū)域以外時(shí),該字段的值為空

10. HGVS.c

采用HGVS標(biāo)準(zhǔn)命名的基因水平的變異情況

11. HGVS.p

采用HGVS標(biāo)準(zhǔn)命名的蛋白質(zhì)水平的變異情況,只有當(dāng)突變位點(diǎn)位于編碼區(qū)是才會(huì)有值

12. cDNA.pos/cDNA.length

突變位點(diǎn)在cDNA上的位置/cDNA的總長(zhǎng)度

13. CDS.pos/CDS.length

突變位點(diǎn)在CDS上的位置/CDS的總長(zhǎng)度

14. AA.pos/AA.length

突變位點(diǎn)在氨基酸序列上的位置/氨基酸序列的總長(zhǎng)度

15. Distance

變異位點(diǎn)與最近的特征的距離,當(dāng)變異位點(diǎn)位于基因間區(qū)時(shí),會(huì)給出與最近的基因之間的距離;當(dāng)變異位點(diǎn)位于exon區(qū)域時(shí),會(huì)給出與最近的內(nèi)含子邊界的距離,不同的情況,距離的定義不同。

16. ERRORS/WARNINGS/INFO

對(duì)注釋結(jié)果的可靠程度進(jìn)行評(píng)估,各種取值代表的含義如下圖

snpEff工具有什么用

感謝各位的閱讀!關(guān)于“snpEff工具有什么用”這篇文章就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,讓大家可以學(xué)到更多知識(shí),如果覺得文章不錯(cuò),可以把它分享出去讓更多的人看到吧!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI