溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

如何使用SnpSift把vcf文件的變異位點注釋到clinvar數(shù)據(jù)庫

發(fā)布時間:2021-11-09 17:59:25 來源:億速云 閱讀:209 作者:柒染 欄目:大數(shù)據(jù)

如何使用SnpSift把vcf文件的變異位點注釋到clinvar數(shù)據(jù)庫,相信很多沒有經(jīng)驗的人對此束手無策,為此本文總結(jié)了問題出現(xiàn)的原因和解決方法,通過這篇文章希望你能解決這個問題。

首先熟悉 clinvar 數(shù)據(jù)庫

ClinVar是NCBI主辦的與疾病相關(guān)的人類基因組變異數(shù)據(jù)庫。它的強大在于整合了dbSNP、dbVar、Pubmed、OMIM等多個數(shù)據(jù)庫在遺傳變異和臨床表型方面的數(shù)據(jù)信息,形成一個標準的、可信的遺傳變異-臨床相關(guān)的數(shù)據(jù)庫。

clinvar的注釋,可以尋找出對應(yīng)的基因變異信息,發(fā)生頻率,表型,臨床意義,評審狀態(tài)以及染色體位置等。

首先,我們?nèi)linvar數(shù)據(jù)庫的ftp里面找到數(shù)據(jù)庫文件,然后下載最新版文件,我這里用的是shell命令:

## ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/
mkdir -p ~/annotation/variation/human/clinvar
cd ~/annotation/variation/human/clinvar
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/disease_names
# mkdir vcf_GRCh47 && cd vcf_GRCh47
mkdir vcf_GRCh48 && cd vcf_GRCh48
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh48/clinvar_20200706.vcf.gz
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh48/clinvar_20200706.vcf.gz.tbi
 

這個 ClinVar數(shù)據(jù)庫里面的變異位點記錄更新還是蠻快的。

 

然后熟悉SnpSift 軟件

SnpSift 軟件非常強大,推薦大家仔細閱讀它的說明書,http://snpeff.sourceforge.net/protocol.html

  • Example 1: Coding variants
  • Example 2:Software Integration
  • Example 3: Non-Coding variants
  • Example 4: Sequencing data analysis
  • Example 5: Filter variants (dbSnp)
  • Example 6: Custom annotations

如果要使用SnpSift把vcf文件的變異位點注釋到clinvar數(shù)據(jù)庫,我們需要使用的命令示例是:

java -Xmx1g -jar ~/biosoft/snpEff/snpEff/SnpSift.jar  \
    annotate \
    -v  ~/annotation/variation/human/clinvar/clinvar_20200706.vcf.gz  \
    new.filter.sort.vcf  \
    > new.clinvar.vcf
 

一般來說,注釋比例并不會太高,因為clinvar數(shù)據(jù)庫記錄的位點很有限,如下:

Total annotated entries : 6231
 Total entries           : 54972
 Percent                 : 11.33%
 

如果選擇其它數(shù)據(jù)庫,比如dbSNP、exac、gnomad注釋比例會高很多。

 

解讀clinvar數(shù)據(jù)庫注釋結(jié)果

實際上,沒辦法解讀,一般來說, WES數(shù)據(jù)分析結(jié)果有10萬個變異位點,其中2萬左右在外顯子區(qū)域,那么就會有2千個左右的位點被clinvar注釋到,這個數(shù)量級仍然是很可觀的。

我們必須要有先驗知識,比如知道這個WES數(shù)據(jù)來源的個體是患有某種疾病的,比如,視網(wǎng)膜變性相關(guān)疾病就可以搜索:

"Pigmentary retinal degeneration"
"Rod-cone dystrophy"
"Retinitis pigmentosa"
 

如果你發(fā)現(xiàn)搜索到的突變,都是Benign,沒有Pathogenic,就比較麻煩,就需要根據(jù)ACMG指南分類分析,重點看:

  • 1、PM1: 位于熱點突變區(qū)域, 和/或位于已知無良性變異的關(guān)鍵功能域(如酶的活性位點).

  • 2、PM2: ESP 數(shù)據(jù)庫、千人數(shù)據(jù)庫、 EXAC 數(shù)據(jù)庫中正常對照人群中未發(fā)現(xiàn)的變異(或隱性遺傳病中極低頻位點)

  • 3、PP1: 突變與疾病在家系中共分離(在家系多個患者中檢測到此變異). 注: 如有更多的證據(jù), 可作為更強的證據(jù).

  • 4、PP3: 多種統(tǒng)計方法預(yù)測出該變異會對基因或基因產(chǎn)物造成有害的影響, 包括保守性預(yù)測、進化預(yù)測、剪接位點 影響等. 注: 由于做預(yù)測時許多生物信息學(xué)算法使用相同或非常相似的輸入, 每個算法不應(yīng)該算作一個獨立的標準.

如果這樣縮小范圍仍然是位點很多,可以直接縮小到基因,比如查詢 "Retinitis pigmentosa" 這個疾病相關(guān)基因就37個,這樣位于這些基因的突變就很少了,從這里面挑選那些有害突變,而且人群頻率低的。但是其實有一個問題,既然已經(jīng)局限于具體的疾病相關(guān)基因了,那么為什么還有做WES呢,直接上一個panel不就好了嗎?見:家系外顯子研究最后反正要定位到已知疾病相關(guān)基因

關(guān)于ACMG指南分類分析,建議看Germline pathogenic variants of 11 breast cancer genes in 7,051 Japanese patients and 11,241 controls文章的材料與方法部分,主要是很多細致的探索,很有意思。

 

另外推薦clineff軟件

主頁是:http://www.dnaminer.com/clineff.html

如何使用SnpSift把vcf文件的變異位點注釋到clinvar數(shù)據(jù)庫

看完上述內(nèi)容,你們掌握如何使用SnpSift把vcf文件的變異位點注釋到clinvar數(shù)據(jù)庫的方法了嗎?如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注億速云行業(yè)資訊頻道,感謝各位的閱讀!

向AI問一下細節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

vcf
AI