您好,登錄后才能下訂單哦!
bcftools csq怎樣分析基因突變對蛋白水平的影響,很多新手對此不是很清楚,為了幫助大家解決這個難題,下面小編將為大家詳細(xì)講解,有這方面需求的人可以來學(xué)習(xí)下,希望你能有所收獲。
csq
命令可以分析SNP位點在基因組上的位置,同時還會預(yù)測基因突變對編碼蛋白的影響。
和其他預(yù)測基因突變對蛋白質(zhì)影響的軟件不同,bcftools 將基因組劃分為不同的獨(dú)立區(qū)域(和單倍型區(qū)域概念類似),在分析蛋白質(zhì)變化時,會綜合考慮該區(qū)域內(nèi)的所有突變位點,示意圖如下
在A
圖中,該區(qū)域包含兩個SNP位點,如果單獨(dú)考慮每個位點,只能預(yù)測到氨基酸替換,由精氨酸替換為色氨酸或者谷氨酰胺, 綜合考慮兩個SNP位點時,對應(yīng)的DNA序列變成了一個終止密碼子,蛋白質(zhì)長度都發(fā)生了變化。
在B
圖中,該區(qū)域包含了2個indel 位點,單獨(dú)考慮每個indel位點時,都是發(fā)生了移碼突變,氨基酸長度發(fā)生了變化,綜合考慮兩個SNP位點時,氨基酸變化和單獨(dú)分析一個位點時,又大不一樣。
在C
圖中,兩個SNP位點發(fā)生在剪切位點兩側(cè),單獨(dú)考慮每個SNP位點,氨基酸由天冬氨酸替換為天冬酰胺或者谷氨酸,綜合考慮兩個突變位點時,氨基酸由天冬酰胺替換成賴氨酸。
從示意圖可以發(fā)現(xiàn),單獨(dú)考慮每個SNP位點對于蛋白質(zhì)的影響,其結(jié)果是有偏差的,只有綜合考慮鄰近范圍內(nèi)所有的突變位點,預(yù)測到的蛋白質(zhì)變化結(jié)果才更加可靠。
csq 運(yùn)行命令如下
bcftools csq -f csq.fa -g csq.gff3 csq.vcf > csq.out
-f
參數(shù)指定參考基因組的fasta文件,-g
參數(shù)指定參考基因組的gff3文件,csq.vcf
為輸入的VCF文件,csq.out
為輸出文件。
輸出文件的格式也是VCF格式,會在INFO
列中新增一個BCSQ
字段,用來描述突變位點在基因組上的位置和蛋白質(zhì)序列的變化,示例如下
BCSQ=synonymous|XYZ|ENST00000000001|protein_coding|+|1Y|102C>T
BCSQ的信息由多個字段構(gòu)成,中間用|
連接,包含以下字段
consequence type
基因突變對蛋白影響的類型,包括synonymous
, missense
, inframe_deletion
等類型
gene
基因名稱
transcript
轉(zhuǎn)錄本名稱
biotype
基因類型
strand
正負(fù)鏈信息
amino acid positon
氨基酸的位置
variants list
預(yù)測氨基酸變化時,考慮的突變位點的集合
由于bcftools是綜合考慮多個突變位點對蛋白質(zhì)的共同作用,在實際分析時,應(yīng)該盡可能的過濾掉假陽性的突變位點,然后再分析蛋白水平的影響,這樣的分析結(jié)果,可信度會更高。
看完上述內(nèi)容是否對您有幫助呢?如果還想對相關(guān)知識有進(jìn)一步的了解或閱讀更多相關(guān)文章,請關(guān)注億速云行業(yè)資訊頻道,感謝您對億速云的支持。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。