溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

如何理解基因組數(shù)據(jù)分析軟件SpeedSeq

發(fā)布時(shí)間:2021-11-23 15:44:31 來(lái)源:億速云 閱讀:361 作者:柒染 欄目:大數(shù)據(jù)

本篇文章為大家展示了如何理解基因組數(shù)據(jù)分析軟件SpeedSeq,內(nèi)容簡(jiǎn)明扼要并且容易理解,絕對(duì)能使你眼前一亮,通過(guò)這篇文章的詳細(xì)介紹希望你能有所收獲。

SpeedSeq是一款開(kāi)源的基因組數(shù)據(jù)變異分析軟件,主要功能如下

  1. alignments, 序列比對(duì)

  2. variant detection, 變異檢測(cè)

  3. functional annotation, 突變位點(diǎn)的功能注釋


該軟件最大的特點(diǎn)就是快速,對(duì)于50X的人類(lèi)全基因組數(shù)據(jù), 原始的fastq到vcf文件只需要13小時(shí)左右,對(duì)應(yīng)的文章發(fā)表在nature methods上,鏈接如下

http://ucgd.genetics.utah.edu/wp-content/uploads/2015/08/nmeth.3505.pdf

該軟件是一個(gè)完整的pipeline, 集成了多款軟件,可以用于檢測(cè)以下多種基因組變異

  1. germline and somatic mutations, 通過(guò)freebayes軟件來(lái)檢測(cè)突變微位點(diǎn)

  2. structural variants,通過(guò)lumpy-sv軟件來(lái)檢測(cè)結(jié)構(gòu)變異


其流程圖示意如下

如何理解基因組數(shù)據(jù)分析軟件SpeedSeq

源代碼保存在github上,鏈接如下

https://github.com/hall-lab/speedseq

該軟件按照功能,拆分成了以下5個(gè)子模塊

1. align

該模塊將雙端測(cè)序的fastq數(shù)據(jù)比對(duì)到參考基因組上,然后進(jìn)行markduplicate, sort, index等步驟, 和GATK流程中的數(shù)據(jù)預(yù)處理步驟一致,用法如下

speedseq align \
-R  "@RG\tID:sample1\tSM:sample1\tLB:sample1" \
-t 10 \
-o sample1 \
hg19.fa \
sample1_R1.fastq.gz \
sample1_R2.fastq.gz

使用bwa軟件比對(duì)參考基因組,然后使用samblaster進(jìn)行markduplicate, sambamba軟件進(jìn)行bam文件的sort。

2. var

該模塊用于檢測(cè)生殖變異,輸入為align模塊產(chǎn)生的bam文件,用法如下

speedseq var \
-t 10 \
hg19.fa \
sample1.bam

使用freebayes軟件來(lái)檢測(cè)生殖變異,輸出文件為VCF文件。

3. somatic

該模塊用于檢測(cè)體細(xì)胞突變,輸入為align模塊產(chǎn)生的bam文件,用法如下

speedseq somatic \
-t 10 \
-o tumor \
hg19.fa \
normal.bam\
tumor.bam

使用freebayes軟件來(lái)檢測(cè)體細(xì)胞突變,需要配對(duì)的腫瘤和正常樣本,輸出文件為VCF文件。

4. sv

該模塊用于檢測(cè)結(jié)構(gòu)變異,用法如下

speedseq sv \
-o sample \
-B sample.bam \
-D sample.discordants.bam \
-S sample.splitters.bam \
-R hg19.fa \
-o sample \
-t 10

使用lumpy-sv軟件來(lái)檢測(cè)結(jié)構(gòu)變異,輸出文件為VCF文件。

5.  realign

該模塊從bam文件中提取雙端的fastq序列,再進(jìn)行和align模塊相同的處理,用法如下

speedseq realign \
-t 10 \
-o sample \
hg19.fa \
sample.ba

要求bam文件必須包含read group信息,輸出文件和align模塊相同。對(duì)于全基因組數(shù)據(jù)的分析,使用speedseq可以大大加快處理速度。

上述內(nèi)容就是如何理解基因組數(shù)據(jù)分析軟件SpeedSeq,你們學(xué)到知識(shí)或技能了嗎?如果還想學(xué)到更多技能或者豐富自己的知識(shí)儲(chǔ)備,歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI