如何使用lumpy進(jìn)行CNV檢測

發(fā)布時間：2021-07-24 09:54:40 來源：億速云閱讀：402 作者：chen 欄目：大數(shù)據(jù)

本篇內(nèi)容主要講解“如何使用lumpy進(jìn)行CNV檢測”，感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷，實用性強(qiáng)。下面就讓小編來帶大家學(xué)習(xí)“如何使用lumpy進(jìn)行CNV檢測”吧!

基于全基因組數(shù)據(jù)分析CNV, 有以下4種經(jīng)典策略

read-pair
split-read
read-depth
assembly

每種算法都要其優(yōu)勢和不足之處，綜合運(yùn)用多種策略有助于提高檢測的靈敏度，lumpy就是這樣一款軟件，集合了read-pair，split-read，read-depth, 等多種策略來預(yù)測CNV,文章鏈接如下

https://genomebiology.biomedcentral.com/articles/10.1186/gb-2014-15-6-r84

源代碼保存在github上，網(wǎng)址如下

https://github.com/arq5x/lumpy-sv

分析的pipeline示意如下

如何使用lumpy進(jìn)行CNV檢測

如圖A所示，對于單個樣本，綜合了read-pair, split-read, read-depth和已知的CNV位點4種信號來預(yù)測CNV；如圖B所示，對于多個樣本，綜合多個樣本的信號來預(yù)測CNV。

lumpy的框架是非常靈活的，擴(kuò)展性很高，可以將其他分析軟件的結(jié)果作為輸入，比如將cnvnator的輸出作為已知CNV的信號。在文章中，將lumpy和其他軟件進(jìn)行了比較，結(jié)果如下所示

如何使用lumpy進(jìn)行CNV檢測

在不同測序深度下，lumpy的靈敏度都高于其他軟件，而且假陽性率最低。
使用lumpy進(jìn)行CNV檢測的步驟如下

1. mapping

推薦采用bwa-mem算法將雙端序列比對到參考基因組上，為了加快運(yùn)行速度，這里用samblaster軟件進(jìn)行markduplicate, 用法如下

bwa mem \
-R "@RG\tID:id\tSM:sample\tLB:lib" \
hg19_bwa_index \
sample_R1.fastq.gz sample_R2.fastq.gz \
| samblaster --excludeDups \
--addMateTags  \
--maxSplitCount 2 \
--minNonOverlap 20 \
| samtools view -Sb - > sample.bam

為了節(jié)省磁盤空間，最終生成了bam格式的文件。

2. extract discordant paired-end alignments

discordant reads指的是R1和R2端比對之間的距離超過了期望的插入片段長度或者比對到了不同鏈的reads, 具體可以參考以下鏈接

https://www.biostars.org/p/278412/

這些reads比對情況可能是由于基因組結(jié)構(gòu)變異引起的，所以很多的結(jié)構(gòu)變異軟件都會針對這部分reads來進(jìn)行分析，提取的代碼如下

samtools view -b -F 1294 \
sample.bam \
> sample.discordants.unsorted.bam

相當(dāng)于提取了原始bam文件的一個子集。

3. extract split-reads alignments

split-reads指的是覆蓋了斷裂點的單端reads,這些reads根據(jù)斷裂點拆分成subreads后可以正確的比多到參考基因組上。在軟件的安裝目錄，自帶了一個名為extractSplitReads_BwaMem的腳本，用于提取split-reads, 用法如下

samtools view -h sample.bam \
| scripts/extractSplitReads_BwaMem -i stdin \
| samtools view -Sb - \
> sample.splitters.unsorted.bam

4. sort bams

軟件要求輸入的bam文件必須是排序之后的文件，所以對提取的兩個子bam進(jìn)行排序，用法如下

samtools sort \
sample.discordants.unsorted.bam \
sample.discordants
samtools sort \
sample.splitters.unsorted.bam \
sample.splitters

5. run lumpy

lumpyexpress是lumpy的一個封裝腳本，使用起來更加方便，基本用法如下

lumpyexpress \
-B sample.bam \
-S sample.splitters.bam \
-D sample.discordants.bam \
-o sample.vcf

6. genotype

檢測到的CNV, 可以用svtyper這個軟件預(yù)測在樣本中的分型結(jié)果，用法如下

svtyper \
-B sample.bam \
-S sample.splitters.bam \
-i sample.vcf
> sample.gt.vcf

lumpy軟件靈敏度很高，對于低深度的全基因組數(shù)據(jù)，也能有很好的表現(xiàn)，這里只是展示了基本用法，更多用法請參考官方文檔。

到此，相信大家對“如何使用lumpy進(jìn)行CNV檢測”有了更深的了解，不妨來實際操作一番吧！這里是億速云網(wǎng)站，更多相關(guān)內(nèi)容可以進(jìn)入相關(guān)頻道進(jìn)行查詢，關(guān)注我們，繼續(xù)學(xué)習(xí)！

向AI問一下細(xì)節(jié)

如何使用lumpy進(jìn)行CNV檢測

1. mapping

2. extract discordant paired-end alignments

3. extract split-reads alignments

4. sort bams

5. run lumpy

6. genotype

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽