溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

MarkDuplicates的作用是什么

發(fā)布時(shí)間:2021-12-18 15:11:17 來(lái)源:億速云 閱讀:202 作者:iii 欄目:大數(shù)據(jù)

這篇文章主要講解了“MarkDuplicates的作用是什么”,文中的講解內(nèi)容簡(jiǎn)單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來(lái)研究和學(xué)習(xí)“MarkDuplicates的作用是什么”吧!

在數(shù)據(jù)預(yù)處理中,有一個(gè)很重要的步驟就是MarkDuplicates, 字面意思就是標(biāo)記重復(fù)序列。重復(fù)序列是如何產(chǎn)生的,為什么要標(biāo)記重復(fù)序列呢?
首先來(lái)看重復(fù)序列產(chǎn)生的途徑,有以下兩種

  1. PCR duplicates
    這個(gè)很好理解,PCR根據(jù)一份模板,擴(kuò)增出多份拷貝,來(lái)源于同一模板的多份拷貝之間就是PCR重復(fù)序列

  2. Optical duplicates
    illumina測(cè)序儀的基本單位是flowcell,測(cè)序反應(yīng)在flowcell上發(fā)生和進(jìn)行,高密度的flowcell使得測(cè)序的通量顯著提升,也帶來(lái)了序列重復(fù)讀取的問(wèn)題。雖然比例非常低,但是也需要考慮進(jìn)來(lái)。


GATK官方對(duì)PCR重復(fù)和系統(tǒng)重復(fù)進(jìn)行了統(tǒng)計(jì),可以看到,PCR重復(fù)的比例隨著測(cè)序量的增加而增加,而Optical duplicates 重復(fù)序列的比例是一個(gè)隨機(jī)分布,總是存在的,其比例相對(duì)穩(wěn)定,在是在一定范圍內(nèi)波動(dòng),符合系統(tǒng)誤差的特性。

MarkDuplicates的作用是什么
之所以要標(biāo)記重復(fù)序列,是為了下游的SNP分析。SNP位點(diǎn)的識(shí)別,簡(jiǎn)單理解可以看做一個(gè)概率問(wèn)題。比如下面兩種情況:

  1. 情況A
    基因組上某位點(diǎn)堿基為A, 有100條reads 覆蓋到該位點(diǎn)。 其中99條都為A, 1條為C;

  2. 情況B
    基因組上某位點(diǎn)堿基為T, 有100條reads 覆蓋到該位點(diǎn)。 其中54條為T, 46條為C;


上述兩種情況都檢測(cè)到了兩種堿基,是不是意味著檢測(cè)到了兩個(gè)SNP位點(diǎn)呢?
當(dāng)然不是,情況A中C堿基的比例為1%,很可能是測(cè)序錯(cuò)誤,當(dāng)然不能算是一個(gè)SNP位點(diǎn);情況B只從reads分布看,可以認(rèn)為是一個(gè)候選的SNP位點(diǎn),當(dāng)然還要分析其他的因素才能判斷是否是一個(gè)snp位點(diǎn)。從這里也可以看出, reads 的計(jì)數(shù)對(duì)于SNP位點(diǎn)的檢測(cè)特別的重要。

但是這里的reads 指的是有效reads , 是實(shí)際在樣本中存在的reads的數(shù)目。在計(jì)數(shù)時(shí),重復(fù)序列只計(jì)數(shù)1次。MarkDuplicates的作用就是標(biāo)記重復(fù)序列, 標(biāo)記好之后,在下游分析時(shí),程序會(huì)根據(jù)對(duì)應(yīng)的 tag 自動(dòng)識(shí)別重復(fù)序列。

重復(fù)序列的判斷方法有兩種:

  1. 序列完全相同

  2. 比對(duì)到基因組的起始位置相同


序列完全相同時(shí),認(rèn)為是重復(fù)序列當(dāng)然沒(méi)什么大問(wèn)題。雖然會(huì)有同源性,重復(fù)序列等因素的影響,但是概率非常之小,基本上可以忽略不計(jì);比對(duì)位置相同也認(rèn)為是重復(fù)序列,是因?yàn)樵跍y(cè)序過(guò)程中,會(huì)存在測(cè)序錯(cuò)誤,本身完全一樣的序列, 可能測(cè)序得到的的reads并不完全相同(可能有幾個(gè)堿基不同),而且在去除低質(zhì)量的過(guò)程中,也會(huì)有所差異(末端切除的低質(zhì)量堿基數(shù)不同), 所以最終根據(jù)比對(duì)基因組的結(jié)果進(jìn)行判斷。如果序列比對(duì)到基因組上的起始位置是相同的,就認(rèn)為是重復(fù)序列。

GATK4 標(biāo)記重復(fù)序列的命令如下:

soft/gatk-4.0.4.0/gatk MarkDuplicates -I input.bam -M metrc.csv -O marked.bam

在輸出的bam文件中,借助第二列的flag 來(lái)標(biāo)記重復(fù)序列,flag的值是多種情況的疊加,其中1024代表重復(fù)序列

samtools flags 1024

0x400 1024 DUP

在生出的bam文件中,通過(guò)flag的值可以知道該序列是否為重復(fù)序列。

通過(guò)flag已經(jīng)可以知道哪些是重復(fù)序列了,對(duì)于gatk 下游分析而言,已經(jīng)足夠了。有時(shí)我們還會(huì)去除掉重復(fù)序列,在去除重復(fù)序列時(shí),會(huì)根據(jù)序列的堿基質(zhì)量值 ,選擇一個(gè)堿基質(zhì)量值總和最大的reads 作為代表序列,保留下來(lái)。

感謝各位的閱讀,以上就是“MarkDuplicates的作用是什么”的內(nèi)容了,經(jīng)過(guò)本文的學(xué)習(xí)后,相信大家對(duì)MarkDuplicates的作用是什么這一問(wèn)題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是億速云,小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI