溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

cutadapt如何去除adapter序列

發(fā)布時(shí)間:2022-01-17 11:36:51 來(lái)源:億速云 閱讀:170 作者:小新 欄目:大數(shù)據(jù)

這篇文章主要介紹cutadapt如何去除adapter序列,文中介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們一定要看完!

對(duì)于NGS數(shù)據(jù)分析而言,第一步都是進(jìn)行質(zhì)量控制,質(zhì)量控制包括去除adapter序列,去除低質(zhì)量序列等內(nèi)容。在文庫(kù)構(gòu)建階段,為了能夠上機(jī)測(cè)序,會(huì)在插入片段兩端添加adapter序列。當(dāng)測(cè)序讀長(zhǎng)超過(guò)了插入片段長(zhǎng)度時(shí),就會(huì)讀取到adapter序列。

adapter序列是人為引入的序列,而我們之關(guān)心插入片段的測(cè)序結(jié)果,所以首先要做的就是去除adapter序列。在去除adapter序列時(shí),需要考慮以下兩個(gè)因素

  1. 由于測(cè)序錯(cuò)誤率的原因,測(cè)序得到的adapter序列會(huì)和原本的adapter序列存在幾個(gè)堿基的誤差,所以去除adapter序列時(shí)必須允許堿基的錯(cuò)配

  2. 由于插入片段的長(zhǎng)度在一定范圍內(nèi)變化,而adpter序列出現(xiàn)在兩端的位置,所以測(cè)序讀到的adapter序列可能只是原本adapter的部分序列


cutadapt 是一款對(duì)NGS數(shù)據(jù)進(jìn)行質(zhì)量過(guò)濾的軟件,無(wú)論是5’端adapter,還是3’端adapter, 都可以有效的去除,同時(shí)也可以過(guò)濾低質(zhì)量,去除長(zhǎng)度太短的序列。

這個(gè)軟件采用python開發(fā),安裝方便,代碼如下

pip install cutadapt
1. 去除3’端引物序列

對(duì)于3’端序列,可能存在以下情況

cutadapt如何去除adapter序列

綠色部分為adapter序列,灰色部分為軟件會(huì)去除掉的序列,可以看到,無(wú)論是只讀取到部分adapter序列還是完整的adapter序列,軟件都能夠有效的去除3’端adapter序列。

用法如下

cutadapt -a AACCGGTT -o output.fastq input.fastq

針對(duì)目前主流的雙端測(cè)序數(shù)據(jù),adapter序列都是出現(xiàn)在3’端,R1序列的3’端可能出現(xiàn)3’adapter 序列,R2端序列的3’端會(huì)出現(xiàn)5’端adpter的反向互補(bǔ)序列,示意如下

cutadapt如何去除adapter序列

需要注意的是,無(wú)論是R1端還是R2端,其5’端都不會(huì)出現(xiàn)adapter,因?yàn)闇y(cè)序反應(yīng)是直接從插入片段開始的。對(duì)于雙端數(shù)據(jù),只需要分別對(duì)R1和R2序列去除3’端adapter序列就可以了。

2. 去除5’端adapter序列

cutadapt 軟件也支持去除5’端adapter序列,雖然測(cè)序反應(yīng)中不會(huì)出現(xiàn)5’adapter, 但是這里adapter的概念可以延伸一下,比如PCR引物序列。在某些測(cè)序策略中,首選需要用PCR反應(yīng)擴(kuò)增出目的片段,然后在建庫(kù)。如果想要去除插入片段5’端的PCR引物,這個(gè)用法就派上了用場(chǎng)。

對(duì)于5’端序列,可能存在以下情況

cutadapt如何去除adapter序列

綠色部分為adapter序列,灰色部分為軟件會(huì)去除掉的序列,前兩種格式和,無(wú)論是只讀取到部分adapter序列還是完整的adapter序列,軟件都能夠有效的去除5’端adapter序列。

用法如下

cutadapt -g AACCGGTT -o output.fastq input.fastq

在查找adapter序列時(shí),cutadapt還提供了Anchored模式,在該模式下,必須查找到完整的adapter序列后,才會(huì)進(jìn)行切除工作。

3’端Anchored模式寫法如下

cutadapt -a AACCGGTT$ -o output.fastq input.fastq

5’端Anchored模式寫法如下

cutadapt -g ^AACCGGTT -o output.fastq input.fastq

cutadapt在查找adapter時(shí), 有以下兩種默認(rèn)行為

1. 默認(rèn)允許錯(cuò)配和插入缺失

假設(shè)adapter 序列是ADAPTER, 此時(shí)對(duì)于以下3種情況

ADABTER    有一個(gè)錯(cuò)配,
ADAPTR      有一個(gè)缺失
ADAPPTER  有一個(gè)插入

cutadapt 都認(rèn)為是adapter序列,然后進(jìn)行去除??梢圆捎?code>-e參數(shù) 指定錯(cuò)配的比例, 默認(rèn)-e 為0.1, 比如adapter序列長(zhǎng)度為21,允許的錯(cuò)配數(shù)為 21 * 0.1 = 2.1, 然后直接向下取整后為2, 所以允許的錯(cuò)配數(shù)為2;可以采用-no-indels參數(shù)來(lái)禁止插入和缺失。

2. 默認(rèn)允許部分匹配

cutadapt默認(rèn)允許部分匹配,比如 adapter 序列為ADAPTER, 測(cè)序得到的序列為ATCGATGCTADCGAGCGC,在序列中間位置的AD是adapter 序列的一部分, 此時(shí)會(huì)把AD以及之后的序列全部剪切掉,這種情況屬于錯(cuò)誤的判別。為了防止此類錯(cuò)誤判別的出現(xiàn),cutadapt 默認(rèn)必須至少有3個(gè)堿基匹配時(shí)才會(huì)認(rèn)為是adapter 序列,然后進(jìn)行切除, 這個(gè)閾值可以通過(guò) --overlap 參數(shù)來(lái)指定。

cutdadapt還支持根據(jù)質(zhì)量進(jìn)行過(guò)濾,用法如下

cutadapt -q 10 -o output.fastq input.fastq

低質(zhì)量序列通常出現(xiàn)在reads的3’端,上述寫法表示對(duì)3’端低質(zhì)量堿基進(jìn)行過(guò)濾,質(zhì)量的閾值為10,具體計(jì)算過(guò)程如下,假設(shè)一段序列質(zhì)量編碼為

42, 40, 26, 27, 8, 7, 11, 4, 2, 3

質(zhì)量過(guò)濾的閾值-q為10,則首先減去10

32, 30, 16, 17, -2, -3, 1, -6, -8, -7

然后從從末端開始累加,得到如下數(shù)值

(70), (38), 8, -8, -25, -23, -20, -21, -15, -7

-25 最小,所以保留-25 之前的堿基, 即保留前4位堿基,后續(xù)堿基認(rèn)為是低質(zhì)量堿基,直接切除掉。

cutadapt 也可以根據(jù)長(zhǎng)度對(duì)序列進(jìn)行過(guò)濾,-m參數(shù)指定序列的最小長(zhǎng)度,低于該長(zhǎng)度的序列會(huì)被過(guò)濾掉,-M參數(shù)指定序列的最大長(zhǎng)度,大于該長(zhǎng)度的序列會(huì)被過(guò)濾掉。

以上是“cutadapt如何去除adapter序列”這篇文章的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對(duì)大家有幫助,更多相關(guān)知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI