溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

利用de Bruijn graph組裝基因組時(shí)Kmer為什么必須是奇數(shù)

發(fā)布時(shí)間:2021-12-20 09:35:55 來(lái)源:億速云 閱讀:229 作者:柒染 欄目:大數(shù)據(jù)

這期內(nèi)容當(dāng)中小編將會(huì)給大家?guī)?lái)有關(guān)利用de Bruijn graph組裝基因組時(shí)Kmer為什么必須是奇數(shù),文章內(nèi)容豐富且以專(zhuān)業(yè)的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。

根本原因就是為了避免導(dǎo)致正反鏈混淆。

如果kmer是偶數(shù),我們會(huì)發(fā)現(xiàn)基因組上有些序列(如,CGCGCGCG,kmer=4)的Kmer在反向互補(bǔ)后得到的序列仍然是它自身!這是不能允許發(fā)生的。因?yàn)檫@將導(dǎo)致你無(wú)法區(qū)分某段序列的kmer到底是屬于它自身還是說(shuō)只是來(lái)自于它的互補(bǔ)鏈?。∵@會(huì)給解de Bruijn graph帶來(lái)極大的混淆和困難!

或許你會(huì)覺(jué)得 “為什么我需要糾結(jié)于序列是不是來(lái)自互補(bǔ)鏈呢?畢竟雙鏈DNA的正反鏈?zhǔn)菄?yán)格反向互補(bǔ)的啊,基因組組裝技術(shù)不也是把它們合并裝在一起的嗎?!”。你若是這樣來(lái)理解其實(shí)是非常難得的,但前提卻是基因組必須能夠被一次性完整地(至少是非常接近完整)測(cè)出來(lái),這時(shí)的測(cè)序深度甚至只需是1就可以了。但是你回頭想想,既然都已經(jīng)把基因組完整測(cè)序出來(lái)了,那還要組裝干嘛呢?

利用de Bruijn graph組裝基因組時(shí)Kmer為什么必須是奇數(shù)

并且,目前的NGS測(cè)序技術(shù)也做不到通測(cè)基因組。一般來(lái)說(shuō)都是測(cè)出上百萬(wàn)千萬(wàn)億萬(wàn)個(gè)小小的片段(read,長(zhǎng)度一般是100bp-300bp)。而且,為了確保準(zhǔn)確性,基因組都會(huì)被反復(fù)測(cè)很多層。組裝時(shí)構(gòu)建的kmer單位,實(shí)際上是對(duì)這些read進(jìn)行的。具體的操作就是按照kmer的長(zhǎng)度把這些read切割成更小的、存在重疊關(guān)系的片段。那么,此刻當(dāng)我們構(gòu)建de Bruijn graph時(shí),如何能夠保證正確地把同屬于一條read上的Kmer連接起來(lái),就顯得極為重要了!我們不能一會(huì)兒把A kmer正確地連到它自己所在的read,一會(huì)兒又連到它互補(bǔ)鏈的read上去!

這就是為何Kmer不能是偶數(shù)的原因了,因?yàn)橹挥衅鏀?shù),才能保證每個(gè)kmer序列的反向互補(bǔ)kmer與自身也是不同的,而這個(gè)不同的真正意義就是為了避免正反鏈混淆。比如 :5-mer的 CGCGC,反向互補(bǔ)后是 GCGCG, 它們是不同的;這就不會(huì)像 4-mer,CGCG發(fā)現(xiàn)它反向互補(bǔ)后仍然是CGCG,這個(gè)時(shí)候就就會(huì)在后續(xù)連接kmer的過(guò)程中發(fā)生正負(fù)鏈混淆,裝出一個(gè)嵌合體基因組!

最后,放一張發(fā)表在Genome Research有關(guān)組裝的圖,大家可以大致感受一下這一段重復(fù)序列的組裝過(guò)程。

利用de Bruijn graph組裝基因組時(shí)Kmer為什么必須是奇數(shù)


在我不斷回答公眾號(hào)后臺(tái)一個(gè)一個(gè)的問(wèn)題之后,我強(qiáng)烈意識(shí)到需要有一個(gè)地方,來(lái)把和朋友們共同討論的有價(jià)值內(nèi)容匯集起來(lái)。于是我在知識(shí)星球上開(kāi)通了一個(gè)圈子,名字是:解螺旋技術(shù)交流圈,這是與讀者們的私人朋友圈,它是付費(fèi)的,它也是知識(shí)星球上第一個(gè)真正與基因組學(xué)和生物信息學(xué)強(qiáng)相關(guān)的圈子。

上述就是小編為大家分享的利用de Bruijn graph組裝基因組時(shí)Kmer為什么必須是奇數(shù)了,如果剛好有類(lèi)似的疑惑,不妨參照上述分析進(jìn)行理解。如果想知道更多相關(guān)知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI