溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

宏基因組binning的原理是什么

發(fā)布時間:2021-12-03 15:45:10 來源:億速云 閱讀:817 作者:柒染 欄目:大數(shù)據(jù)

這期內(nèi)容當(dāng)中小編將會給大家?guī)碛嘘P(guān)宏基因組binning的原理是什么,文章內(nèi)容豐富且以專業(yè)的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。

宏基因組  binning  也即將序列進行聚類、分裝,是根據(jù)基因組特征以及組裝信息等將屬于不同基因組的序列分離開來的過程。通過  binning  得到的  bins  (更確切的說是  strain-level clusters  或  strain-leveltaxonomic units  )很可能是實驗室無法純培養(yǎng)的未知的微生物的基因組序列,對其進行組學(xué)分析具有重要意義  [1  ]  。

宏基因組binning的原理是什么

在宏基因組中分離單基因組,可利用序列特征或序列組裝信息,常見的可用信息主要有以下幾種:

a.根據(jù)核酸使用頻率(通常是四核苷酸頻率)、GC含量和必需的單拷貝基因等基因組特征;

b.根據(jù)contig序列的覆蓋度coverage信息;

c.根據(jù)測序數(shù)據(jù)的kmer豐度信息;

d.根據(jù)序列在不同樣品的共出現(xiàn)規(guī)律(co-abundance patternsacross multiple samples);

e.將序列map到數(shù)據(jù)庫的參考序列所獲得的注釋信息,也即物種binning。

根據(jù)所使用的序列數(shù)據(jù)不同,binning策略可分為三種:基于組裝前的clean reads,基于組裝后的contigs,基于注釋的基因genes。

⑴基于reads binning

環(huán)境樣本中微生物的豐度不同,其基因組kmer的期望深度也不同,根據(jù)kmer豐度可以直接對reads進行聚類,將屬于不同基因組的reads分離開來。其優(yōu)勢是可以聚類出宏基因組中豐度非常低的物種,而且可以分離系統(tǒng)發(fā)育關(guān)系很近的物種??紤]到在宏基因組組裝中reads利用率很低,單樣品5Gb測序量情況下,環(huán)境樣品組裝reads利用率一般只有10%左右,腸道樣品或極端環(huán)境樣品組裝reads利用率一般能達到30%,這樣很多物種,尤其是低豐度的物種的reads沒有被沒有被組裝出來,沒有體現(xiàn)在contig中而被浪費,因此基于reads binning才有可能得到低豐度的物種基因組的的測序數(shù)據(jù),在實際研究中基于reads binning的LSA(Latent Strain Analysis)方法可以聚類出豐度低到0.00001%的物種,并且對同一物種中的不同菌株的敏感性很強[2]。

⑵基于genes binning

在宏基因組做完序列組裝和基因預(yù)測之后,把所有樣品中預(yù)測到的基因混合在一起,去冗余得到unique genes集合,根據(jù)gene在各個樣品中的豐度變化模式,計算gene之間的相關(guān)性,利用這種相關(guān)性進行聚類。利用這種策略進行binning得到的bins可稱為CAG(co-abundance genegroups),包含有700個以上的gene的CAG稱為MGS(metagenomic species),CAG可用進行關(guān)聯(lián)分析,MGS可用進行后續(xù)的單菌組裝[3]。當(dāng)然根據(jù)具體的聚類算法和相關(guān)性系數(shù)的不同,對genes binning得到的bins的叫法也不同,除以上外還有MLG(metagenomic linkage groups)、MGC(metagenomic clusters)和MetaOTUs(metagenomic operational taxonomicunits)等,同時,MLG, MGC, MGS和MetaOTUs物種注釋的標(biāo)準(zhǔn)也是不一樣的。

目前已發(fā)表的宏基因組關(guān)聯(lián)分析(MWAS)和多組學(xué)聯(lián)合分析文章中,宏基因組binning很多都用genes binning方法,尤其是疾病的MWAS研究中基本都用genes binning[4]。這種方法的優(yōu)勢是基于genes豐度變化模式進行binning可操作性比較強,過程比較簡單,可復(fù)制性強,對計算機資源消耗比較低。

⑶基于contigs binning

在宏基因組做完序列組裝之后,將所有reads序列map到contigs上獲得contig覆蓋率,再綜合GC含量、核算組成等信息對contig進行聚類,將屬于不同基因組的contig序列分開。contig binning目前應(yīng)用十分廣泛,最常用的就是用于組裝單物種基因組,目前已經(jīng)有多種基于contig binning的軟件[1],對于豐度較高的物種contigs binning效果較好,但是目前也有些缺陷或者說還有很多可提升的空間,例如對核酸組成信息的利用,開發(fā)得就不夠充分,四堿基使用頻率因簡單而被廣泛使用和接受,但現(xiàn)在已有研究表明k-mer豐度信息也是很好的種系特征,同時越長的k-mer含有越多的信息,還有基因和參考基因組間的同源關(guān)系也是有價值的種系信號,但這些都還沒有被自動化的binning軟件整合。

binning  結(jié)果對于參數(shù)設(shè)置是很敏感的,但是很多  binning  軟件只有有限的可調(diào)整的參數(shù),這使得想要獲得高質(zhì)量的  bins 經(jīng)常需要手動調(diào)整。

上述就是小編為大家分享的宏基因組binning的原理是什么了,如果剛好有類似的疑惑,不妨參照上述分析進行理解。如果想知道更多相關(guān)知識,歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI