您好,登錄后才能下訂單哦!
這篇文章將為大家詳細(xì)講解有關(guān)如何分析KEGG Genes 數(shù)據(jù)庫(kù),文章內(nèi)容質(zhì)量較高,因此小編分享給大家做個(gè)參考,希望大家閱讀完這篇文章后對(duì)相關(guān)知識(shí)有一定的了解。
kegg genes 數(shù)據(jù)庫(kù)收錄了物種的基因信息。 kegg 使用自己定義的ID 唯一區(qū)別每個(gè)基因,叫做kegg gene ID。
對(duì)于每個(gè)基因,除了給出對(duì)應(yīng)的物種,染色體位置,ncbi-gene ID,DNA 序列, 蛋白序列等基本信息以外,還會(huì)給出這個(gè)基因?qū)?yīng)的KO, module, pathway 等注釋信息。
其中KO 注釋是核心,kegg 提供了兩種工具,用于基因的KO 注釋
對(duì)于單個(gè)物種的基因組,使用BlastKOALA 工具;
對(duì)于環(huán)境微生物,使用GhostKOALA 工具進(jìn)行注釋;
截止到2018年3月7號(hào),所有基因的注釋情況如下:
http://www.kegg.jp/kegg/docs/genes_statistics.html
基因從功能上分成了兩大類,編碼蛋白基因和非編碼蛋白基因。從注釋信息的角度,提供了KO , pathway, Enzyme 共3種kegg 的注釋。
我們來想詳細(xì)看下human 基因的注釋情況
目前共收錄了20380個(gè)蛋白編碼基因,其中13226 個(gè)基因有KO 注釋;19172 個(gè)非編碼基因,其中 315個(gè)有KO 注釋;有pathway 注釋的只有 7376 個(gè)基因,而有Enzyme 酶類注釋的只有3261 個(gè)基因。其中pathway 相關(guān)基因只有7376個(gè),這個(gè)數(shù)字值得我們重點(diǎn)關(guān)注。
對(duì)于轉(zhuǎn)錄組分析而言,KEGG的富集分析是常用的功能分析手段,而20380個(gè)蛋白編碼基因中,只有30%左右的基因有pathway 信息,剩下的沒有pathway 相關(guān)信息的基因,在富集分析時(shí) ,會(huì)被忽略掉了。所以pathway 富集分析還是有一定的局限性的。
這里我列出了人,小鼠,大鼠基因的pathway 注釋情況
org | protein | pathway |
---|---|---|
hsa | 20,380 | 7376 |
mmu | 22,103 | 8197 |
rno | 23,503 | 8436 |
總體來看,有pathway注釋信息的基因比例都很低。pathway 是基于我們已有的認(rèn)知來構(gòu)建的 ,隨著研究的不斷深入和進(jìn)行,pathway 數(shù)據(jù)庫(kù)也會(huì)越來越大, 也會(huì)有更多的基因有pathway 相關(guān)的信息。現(xiàn)階段,由于我們對(duì)基因功能認(rèn)知的局限,只能對(duì)那些有pathway 信息的基因去研究。所以在富集分析時(shí),我們需要綜合多個(gè)數(shù)據(jù)庫(kù)的結(jié)果, 比如 GO, Reatcome 等數(shù)據(jù)庫(kù)。
kegg genes 數(shù)據(jù)庫(kù)收錄了基因的信息,包括了編碼基因和非編碼基因。
對(duì)于單基因組,采用BlastKOALA 進(jìn)行KO 注釋;對(duì)于宏基因組,采用GhostKOALA 進(jìn)行注釋。
由于我們現(xiàn)階段對(duì)基因功能認(rèn)知的局限性,有pathway注釋信息的基因比例較低,在進(jìn)行功能富集分析時(shí),建議綜合多個(gè)數(shù)據(jù)庫(kù)的結(jié)果。
關(guān)于如何分析KEGG Genes 數(shù)據(jù)庫(kù)就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺得文章不錯(cuò),可以把它分享出去讓更多的人看到。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。