您好,登錄后才能下訂單哦!
本文小編為大家詳細(xì)介紹“如何用clusterProfiler中的enricher進(jìn)行富集分析”,內(nèi)容詳細(xì),步驟清晰,細(xì)節(jié)處理妥當(dāng),希望這篇“如何用clusterProfiler中的enricher進(jìn)行富集分析”文章能幫助大家解決疑惑,下面跟著小編的思路慢慢深入,一起來(lái)學(xué)習(xí)新知識(shí)吧。
做基因的GO或者kegg富集分析,需要基因組當(dāng)中所有基因的GO與KEGG數(shù)據(jù)庫(kù)的注釋信息,對(duì)于做模式物種的人來(lái)說(shuō)很簡(jiǎn)單,有現(xiàn)成的注釋結(jié)果,直接使用就可以,比如人里面可以直接用clusterProfiler進(jìn)行基因集的富集分析;但是,對(duì)于非模式動(dòng)物與植物的研究對(duì)象往往沒(méi)有現(xiàn)成的注釋結(jié)果,就沒(méi)法直接進(jìn)行富集分析;
因此學(xué)會(huì)基因功能批量注釋非常重要;這里介紹一種方法可以針對(duì)所有的非模式物種進(jìn)行GO和KEGG富集分析;
使用eggNOG對(duì)基因組進(jìn)行注釋?zhuān)脒M(jìn)行富集分析,首先要有背景數(shù)據(jù)集的GO注釋和KEGG注釋?zhuān)@里選用eggNOG進(jìn)行注釋。
是在線服務(wù)器,點(diǎn)點(diǎn)鼠標(biāo)上傳就能注釋?zhuān)瑹o(wú)需復(fù)雜配置。eggNOG雖然是web server,但一次最多可以注釋10萬(wàn)條序列,應(yīng)該是完全可以滿足需求的。將自己的基因?qū)?yīng)的cds序列或者蛋白序列提交到該網(wǎng)站即可注釋。
研究物種基因組中所有基因?qū)?yīng)的GO文件:
go2gene.tsv : 通過(guò)eggNOG注釋結(jié)果文件整理得到
GO | GENE | CLASS |
GO:0000165 | Pg_S3686.2 | biological_process |
GO:0003674 | Pg_S3686.2 | molecular_function |
... | ... | ... |
go2name.tsv:GO term對(duì)應(yīng)的功能描述文件
首先需要去GO下載GO的obo文件,這里我使用go-basic.obo然后我寫(xiě)了個(gè)腳本可以把obo文件解析為如下格式:
http://purl.obolibrary.org/obo/go/go-basic.obo |
GO | DESC | CLASS |
GO:0000001 | mitochondrion inheritance | biological_process |
GO:0000007 | low-affinity zinc ion transmembrane transporter activity | molecular_function |
4. KEGG富集分析需要的文件
ko2gene.tsv : 通過(guò)eggNOG注釋結(jié)果文件整理得到
KO | GENE |
ko00920 | Pg_S3686.2 |
ko01100 | Pg_S33386.2 |
ko2name.tsv ko通路對(duì)應(yīng)的名稱(chēng)
KO | DESC |
ko00440 | Phosphonate and phosphinate metabolism |
ko00450 | Selenocompound metabolism |
ko00460 | Cyanoamino acid metabolism |
ko00471 | D-Glutamine and D-glutamate metabolism |
ko00472 | D-Arginine and D-ornithine metabolism |
ko00473 | D-Alanine metabolism |
ko00480 | Glutathione metabolism |
ko00510 | N-Glycan biosynthesis |
ko00513 | Various types of N-glycan biosynthesis |
ko00512 | Mucin type O-glycan biosynthesis |
利用clusterProfiler中的enricher這個(gè)通用函數(shù)進(jìn)行富集分析:
library(clusterProfiler) ko2name <- read.delim('ko2name.tsv', stringsAsFactors=FALSE) ko2gene <- read.delim('ko2gene.tsv', stringsAsFactors=FALSE) go2name <- read.delim('gog2name.tsv', stringsAsFactors=FALSE) go2gene <-read.delim('go2gene.tsv', stringsAsFactors=FALSE) # 前面獲取gene list的過(guò)程略 gene_list<- read.delim('gene.tsv', stringsAsFactors=FALSE) # GO富集 ## 拆分成BP,MF,CC三個(gè)數(shù)據(jù)框 go2gene = split(go2gene , with(go2gene , CLASS)) ## 以MF為例 enricher(gene_list,TERM2GENE=go2gene [['molecular_function']][c(1,2)],TERM2NAME=go2name ) # KEGG富集 enricher(gene_list,TERM2GENE=ko2name ,TERM2NAME=ko2gene )
讀到這里,這篇“如何用clusterProfiler中的enricher進(jìn)行富集分析”文章已經(jīng)介紹完畢,想要掌握這篇文章的知識(shí)點(diǎn)還需要大家自己動(dòng)手實(shí)踐使用過(guò)才能領(lǐng)會(huì),如果想了解更多相關(guān)內(nèi)容的文章,歡迎關(guān)注億速云行業(yè)資訊頻道。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。