溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

MSigDB是什么數(shù)據(jù)庫

發(fā)布時間:2022-01-15 15:38:12 來源:億速云 閱讀:343 作者:小新 欄目:大數(shù)據(jù)

這篇文章主要為大家展示了“MSigDB是什么數(shù)據(jù)庫”,內(nèi)容簡而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領(lǐng)大家一起研究并學習一下“MSigDB是什么數(shù)據(jù)庫”這篇文章吧。

Gene Set Enrichment Analysis,中文名稱為基因集富集分析,是由Broad Institute研究所的科學家提出的一種富集方法,在提出該方法的同時還對應(yīng)提供了分析的軟件GSEA和一個基因集數(shù)據(jù)庫MSigdb。本章主要介紹這個數(shù)據(jù)庫,官網(wǎng)如下

http://software.broadinstitute.org/gsea/msigdb/index.jsp

對于human的基因,從位置,功能,代謝途徑,靶標結(jié)合等多種角度出發(fā),構(gòu)建出了許多的基因集合,一個基因集合中就是具有相近位置或類似功能的許多基因的,Broad Institute研究所將它們構(gòu)建的基因集合保存在MSigDB數(shù)據(jù)庫中。

該數(shù)據(jù)庫是不斷更新和完善的,目前最新版本為v6.2, 更新于2018年7月,共收錄了17810個基因集。不同版本如下收錄的基因集數(shù)目變化如下

MSigDB是什么數(shù)據(jù)庫

如此多的數(shù)據(jù),肯定需要分門別類的整理,在MSigDB中,將所有的基因集劃分為以下8大類別

1. H: hallmark gene sets

該類別包含了由多個已知的基因集構(gòu)成的超基因集,每個H類別的基因集都對應(yīng)多個基礎(chǔ)的其他類別的基因集。比如HALLMARK_ADIPOGENESIS對應(yīng)36個基因集。

2. C1: positional gene sets

該類別包含人類每條染色體上的不同cytoband區(qū)域?qū)?yīng)的基因集合。根據(jù)不同染色體編號進行二級分類。

3. C2:curated gene sets

該類別包含了已知數(shù)據(jù)庫,文獻和專家支持的基因集信息,包含下面5個二級分類

MSigDB是什么數(shù)據(jù)庫
KEGG為例,包含了186個基因集,每個基因集本質(zhì)上都對應(yīng)pathway 數(shù)據(jù)庫里的一條通路。比如基因集KEGG_ABC_TRANSPORTERS對應(yīng)pathway數(shù)據(jù)庫中的hsa02010。

4. C3 : motif gene sets

該類別包含了miRNA靶基因和轉(zhuǎn)錄因子結(jié)合區(qū)域等基因集合,示意如下

MSigDB是什么數(shù)據(jù)庫
無論是轉(zhuǎn)錄因子還是miRNA, 都是通過特定的motif序列來識別可以結(jié)合的區(qū)域,這些基因集合,本質(zhì)上為具有相同motif序列的基因集,比如AAACCAC_MIR140這個基因集, 具有相同的AAACCACmotif, 而hsa-miR-140可以識別該motif然后進行結(jié)合,所以AAACCAC_MIR140是hsa-miR-140靶標基因的集合。

5. C4 : computational gene sets

該類別包含計算機軟件預測出來的基因集合,主要是和癌癥相關(guān)的基因,示意如下

MSigDB是什么數(shù)據(jù)庫

6. C5 : GO gene sets

該類別包含了Gene Ontology對應(yīng)的基因集合,分為以下3大類別

MSigDB是什么數(shù)據(jù)庫
每個基因集對應(yīng)一個GO term, 比如基因集GO_MOLTING_CYCLE對應(yīng)GO:0042303。

7. C6 : oncogenic signatures

該類別包含已知條件處理后基因表達量發(fā)生變化的基因,比如AKT_UP.V1_DN對應(yīng)RAD001試劑處理后表達量下調(diào)的基因。

8. C7 : immunologic signatures

該類別包含了免疫系統(tǒng)功能相關(guān)的基因集合。
在官網(wǎng)上,可以方便的檢索這些基因集,鏈接如下

http://software.broadinstitute.org/gsea/msigdb/genesets.jsp
選擇感興趣的類別,然后在頁面最下方就可以看到該類別下的所有基因集,示意如下

MSigDB是什么數(shù)據(jù)庫
我選擇的是C1大類,2號染色體上的基因集,chr2p這種信息就是每個基因集的名字,點擊可以查看具體信息,示例如下

MSigDB是什么數(shù)據(jù)庫

結(jié)果頁面可以看到該基因集的名稱,描述信息等,也可以直接下載,有多種格式供選擇。官網(wǎng)也提供了下載功能,一次下載所有的基因集,需要注冊登錄才能使用該功能。

對于GSEA而言,不僅是富集分析算法的一次提升,更是研究角度的高度升華。傳統(tǒng)的富集分析只會對GO, pathway等功能數(shù)據(jù)庫進行分析,而MSigDB提供了多方位的研究思路,不僅從功能出發(fā),也可以從位置,表達量變化趨勢等角度進行探究,極大的豐富和擴展了富集分析的研究對象。


以上是“MSigDB是什么數(shù)據(jù)庫”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對大家有所幫助,如果還想學習更多知識,歡迎關(guān)注億速云行業(yè)資訊頻道!

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI