溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

怎么使用ROSE鑒定超級增強子

發(fā)布時間:2022-01-04 17:51:59 來源:億速云 閱讀:471 作者:柒染 欄目:大數(shù)據(jù)

本篇文章給大家分享的是有關怎么使用ROSE鑒定超級增強子,小編覺得挺實用的,因此分享給大家學習,希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。

ROSE是最經(jīng)典的超級增強子預測軟件,由Richard A. Young大牛團隊開發(fā),源代碼的網(wǎng)址如下

http://younglab.wi.mit.edu/super_enhancer_code.html

首先通過Oct4, Sox2, Nanog這3種轉(zhuǎn)錄因子的chip數(shù)據(jù)去識別小鼠胚胎干細胞中的增強子區(qū)域,鑒定到了8794個增強子區(qū)域。對于這些增強子,根據(jù)區(qū)域內(nèi)對應的Med1這種轉(zhuǎn)錄激活通用輔助因子的chip_seq reads的密度進行排序,發(fā)現(xiàn)呈現(xiàn)兩極分化趨勢,示意如下

怎么使用ROSE鑒定超級增強子

其中絕大部分的增強子對應的Med1的水平都很低,少部分增強子對應的Med1的水平非常高。除了Med1之外,還比較了其他幾種轉(zhuǎn)錄因子或者組蛋白修飾的數(shù)據(jù)

怎么使用ROSE鑒定超級增強子

發(fā)現(xiàn)Med1的區(qū)分效果最佳,根據(jù)Med1水平的高低,可以將增強子分為以下兩類

  1. typical enhancers

  2. super enhancers


簡稱TE和SE, 進一步分析發(fā)現(xiàn)TE和SE在長度上具有非常明顯的區(qū)別,SE的長度是TE長度的10倍以上,一個普通的增強子只有幾百bp的長度,而超級增強子的長度在幾千bp左右。

怎么使用ROSE鑒定超級增強子
怎么使用ROSE鑒定超級增強子

除了Med1之外,還比較了Qct4等多種轉(zhuǎn)錄因子在TE和SE中的分布,結(jié)果如下圖所示

怎么使用ROSE鑒定超級增強子

發(fā)現(xiàn)在SE中Klf4和Esrrb的分布比TE中更加豐富。對SE區(qū)域富集的motif進行分析,結(jié)果如下所示

怎么使用ROSE鑒定超級增強子

發(fā)現(xiàn)富集到了Oct4, Sox2, Klf4等motif。從上述發(fā)現(xiàn)和定義超級增強子的過程可以看到,超級增強子的預測過程有以下兩個關鍵點

  1. 建立在增強子的基礎上,可以看做增強子富集的區(qū)域

  2. 相比增強子,超級增強子區(qū)域具有更高的轉(zhuǎn)錄因子的密度


ROSE這款程序也是根據(jù)這兩個關鍵點來識別超級增強子,基本過程示意如下

怎么使用ROSE鑒定超級增強子

首先識別增強子區(qū)域,然后對增強子進行合并,定義一個閾值,將距離小于該閾值的增強子進行合并,最后比較合并后的增強子區(qū)域內(nèi)的reads分布情況來識別超級增強子。

在實際操作過程中,在第一步和第三步可以使用不同的mark, 如下所示

怎么使用ROSE鑒定超級增強子

軟件基于python編程語言開發(fā),直接從官網(wǎng)下載源代碼,解壓縮就可以了。源代碼中內(nèi)置了幾個物種的注釋數(shù)據(jù)庫,存放在annotation文件夾下

annotation/
├── hg18_refseq.ucsc
├── hg19_refseq.ucsc
├── hg38_refseq.ucsc
├── mm10_refseq.ucsc
├── mm8_refseq.ucsc
└── mm9_refseq.ucsc

其實就是從UCSC下載的對應的refGene.txt文件,該軟件的基本用法如下

python ROSE_main.py \
-g HG18 \
-i HG18_MM1S_MED1.gff \
-r MM1S_MED1.hg18.bwt.sorted.bam \
-c MM1S_WCE.hg18.bwt.sorted.bam \
-o out_dir \
-s 12500 \
-t 2500

需要注意一定要到軟件的安裝目錄去運行,因為會在運行目錄查找annotaton這個文件夾下的物種注釋文件。

-g指定參考基因組版本,用于檢索對應的物種注釋文件;-i指定增強子區(qū)域?qū)幕蚪M位置,內(nèi)容如下

怎么使用ROSE鑒定超級增強子

\t分隔的6列,第一列,第三列和第四列指定增強子區(qū)域?qū)娜旧w位置,第五列指定正負鏈信息,.代表不確定,第二列和第六列是一個自定義的唯一的ID, 用來表示增強子的編號。

確定了增強子區(qū)間信息之后,接下來就是比較增強子區(qū)域內(nèi)某種mark因子的chip_seq reads的分布情況,-r參數(shù)指定chip_seq中IP樣本的bam文件,-c指定Input樣本的bam文件。

-s指定合并增強子的距離,默認為12.5kb, 小于該距離的兩個增強子會合并為一個區(qū)間,-t指定距離TSS的距離,如果一個peak與某個轉(zhuǎn)錄起始位點的距離小于指定的距離,則有可能是一個啟動子,這種潛在的啟動子會被過濾掉。

在輸出結(jié)果的目錄會生成很多文件,png文件內(nèi)容示意如下

怎么使用ROSE鑒定超級增強子

AllEnhancers.table.txtSuperEnhancers.table.txt分別表示所有增強子和超級增強子的信息,文件內(nèi)容類似,示意如下

怎么使用ROSE鑒定超級增強子

dbSUPER和SEdb這兩個超級增強子數(shù)據(jù)庫都是使用h4K27ac組蛋白修飾作為mark來識別超級增強子,可以借鑒這個思路來識別超級增強子。


以上就是怎么使用ROSE鑒定超級增強子,小編相信有部分知識點可能是我們?nèi)粘9ぷ鲿姷交蛴玫降?。希望你能通過這篇文章學到更多知識。更多詳情敬請關注億速云行業(yè)資訊頻道。

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權內(nèi)容。

AI