溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

怎么使用rmats進(jìn)行可變剪切的分析

發(fā)布時間:2021-11-10 16:51:39 來源:億速云 閱讀:290 作者:柒染 欄目:大數(shù)據(jù)

本篇文章給大家分享的是有關(guān)怎么使用rmats進(jìn)行可變剪切的分析,小編覺得挺實用的,因此分享給大家學(xué)習(xí),希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。


rmats是目前使用的最廣泛的可變剪切分析軟件,該軟件不僅可以識別可變剪切事件,還提供了定量和組間差異分析的功能,功能強大。該軟件前后經(jīng)歷了多個版本,目前最新版本為v4.0.2, 相比之前的版本,v4.0之后的版本在運行速度,內(nèi)存消耗,磁盤占用等方面進(jìn)行了優(yōu)化,最明顯的就是運行速度,比之前快了100多倍。

安裝也很簡單,直接下載解壓縮即可使用,這里不贅述。rmats可以識別以下五種類型的可變剪切事件

怎么使用rmats進(jìn)行可變剪切的分析

軟件的基本用法如下

python rmats.py  \
--b1 b1.txt --b2 b2.txt \
--gtf ref.transcript.gtf \
--od out_dir \
-t paired \
--readLength 101 \
--cstat 0.1 \
--libType fr-unstranded

b1.txt中保存的是每個樣本比對參考基因組的bam文件的路徑,示例如下

/bams/rep1.bam,/bams/rep2.bam

這種用法從bam文件開始,實用性更強,除此之外,也支持從fastq文件開始,用法如下

python rmats.py \
--s1 s1.txt --s2 s2.txt \
--gtf ref.transcript.gtf \
--bi /STARindex/hg19 \
--od out_dir \
-t paired \
--nthread 6 \
--readLength 151

S1.txt中保存的是每個樣本fastq文件的路徑,rmats會自動調(diào)用STAR進(jìn)行比對,bi參數(shù)指定參考基因組STAR的索引,更多參數(shù)和細(xì)節(jié)請參考官方文檔。

rmats中核心功能就是定量和差異分析,解釋如下

1. 定量

rmats采用exon inclusion level 來定義樣本中可變剪切事件的表達(dá)量,以外顯子跳躍為例,正常的isoform稱之為Exon Inclusion Isofrom, 發(fā)生了外顯子跳躍的轉(zhuǎn)錄本稱之為Exon Skipping Isofrom, 示意如下

怎么使用rmats進(jìn)行可變剪切的分析

比對到inclusion  isoform上的reads用I表示,比對到skipping isoform上的reads用S表示, 則該外顯子跳躍的可變剪切事件的表達(dá)量如下

怎么使用rmats進(jìn)行可變剪切的分析

可以看到,exon inclusion level實際上是inclusion isofrom所占的比例,計算時,用長度校正了原始的reads數(shù)。其他類型的可變剪切事件也可以劃分成上述兩種isoform, 示意圖如下

怎么使用rmats進(jìn)行可變剪切的分析

可以看到,rmats在計算isofrom的長度時,提供了兩種方式,二者的區(qū)別就在于是否考慮跳過的exon的長度,詳細(xì)的公式在上圖中共也有給出。

2. 差異分析

rmats 在差異分析時,比較的就是兩組樣本中inclusion level的差異,給定閾值c,  判斷兩個樣本中對應(yīng)inclusion level 的是否發(fā)生了變化,公式如下

怎么使用rmats進(jìn)行可變剪切的分析

c這個閾值通過--cstat參數(shù)自定義,取值范圍為0-1,代表的是兩個樣本中inclusion level的差值,0.1表示兩個樣本中該可變剪切事件的inclusion level相差10%。當(dāng)然,實際計算過程是非常繁瑣的,需要考慮數(shù)據(jù)的分布,對應(yīng)的統(tǒng)計模型等各種因素,最終會給出每個可變剪切事件的p值和多重假設(shè)檢驗校正后的FDR值。

在輸出目錄下,有很多的文件,我們重點關(guān)注其中兩種文件即可。

  1. AS_Event.MATS.JC.txt

  2. AS_Event.MATS.JCEC.txt

這里的AS_Event對應(yīng)五種不同類型的可變剪切事件,每種類型是一個單獨的文件,而JCJCEC對應(yīng)的是isoform effective length的兩種計算方式。由于兩種計算方式?jīng)]有絕對的孰優(yōu)孰劣的區(qū)分,所以同時給出兩種結(jié)果,在這些文件中,包含了定量和差異的結(jié)果

怎么使用rmats進(jìn)行可變剪切的分析

IJC表示inclusion isoform counts, SJC表示是skipping isoform counts, 生物學(xué)重復(fù)樣本用逗號分隔;IncFormLen代表effective inclusion isoform length, SkipFormLen代表effective inclusion isoform length;lencLevel代表定量的結(jié)果,InclevelDifference就是兩組樣本中表達(dá)量的差值,通過PvalueFDR可以對結(jié)果進(jìn)行過濾和篩選。

除了定量和差異的結(jié)果,還給出了每種可變剪切事件對應(yīng)的exon的區(qū)間信息,示意如下

怎么使用rmats進(jìn)行可變剪切的分析

以上示例是外顯子跳躍中的區(qū)間信息,其他類型的表頭會有一定差異,但是意思是一樣的。

rmats中,識別可變剪切是以exon為單位的,只需要比較鄰近的3到4個exon的表達(dá)情況,就可以確定一個可變剪切事件是否發(fā)生,這個思路從可變剪切最核心的地方,即exon的變化出發(fā)進(jìn)行分析,直接有效,但是由于其對問題的高度抽象和簡化,導(dǎo)致對應(yīng)的結(jié)果看起來不夠直觀。

以上就是怎么使用rmats進(jìn)行可變剪切的分析,小編相信有部分知識點可能是我們?nèi)粘9ぷ鲿姷交蛴玫降?。希望你能通過這篇文章學(xué)到更多知識。更多詳情敬請關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI