溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

featureCounts中怎么實現(xiàn)定量分析操作

發(fā)布時間:2021-08-12 16:55:39 來源:億速云 閱讀:329 作者:Leah 欄目:大數(shù)據(jù)

本篇文章給大家分享的是有關(guān)featureCounts中怎么實現(xiàn)定量分析操作,小編覺得挺實用的,因此分享給大家學(xué)習,希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。

featureCounts集成在subreads 軟件中, 類似 word 和 office 的關(guān)系, subreads 這個軟件也有對應(yīng)的 R包Rsubreads

featureCounts 需要兩個輸入文件:

  1. 比對產(chǎn)生的BAM/ SAM文件

  2. 區(qū)間注釋文件


對于區(qū)間文件而言,支持以下兩種格式

  1. GTF 格式

  2. SAF 格式


GTF格式在之前的文章中詳細介紹過,這里看下SAF格式,示例如下

GeneID    Chr    Start    End    Strand
497097    chr1    3204563    3207049    -
497097    chr1    3411783    3411982    -
497097    chr1    3660633    3661579    -

就是\t分隔的5列文件,記錄了基因的染色體上的區(qū)間和正負鏈信息。

在featureCounts 軟件中,有兩個核心概念:

  1. feature

  2. metafeature


feature指的是基因組區(qū)間的最小單位,比如exon; 而metafeature可以看做是許多的feature構(gòu)成的區(qū)間,比如屬于同一個gene的外顯子的組合。

在定量的時候,支持對單個feature 定量(對外顯子定量), 也支持對meta-feature 進行定量(對基因進行定量)。

當reads 比對到2個或者以上的features 時,默認情況下,featureCounts在統(tǒng)計時會忽略到這部分reads, 如果你想要統(tǒng)計上這部分reads, 可以添加-O 參數(shù),此時一條reads 比對到多個feature, 每個feature 定量時,都會加1,對于meta-features 來說,如果比對到多個features 屬于同一個 meta-features(比如一條reads比對到了exon, 但這些exon 屬于同一個gene), 則對于這個gene 而言,只會計數(shù)1次。

總之,不管對于feature 還是meta-feature, 只有比對多個不同的區(qū)間時,才會分別計數(shù)。

features 支持對單個樣本定量,還支持對多個樣本進行歸一化。單個樣本定量的用法如下

featureCounts 
-T 5  \ 
-t exon \ 
-g gene_id \
-a annotation.gtf \
-o counts.txt \
mapping.sam

多個樣本歸一化的用法如下

featureCounts \
-t exon \
-g gene_id \
-a annotation.gtf \
-o counts.txt \
 library1.bam library2.bam library3.bam

-a參數(shù)指定的區(qū)間注釋文件,默認是gtf格式;-T參數(shù)指定線程數(shù),默認是1;-t參數(shù)指定想要統(tǒng)計的feature的名稱,取值范圍是gtf 文件中的第3列的值,默認是exon;-g參數(shù)  指定想要統(tǒng)計的meta-feature的名稱,取值范圍參考gtf第9列注釋信息,gtf的第9列為key=value的格式,-g參數(shù)可能的取值就是所有的key, 默認值是gene_id。

輸出的表達量文件內(nèi)容示意如下

# Program:featureCounts v1.6.0; Command:"./featureCounts" "-T" "20" "-t" "exon" "-g" "gene_id" "-a" "hg19.gtf" "-o" "gene" "accepted_hits.bam"
Geneid Chr Start End Strand Length accepted_hits.bam
DDX11L1 chr1;chr1;chr1 11874;12613;13221 12227;12721;14409 +;+;+ 1652 0

#號開頭的注釋行,記錄了運行的命令;Geneid開頭的行是表頭,Geneid代表統(tǒng)計的meta-features的名稱,Chr,Start,End對應(yīng)染色體上的位置,Strand代表正負鏈,由于一個基因有多個外顯子構(gòu)成,所以這里的染色體位置信息有多個,和外顯子個數(shù)一一對應(yīng)。

Length 該區(qū)間的長度,最后一列的表頭是你的輸入文件的名稱,代表的是這個meta-feature的表達量。

以上就是featureCounts中怎么實現(xiàn)定量分析操作,小編相信有部分知識點可能是我們?nèi)粘9ぷ鲿姷交蛴玫降?。希望你能通過這篇文章學(xué)到更多知識。更多詳情敬請關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI