您好,登錄后才能下訂單哦!
這篇文章主要講解了“CPM定量方式是怎樣的”,文中的講解內(nèi)容簡(jiǎn)單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來(lái)研究和學(xué)習(xí)“CPM定量方式是怎樣的”吧!
在edgeR中,提供了一種名為CPM
的定量方式,全稱為count-per-millon。
假定原始的表達(dá)量矩陣為count
, 計(jì)算CPM
的代碼如下
cpm <- apply(count ,2, function(x) { x/sum(x)*1000000 })
原始的表達(dá)量除以該樣本表達(dá)量的總和,在乘以一百萬(wàn)就得到了CPM
值 。從公式可以看出, CPM
其實(shí)就是相對(duì)豐度,只不過(guò)考慮到測(cè)序的reads總量很多,所以總的reads數(shù)目以百萬(wàn)為單位。
在前面的文章中我們介紹了edgeR提供的TMM歸一化算法,CPM
這種求相對(duì)豐度的思想,雖然也是一種比較簡(jiǎn)單的歸一化方式,但它并不用于差異分析之前的歸一化。
在edgeR中,CPM
主要有以下兩種用途
DESeq2和edgeR都是針對(duì)raw count表達(dá)量進(jìn)行分析,在DESeq2中,在過(guò)濾低表達(dá)量的基因時(shí),直接是根據(jù)reads數(shù)的總和進(jìn)行判斷,代碼如下
countData <- count[apply(count, 1, sum) > 10 , ]
由于不同樣本測(cè)序的reads總數(shù)不同,所以直接將所有樣本的reads相加,然后進(jìn)行過(guò)濾,這種方式略顯粗糙。edgeR中,利用CPM
的定量結(jié)果,對(duì)低表達(dá)量的基因進(jìn)行過(guò)濾,代碼如下
countData <- count[apply(cpm(count), 1, sum) > 2 , ]
利用相對(duì)豐度的加和進(jìn)行過(guò)濾,消除了樣本間reads總數(shù)不同的影響。需要注意的是,我們只是用CPM
來(lái)過(guò)濾基因,而后續(xù)分析還是基于raw count的結(jié)果,因?yàn)橹挥衦aw count是基于負(fù)二項(xiàng)分布的。
MA圖是差異分析常用的可視化手段之一,橫坐標(biāo)為基因在兩組樣本中的均值 , 縱坐標(biāo)為Fold change, 就是兩組表達(dá)量的倍數(shù)。edgeR中的plotMD
函數(shù)可以繪制如下所示的MA圖
從x軸的標(biāo)簽可以看出來(lái),采用的是CPM
值。由于不同基因CPM
值差異很大,所以采用log轉(zhuǎn)換,縮小了不同基因之間的差異。
感謝各位的閱讀,以上就是“CPM定量方式是怎樣的”的內(nèi)容了,經(jīng)過(guò)本文的學(xué)習(xí)后,相信大家對(duì)CPM定量方式是怎樣的這一問(wèn)題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是億速云,小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。