溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

如何采用DESeq2對(duì)表達(dá)量進(jìn)行PCA和聚類分析

發(fā)布時(shí)間:2021-11-23 15:39:36 來(lái)源:億速云 閱讀:588 作者:柒染 欄目:大數(shù)據(jù)

如何采用DESeq2對(duì)表達(dá)量進(jìn)行PCA和聚類分析,相信很多沒(méi)有經(jīng)驗(yàn)的人對(duì)此束手無(wú)策,為此本文總結(jié)了問(wèn)題出現(xiàn)的原因和解決方法,通過(guò)這篇文章希望你能解決這個(gè)問(wèn)題。

得到基因/轉(zhuǎn)錄本的表達(dá)量之后,通常會(huì)通過(guò)以下三種類型的圖表來(lái)檢驗(yàn)和分析生物學(xué)樣本和實(shí)驗(yàn)設(shè)計(jì)間關(guān)系。

1.  樣本的聚類樹(shù)

利用所有樣本的表達(dá)量數(shù)據(jù),對(duì)樣本進(jìn)行聚類。理論上如果樣本和實(shí)驗(yàn)操作都沒(méi)有問(wèn)題,那么屬于同一組的生物學(xué)重復(fù)樣本會(huì)聚到一起。示意圖如下

如何采用DESeq2對(duì)表達(dá)量進(jìn)行PCA和聚類分析

上圖中,樣本的名稱用組別代替,可以看到,同一條件的樣本聚在了一起。

2. PCA圖

通過(guò)主成分分析進(jìn)行降維,在二維或者三維平面上展示樣本點(diǎn)的分布,根據(jù)點(diǎn)的位置,也可以看出屬于同一組的樣本是否在一起,不同組之間的樣本有沒(méi)有明顯分開(kāi),示意如下

如何采用DESeq2對(duì)表達(dá)量進(jìn)行PCA和聚類分析
從圖中可以看到,不同條件的樣本區(qū)分的很明顯,而生物學(xué)重復(fù)之間距離較近,表明生物學(xué)重復(fù)的一致性和不同分組的差異性較好。

3.  熱圖

相比樣本的聚類樹(shù),熱圖包含了更多的信息,比如可以直觀的展示不同分組間表達(dá)量的差異,也是常見(jiàn)的可視化手段之一,示意如下

如何采用DESeq2對(duì)表達(dá)量進(jìn)行PCA和聚類分析

只要有樣本的表達(dá)量矩陣,DESeq2可以輕松的畫出以上3種圖表。但是我們應(yīng)該選擇原始的表達(dá)量矩陣,還是歸一化之后的表達(dá)量矩陣來(lái)畫呢?或者有沒(méi)有其他的選擇呢?

輸入的矩陣不同,得出的結(jié)論也會(huì)不同。由于基因的表達(dá)水平在不同樣本間本身就存在一定的差異,所以無(wú)論是采用原始的還是歸一化之后的表達(dá)量矩陣,效果都不理想。針對(duì)這一問(wèn)題,DESeq2提出了兩種count值的轉(zhuǎn)換算法,rlogVST轉(zhuǎn)換。

1. rlog 轉(zhuǎn)換

rlog 轉(zhuǎn)換的用法如下

rld <- rlog(dds)
2. VST 轉(zhuǎn)換

用法如下

vsd <- vst(dds)

兩種轉(zhuǎn)換本質(zhì)上是在降低生物學(xué)重復(fù)之間的差異,使得樣本聚類和PCA分析的效果更好。轉(zhuǎn)換之后的表達(dá)量數(shù)據(jù)可以采用assay函數(shù)進(jìn)行提取,代碼如下

> head(assay(rld)[, 1:2])
       sample1   sample2
gene1 2.049029 1.6828707
gene2 8.151262 6.8552583
gene3 0.818971 0.2964686
gene4 5.340361 4.4766682
gene5 6.316175 6.8345783
gene6 2.157821 1.9264385

對(duì)于raw count定量表格,建議采用rlog或者VST轉(zhuǎn)換之后的數(shù)據(jù)去進(jìn)行PCA和聚類分析,效果會(huì)更好。

利用DESeq2提供的示例數(shù)據(jù)pasilla,分別用原始的count, 歸一化之后的count, rlog, vst 轉(zhuǎn)換的count 進(jìn)行PCA分析,代碼如下

dds <- estimateSizeFactors(dds)
raw <- SummarizedExperiment(counts(dds, normalized=FALSE),
                                colData=colData(dds))
nor <- SummarizedExperiment(counts(dds, normalized=TRUE),
                                colData=colData(dds))
vsd <- vst(dds)
rld <- rlog(dds)
pdf("PCA.pdf")
plotPCA( DESeqTransform(raw), intgroup=c("condition", "type") )
plotPCA( DESeqTransform(nor), intgroup=c("condition", "type") )
plotPCA(vsd, intgroup=c("condition", "type"))
plotPCA(rld, intgroup=c("condition", "type"))
dev.off()

raw count 的結(jié)果如下

如何采用DESeq2對(duì)表達(dá)量進(jìn)行PCA和聚類分析
歸一化之后count結(jié)果如下

如何采用DESeq2對(duì)表達(dá)量進(jìn)行PCA和聚類分析

VST轉(zhuǎn)換之后的結(jié)果如下

如何采用DESeq2對(duì)表達(dá)量進(jìn)行PCA和聚類分析

rlog轉(zhuǎn)換之后的結(jié)果如下

如何采用DESeq2對(duì)表達(dá)量進(jìn)行PCA和聚類分析

可以很明顯看出,原始的count和歸一化之后的count, 其PCA圖是雜亂無(wú)序的,沒(méi)什么明顯規(guī)律,而VST和rlog轉(zhuǎn)換之后,生物學(xué)重復(fù)之間更佳的接近,不同分組也區(qū)分的較為明顯。

看完上述內(nèi)容,你們掌握如何采用DESeq2對(duì)表達(dá)量進(jìn)行PCA和聚類分析的方法了嗎?如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注億速云行業(yè)資訊頻道,感謝各位的閱讀!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI