您好,登錄后才能下訂單哦!
chip_seq質(zhì)量評估中的PCA分析是怎樣的,相信很多沒有經(jīng)驗的人對此束手無策,為此本文總結(jié)了問題出現(xiàn)的原因和解決方法,通過這篇文章希望你能解決這個問題。
PCA我們稱之為主成分分析,是一種經(jīng)典的數(shù)據(jù)降維算法,通過將高維數(shù)據(jù)用幾個主成分表示,從而將其映射到低維空間。在實際處理中,由于我們只能對二維和三維數(shù)據(jù)有直觀的感受,所以通常繪制二維和三維的散點圖。
PCA本質(zhì)上屬于排序分析的一種,降維之后的數(shù)據(jù)在二維或者三維平面通過散點圖進行展示,兩個樣本點間的距離越接近,說明這兩個樣本越一致, PCA圖在生物信息學(xué)中應(yīng)用的非常廣泛,該算法適用范圍廣泛,在基因組,轉(zhuǎn)錄組等多種數(shù)據(jù)分析中都有應(yīng)用,本文主要介紹在chip_seq數(shù)據(jù)分析中的PCA分析。
在轉(zhuǎn)錄組中,我們可以通過基因表達譜來對樣本進行PCA分析,在chip_seq數(shù)據(jù)分析中,為了得到類似基因表達譜的數(shù)據(jù),研究人員提出了一種思想,將基因組劃分為等長的區(qū)間,稱之為bin
,然后計算每個區(qū)間內(nèi)的coverage。得到樣本中所有bin
的coverage之后,就可以利用該數(shù)據(jù)進行PCA分析。具體的操作步驟如下,通過deeptools來實現(xiàn)
輸入文件為比對基因組產(chǎn)生的bam文件,用法示意如下
multiBamSummary bins \
--bamfiles file1.bam file2.bam \
--binSize 10000 \
--numberOfProcessors 10 \
--outRawCounts results.txt \
-o results.npz \
通過plotPCA
命令實現(xiàn),用法示意如下
plotPCA \
-in results.npz \
-o PCA.png
輸出結(jié)果示意如下
軟件默認選擇第一和第二主成分來繪制二維的散點圖,在該圖中通過觀測樣本點之間的距離,可以對數(shù)據(jù)質(zhì)量做出一些基本判斷,理論上講,input和抗體處理的樣本之間應(yīng)該有較大距離,而生物學(xué)重復(fù)樣本之間應(yīng)該比較接近。
需要注意的是,前兩個主成分的貢獻率是一個比較重要的指標,假設(shè)兩個主成分的貢獻率之和為90%, 意味著二維散點圖只能表征原始樣本90%的信息,當貢獻率太低時,散點圖上表示的信息和原始樣本的信息相去甚遠,就不具有太大的參考意義了。
下半部分的Scree plot
, 類似碎石圖,只不過采用了雙坐標軸的形式,藍色柱狀圖表征了前5個主成分的特征值,紅色曲線代表累計的特征值,每個點代表累計特征值的比例。當紅色曲線趨于平緩時,說明即使再添加后面其他的主成分,所展示的信息也不會有顯著變化了,即前幾個主成分已經(jīng)可以有效代表總體的信息了,在上圖中,前4個主成分能夠有效代表總體的信息。
雖然通過碎石圖我們可以篩選出主成分,但是由于我們最多只能直觀觀察三維空間,所以PCA分析中最多只能繪制3維散點圖,如果前3個主成分不能有效代表總體的信息,我們只能考慮使用其他降維算法了,這個問題也是所有降維算法的一個通病。
看完上述內(nèi)容,你們掌握chip_seq質(zhì)量評估中的PCA分析是怎樣的的方法了嗎?如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注億速云行業(yè)資訊頻道,感謝各位的閱讀!
免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。