您好,登錄后才能下訂單哦!
TCGA數(shù)據(jù)庫的normal樣本不夠該怎么辦,相信很多沒有經(jīng)驗的人對此束手無策,為此本文總結(jié)了問題出現(xiàn)的原因和解決方法,通過這篇文章希望你能解決這個問題。
自己想挖掘的癌癥,雖然是在TCGA數(shù)據(jù)庫有數(shù)據(jù),但是normal(癌旁樣品或者血液)太少了,做差異分析什么的, 會面臨樣本數(shù)量不平衡問題,是否可以納入GTEx數(shù)據(jù)庫的正常組織轉(zhuǎn)錄組測序數(shù)據(jù)。
其實是沒辦法簡單的回答是否可以整合TCGA和GTEx數(shù)據(jù)庫,或者說該如何結(jié)合,這背后的統(tǒng)計學(xué)略微有點復(fù)雜,不僅僅是批次效應(yīng)。發(fā)表在Sci Data. 2018; 的文章:Unifying cancer and normal RNA sequencing data from different sources 就比較詳細(xì)的說明了TCGA和GTEx數(shù)據(jù)庫的轉(zhuǎn)錄組數(shù)據(jù)的天然差異:
全部代碼共享在:GitHub (https://github.com/mskcc/RNAseqDB).
最近一篇發(fā)表在SR,17 February 2020 的文章:Variability in estimated gene expression among commonly used RNA-seq pipelines 比較了常見轉(zhuǎn)錄組測序數(shù)據(jù)分析流程對定量拿到的表達矩陣的影響:
TCGA和GTEX是兩個超級大的擁有RNA-seq數(shù)據(jù)的計劃,其中TCGA涵蓋33種癌癥,超1萬個樣品,而GTEX也有500多個病人的50多種組織的近1萬個樣品數(shù)據(jù)。它們各自的發(fā)起單位對RNA-seq數(shù)據(jù)處理不一樣,而且后續(xù)也有一些新的流程處理試圖統(tǒng)一兩個數(shù)據(jù)庫的RNA-seq數(shù)據(jù)分析結(jié)果,比較出名的5個流程分別是:
作者把這5個流程應(yīng)用到TCGA和GTEX,得到10個不同組合的數(shù)據(jù)
做了非常完善的比較,并且公布全部代碼在:https://github.com/sonali-bioc/UncertaintyRNA
非常多!
很多簡陋的數(shù)據(jù)挖掘,比如發(fā)表在PeerJ的 BIOINFORMATICS AND GENOMICS雜志的文章:Identification of four hub genes associated with adrenocortical carcinoma progression by WGCNA 也會涉及到TCGA數(shù)據(jù)庫和GTEx的整合。
首先下載TCGA和GTEx數(shù)據(jù)庫的TPM表達矩陣:
Gene transcripts per million (TPM) data were downloaded from the UCSC Xena database, which included ACC (The Cancer Genome Atlas, n = 77) and normal samples (Genotype Tissue Expression, n = 128).
然后差異分析流程是:
Of the 60,498 genes in each sample, we removed genes with a mean TPM ≤ 2.5 (>1 is a common cutoff for determining if an isoform is expressed or not in the cancer and normal samples and thus retained 13,987 genes.
For those genes in the samples that showed significant changes, we used analysis of variance (ANOVA) in R to determine the variance in genes between the two groups. ANOVA is a collection of statistical models useful for DEG analysis.
We obtained 2,953 significant DEGs (Table S2) in ACC with a p < 0.001 and |log2 (fold-change)| > 1 cutoff.
差異分析結(jié)果是:1,181 up-regulated and 1,772 down-regulated genes.
可以看到,作者默認(rèn)TPM這個轉(zhuǎn)錄組測序表達數(shù)據(jù)歸一化形式本身是具有跨平臺跨數(shù)據(jù)庫的特性,所以無需考慮批次效應(yīng),直接使用最簡單粗暴的ANOVA檢驗即可!
我們都知道,TCGA數(shù)據(jù)庫是目前最綜合最全面的癌癥病人相關(guān)組學(xué)數(shù)據(jù)庫,包括:
知名的腫瘤研究機構(gòu)都有著自己的TCGA數(shù)據(jù)庫探索工具,比如:
對轉(zhuǎn)錄表達這個層面的信息來說,最優(yōu)選擇當(dāng)然是整合TCGA和GTEx數(shù)據(jù)庫,但是對于甲基化數(shù)據(jù),我們有沒有類似于GTEx數(shù)據(jù)庫的超級大隊列呢?
目前我還沒有接觸到,我前面分享過:這樣的診斷模型才優(yōu)秀,作者就是下載TCGA的結(jié)直腸癌甲基化位點信號矩陣文件:
以及正常人的血液的甲基化信號值作為對照:
上面的兩個隊列是為了確定直腸癌特異性甲基化位點,做的是差異分析,確定了 top 1000 methylation markers
可以合理的推測應(yīng)該是沒有人類各個正常組織的甲基化數(shù)據(jù)供使用,所以他們才會退而求其次使用正常人的血液的甲基化信號值作為對照吧!
看完上述內(nèi)容,你們掌握TCGA數(shù)據(jù)庫的normal樣本不夠該怎么辦的方法了嗎?如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注億速云行業(yè)資訊頻道,感謝各位的閱讀!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。