溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

如何使用GDC在線查看TCGA數(shù)據(jù)

發(fā)布時(shí)間:2021-07-24 10:21:18 來(lái)源:億速云 閱讀:318 作者:chen 欄目:大數(shù)據(jù)

這篇文章主要介紹“如何使用GDC在線查看TCGA數(shù)據(jù)”,在日常操作中,相信很多人在如何使用GDC在線查看TCGA數(shù)據(jù)問(wèn)題上存在疑惑,小編查閱了各式資料,整理出簡(jiǎn)單好用的操作方法,希望對(duì)大家解答”如何使用GDC在線查看TCGA數(shù)據(jù)”的疑惑有所幫助!接下來(lái),請(qǐng)跟著小編一起來(lái)學(xué)習(xí)吧!

GDC是Genomic Data Commons的縮寫(xiě),是由美國(guó)國(guó)家癌癥研究所NCI建立的一套癌癥數(shù)據(jù)共享系統(tǒng),整合包括TCGA在內(nèi)的多個(gè)癌癥數(shù)據(jù)庫(kù)中的信息,提供了癌癥數(shù)據(jù)的統(tǒng)一存儲(chǔ),管理,展示,將數(shù)據(jù)與世界范圍內(nèi)的癌癥基因組學(xué)研究者共享,網(wǎng)址如下

https://portal.gdc.cancer.gov/

數(shù)據(jù)來(lái)源于以下多個(gè)大型癌癥研究組織和項(xiàng)目

  1. Foundation Medicine(FM)

  2. Clinical Proteomic Tumor Analysis Consortium(CPTAC)

  3. THe Cancer Genome Atlas(TCGA)

  4. Therapeutically Applicable Research to Generate Effective Treatments (TARGET)

  5. Human Cancer Model Initiative (HCMI)


以上只是部分來(lái)源信息,而且還在陸續(xù)更新,以后也會(huì)有新的來(lái)源數(shù)據(jù)整合到GDC中。當(dāng)然,到目前為止,該數(shù)據(jù)庫(kù)中最大的數(shù)據(jù)依然是來(lái)自TCGA的數(shù)據(jù)。

為了方便管理如果大量的數(shù)據(jù),建立了一個(gè)統(tǒng)一的數(shù)據(jù)模型,如下所示

如何使用GDC在線查看TCGA數(shù)據(jù)

最高層級(jí)為program,對(duì)應(yīng)不同的數(shù)據(jù)來(lái)源,如TCGA, TARGET等;第二層為project, 代表一系列患者對(duì)應(yīng)的;第三層為case,代表的是同一個(gè)患者的所有相關(guān)數(shù)據(jù),包括SNV, CNV,基因表達(dá)譜等多種數(shù)據(jù),需要注意的是casesample是一對(duì)多的關(guān)系,一個(gè)患者可以取多份樣本;最后一層是每個(gè)case相關(guān)的數(shù)據(jù),即Files, 數(shù)據(jù)類(lèi)型是多種多樣的,包括序列,基因表達(dá)譜,SNV, CNV, 甲基化,臨床信息等多種數(shù)據(jù)。

以上只是個(gè)人總結(jié)的簡(jiǎn)化版的模型,便于理解數(shù)據(jù)庫(kù)中的信息,實(shí)際包含的數(shù)據(jù)類(lèi)型更多,模型也更加復(fù)雜。數(shù)據(jù)庫(kù)的首頁(yè)提供了以下多個(gè)導(dǎo)航欄

1. project

可以查看所有項(xiàng)目的數(shù)據(jù),也可以通過(guò)左側(cè)的篩選框進(jìn)行篩選,project相關(guān)屬性如下所示

如何使用GDC在線查看TCGA數(shù)據(jù)

primary site表示樣本對(duì)應(yīng)的組織,program表示數(shù)據(jù)來(lái)源,disease type表示腫瘤類(lèi)型,data category表示數(shù)據(jù)類(lèi)型,比如序列,SNV, CNV等等,experimental Strategy表示實(shí)驗(yàn)類(lèi)型,比如轉(zhuǎn)錄組,WGS, 甲基化芯片等。

表格形式的結(jié)果示意如下

如何使用GDC在線查看TCGA數(shù)據(jù)

第一列的project id由program加上腫瘤對(duì)應(yīng)編碼構(gòu)成,腫瘤名稱(chēng)和編碼的對(duì)應(yīng)關(guān)系部分展示如下

如何使用GDC在線查看TCGA數(shù)據(jù)

點(diǎn)擊project id可以查看summary信息,以TCGA-BRCA為例,示意如下

如何使用GDC在線查看TCGA數(shù)據(jù)

2.  Exploration

這部分支持從以下3個(gè)方面來(lái)查看和篩選數(shù)據(jù)

  1. Cases

  2. Genes

  3. Mutations


Cases相關(guān)的屬性如下

如何使用GDC在線查看TCGA數(shù)據(jù)

Genes相關(guān)的屬性如下

如何使用GDC在線查看TCGA數(shù)據(jù)

Mutations相關(guān)的屬性如下所示

如何使用GDC在線查看TCGA數(shù)據(jù)

Cases為例,結(jié)果示意如下

如何使用GDC在線查看TCGA數(shù)據(jù)

點(diǎn)擊第一列的case id,可以查看summary信息。除此之外,還提供了OncoGrid功能,對(duì)top50個(gè)突變基因的SNV, CNV在top200個(gè)cases中的分布進(jìn)行可視化,示意如下

如何使用GDC在線查看TCGA數(shù)據(jù)

3. Analysis

這部分對(duì)于篩選出的數(shù)據(jù)進(jìn)行以下兩種分析

  1. venn analysis

  2. survival analysis


結(jié)果示意如下

如何使用GDC在線查看TCGA數(shù)據(jù)

如何使用GDC在線查看TCGA數(shù)據(jù)

4. Repository

這部分包含了所有可用下載的數(shù)據(jù),可以從FilesCases兩個(gè)方面來(lái)查看和篩選數(shù)據(jù),Files相關(guān)的屬性如下

如何使用GDC在線查看TCGA數(shù)據(jù)

Files為例,結(jié)果示意如下

如何使用GDC在線查看TCGA數(shù)據(jù)

通過(guò)點(diǎn)擊購(gòu)物車(chē)圖標(biāo),可以將篩選好的數(shù)據(jù)集加入到到購(gòu)物車(chē),然后進(jìn)行下載。對(duì)于感興趣的單個(gè)數(shù)據(jù)集,直接點(diǎn)擊網(wǎng)頁(yè)上的下載按鈕就可以下載了,但是對(duì)于數(shù)據(jù)量較大的數(shù)據(jù)集,就需要通過(guò)官方提供的客戶端軟件來(lái)下載。

到此,關(guān)于“如何使用GDC在線查看TCGA數(shù)據(jù)”的學(xué)習(xí)就結(jié)束了,希望能夠解決大家的疑惑。理論與實(shí)踐的搭配能更好的幫助大家學(xué)習(xí),快去試試吧!若想繼續(xù)學(xué)習(xí)更多相關(guān)知識(shí),請(qǐng)繼續(xù)關(guān)注億速云網(wǎng)站,小編會(huì)繼續(xù)努力為大家?guī)?lái)更多實(shí)用的文章!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

gdc
AI