溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

如何通過GDC Legacy Archive下載TCGA原始數(shù)據(jù)

發(fā)布時(shí)間:2021-07-24 10:19:16 來源:億速云 閱讀:366 作者:chen 欄目:大數(shù)據(jù)

本篇內(nèi)容主要講解“如何通過GDC Legacy Archive下載TCGA原始數(shù)據(jù)”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實(shí)用性強(qiáng)。下面就讓小編來帶大家學(xué)習(xí)“如何通過GDC Legacy Archive下載TCGA原始數(shù)據(jù)”吧!

在2016年之前,TCGA項(xiàng)目的相關(guān)結(jié)果文件存放在CGhub和TCGA Data Coordinating Center簡稱DCC提供的TCGA Data Portal中,當(dāng)時(shí)的結(jié)果是以hg19或者h(yuǎn)g18為參考得到的。

在DCC中,將數(shù)據(jù)劃分為了3個(gè)等級(jí)。level 1代筆原始的,未經(jīng)處理的數(shù)據(jù)的,比如芯片下機(jī)數(shù)據(jù);level2 代表處理的中間結(jié)果,比如測序深度對(duì)應(yīng)的wig文件;level 3 代表處理完成后的最終結(jié)果,比如基因的定量結(jié)果。

2016年之后,CGhub和DCC相繼關(guān)閉,所有的數(shù)據(jù)統(tǒng)一遷移到現(xiàn)在用的GDC數(shù)據(jù)庫,而且通過GDC的pipeline將原有的結(jié)果轉(zhuǎn)換為hg38參考基因組版本。目前在GDC中檢索到的結(jié)果都是經(jīng)過了GDC pipeline處理過后的,從這里也可以看出,遷移到hg38是一個(gè)大的趨勢。

當(dāng)然目前使用hg19的還是挺多的,如果你需要基于hg19版本的TCGA數(shù)據(jù),在GDC中也可以找到。其實(shí)GDC中的數(shù)據(jù)可以分為以下兩個(gè)部分

  1. GDC harmonized data

  2. GDC legacy archive


在R包TCGAbiolinks中,介紹了二者的區(qū)別,如下圖所示

如何通過GDC Legacy Archive下載TCGA原始數(shù)據(jù)

第一部分就是默認(rèn)使用的基于hg38版本的數(shù)據(jù),第二部分則是對(duì)原始的TCGA結(jié)果的一個(gè)存儲(chǔ),通過GDC首頁的GDC APPs, 可以找到CDC Legacy Archive的入口,鏈接如下

https://portal.gdc.cancer.gov/legacy-archive

如何通過GDC Legacy Archive下載TCGA原始數(shù)據(jù)

在左側(cè)的面板可以根據(jù)相關(guān)屬性對(duì)Cases和Files進(jìn)行篩選,Cases相關(guān)的屬性如下

如何通過GDC Legacy Archive下載TCGA原始數(shù)據(jù)

Files相關(guān)的屬性如下

如何通過GDC Legacy Archive下載TCGA原始數(shù)據(jù)

數(shù)據(jù)的下載方式和前面文章中介紹的相同,這里不贅述,從文件名稱可以看到對(duì)應(yīng)的level, 不同level的文件示意如下

1. level1

通過Data TypeRaw intensitites進(jìn)行篩選,得到芯片的原始數(shù)據(jù), 示意如下

如何通過GDC Legacy Archive下載TCGA原始數(shù)據(jù)

2.  level2

通過Data TypeCoverage WIG進(jìn)行篩選,得到比對(duì)的測序深度數(shù)據(jù), 示意如下

如何通過GDC Legacy Archive下載TCGA原始數(shù)據(jù)

3. level3

通過Data TypemiRNA gene quantification進(jìn)行篩選,得到miRNA表達(dá)定量數(shù)據(jù), 示意如下

如何通過GDC Legacy Archive下載TCGA原始數(shù)據(jù)

通過GDC Legacy Archive, 可以找到基于hg19的數(shù)據(jù)結(jié)果文件,但是由于相關(guān)的網(wǎng)站已經(jīng)關(guān)閉,無法確認(rèn)該數(shù)據(jù)分析的pipieline等細(xì)節(jié)信息,所以需要謹(jǐn)慎使用。


到此,相信大家對(duì)“如何通過GDC Legacy Archive下載TCGA原始數(shù)據(jù)”有了更深的了解,不妨來實(shí)際操作一番吧!這里是億速云網(wǎng)站,更多相關(guān)內(nèi)容可以進(jìn)入相關(guān)頻道進(jìn)行查詢,關(guān)注我們,繼續(xù)學(xué)習(xí)!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

gdc
AI