您好,登錄后才能下訂單哦!
怎么用gdc-client批量下載TCGA數(shù)據(jù),很多新手對(duì)此不是很清楚,為了幫助大家解決這個(gè)難題,下面小編將為大家詳細(xì)講解,有這方面需求的人可以來(lái)學(xué)習(xí)下,希望你能有所收獲。
GDC的在線下載功能只適用于下載小的數(shù)據(jù)集,當(dāng)需要下載數(shù)據(jù)量較大的TCGA數(shù)據(jù)時(shí),必須借助于GDC官方提供的客戶端工具gdc-client。網(wǎng)址如下
https://gdc.cancer.gov/access-data/gdc-data-transfer-tool
該軟件是一個(gè)命令行工具,支持windows, linux, mac OS多種操作系統(tǒng),可以通過(guò)以下兩種方法來(lái)下載文件
首先通過(guò)GDC在線數(shù)據(jù)庫(kù)篩選自己感興趣的數(shù)據(jù)集,然后通過(guò)購(gòu)物車(chē)圖標(biāo)將數(shù)據(jù)集添加到購(gòu)物車(chē)中,示意如下
點(diǎn)擊導(dǎo)航欄的Cart
按鈕,點(diǎn)擊下載Manifest
文件
該文件內(nèi)容如下所示
第一列為文件的uuid
, 在GDC數(shù)據(jù)庫(kù)中,所有的信息都用一個(gè)uuid
唯一標(biāo)識(shí)。利用manifest
文件批量下載的用法如下
gdc-client download -m gdc_manifest_20190610_105445.txt
結(jié)果下載到當(dāng)前目錄,每個(gè)文件保存在uuid
對(duì)應(yīng)的文件夾下,示意如下
這里我下載的是FPKM
的基因表達(dá)量,文件內(nèi)容如下
可以看到?jīng)]有表頭信息,而且每個(gè)樣本是分開(kāi)的,在實(shí)際使用中,我們通常需要整合到一張表中,得到一個(gè)行為基因,列為樣本的基因表達(dá)量的表格。通過(guò)這種方式下載的數(shù)據(jù),沒(méi)有文件對(duì)應(yīng)的樣本信息,這個(gè)信息可以通過(guò)下載SampleSheet
得到,該文件的內(nèi)容如下
保存了每個(gè)樣本對(duì)應(yīng)的樣本等信息,通過(guò)結(jié)合這個(gè)數(shù)據(jù),可以整理得到基因表達(dá)量的表格。
第二種方式直接使用文件對(duì)應(yīng)的uuid進(jìn)行下載, 點(diǎn)擊文件名稱,可以看到UUID的信息,如下所示
通過(guò)uuid下載文件的用法如下
gdc-client download cadfedcc-2742-42ad-9fd3-733d01086392
這兩種方式本質(zhì)上是一樣的,都是通過(guò)文件的uuid
來(lái)對(duì)應(yīng)到唯一的一個(gè)文件,并進(jìn)行下載。需要注意的是,這種方式只能夠下載得到原始文件,如果需要下游分析,需要自己調(diào)整文件格式。
看完上述內(nèi)容是否對(duì)您有幫助呢?如果還想對(duì)相關(guān)知識(shí)有進(jìn)一步的了解或閱讀更多相關(guān)文章,請(qǐng)關(guān)注億速云行業(yè)資訊頻道,感謝您對(duì)億速云的支持。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。