您好,登錄后才能下訂單哦!
本篇內(nèi)容介紹了“如何使用TCGAbiolinks下載TCGA的數(shù)據(jù)”的有關(guān)知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細閱讀,能夠?qū)W有所成!
TCGAbiolinks是一個分析處理TCGA數(shù)據(jù)的R包,通過GDC API來查詢和下載TCGA的數(shù)據(jù),同時提供了差異分析,生存分析,富集分析等常見的分析功能,網(wǎng)址如下
http://bioconductor.org/packages/release/bioc/html/TCGAbiolinks.html
這個R包的基本用法如下
和在線查詢類似,只不過是將網(wǎng)頁上的各種可選的屬性變成了對應(yīng)的參數(shù),基本用法如下所示
以project
為核心進行查詢, 其他參數(shù)用來對數(shù)據(jù)進行過濾,常用的有以下幾個參數(shù)
datga.category
data.type
workflow.type
experimental.strategy
platform
access
以上參數(shù)和和網(wǎng)頁上的的各項選擇菜單相對應(yīng),示意如下
除此之外,還有幾個重要參數(shù),legacy
參數(shù)的默認值為FALSE
,表示從harmonized database進行查詢,TRUE
表示從 GDC legacy archive進行查詢;barcode
參數(shù)用于選擇其中部分樣本的數(shù)據(jù)。
查詢結(jié)果的基本單位為Files, 可以通過以下代碼進行查看
datatable(getResults(query))
結(jié)果是一個html的表格,通過網(wǎng)頁進行查看,每行代表一個表格,示意如下
除了查看檢索結(jié)果外,還可以下載檢索結(jié)果,用法如下
這里分成了兩個步驟,第一步從GDC下載原始數(shù)據(jù),可以使用API或者gdc-clinet進行下載, API的速度相對快一點;第二步對原始數(shù)據(jù)的結(jié)果進行整理,從GDC下載的原始數(shù)據(jù)是每個文件單獨分開的,需要先對結(jié)果進行整理,才可以用于后續(xù)分析。以表達譜數(shù)據(jù)為例,需要進行樣本的合并,樣本ID的轉(zhuǎn)換等,所有這些都可以通過GDCprepare
完成。
整理好的結(jié)果存放在data
對象中, 樣本的信息可以通過如下方式進行查看
結(jié)果示意如下
表達量矩陣的信息查看方式如下
結(jié)果示意如下
數(shù)據(jù)下載并整理好之后,就可以進行分析了。不同類型的數(shù)據(jù)對應(yīng)的分析方法也不同,具體的分析方法請參考官方文檔。
“如何使用TCGAbiolinks下載TCGA的數(shù)據(jù)”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識可以關(guān)注億速云網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實用文章!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。