溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

如何使用GDC API查看和下載TCGA的數(shù)據(jù)

發(fā)布時間:2021-07-24 10:19:50 來源:億速云 閱讀:247 作者:chen 欄目:大數(shù)據(jù)

這篇文章主要介紹“如何使用GDC API查看和下載TCGA的數(shù)據(jù)”,在日常操作中,相信很多人在如何使用GDC API查看和下載TCGA的數(shù)據(jù)問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”如何使用GDC API查看和下載TCGA的數(shù)據(jù)”的疑惑有所幫助!接下來,請跟著小編一起來學習吧!

API是應用程序編程接口,很多的網(wǎng)站都有對應的API,方便程序抓取數(shù)據(jù),比如NCBI, EBI, KEGG等等,GDC也有對應的API, 可以方便的查詢和下載TCGA的數(shù)據(jù),API的網(wǎng)址如下

https://gdc.cancer.gov/developers/gdc-application-programming-interface-api

API都有一個base url, 通過base url加上內(nèi)置的指令,可以實現(xiàn)特定數(shù)據(jù)集的訪問和下載,GDC API的base url如下

https://api.gdc.cancer.gov/<endpoint>
https://api.gdc.cancer.gov/legacy/<endpoint>

第一種訪問和操作GDC harmonized database, 第二種訪問和操作GDC legacy archive。endpoint是內(nèi)置的指令,支持的指令如下所示

如何使用GDC API查看和下載TCGA的數(shù)據(jù)

從功能上可以劃分為查詢,下載,提交數(shù)據(jù)三大塊,常用的的功能包括查詢和下載

1. 查詢

通過JSON這種格式進行數(shù)據(jù)交換,以files為例,以其對應的uuid為例進行查詢的用法如下

curl https://api.gdc.cancer.gov/files/5891556e-0b86-42bd-aa0e-a319471dc574

返回的數(shù)據(jù)如下

如何使用GDC API查看和下載TCGA的數(shù)據(jù)

這種格式就是JSON, 可以和網(wǎng)站上的查詢結(jié)果比較一下,鏈接如下

https://portal.gdc.cancer.gov/files/5891556e-0b86-42bd-aa0e-a319471dc574

如何使用GDC API查看和下載TCGA的數(shù)據(jù)

可以看到API返回的信息中包含了網(wǎng)頁上提供的基本信息。在實際使用中,更多的是按照某種條件進行檢索,相關的參數(shù)很多,這里就不展開了。

2. 下載

通過download指定,可以根據(jù)文件的uuid進行下載,有GET和POST兩種方式。GET適用于同時下載幾個文件,POST適用于大批量下載。

以GET方式下載的用法如下

curl --remote-name --remote-header-name 'https://api.gdc.cancer.gov/data/5891556e-0b86-42bd-aa0e-a319471dc574'

如果有多個文件的uuid,用逗號連接,示意如下

curl --remote-name --remote-header-name 'https://api.gdc.cancer.gov/data/e3228020-1c54-4521-9182-1ea14c5dc0f7,18e1e38e-0f0a-4a0e-918f-08e6201ea140'

以POST方式下載需要主要準備一個文件,記錄要下載文件的uuid編號,該文件可以有兩種格式,第一種示意如下

ids=556e5e3f-0ab9-4b6c-aa62-c42f6a6cf20c&ids=e0de63e2-02f3-4309-9b24-69f4c24e85fc

假設該文件名稱為uuids, 下載的命令為

curl --remote-name --remote-header-name --request POST 'https://api.gdc.cancer.gov/data' --data @uuids

第二種示意如下

如何使用GDC API查看和下載TCGA的數(shù)據(jù)

采用該文件進行下載的命令如下

curl --remote-name  \
--remote-header-name  \
--request POST \
--header 'Content-Type: application/json' \
--data @uuids \
'https://api.gdc.cancer.gov/data'

以上只是GDC API的基本用法,更多用法請參考官方文檔,鏈接如下

https://docs.gdc.cancer.gov/API/Users_Guide/Getting_Started/

通過熟練使用API,可以實現(xiàn)程序自動化的下載TCGA數(shù)據(jù),有很多TCGA數(shù)據(jù)下載的R包,就是通過調(diào)用API來實現(xiàn)對應的功能。

到此,關于“如何使用GDC API查看和下載TCGA的數(shù)據(jù)”的學習就結(jié)束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續(xù)學習更多相關知識,請繼續(xù)關注億速云網(wǎng)站,小編會繼續(xù)努力為大家?guī)砀鄬嵱玫奈恼拢?/p>

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

gdc
AI