溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

下載NCBI SRA數(shù)據(jù)的最佳方法是什么

發(fā)布時間:2021-11-11 16:37:22 來源:億速云 閱讀:312 作者:柒染 欄目:大數(shù)據(jù)

下載NCBI SRA數(shù)據(jù)的最佳方法是什么,針對這個問題,這篇文章詳細介紹了相對應的分析和解答,希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。

高通量的原始數(shù)據(jù)通常情況下會上傳到NCBI的SRA(Sequence Read Archive)數(shù)據(jù)庫。當我們需要用到這些數(shù)據(jù)的時候,就需要合適的方法來下載。
常見的下載方法:  
  1. aspera 工具下載
  2. wget, curl 命令直接下載
  3. NCBI官方的  SRA Toolkit 進行下載
很多教程建議使用 aspera 來實現(xiàn)高速下載,但是很多時候折騰配置了很久,結果下載并不穩(wěn)定或者由于端口或者網(wǎng)絡代理等原因沒有能成功下載,并提示如下的錯誤:
ascp: Failed to open TCP connection for SSH, exiting.Session Stop  (Error: Failed to open TCP connection for SSH)
NCBI也做出了如下聲明:
As of early 2019, the SRA is starting to make use of additional forms of storage media, which are less useful over Aspera's   fasp   protocol. Files stored in these media may not be accessible via   ascp   and have triggered creation of some issues to report the problem.

即2019開始,SRA數(shù)據(jù)庫的數(shù)據(jù)存儲方式做出了改變,使用ascp來下載數(shù)據(jù)可能會帶來其他的一些問題。

wget 等命令也是非常方便的下載工具。用它們來下載小數(shù)據(jù)是十分合適的,但是對于動輒以GB 甚至TB來計數(shù)的高通量數(shù)據(jù),wget的優(yōu)勢就并不明顯了。如果程序中斷,或者網(wǎng)絡原因下載中斷,你又得重新下載。

同樣,NCBI也指出了wget可能存在不能完整下載全部數(shù)據(jù)的問題。
There are several reasons why direct use of   ascp     (or curl, wget, etc)   is not recommended. The main reason is that they are likely to only retrieve a portion of the data required. 

所以,最穩(wěn)定最安心的方法是使用SRA Toolkit中的 prefect來下載。

下載NCBI SRA數(shù)據(jù)的最佳方法是什么

下載安裝SRA Toolkit:

https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

下載NCBI SRA數(shù)據(jù)的最佳方法是什么

下載二進制(binaries)版本,下載下來即可使用,不需要編譯安裝。

解壓后加入環(huán)境變量。

使用 prefect 下載數(shù)據(jù):

方法一:

直接指定Run編號進行下載,如:SRR1482462

prefetch SRR1482462

方法二:

批量下載一個Project的所有Run/Sample :

先進入其中一個run的頁面,點擊“All run”

下載NCBI SRA數(shù)據(jù)的最佳方法是什么

然后點擊“Accession List”,會下載一個名為“SRR_Acc_List.txt”的文件,這個文件里面有所有run的編號。

下載NCBI SRA數(shù)據(jù)的最佳方法是什么

使用如下命令批量下載 (放入后臺不中斷下載:nohup cmd &):

nohup prefetch -O . $(<SRR_Acc_List.txt) &

Note:

1. aspera 在下載其他數(shù)據(jù)庫(如EBI)的數(shù)據(jù)時,仍然是十分不錯的工具

2. 下載完之后,可以用如下命令批量解壓:

for f in *.sradonohup fastq-dump --split-3 $f &done

關于下載NCBI SRA數(shù)據(jù)的最佳方法是什么問題的解答就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關注億速云行業(yè)資訊頻道了解更多相關知識。

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權內(nèi)容。

AI