您好,登錄后才能下訂單哦!
今天就跟大家聊聊有關(guān)SOAPfuse中怎么實(shí)現(xiàn)融合基因操作,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結(jié)了以下內(nèi)容,希望大家根據(jù)這篇文章可以有所收獲。
和其他軟件類似,SOAPfuse也需要建立物種對(duì)應(yīng)的數(shù)據(jù)庫(kù),在軟件安裝的source
目錄下,提供了建立數(shù)據(jù)庫(kù)的腳本,用法如下
perl SOAPfuse-S00-Generate_SOAPfuse_database.pl \ -wg hg19.fa \ -gtf Homo_sapiens.GRCh47.85.chr.gtf \ -cbd cytoBand.txt.gz \ -gf HGNC_Gene_Family.tsv \ -sd /software/SOAPfuse-v1.27 \ -dd /database/hg19 \ -rft chr.gtp
wg
參數(shù)代表基因組的fasta文件,gtf
參數(shù)代表gtf文件,cbd
代表從UCSC下載的cytoband文件,gf
代表從HGNC下載的基因信息,sd
代表軟件的安裝目錄,rft
代表gtf文件中的染色體名稱和fasta文件中的染色體名稱的對(duì)應(yīng)關(guān)系。
對(duì)于需要從數(shù)據(jù)庫(kù)下載的文件,在該腳本的幫助信息中給出了非常詳盡的提示, 這里就不贅述,對(duì)于rft
文件,內(nèi)容為\t
分隔的兩列,示例如下
1 chr1 2 chr2
第一列代表gtf文件中的染色體編號(hào),第二列代表fasta文件中的染色體編號(hào)。
SOAPfuse通過(guò)sample.list文件讀取樣本信息,該文件內(nèi)容如下
\t
分隔的4列,第一列代表樣本名稱,第二列代表為lane ID,第三列代表run ID, 第四列代表讀長(zhǎng)。之所以每個(gè)樣本需要提供lane ID和run ID, 是出于測(cè)序時(shí)一個(gè)樣本會(huì)有多條lane的考慮,對(duì)于多條lane的數(shù)據(jù),因?yàn)閷儆谕粋€(gè)樣本,所以需要合并起來(lái)。
在實(shí)際分析時(shí),我們只有每個(gè)樣本對(duì)應(yīng)的R1和R2端數(shù)據(jù),所以lane ID和run ID自己隨便定義就好了,下面是一個(gè)實(shí)際的例子,共6例樣本
A1 Lib-A1 Run-A1 150 A2 Lib-A2 Run-A2 150 A3 Lib-A3 Run-A3 150 B1 Lib-B1 Run-B1 150 B2 Lib-B2 Run-B2 150 B3 Lib-B3 Run-B3 150
sample.list中只提供了樣本的名稱等信息,在分析時(shí)肯定需要知道每個(gè)樣本對(duì)應(yīng)的測(cè)序數(shù)據(jù)的路徑。在SOAPfuse中,通過(guò)一個(gè)固定的目錄結(jié)構(gòu)來(lái)實(shí)現(xiàn),示意如下
所有的樣本的測(cè)序數(shù)據(jù)位于一個(gè)總的目錄下,稱之為WHOLE_SEQ-DATA_DIR
,在該目錄下,每個(gè)樣本是一個(gè)子目錄,名稱必須和sample.list文件中的樣本名一致;在每個(gè)樣本的目錄下,是每個(gè)lane ID
對(duì)應(yīng)的目錄;在lane ID
的目錄下,就是樣本的原始數(shù)據(jù),以run ID
作為前綴。
對(duì)于樣本的測(cè)序數(shù)據(jù),要求是gzip壓縮的格式,支持fasta
和fastq
兩種格式;文件名稱要求以對(duì)應(yīng)的run ID
開(kāi)頭,雙端數(shù)據(jù)用_1
, _2
區(qū)分,后綴的話只需要所有樣本統(tǒng)一即可,具體的后綴可以在配置文件中設(shè)置。
在軟件安裝的config
目錄下,有一個(gè)名為config.txt
的模板配置文件,我們需要對(duì)其進(jìn)行修改,主要修改以下幾個(gè)內(nèi)容
DB_db_dir = /software/SOAPfuse-v1.27/db/ PG_pg_dir = /software/SOAPfuse-v1.27/source/bin PS_ps_dir = /software/SOAPfuse-v1.27/source PA_all_fq_postfix = fq.gz
DB_db_dir
代表第一步建好的數(shù)據(jù)庫(kù)的目錄,后面兩個(gè)選項(xiàng)只需要替換成soapfuse實(shí)際的安裝目錄就行了,PA_all_fq_postfix
代表測(cè)序原始數(shù)據(jù)文件名的后綴,默認(rèn)是fq.gz
。
以上四點(diǎn)內(nèi)容都準(zhǔn)備好之后,就可以進(jìn)行分析了,代碼如下
perl SOAPfuse-RUN.pl \ -c config.txt \ -fd raw_data \ -l sample.list \ -o out_dir
-c
指定配置文件,-fd
指定測(cè)序數(shù)據(jù)存放的目錄,-l
指定樣本的sample.list文件,-o
指定結(jié)果的輸出目錄。
看完上述內(nèi)容,你們對(duì)SOAPfuse中怎么實(shí)現(xiàn)融合基因操作有進(jìn)一步的了解嗎?如果還想了解更多知識(shí)或者相關(guān)內(nèi)容,請(qǐng)關(guān)注億速云行業(yè)資訊頻道,感謝大家的支持。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。