溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

SOAPfuse中怎么實(shí)現(xiàn)融合基因操作

發(fā)布時(shí)間:2021-08-12 16:56:45 來(lái)源:億速云 閱讀:162 作者:Leah 欄目:大數(shù)據(jù)

今天就跟大家聊聊有關(guān)SOAPfuse中怎么實(shí)現(xiàn)融合基因操作,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結(jié)了以下內(nèi)容,希望大家根據(jù)這篇文章可以有所收獲。

1. reference database

和其他軟件類似,SOAPfuse也需要建立物種對(duì)應(yīng)的數(shù)據(jù)庫(kù),在軟件安裝的source目錄下,提供了建立數(shù)據(jù)庫(kù)的腳本,用法如下

perl SOAPfuse-S00-Generate_SOAPfuse_database.pl \
-wg  hg19.fa \
-gtf Homo_sapiens.GRCh47.85.chr.gtf \
-cbd cytoBand.txt.gz \
-gf HGNC_Gene_Family.tsv \
-sd /software/SOAPfuse-v1.27 \
-dd /database/hg19 \
-rft chr.gtp

wg參數(shù)代表基因組的fasta文件,gtf參數(shù)代表gtf文件,cbd代表從UCSC下載的cytoband文件,gf代表從HGNC下載的基因信息,sd代表軟件的安裝目錄,rft代表gtf文件中的染色體名稱和fasta文件中的染色體名稱的對(duì)應(yīng)關(guān)系。
對(duì)于需要從數(shù)據(jù)庫(kù)下載的文件,在該腳本的幫助信息中給出了非常詳盡的提示, 這里就不贅述,對(duì)于rft文件,內(nèi)容為\t分隔的兩列,示例如下

1    chr1
2    chr2

第一列代表gtf文件中的染色體編號(hào),第二列代表fasta文件中的染色體編號(hào)。

2. sample list

SOAPfuse通過(guò)sample.list文件讀取樣本信息,該文件內(nèi)容如下

SOAPfuse中怎么實(shí)現(xiàn)融合基因操作

\t分隔的4列,第一列代表樣本名稱,第二列代表為lane ID,第三列代表run ID, 第四列代表讀長(zhǎng)。之所以每個(gè)樣本需要提供lane ID和run ID, 是出于測(cè)序時(shí)一個(gè)樣本會(huì)有多條lane的考慮,對(duì)于多條lane的數(shù)據(jù),因?yàn)閷儆谕粋€(gè)樣本,所以需要合并起來(lái)。

在實(shí)際分析時(shí),我們只有每個(gè)樣本對(duì)應(yīng)的R1和R2端數(shù)據(jù),所以lane ID和run ID自己隨便定義就好了,下面是一個(gè)實(shí)際的例子,共6例樣本

A1 Lib-A1 Run-A1 150
A2 Lib-A2 Run-A2 150
A3 Lib-A3 Run-A3 150
B1 Lib-B1 Run-B1 150
B2 Lib-B2 Run-B2 150
B3 Lib-B3 Run-B3 150
3. sample sequence directory

sample.list中只提供了樣本的名稱等信息,在分析時(shí)肯定需要知道每個(gè)樣本對(duì)應(yīng)的測(cè)序數(shù)據(jù)的路徑。在SOAPfuse中,通過(guò)一個(gè)固定的目錄結(jié)構(gòu)來(lái)實(shí)現(xiàn),示意如下

SOAPfuse中怎么實(shí)現(xiàn)融合基因操作

所有的樣本的測(cè)序數(shù)據(jù)位于一個(gè)總的目錄下,稱之為WHOLE_SEQ-DATA_DIR,在該目錄下,每個(gè)樣本是一個(gè)子目錄,名稱必須和sample.list文件中的樣本名一致;在每個(gè)樣本的目錄下,是每個(gè)lane ID對(duì)應(yīng)的目錄;在lane ID的目錄下,就是樣本的原始數(shù)據(jù),以run ID作為前綴。

對(duì)于樣本的測(cè)序數(shù)據(jù),要求是gzip壓縮的格式,支持fastafastq兩種格式;文件名稱要求以對(duì)應(yīng)的run ID開(kāi)頭,雙端數(shù)據(jù)用_1, _2區(qū)分,后綴的話只需要所有樣本統(tǒng)一即可,具體的后綴可以在配置文件中設(shè)置。

4. config

在軟件安裝的config目錄下,有一個(gè)名為config.txt的模板配置文件,我們需要對(duì)其進(jìn)行修改,主要修改以下幾個(gè)內(nèi)容

DB_db_dir = /software/SOAPfuse-v1.27/db/
PG_pg_dir = /software/SOAPfuse-v1.27/source/bin
PS_ps_dir = /software/SOAPfuse-v1.27/source
PA_all_fq_postfix = fq.gz

DB_db_dir代表第一步建好的數(shù)據(jù)庫(kù)的目錄,后面兩個(gè)選項(xiàng)只需要替換成soapfuse實(shí)際的安裝目錄就行了,PA_all_fq_postfix代表測(cè)序原始數(shù)據(jù)文件名的后綴,默認(rèn)是fq.gz

以上四點(diǎn)內(nèi)容都準(zhǔn)備好之后,就可以進(jìn)行分析了,代碼如下

perl SOAPfuse-RUN.pl \
-c config.txt \
-fd raw_data \
-l sample.list \
-o out_dir

-c指定配置文件,-fd指定測(cè)序數(shù)據(jù)存放的目錄,-l指定樣本的sample.list文件,-o指定結(jié)果的輸出目錄。

看完上述內(nèi)容,你們對(duì)SOAPfuse中怎么實(shí)現(xiàn)融合基因操作有進(jìn)一步的了解嗎?如果還想了解更多知識(shí)或者相關(guān)內(nèi)容,請(qǐng)關(guān)注億速云行業(yè)資訊頻道,感謝大家的支持。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI