您好,登錄后才能下訂單哦!
今天就跟大家聊聊有關(guān)STAR-fusion中怎么實現(xiàn)融合基因操作,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結(jié)了以下內(nèi)容,希望大家根據(jù)這篇文章可以有所收獲。
從上圖可以看出,STAR-fusion的運(yùn)行時間有明顯優(yōu)勢。
ROC曲線用于評估軟件分析結(jié)果的好壞,橫坐標(biāo)為false positive rate, 簡稱FPR,代表分析結(jié)果的假陽性率,縱坐標(biāo)為true positive rate, 又稱之為敏感度sensitivity
。對于一個理想的分析結(jié)果而言,肯定是假陽性率越低越好,敏感度越高越好。
在ROC曲線中,在曲線下的面積稱之為AUC值,一個軟件的AUC值越大,則其綜合效果最好。
從上圖可以看出,對于文章中的測試數(shù)據(jù),STAR-fusion的分析結(jié)果較好。
該軟件的安裝比較簡單,直接下載文件,解壓縮即可,其運(yùn)行過程如下
需要注意一點(diǎn),STAR-fusion依賴STAR來比對序列,STAR這個軟件運(yùn)行速度很快,但是其內(nèi)存消耗是巨大的,對于人類基因組而言,比對時1個樣本就需要30G左右的內(nèi)存,如果運(yùn)用于融合基因的檢測,所用內(nèi)存會上升到40G左右,這對于計算資源是一個考驗,在實際分析時,要根據(jù)已有的硬件資源合理設(shè)置并行的樣本數(shù)。
STAR-fusin具體的運(yùn)行過程如下
首先需要建立參考基因組對應(yīng)的reference lib, 至少需要參考基因組對應(yīng)的fasta
文件和gtf
文件,另外還可以提供已有的融合基因的注釋等。
對于human
和mouse
而言,提供了已經(jīng)構(gòu)建好的文件,鏈接如下
https://data.broadinstitute.org/Trinity/CTAT_RESOURCE_LIB/
plug-n
是已經(jīng)建立好的reference lib, 而source
里面包含了所需的原始文件。從原始文件構(gòu)建reference lib的命令如下
FusionFilter/prep_genome_lib.pl \ --genome_fa ref_genome.fa \ --gtf ref_annot.gtf \ --fusion_annot_lib CTAT_HumanFusionLib.dat.gz \ --annot_filter_rule AnnotFilterRule.pm \ --pfam_db PFAM.domtblout.dat.gz
這個perl腳本是集成在star-fusion的安裝目錄在的,pfam_db
和anno_filter_rule
可以從上圖中的source
壓縮包中得到,而fusion_annot_lib
是融合基因的注釋信息,對于人和小鼠,上圖中提供了對應(yīng)的注釋文件,如果沒有,也可以不提供。
默認(rèn)會在當(dāng)前目錄生成一個名為ctat_genome_lib_build_dir
的目錄,所有的結(jié)果文件都保存在這個目錄下。
STAR-fusion支持兩種模式,第一種是直接從fastq開始,第二種是自己手動進(jìn)行STAR比對,然后在運(yùn)行STAR-fusion。第一種模式的用法如下
雙端測序
STAR-Fusion \ --genome_lib_dir CTAT_resource_lib \ --left_fq reads_1.fq \ --right_fq reads_2.fq \ --output_dir star_fusion_outdir
單端測序
STAR-Fusion \ --genome_lib_dir CTAT_resource_lib \ --left_fq reads_1.fq \ --output_dir star_fusion_outdir
其中的CTAT_resource_lib
就是第一步建立好的reference lib所在的目錄。 直接根據(jù)STAR比對的結(jié)果進(jìn)行分析的模式稱之為Kickstart
模式,用法如下
STAR --genomeDir ${star_index_dir} \ --readFilesIn ${left_fq_filename} ${right_fq_filename} \ --twopassMode Basic \ --outReadsUnmapped None \ --chimSegmentMin 12 \ --chimJunctionOverhangMin 12 \ --alignSJDBoverhangMin 10 \ --alignMatesGapMax 100000 \ --alignIntronMax 100000 \ --chimSegmentReadGapMax 3 \ --alignSJstitchMismatchNmax 5 -1 5 5 \ --runThreadN ${THREAD_COUNT} \ --outSAMstrandField intronMotif \ --chimOutJunctionFormat 1
STAR-Fusion \ --genome_lib_dir CTAT_resource_lib \ -J Chimeric.out.junction \ --output_dir star_fusion_outdir
STAR-fusion的輸出結(jié)果文件名為
star-fusion.fusion_predictions.tsv
列數(shù)很多,部分列截圖如下
其中的JunctionRead
和SpanningFrag
,在之前的文章中有介紹,這些reads的個數(shù)越多,為一個真實的融合基因的可能性越大,SpliceType
表示斷裂點(diǎn)breakpoint
是否位于exon邊界,更詳細(xì)的結(jié)果解讀請參考官方文檔。
看完上述內(nèi)容,你們對STAR-fusion中怎么實現(xiàn)融合基因操作有進(jìn)一步的了解嗎?如果還想了解更多知識或者相關(guān)內(nèi)容,請關(guān)注億速云行業(yè)資訊頻道,感謝大家的支持。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。