溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

Control-Freec工具有什么用

發(fā)布時間:2022-01-17 11:07:52 來源:億速云 閱讀:242 作者:小新 欄目:大數(shù)據(jù)

這篇文章主要為大家展示了“Control-Freec工具有什么用”,內(nèi)容簡而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領(lǐng)大家一起研究并學(xué)習(xí)一下“Control-Freec工具有什么用”這篇文章吧。

Control-Freec 既可以檢測拷貝數(shù)變異CNV,還可以分析雜合性缺失LOH。官網(wǎng)如下

http://boevalab.com/FREEC/

在檢測拷貝數(shù)變異時,支持全基因組測序,全外顯子測序,目標(biāo)區(qū)域捕獲測序等多種測序方案,對于全基因組數(shù)據(jù),分析是不需要提供對照樣本;對于全外顯子測序和目標(biāo)區(qū)域捕獲測序,必須提供對照樣本。

該軟件最新版僅支持Linux和Mac OS兩種操作系統(tǒng),github 上提供了編譯好的二進(jìn)制文件,直接下載解壓縮即可。

安裝過程如下

wget -O FREEC-11.4.tar.gz https://github.com/BoevaLab/FREEC/archive/v11.4.tar.gz
tar xzvf FREEC-11.4.tar.gz
cd FREEC-11.4

FREEC-11.4下有3個目錄:data目錄保存的是配置文件的模板,包含WGS和WES兩套模板;scripts目錄下是一些常用的腳本;src目錄下就是軟件的源代碼,freec可執(zhí)行文件就位于這個目錄。

使用軟件的第一步,就是編輯配置文件,配置文件中的內(nèi)容主要包括以下5個部分

1. general

常用配置如下

[general]
chrLenFile = test/hg19.fa.fai
ploidy = 2
breakPointThreshold = .8
#coefficientOfVariation = 0.01
window = 50000
#step=10000
chrFiles = path/hg19/
GCcontentProfile = GC_profile_50kb.cnp

chrLenFile指定參考物種染色體長度的文件,示例如下

1 chr1 247249719
2 chr2 242951149
3 chr3 199501827

共三列,第一列為編號,第二列為染色體名字,第四列為染色體長度。需要注意的是,軟件只會分析在該文件中出現(xiàn)的染色體區(qū)域。

ploidy指定參考物種染色體組的個數(shù),通常我們都是分析人的CNV,人是二倍體生物,這個參數(shù)的值就是2。

breakPointThreshold官方推薦的取值范圍是0.01到0.08,數(shù)值越小,預(yù)測到的CNV越多。

freec通過分析某一區(qū)域的測序深度來預(yù)測CNV, 對于全基因組數(shù)據(jù),根據(jù)滑動窗口模型進(jìn)行分析,window參數(shù)指定窗口的大小,step指定步長;對于全外顯子數(shù)據(jù),計算測序深度時按照exon區(qū)域進(jìn)行計算,所以window設(shè)置為0。

當(dāng)不提供對照樣本時,必須設(shè)置chrFilesGCcontentProfile兩個參數(shù)。

chrFiles參數(shù)的值為一個目錄,該目錄下時每條染色體的fasta格式的序列。

GCcontentProfile參數(shù)的值為一個文件,記錄了染色體上固定窗口區(qū)域內(nèi)的GC含量,可以用gccount軟件生成。示例如下

1 0 0.45896 1
1 50000 0.38424 1
1 100000 0.43834 1

共四列,第一類為染色體名字,第二類為窗口的起始位置,坐標(biāo)從0開始計算;第三類為窗口內(nèi)的GC含量,第四列為窗口內(nèi)的分模糊堿基的比例。

2. sample

常用配置如下

[sample]
mateFile = /path/sample.bam
inputFormat = BAM
mateOrientation = RF

mateFile參數(shù)指定待分析樣本的輸入文件,通常都是bam格式的,也支持SAM, pileup等其他格式;inputFormat指定輸入文件的格式;mateOrientation指定測序方向,對于單端測序的數(shù)據(jù),對應(yīng)的值為0;對于illumina 雙端測序的reads, 對應(yīng)的值為FR。如果輸入的bam文件是排序之后的bam文件,需要將該參數(shù)的值設(shè)為0。

3. control

常用配置如下

[control]
mateFile = /path/sample.bam
inputFormat = BAM
mateOrientation = RF

設(shè)置對照樣本的輸入文件,和sample的設(shè)置是一樣的。

4. BAF

常用配置如下

[BAF]
SNPfile = hg19_snp138.vcf

SNPfile指定已知SNP位點的文件,格式為VCF。

5. target

常用配置如下

[target]
captureRegions = testChr19/capture.bed

captureRegions參數(shù)的值是bed格式的文件,指定捕獲的目的區(qū)域,共3列,第一列染色體名字,第二列和第三列分別為區(qū)域的起始和終止位置。

對于沒有control 樣本的實驗設(shè)計,實際分析時只需要配置generalsample這兩項就可以了,BAF只有當(dāng)輸入文件格式為pileup,而且需要計算B allele frequency和genotype時才需要配置,更多配置選項可以參考官方文檔。

編輯好配置文件之后,就可以運行了,命令如下

freec -conf config.txt

以上是“Control-Freec工具有什么用”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對大家有所幫助,如果還想學(xué)習(xí)更多知識,歡迎關(guān)注億速云行業(yè)資訊頻道!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI