溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

GATK BQSR的作用是什么

發(fā)布時(shí)間:2021-12-18 15:12:22 來源:億速云 閱讀:260 作者:iii 欄目:大數(shù)據(jù)

本篇內(nèi)容主要講解“GATK BQSR的作用是什么”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實(shí)用性強(qiáng)。下面就讓小編來帶大家學(xué)習(xí)“GATK BQSR的作用是什么”吧!

BQSR 全稱叫做 Base Quality Score Recalibration, 可以理解為堿基質(zhì)量校正。對于變異位點(diǎn)的鑒定,堿基質(zhì)量是非常重要的。比如測序識別到的一個(gè)位點(diǎn),其堿基和參考基因組上的堿基不同,但是其質(zhì)量值特別低,此時(shí)可以認(rèn)為是一個(gè)測序錯(cuò)誤,而不是一個(gè)SNP位點(diǎn)。

在測序的原始數(shù)據(jù)中,本身就提供了每個(gè)堿基對應(yīng)的質(zhì)量值,但是GATK官方認(rèn)為測序儀提供的堿基質(zhì)量值,是不準(zhǔn)確的,存在誤差的。

某個(gè)位點(diǎn)前后的堿基的種類,稱之為上下文環(huán)境,會對這個(gè)堿基的質(zhì)量值產(chǎn)生影響。對于A,T,C,G 4種堿基,共有4 x 4 =16 種上下文環(huán)境,左側(cè)的圖是利用fastq文件中測序儀給出的堿基質(zhì)量值做的圖,可以看到,對于不同的上下文環(huán)境,堿基質(zhì)量值分布不同;右圖為經(jīng)過BQSR校正之后,不同上下文環(huán)境中堿基質(zhì)量的分布??梢钥吹?,校正之后,不同的上下文環(huán)境的堿基質(zhì)量分布基本相同。也就是說,BQSR消除了上下文環(huán)境對堿基質(zhì)量的影響。

GATK BQSR的作用是什么

在堿基質(zhì)量校正時(shí),主要考慮下列3個(gè)因素:

  1. 堿基在reads中的位置

  2. 堿基的上下文環(huán)境

  3. 堿基原始的質(zhì)量值


根據(jù)這3這個(gè)因素,首先計(jì)算出原始堿基質(zhì)量中錯(cuò)誤的分布模型,然后利用這個(gè)模型對堿基質(zhì)量校正,生成新的堿基質(zhì)量值。

執(zhí)行BQSR分析包含以下三步

1. 根據(jù)原始bam文件中的堿基質(zhì)量值計(jì)算出系統(tǒng)誤差的分布

命令如下

gatk BaseRecalibrator \
    -R ${ref_fasta} \
    -I ${input_bam} \
    --use-original-qualities \
    -O ${recalibration_report_filename} \
    --known-sites ${dbSNP_vcf} \
    --known-sites ${sep=" --known-sites " known_indels_sites_VCFs}

在計(jì)算的過程中, 不考慮已知的變異位點(diǎn)的堿基質(zhì)量,--known-sites指定已知變異位點(diǎn)對應(yīng)的vcf文件。這一步對單個(gè)樣本進(jìn)行操作,每個(gè)樣本生成一個(gè)錯(cuò)誤模型文件。

2.  綜合多個(gè)樣本的模型,生成一個(gè)總的模型

命令如下

gatk GatherBQSRReports \
    -I ${sep=' -I ' input_bqsr_reports} \
    -O ${output_report_filename}
3. 根據(jù)之前計(jì)算的模型對堿基質(zhì)量進(jìn)行校正

命令如下:

gatk ApplyBQSR \
    -R ${ref_fasta} \
    -I ${input_bam} \
    -O ${output_bam_basename}.bam \
    -bqsr ${recalibration_report} \
    --static-quantized-quals 10 --static-quantized-quals 20 --static-quantized-quals 30 \
    --add-output-sam-program-record \
    --create-output-bam-md5 \
    --use-original-qualities

BQSR會對輸入的bam文件中的堿基質(zhì)量值進(jìn)行替換,替換為校正之后的質(zhì)量值,而原先的質(zhì)量值保存在OQtag 中,示意圖如下

GATK BQSR的作用是什么

到此,相信大家對“GATK BQSR的作用是什么”有了更深的了解,不妨來實(shí)際操作一番吧!這里是億速云網(wǎng)站,更多相關(guān)內(nèi)容可以進(jìn)入相關(guān)頻道進(jìn)行查詢,關(guān)注我們,繼續(xù)學(xué)習(xí)!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI