溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

XHMM分析原理是怎樣的

發(fā)布時間:2021-11-22 17:48:15 來源:億速云 閱讀:180 作者:柒染 欄目:大數據

今天就跟大家聊聊有關XHMM分析原理是怎樣的,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結了以下內容,希望大家根據這篇文章可以有所收獲。

XHMM是一款利用WES數據分析CNV的軟件,利用PCA降維來歸一化外顯子區(qū)的測序深度信息,然后通過隱馬可夫模型來預測CNV,該軟件的pipeline示意如下

XHMM分析原理是怎樣的

可以分成4個大的步驟

1. 比對參考基因組

將測序的reads比對到參考基因組上,計算外顯子區(qū)的原始測序深度。CNV預測的核心是通過測序深度和cnv的相關性來建模,所以需要保證這里的測序深度和真實DNA拷貝數的一致性,需要去除PCR重復。

官方推薦使用GATK最佳實踐中的預處理流程,  同時還可以添加一個MAPQ的過濾,篩選MAPQ大于20的alignemnts,得到可以用于下游分析的bam文件。

2. 歸一化測序深度

計算每個樣本各個外顯子的平均測序深度,得到一個exon平均測序深度的矩陣,示意如下

XHMM分析原理是怎樣的

每一行為一個樣本,每一列為一個eoxn區(qū)域,對應的值為該exon區(qū)域在樣本內的平均測序深度。

在歸一化之前,可以先對這個矩陣進行一個預處理,即對樣本或者目標區(qū)域進行過濾。對于目標區(qū)域,去除GC含量小于0.1或者大于0.9的目標區(qū)域,去除包含10%以上的低復雜度序列的目標區(qū)域,也可以根據測序深度進行過濾,去除過低或者過高的目標區(qū)域,比如去除測序深度小于5X的目標區(qū)域;對于樣本,可以根據測序深度的分布進行分析,去除離群的樣本。

預處理的目的是盡量保證用于后續(xù)分析的樣本在測序深度分布上的均一性,減小樣本間的偏差。預處理之后就可以進行歸一化,考慮到GC含量帶來的PCR偏倚,芯片捕獲,mapping準確率等系統(tǒng)誤差的影響,采用PCA算法來去除系統(tǒng)噪聲,得到歸一化之后的測序深度。

效果如下圖所示

XHMM分析原理是怎樣的

左側為原始的測序深度,右側為歸一化之后的測序深度,每條線代表一個樣本的測序深度值,灰色區(qū)域表示正常的二倍體,綠色區(qū)域表示拷貝數增加,歸一化之后二者區(qū)分的更加顯著。

3. 構建隱馬可夫模型

將CNV在全基因組范圍內分布的比例,長度,exon之間的距離等因素都考慮進來,構建了隱馬可夫模型, 將染色體區(qū)域分為以下3種類型

  1. diploid

  2. deletion

  3. duplication


第一種代表拷貝數正常,為2拷貝,對應的測序深度為平均值,即baseline, 第二種代表缺失,小于2拷貝,測序深度低于平均值,第三種代表重復,大于2拷貝,測序深度高于平均值。

隱馬可夫模型中3種狀態(tài)之間的轉移概率矩陣如下所示

XHMM分析原理是怎樣的

XHMM分析原理是怎樣的

4.  CNV calling

模型訓練好之后,對于每個樣本,通過維特比算法來分析染色體區(qū)域的拷貝數狀態(tài),從而檢測CNV。

看完上述內容,你們對XHMM分析原理是怎樣的有進一步的了解嗎?如果還想了解更多知識或者相關內容,請關注億速云行業(yè)資訊頻道,感謝大家的支持。

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng)、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI