<dfn id="sfsu6"></dfn>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

XHMM分析原理是怎樣的

發(fā)布時間：2021-11-22 17:48:15 來源：億速云閱讀：180 作者：柒染欄目：大數據

今天就跟大家聊聊有關XHMM分析原理是怎樣的，可能很多人都不太了解，為了讓大家更加了解，小編給大家總結了以下內容，希望大家根據這篇文章可以有所收獲。

XHMM是一款利用WES數據分析CNV的軟件，利用PCA降維來歸一化外顯子區(qū)的測序深度信息，然后通過隱馬可夫模型來預測CNV,該軟件的pipeline示意如下

XHMM分析原理是怎樣的

可以分成4個大的步驟

1. 比對參考基因組

將測序的reads比對到參考基因組上，計算外顯子區(qū)的原始測序深度。CNV預測的核心是通過測序深度和cnv的相關性來建模，所以需要保證這里的測序深度和真實DNA拷貝數的一致性，需要去除PCR重復。

官方推薦使用GATK最佳實踐中的預處理流程, 同時還可以添加一個MAPQ的過濾，篩選MAPQ大于20的alignemnts，得到可以用于下游分析的bam文件。

2. 歸一化測序深度

計算每個樣本各個外顯子的平均測序深度，得到一個exon平均測序深度的矩陣，示意如下

XHMM分析原理是怎樣的

每一行為一個樣本，每一列為一個eoxn區(qū)域，對應的值為該exon區(qū)域在樣本內的平均測序深度。

在歸一化之前，可以先對這個矩陣進行一個預處理，即對樣本或者目標區(qū)域進行過濾。對于目標區(qū)域，去除GC含量小于0.1或者大于0.9的目標區(qū)域，去除包含10%以上的低復雜度序列的目標區(qū)域，也可以根據測序深度進行過濾，去除過低或者過高的目標區(qū)域，比如去除測序深度小于5X的目標區(qū)域；對于樣本，可以根據測序深度的分布進行分析，去除離群的樣本。

預處理的目的是盡量保證用于后續(xù)分析的樣本在測序深度分布上的均一性，減小樣本間的偏差。預處理之后就可以進行歸一化，考慮到GC含量帶來的PCR偏倚，芯片捕獲，mapping準確率等系統(tǒng)誤差的影響，采用PCA算法來去除系統(tǒng)噪聲，得到歸一化之后的測序深度。

效果如下圖所示

XHMM分析原理是怎樣的

左側為原始的測序深度，右側為歸一化之后的測序深度，每條線代表一個樣本的測序深度值，灰色區(qū)域表示正常的二倍體，綠色區(qū)域表示拷貝數增加，歸一化之后二者區(qū)分的更加顯著。

3. 構建隱馬可夫模型

將CNV在全基因組范圍內分布的比例，長度，exon之間的距離等因素都考慮進來，構建了隱馬可夫模型，將染色體區(qū)域分為以下3種類型

diploid
deletion
duplication

第一種代表拷貝數正常，為2拷貝，對應的測序深度為平均值，即baseline, 第二種代表缺失，小于2拷貝，測序深度低于平均值，第三種代表重復，大于2拷貝，測序深度高于平均值。

隱馬可夫模型中3種狀態(tài)之間的轉移概率矩陣如下所示

XHMM分析原理是怎樣的

XHMM分析原理是怎樣的

4. CNV calling

模型訓練好之后，對于每個樣本，通過維特比算法來分析染色體區(qū)域的拷貝數狀態(tài)，從而檢測CNV。

看完上述內容，你們對XHMM分析原理是怎樣的有進一步的了解嗎？如果還想了解更多知識或者相關內容，請關注億速云行業(yè)資訊頻道，感謝大家的支持。

向AI問一下細節(jié)

推薦閱讀：

免責聲明：本站發(fā)布的內容（圖片、視頻和文字）以原創(chuàng)、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
ML.NET 0.9的特性有哪些
下一篇新聞：
c語言怎么實現含遞歸清場版掃雷游戲

猜你喜歡

AI
助
手

產品服務

地區(qū)劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼