溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

FusionMap中怎么檢測融合基因

發(fā)布時間:2021-08-12 16:53:15 來源:億速云 閱讀:129 作者:Leah 欄目:大數(shù)據(jù)

FusionMap中怎么檢測融合基因,很多新手對此不是很清楚,為了幫助大家解決這個難題,下面小編將為大家詳細講解,有這方面需求的人可以來學習下,希望你能有所收獲。

通過兩種方式來檢測融合基因:

  • 對于沒有比對上基因組的序列,即unmapped reads, 通過識別Fusion junction-spanning reads 來識別融合基因;這部分reads覆蓋到了融合基因的連接點,在連接點兩側的序列分別比對到構成融合的多個基因上

  • 對于比對上基因組的reads, 通過識別 Inter-transcript read pairs來識別融合基因,這部分reads雖然沒有直接覆蓋連接點,但是其R1端和R2端分別比對到不同的基因


示意圖如下

FusionMap中怎么檢測融合基因

在fusionmap中,假定融合基因由2個基因組成,對于沒能比對上基因組的Fusion Junction-spanning reads, 又分為兩類:設定一個比對長度的閾值,如果這條reads在兩個基因中比對上的長度都大于閾值,就屬于seed reads; 如果在任意一個基因中比對上的長度小于閾值,就屬于rescued reads,示意圖如下

FusionMap中怎么檢測融合基因

Fusionmap會輸出如下所示的表格

FusionMap中怎么檢測融合基因

關鍵的幾列信息解釋如下

  1. FusionID : 識別到的融合基因的ID,前綴都為FUS,第一個數(shù)字為融合基因的起始位置,第二個數(shù)字為融合基因的終止位置,這里的位置實際上都是累積位置,把所有的染色體按照字母順序首位相連構成一條參照的染色體,這樣每個基因在這條染色體上都有一個位置,所以這里的位置都是累積位置,可以發(fā)現(xiàn),終止位置的數(shù)字總是比起始位置大;括號里的內容是形成融合基因的兩個基因的鏈的方向

  2. Strand : 形成融合基因的兩個基因的鏈的方向, 包括++, —, +-, -+ 四種組合

  3. Position1: 檢測到的融合基因的起始位置

  4. Chromosome1 : gene1 所在的染色體

  5. Chromsome2: gene2 所在的染色體

  6. Position2: 檢測到的融合基因的終止位置

  7. knowGene1 : gene1 的symbol

  8. KnowTranscriptStrand: gene1的轉錄本的方向,有多個轉錄本,就有多個方向

  9. KnowGene2: gene2 的symbol

  10. KnowTranscripitStrand : gene2的轉錄本的方向,有多個轉錄本,就有多個方向

  11. FusionGene: 融合基因的名字,gene1->gene2

除此之外,還包含以下幾種比較難理解的信息

1. 支持該融合基因的reads數(shù)目

包含以下3種

  1. accepted_hits.UniqueCuttingPositionCount

  2. accepted_hits.SeedCount

  3. accepted_hits.RescuedCount


SeedCountRescuedCount代表的就是上文中提到了seed readsrescued reads的個數(shù),二者相加就是Fusion Junciton-spanning reads數(shù)目,除此之外,還有Inter-transcript reads,這兩種reads的總數(shù)就是所有支持該融合基因的reads數(shù)目,reads數(shù)肯定是越多越好,但是由于建庫過程中存在PCR重復,所以為了提供更加可信的reads數(shù)信息,需要去冗余,保證PCR reads不重復計算,去冗余之后,就得到了UniqueCuttingPositionCount。示意圖如下

FusionMap中怎么檢測融合基因

黑色的線條是真實存在的融合基因形成的轉錄本,灰色的fragment是隨機打斷該轉錄本生成的序列,紅色為融合基因對應的breakpoint,圖中一共4條reads, 但是中間的2條reads 位置相同,可能是PCR 重復,所以實際上只能說有3條reads 支持該融合基因;fusinomap 在統(tǒng)計reads 數(shù)目的時候,實際上只看在第二個基因中的終止位置是否相同來判斷,對于例子中的融合基因,最終的UniqueCuttingPositionCount的值就是3,這個數(shù)值越大,該融合基因越可靠。

2. 密碼子類型

融合轉錄本也會進行翻譯,相比原本兩個基因的密碼子,融合轉錄本的密碼子會存在移碼現(xiàn)象,對于結果中frameshift這一列的信息,示意圖如下

FusionMap中怎么檢測融合基因

以上就是4種常見的融合轉錄本密碼子類型,在FrameshiftClass這一列信息中,將這4種常見類型定義為In-Frame, 其他類型定義為Frame-Shift。

3. 連接點兩側的堿基

通常認為是兩個基因的exon區(qū)域連接形成了融合轉錄本,而exon起始和終止的堿基序列相對保守,根據(jù)這一特征,fusionmap定義了SplicePattern, 即連接點兩側序列的模式,GA-TC這樣的剪切模式是最常見的,類型為CanonicalPatter[Major],接下來比較常見的是GC-AG 和 AT-AC, 類型為CanonicalPatter[Minor], 對于其他的剪切模式,一般不常見,類型為NonCanonicalPatter;如果一個融合基因的breakpoint 處的剪切模式越常見,則檢測到的該融合基因為真實存在的融合基因的可能信越大。

看完上述內容是否對您有幫助呢?如果還想對相關知識有進一步的了解或閱讀更多相關文章,請關注億速云行業(yè)資訊頻道,感謝您對億速云的支持。

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng)、轉載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權內容。

AI