您好,登錄后才能下訂單哦!
這篇文章給大家介紹如何理解Mutation Annotation Format格式,內(nèi)容非常詳細,感興趣的小伙伴們可以參考借鑒,希望對大家能有所幫助。
Mutation Annotation Format, 簡稱MAF, 是由TCGA制定的一種文件格式,用來存儲突變注釋信息。在TCGA中,對于突變數(shù)據(jù)有以下四種類型
Annotated Somatic Mutation, 體細胞突變的注釋文件,格式為VCF, 采用VEP軟件進行注釋,文件后綴為vep.vcf.gz
Raw Simple Somatic Mutation, 體細胞突變的原始文件,格式為VCF, 文件后綴為vcf.gz
Aggregated Somatic Mutation, protected的突變注釋文件,需要賬號和權(quán)限才可以下載,格式為MAF, 文件后綴為maf.gz
Masked Somatic Mutation, open access的突變注釋文件,免費下載的,格式為MAF, 文件后綴為maf.gz
在TCGA中,VCF通常用于記錄單個樣本的體細胞突變相關(guān)結(jié)果,MAF用于整合所有樣本的體細胞突變注釋結(jié)果,所以稱MAF格式為project-level, 根據(jù)數(shù)據(jù)的開放性,又分為protected和open access, 其中open access就是我們可以直接下載得到的MAF文件, 以乳腺癌為例,在TCGA中提供了4個MAF文件
對應(yīng)4個不同的體細胞突變calling軟件,每個文件中包含了1044個樣本的體細胞SNV注釋結(jié)果。
MAF和VCF類似,也是一個純文本的格式,由\t
分隔的許多列構(gòu)成,從GDC下載的MAF文件的截圖如下
#
開頭的為注釋行,其他部分為正文,每一列有一個固定的表頭, 完整的MAF共有100多列,在實際處理中,我們可能沒有這么多列的信息,常用的幾列解釋如下
column1, Hugo_Symbol, 由HUGO提供的gene symbol, 表示SNV所在的基因名稱
column 2,Entrez_Gene_id, SNV所在基因的entrez id, 如果沒有對應(yīng)的基因,則用0表示
column 4,NCBI_Build, snv calling時使用的參考基因組版本
column5,Chromsome, SNV所在的染色體
column6,Start_Position, SNV在染色體上的起始位置
column7,End_Position,SNV在染色體上的終止位置
column9,Variant_Classification, SNV位點的分類,Missense_Mutation,Nonsense_Mutation等類別,分類的依據(jù)為SNV對翻譯的影響
column10,Variant_Type, SNV位點的類型,比如SNP, INS,DEl等類型
column11,Reference_Allel, 參考基因組上的allel
column12,Tumor_Seq_Allel1, 腫瘤樣本中該位點對應(yīng)的主等位基因
column13,Tumor_Seq_Allel2,腫瘤樣本中該位點對應(yīng)的次等位基因
column16,Tumor_Sample_Barcode, 腫瘤樣本的barcode
column17,Tumor_Normal_Barcode,配對的正常樣本的barcode
每一列的詳細含義見如下鏈接
https://docs.gdc.cancer.gov/Data/File_Formats/MAF_Format/
MAF是專門針對human定義的一種文件格式,通過一個文件就可以包含所有樣本的SNV和對應(yīng)的注釋信息,對于下游分析而言,非常的方便。在實際使用中, 對于VCF文件,可以通過vcf2maf將其轉(zhuǎn)換為MAF格式,在后續(xù)文章中會具體介紹該軟件的用法。
關(guān)于如何理解Mutation Annotation Format格式就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,可以學(xué)到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。