MAF:Mutation Annotation Format格式簡介

2020-10-18 生信修煉手冊

Mutation Annotation Format, 簡稱MAF, 是由TCGA制定的一種文件格式,用來存儲突變注釋信息。在TCGA中,對於突變數據有以下四種類型

  1. Annotated Somatic Mutation, 體細胞突變的注釋文件,格式為VCF, 採用VEP軟體進行注釋,文件後綴為vep.vcf.gz

  2. Raw Simple Somatic Mutation, 體細胞突變的原始文件,格式為VCF, 文件後綴為vcf.gz

  3. Aggregated Somatic Mutation, protected的突變注釋文件,需要帳號和權限才可以下載,格式為MAF, 文件後綴為maf.gz

  4. Masked Somatic Mutation, open access的突變注釋文件,免費下載的,格式為MAF, 文件後綴為maf.gz

在TCGA中,VCF通常用於記錄單個樣本的體細胞突變相關結果,MAF用於整合所有樣本的體細胞突變注釋結果,所以稱MAF格式為project-level, 根據數據的開放性,又分為protected和open access, 其中open access就是我們可以直接下載得到的MAF文件, 以乳腺癌為例,在TCGA中提供了4個MAF文件

對應4個不同的體細胞突變calling軟體,每個文件中包含了1044個樣本的體細胞SNV注釋結果。

MAF和VCF類似,也是一個純文本的格式,由\t分隔的許多列構成,從GDC下載的MAF文件的截圖如下

#開頭的為注釋行,其他部分為正文,每一列有一個固定的表頭, 完整的MAF共有100多列,在實際處理中,我們可能沒有這麼多列的信息,常用的幾列解釋如下

  1. column1, Hugo_Symbol, 由HUGO提供的gene  symbol, 表示SNV所在的基因名稱

  2. column 2,Entrez_Gene_id, SNV所在基因的entrez  id, 如果沒有對應的基因,則用0表示

  3. column 4,NCBI_Build, snv calling時使用的參考基因組版本

  4. column5,Chromsome, SNV所在的染色體

  5. column6,Start_Position, SNV在染色體上的起始位置

  6. column7,End_Position,SNV在染色體上的終止位置

  7. column9,Variant_Classification, SNV位點的分類,Missense_Mutation,Nonsense_Mutation等類別,分類的依據為SNV對翻譯的影響

  8. column10,Variant_Type,  SNV位點的類型,比如SNP, INS,DEl等類型

  9. column11,Reference_Allel, 參考基因組上的allel

  10. column12,Tumor_Seq_Allel1, 腫瘤樣本中該位點對應的主等位基因

  11. column13,Tumor_Seq_Allel2,腫瘤樣本中該位點對應的次等位基因

  12. column16,Tumor_Sample_Barcode, 腫瘤樣本的barcode

  13. column17,Tumor_Normal_Barcode,配對的正常樣本的barcode

每一列的詳細含義見如下連結

https://docs.gdc.cancer.gov/Data/File_Formats/MAF_Format/

MAF是專門針對human定義的一種文件格式,通過一個文件就可以包含所有樣本的SNV和對應的注釋信息,對於下遊分析而言,非常的方便。在實際使用中, 對於VCF文件,可以通過vcf2maf將其轉換為MAF格式,在後續文章中會具體介紹該軟體的用法。

·end·

相關焦點

  • maftools: 可視化maf文件的神器
    https://bioconductor.org/packages/release/bioc/vignettes/maftools/inst/doc/maftools.html提供了非常多的可視化方案,用法也比較簡便,首先讀取MAF文件,代碼如下> library(maftools)> maf
  • Pengenalan Format-format pada Video
    yang digunakannya pada Smartphone.AVI (Audio Video Interleave)AVI atau dapat disebut Audio Video Interleave merupakan format berkas video buatan Microsoft.
  • Incaseformat病毒大面積突發,警惕文件遭刪除
    近日,一種叫Incaseformat的病毒席捲而來,全國各個區域都有用戶出現電腦被Incaseformat病毒佔據的跡象。具體表現形式為:除c盤以外的所有磁碟都被清空,或者存在一兩個文件夾,且文件夾內包含著名稱為「incaseformat.txt」的文件。那麼這種病毒到底是什麼來頭?會給我們的計算機帶來什麼危害?
  • BIOM:生物觀測矩陣——微生物組數據通用數據格式
    簡介http://biom-format.org/BIOM格式是微生物組領域最常用的結果保存格式
  • Flink 源碼|自定義 Format 消費 Maxwell CDC 數據
    所以就有了今天的分享:如何去自定義實現一個 Maxwell format。大家也可以基於此文的思路去實現其他 CDC format,比如 OGG, 或是自研 CDC 工具產生的數據格式。反序列化類(DeserializationSchema):負責運行時的解析,根據固定格式將 CDC 數據轉換成 Flink 系統能認識的 INSERT/DELETE/UPDATE 消息,如 RowData。即 MaxwellJsonDeserializationSchema。
  • incaseformat病毒發展歷程,如何殺毒及恢復數據!
    近兩日,PC端一種名為incaseformat的蠕蟲病毒在國內爆發,會強制性的自複製並刪除除系統盤外的所有磁碟文件,對用戶造成難以估量的損失。因此,事感焦急,這邊給大家詳細介紹incaseformat病毒發展歷程,如何殺毒及被病毒刪除的數據如何恢復回來,及時止損。
  • INCASEFORMAT 病毒來襲!避免文件遭刪除
    獵鷹安全解決方案一、事件簡介昨天開始INCASEFORMAT 病毒大面積爆發。今日獵鷹安全收到用戶上報的相關問題,反應很多電腦開機就出現除C盤外數據丟失或直接被格式化,獵鷹安全提醒用戶,如有重要數據不要向數據盤裡再存入數據!固態硬碟可能存在數據丟失。
  • 【022】寫作格式 | APA格式第七版與第六版的差別
    APA格式第七版與第六版在很多方面都有些改變,單獨梳理一下,方便正確運用。
  • TCGA|根據somatic mutation繪製突變景觀圖(oncoplot)和基因詞雲
    1.3 maf文件繪製詞雲圖如果使用maftools中的maf文件繪製呢?
  • 還在糾結APA格式?一篇乾貨教會你!(中)
    好了,基本格式介紹到這裡,最後奉上APA 格式最權威的網站:https://owl.purdue.edu/owl/research_and_citation/apa_style/apa_formatting_and_style_guide/general_format.html 希望這期內容能夠幫到大家
  • 火絨安全關於Incaseformat蠕蟲病毒詳細解答
    1月13日, 「Incaseformat」病毒因其破壞性以及集中爆發的特性,在全網引起了大量用戶的高度關注。火絨安全實驗室迅速對該事件跟進確認,並整理、解答用戶關心的8個重要問題。1、incaseformat病毒是什麼類型病毒?「incaseformat病毒」為蠕蟲病毒,不具備加密文件危害。
  • Newick: tree文件格式簡介
    Newick 是最常見的進化樹文件格式,了解這種格式之前,有必要先掌握樹狀結構的構成。對於newick這種格式,採用圓括號將同胞節點括起來,多個節點之間用逗號相連,比如A和B表示為(A,B)對於父節點,直接寫在子節點圓括號的外面,比如C,D, E 表示為(C,D)E通過圓括號的嵌套區分不同層級,然後就可以表示出一個完整的樹
  • Excel自動生成日期及格式設置、禁止輸入3-1轉日期、日期轉換文本
    日期格式有許多種,有數字加短橫線的,也有數字加漢字的,還可以自定義。日期格式可以與文本格式相互轉換,其中日期格式轉換為文本格式需要用函數,文本格式轉換為日期格式則更簡單。另外,在單元格中輸入「數字-數字」會自動轉換為日期,但有辦法禁止。以下列舉了以上每一種操作的實例,實例中所用 Excel 版本為 2016。
  • incaseformat蠕蟲病毒:警惕文件被刪除,拒絕被勒索
    近期,不少關於系統安全的網站都在發布:一種名叫「incaseformat」蠕蟲病毒正在肆意傳播。那麼這種病毒有什麼危害呢?其實,它XP時代的「EXE病毒」,感染用戶機器後會通過U盤自我複製感染到其他電腦,導致電腦中磁碟文件被刪除,給用戶造成極大損失。所以,這裡小編提醒大家:近期需要警惕,拒絕因為文件被刪除的勒索!
  • 仿微信的IM聊天時間顯示格式(含iOS/Android/Web實現)[圖文+源碼]
    注意:聊天內容界面裡的時間格式,實際上是首頁「消息」界面裡的時間格式加上「時:分」後的結果,所以代碼實現上這兩套代碼是可以重用的,無需兩份代碼。好了,規則已經摸清,下面將直接上代碼。/** * 獲得指定NSDate對象iOS時間戳(格式遵從ios的習慣,以秒為單位)。