Mutation Annotation Format, 簡稱MAF, 是由TCGA制定的一種文件格式,用來存儲突變注釋信息。在TCGA中,對於突變數據有以下四種類型
Annotated Somatic Mutation, 體細胞突變的注釋文件,格式為VCF, 採用VEP軟體進行注釋,文件後綴為vep.vcf.gz
Raw Simple Somatic Mutation, 體細胞突變的原始文件,格式為VCF, 文件後綴為vcf.gz
Aggregated Somatic Mutation, protected的突變注釋文件,需要帳號和權限才可以下載,格式為MAF, 文件後綴為maf.gz
Masked Somatic Mutation, open access的突變注釋文件,免費下載的,格式為MAF, 文件後綴為maf.gz
在TCGA中,VCF通常用於記錄單個樣本的體細胞突變相關結果,MAF用於整合所有樣本的體細胞突變注釋結果,所以稱MAF格式為project-level, 根據數據的開放性,又分為protected和open access, 其中open access就是我們可以直接下載得到的MAF文件, 以乳腺癌為例,在TCGA中提供了4個MAF文件
對應4個不同的體細胞突變calling軟體,每個文件中包含了1044個樣本的體細胞SNV注釋結果。
MAF和VCF類似,也是一個純文本的格式,由\t
分隔的許多列構成,從GDC下載的MAF文件的截圖如下
#
開頭的為注釋行,其他部分為正文,每一列有一個固定的表頭, 完整的MAF共有100多列,在實際處理中,我們可能沒有這麼多列的信息,常用的幾列解釋如下
column1, Hugo_Symbol, 由HUGO提供的gene symbol, 表示SNV所在的基因名稱
column 2,Entrez_Gene_id, SNV所在基因的entrez id, 如果沒有對應的基因,則用0表示
column 4,NCBI_Build, snv calling時使用的參考基因組版本
column5,Chromsome, SNV所在的染色體
column6,Start_Position, SNV在染色體上的起始位置
column7,End_Position,SNV在染色體上的終止位置
column9,Variant_Classification, SNV位點的分類,Missense_Mutation,Nonsense_Mutation等類別,分類的依據為SNV對翻譯的影響
column10,Variant_Type, SNV位點的類型,比如SNP, INS,DEl等類型
column11,Reference_Allel, 參考基因組上的allel
column12,Tumor_Seq_Allel1, 腫瘤樣本中該位點對應的主等位基因
column13,Tumor_Seq_Allel2,腫瘤樣本中該位點對應的次等位基因
column16,Tumor_Sample_Barcode, 腫瘤樣本的barcode
column17,Tumor_Normal_Barcode,配對的正常樣本的barcode
每一列的詳細含義見如下連結
https://docs.gdc.cancer.gov/Data/File_Formats/MAF_Format/
MAF是專門針對human定義的一種文件格式,通過一個文件就可以包含所有樣本的SNV和對應的注釋信息,對於下遊分析而言,非常的方便。在實際使用中, 對於VCF文件,可以通過vcf2maf將其轉換為MAF格式,在後續文章中會具體介紹該軟體的用法。
·end·