ANNOVAR是一個perl編寫的命令行工具,能在安裝了perl解釋器的多種作業系統上執行。允許多種輸入文件格式,包括最常被使用的VCF格式。輸出文件也有多種格式,包括注釋過的VCF文件、用tab或者逗號分隔的txt文件。ANNOVAR能快速注釋遺傳變異並預測其功能。類似的variants注釋軟體還有VEP,snpEff,VAAST,AnnTools等等。
這是annovar的第一講,照例我們先簡單試用一下它的基礎功能,因為這樣的遺傳變異位點的注釋軟體,功能實在是太多了,但是它最基礎的東西是根據變異位點的坐標已經現有研究已知基因結構坐標的信息來將變異進行分類,類別如下:
其中位於外顯子上面的突變是尤為重要的,所以會重點分析:
兩個步驟即可:
~/biosoft/ANNOVAR/annovar/convert2annovar.pl -format vcf4old realign.vcf >realign.annovar
~/biosoft/ANNOVAR/annovar/annotate_variation.pl -buildver hg19 --geneanno --outfile realign.anno realign.annovar ~/biosoft/ANNOVAR/annovar/humandb/
annovar默認的注釋方式是:
Done with 50914 transcripts (including 11516 without coding sequence annotation) for 26271 unique genes這個是最基礎的注釋,幾分鐘就完成了480萬個位點的注釋。
其中有31741個variation位點在外顯子上面,是指的我們重點關注的,其中外顯子的variation又可以分成下面幾種情況:
一般公司會把上面的數據畫成一個好看的餅圖,但這不是我們的重點,分析自己的基因組數據是為了探究本質的東西,而不是浮於表面。
文:Jimmy、吃瓜群眾
圖文編輯:吃瓜群眾