【直播】我的基因組 32:使用annovar注釋vcf

2021-02-28 生信技能樹

ANNOVAR是一個perl編寫的命令行工具,能在安裝了perl解釋器的多種作業系統上執行。允許多種輸入文件格式,包括最常被使用的VCF格式。輸出文件也有多種格式,包括注釋過的VCF文件、用tab或者逗號分隔的txt文件。ANNOVAR能快速注釋遺傳變異並預測其功能。類似的variants注釋軟體還有VEP,snpEff,VAAST,AnnTools等等。

這是annovar的第一講,照例我們先簡單試用一下它的基礎功能,因為這樣的遺傳變異位點的注釋軟體,功能實在是太多了,但是它最基礎的東西是根據變異位點的坐標已經現有研究已知基因結構坐標的信息來將變異進行分類,類別如下:

其中位於外顯子上面的突變是尤為重要的,所以會重點分析:

兩個步驟即可:

~/biosoft/ANNOVAR/annovar/convert2annovar.pl -format vcf4old  realign.vcf  >realign.annovar

~/biosoft/ANNOVAR/annovar/annotate_variation.pl -buildver hg19 --geneanno --outfile realign.anno realign.annovar ~/biosoft/ANNOVAR/annovar/humandb/

annovar默認的注釋方式是:

Done with 50914 transcripts (including 11516 without coding sequence annotation) for 26271 unique genes

這個是最基礎的注釋,幾分鐘就完成了480萬個位點的注釋。

其中有31741個variation位點在外顯子上面,是指的我們重點關注的,其中外顯子的variation又可以分成下面幾種情況:

一般公司會把上面的數據畫成一個好看的餅圖,但這不是我們的重點,分析自己的基因組數據是為了探究本質的東西,而不是浮於表面。

文:Jimmy、吃瓜群眾

圖文編輯:吃瓜群眾

相關焦點

  • 使用snpEff對VCF進行注釋
    snpEff未提供相應的數據集(例如自己組裝的基因組)情況1: 我們可以使用java -jar snpEff.jar databases | grep -i human的方式列出所有的數據集,然後用grep進行篩選例如人類的基因組注釋數據集就分為GRCh37.p13.RefSeq和GRCh38
  • GATK4.0全基因組和全外顯子組分析實戰(修改版)
    可能很多非人的物種在完成變異檢測之後沒法使用GATK VQSR的方法進行質控,一些小panel、外顯子測序,由於最後的變異位點不夠,也無法使用VQSR。全基因組分析或多個樣本的全外顯子組分析適合用此方法。
  • 一個全基因組重測序分析實戰
    PS:其實本文應該屬於直播我的基因組系列,有兩個原因把它單獨拿出來,首先,直播我的基因組閱讀量太低了,可能是大家覺得錯過了前面的,後面的看起來沒有必要,這裡我可以肯定的告訴大家,這一講是獨立的,而且是全流程,你學好了這個,整個直播我的基因組就可以不用看了。
  • 細菌基因組信息分析與解讀專題系列(二)——細菌基因組注釋Ⅰ(基因預測和ncRNA)
    要解讀隱藏在這些字符和排列中的生命含義,就需要經過一個根據已有知識進行預測的注釋過程。 基因組注釋(Genome annotation)是利用生物信息學方法和工具,對基因組所有基因的生物學功能進行高通量注釋,是當前功能基因組學研究的一個熱點。基因組注釋的研究內容包括基因識別、基因組功能注釋,而基因組功能注釋包括基因預測、ncRNA、重複序列、CRISPR預測、分泌蛋白預測等。
  • 925個PacBio測序注釋的細菌基因組現已上線,拿走不謝!
    近日由英國公共衛生部PHE(Public Health England), 太平洋生命科學公司PacBio (Pacific Biosciences) 及維爾康姆基金會桑格研究所Sanger(the Wellcome Trust Sanger Institute) 三方合作的NCTC 3000項目公開了新項目進展,已上線了925個注釋的細菌基因組
  • 【技術乾貨】動植物GWAS經典軟體TASSEL的使用
    /plink --vcf ./test.vcf --maf 0.05 --geno 0.2 --mind 0.2 --hwe 0.001 --biallelic-only --recode vcf-iid --out test.bia.maf0.05.int0.8.ind0.8.hwe0.001 --allow-extra-chr--vcf 表示輸入的文件為vcf文件--maf 控制第二等位基因頻率的
  • 傳說中的千人基因組計劃
    國際千人基因組計劃,作為基因組科學的裡程碑,從研究初始就備受關注,現在國際千人基因組計劃已免費對外開放,大家就更加關注一點:我們怎麼使用它?先給大家展示一下他的官網(http://www.internationalgenome.org/home)
  • 【爾雲間】解析同源四倍體基因組的組裝
    同源多倍體基因組一直以來是組裝界難以攻破的大boss,幸運的是,基於迄今可用的最佳技術(準確的CCS reads,Hi-C數據和allele-aware組裝算法),首次破譯了我國特有品種「新疆大葉」紫花苜蓿的四倍體基因組,成功地組裝出了所有等位基因染色體,該研究成果於2020年5月19日在Nature Communications期刊上發表。
  • oncotator:腫瘤研究專用的突變注釋軟體
    目前,較為流行的突變注釋軟體有以下3種ANNOVARSnpEffVariant Effect Predictor(VEP)這三款軟體適用範圍廣,可以注釋任何的基因組變異,無論是germline還是somatic variants。
  • 基因型填補(genotype imputation)網站學習
    基因型填補( genotype imputation)是一種基於觀察對象已有基因型,對未進行基因分型(genotyping) 的位點之等位基因( allele) 進行預測的方法。 1.準備文件 將自己的二進位文件轉換為vcf格式(因為imputation中需要用到vcf格式文件) Plink --bfile wgas3 --recode vcf --out gzhtest 檢查文件是否存在問題: bcftools
  • 關於真菌基因組分析
    1:關於真菌基因組次級代謝分析可以使用SMURF和AntiSMASH,基因組注釋使用MAKER,
  • 如何使用Shapeit2對人類基因組數據進行Phasing
    而Shapeit3主要是針對超大規模人群,一般是量級在幾萬人規模的基因組會更加合適,都是牛津大學的團隊開發的,這個版本3可以說是為他們國家的GenomicsEngland計劃定製的,這是一個要測10萬英國人基因組的大型項目——也是目前世界上推得最快的國家級基因組計劃。
  • 微生物組學數據分析工具綜述 | 16S+宏基因組+宏病毒組+宏轉錄組
    關於16S的全流程,我在生信者言的千聊直播間裡和大家做過系列課程分享,ppt可聯繫小秘書Anymore(微信號:genegogo007)獲取,另外,專門針對16S的生信分析,也給大家做過一個詳細的工具單和點評:《9個模塊+40
  • 解碼生命:從多視角看生命|遺傳|人類基因組計劃|解碼生命|基因組|...
    28314.4.2 翻譯後修飾蛋白質組研究技術 28314.5 人類染色體蛋白質組計劃和人類基因組編碼基因注釋校準 28614.5.1 高覆蓋蛋白質組技術的發展 28614.5.2 以 1 號染色體蛋白質組研究為例的國際人染色體蛋白質組研究 29014.5.3 基於染色體的搜尋引擎CAPER的研究進展 29114.6
  • 「群體遺傳學實戰」第一課: 對SNP位點進行注釋
    數據準備根據文章提供的下載地址,我們分別下載西瓜的基因組,GFF注釋文章和存放的VCF的數據集。很可惜,作者並沒有在文章中指出他是使用什麼軟體對SNP進行注釋,可能是自己寫了一個腳本進行分析,而我為了偷懶,直接用一個現成的軟體,snpEFF,對VCF文件中的SNP進行注釋。
  • EggNOG功能注釋資料庫在線和本地使用
    在考慮來自一個給定基因組的蛋白時,這種比較將給出每個其他基因組的一個最相似的蛋白(因此需要用完整的基因組來定義COG),這些基因的每一個都輪番的被考慮。如果在這些蛋白(或子集)之間一個相互的最佳匹配關係被發現,那麼那些相互的最佳匹配將形成一個COG。這樣,一個COG中的成員將與這個COG中的其他成員比起被比較的基因組中的其他蛋白更相像。
  • 基因的命名
    最近科學家對重命名了多個人類基因,以避免被 Excel 自動糾正。這的確是將好事,我以前就受到過困擾,比如這次被改的SEPT1基因,我就遇到過好幾次,由於處理數據過程中一般都會vcf文件,結果只要用excel打開,就自動變更成了9月1號,這不是玩我嗎,現在改為 SEPTIN1,很合適。
  • 免費又好用的基因功能注釋平臺
    得到基因序列之後,需要將基因序列與已知資料庫進行比對,例如nr庫,uniprot,GO,kegg等,由於資料庫比較大,往往需要較長的比對時間。我們可以使用eggnog-mapper工具進行功能注釋,但是需要下載較大的資料庫。目前,eggnog官網提供了一個在線工具,只需上傳文件,即可進行基因功能注釋,非常方便。
  • 華為雲攜手峰科發布FPGA基因加速雲解決方案,基因測序性能提升5倍
    第三,不修改GATK標準流程,可訪問讀取從原始測序數據到生成vcf文件整個過程中的中間數據,便於科研用戶使用比對。 1. 華為雲FPGA基因加速解決方案解析 華為雲FPGA基因加速解決方案集成峰科的加速IP,為用戶提供一種易於使用,經濟實惠的基於FPGA的基因組分析流程加速服務,在該方案中,華為雲配備了32核CPU,單個VU9P FPGA的實例。