GATK4 最佳實踐-生殖細胞突變的檢測與識別

2021-02-21 生信修煉手冊

歡迎關注"生信修煉手冊"!

GATK4 對於體細胞突變和生殖細胞突變的檢測分別給出了對應的pipeline:

Germline SNPs+Indels

Somatic SNVs + Indels

本篇主要關注生殖細胞突變的分析流程Germline SNPs+Indels。示意圖如下:

圖中紅色方框部分的從Analysis-Ready Bam 到,主要包括以下4步

HaplotyperCaller in GVCF mode

ImportGenomicsDB Consolidate GVCFs

GenotypeGVCFs

Filter Variants by Variabt Recalibration

官網給出了6套用於參考的pipeline

主要分析步驟都差不多,這裡我選擇第4個通用的流程 ,網址如下

https://github.com/gatk-workflows/gatk4-germline-snps-indels

1.  HaplotyperCaller in GVCF mode

對於每個樣本,採用HaplotyperCaller計算突變位點,命令如下

gatk --java-options "-Xmx6G -XX:GCTimeLimit=50 -XX:GCHeapFreeLimit=10" \    HaplotypeCaller \    -R ${ref_fasta} \    -I ${input_bam} \    -L ${interval_list} \    -O ${output_filename} \    -contamination 0 -ERC GVCF

ref_fasta代表參考基因組的fasta文件;input_bam代表預處理階段產生的 bam文件;interval代表interval list文件,如果指定這個參數,只會輸出指定區域的突變信息。對於全基因組測序,不需要這個參數,對於外顯子和目的區域捕獲測序, 則需要這個參數;output_filename代表每個樣本輸出的gvcf文件的名字。

2. ImportGenomicsDB Consolidate GVCFs

將所有樣本的gvcf文件合併,產生一個總的gvcf文件,命令如下:

gatk --java-options -Xmx2G  \    MergeVcfs \    --INPUT ${sep=' --INPUT ' input_vcfs} \    --OUTPUT ${output_filename}

3. GenotypeGVCFs

包括兩個步驟,第一步,導入MergeVcfs合併好的gvcf文件, 命令如下

gatk --java-options "-Xmx4g -Xms4g" \    GenomicsDBImport \    --genomicsdb-workspace-path ${workspace_dir_name} \    --batch-size ${batch_size} \    -L ${interval} \    --sample-name-map ${sample_name_map} \    --reader-threads 5 \    -ip 500

workspace_dir_name代表輸出目錄;batch_size指定同時訪問的最大文件數,默認值為0,表示同時訪問所有樣本的文件;interval代表interval list文件,如果指定這個參數,只會輸出指定區域的突變信息。對於全基因組測序,不需要這個參數,對於外顯子和目的區域捕獲測序, 則需要這個參數;sampple_name_map是一個文件,記錄了樣本名稱和每個樣本對應的gvcf文件的路徑。格式如下

sample1      sample1.vcf.gz
sample2      sample2.vcf.gz
sample3      sample3.vcf.gz

第二步, 運行GenotypeGVCFs,命令如下

gatk --java-options "-Xmx5g -Xms5g" \    GenotypeGVCFs \    -R ${ref_fasta} \    -O ${output_vcf_filename} \    -D ${dbsnp_vcf} \    -G StandardAnnotation \    --only-output-calls-starting-in-intervals \    --use-new-qual-calculator \    -V gendb://$WORKSPACE \    -L ${interval}

需要注意-V 參數,指定的是GenomicsDBImport輸出目錄的路徑。

4. Filter Variants by Variabt Recalibration

第一步,過濾vcf文件,條件為ExcessHet大於給定的閾值,命令如下:

gatk --java-options "-Xmx3g -Xms3g" \    VariantFiltration \    --filter-expression "ExcessHet > ${excess_het_threshold}" \    --filter-name ExcessHet \    -O ${variant_filtered_vcf_filename} \    -V ${vcf}

excess_het_threshold指定ExcessHet的閾值;variant_filtered_vcf_filename代表輸出的vcf文件的名字;vcf代表GenotypeGVCFs 生成的vcf文件的名字。注意,不滿足條件的記錄也會出現在最終生成的vcf文件中, 只不過對應的Filter欄位的信息不是PASS。

第二步,刪除vcf文件中的基因型信息,命令如下

gatk --java-options "-Xmx3g -Xms3g" \    MakeSitesOnlyVcf \    --INPUT ${variant_filtered_vcf_filename} \    --OUTPUT ${sites_only_vcf_filename}

第三步,合併不同區間的vcf文件,並建立索引

gatk --java-options "-Xmx6g -Xms6g" \  GatherVcfsCloud \  --ignore-safety-checks \  --gather-type BLOCK \  --input ${inputs.list} \  --output ${output_vcf_name}gatk --java-options "-Xmx6g -Xms6g" \   IndexFeatureFile \   --feature-file ${output_vcf_name}

output_vcf_name代表輸出的vcf文件;inputs.list指定不同區間的vcf文件的路徑,格式如下

cohortA_chr1.vcf.gz
cohortA_chr2.vcf.gz

第四步,分別評估SNP和INDEL突變位點的質量, 命令如下

gatk --java-options "-Xmx24g -Xms24g" \    VariantRecalibrator \    -V ${sites_only_variant_filtered_vcf} \    -O ${recalibration_filename} \    --tranches-file ${tranches_filename} \    --trust-all-polymorphic \    -tranche ${sep=' -tranche ' recalibration_tranche_values} \    -an ${sep=' -an ' recalibration_annotation_values} \    -mode INDEL \    --max-gaussians 4 \    -resource mills,known=false,training=true,truth=true,prior=12:${mills_resource_vcf} \    -resource axiomPoly,known=false,training=true,truth=false,prior=10:${axiomPoly_resource_vcf} \    -resource dbsnp,known=true,training=false,truth=false,prior=2:${dbsnp_resource_vcf}gatk --java-options "-Xmx100g -Xms100g" \      VariantRecalibrator \      -V ${sites_only_variant_filtered_vcf} \      -O ${recalibration_filename} \      --tranches-file ${tranches_filename} \      --trust-all-polymorphic \      -tranche ${sep=' -tranche ' recalibration_tranche_values} \      -an ${sep=' -an ' recalibration_annotation_values} \      -mode SNP \      --sample-every-Nth-variant ${downsampleFactor} \      --output-model ${model_report_filename} \      --max-gaussians 6 \      -resource hapmap,known=false,training=true,truth=true,prior=15:${hapmap_resource_vcf} \      -resource omni,known=false,training=true,truth=true,prior=12:${omni_resource_vcf} \      -resource 1000G,known=false,training=true,truth=false,prior=10:${one_thousand_genomes_resource_vcf} \      -resource dbsnp,known=true,training=false,truth=false,prior=7:${dbsnp_resource_vcf}

resource指定建模時參考的vcf文件,可以看到對於indel和snp, 參考的資料庫不一樣。這一步只是建模,會輸出一個recalibration table文件,用於ApplyVQSR命令。

第五步,運行VQSR, 命令如下

gatk --java-options "-Xmx5g -Xms5g" \    ApplyVQSR \    -O tmp.indel.recalibrated.vcf \    -V ${input_vcf} \    --recal-file ${indels_recalibration} \    --tranches-file ${indels_tranches} \    --truth-sensitivity-filter-level ${indel_filter_level} \    --create-output-variant-index true \    -mode INDELgatk_path --java-options "-Xmx5g -Xms5g" \    ApplyVQSR \    -O ${recalibrated_vcf_filename} \    -V tmp.indel.recalibrated.vcf \    --recal-file ${snps_recalibration} \    --tranches-file ${snps_tranches} \    --truth-sensitivity-filter-level ${snp_filter_level} \    --create-output-variant-index true \    -mode SNP

input_vcf文件為GatherVcfsCloud生成的vcf文件,先校正INDEL位點,後校正SNP位點。

掃描關注微信號,更多精彩內容等著你!

相關焦點

  • GATK4.0和全基因組數據分析實踐(上)
    /4.0.1.2/gatk MarkDuplicates -I /Project/201802_wgs_practice/output/E.coli/E_coli_K12.sorted.bam -O /Project/201802_wgs_practice/output/E.coli/E_coli_K12.sorted.markdup.bam -M /Project/201802_wgs_practice
  • GATK BQSR的意義與作用
    比如測序識別到的一個位點,其鹼基和參考基因組上的鹼基不同,但是其質量值特別低,此時可以認為是一個測序錯誤,而不是一個SNP位點。在測序的原始數據中,本身就提供了每個鹼基對應的質量值,但是GATK官方認為測序儀提供的鹼基質量值,是不準確的,存在誤差的。某個位點前後的鹼基的種類,稱之為上下文環境,會對這個鹼基的質量值產生影響。
  • RNA-seq 檢測變異之 GATK 最佳實踐流程
    ,比對到參考基因組需要跨越轉錄剪切位點,所以 RNA-seq 進行變異檢測的重點就在於跨剪切位點的精確序列比對。文獻 systematic evaluation of spliced alignment programs for RNA-seq data 中對 RNA-seq 數據常用的 11 款比對軟體進行了詳細測試,包括 STAR 2-pass,而 GATK 對 RNA-seq 數據變異檢測的最佳實踐流程中選用了 STAR
  • GATK pipeline鑑定基因組變異的scripts
    /tmp samtools depth -a $line.dedup.bam > $line.depth_out.txt gatk HaplotypeCaller --native-pair-hmm-threads 80 -R ref.fa -I $line.dedup.bam -O $line.raw.vcf gatk SelectVariants -R ref.fa -V $line.raw.vcf
  • GATK介紹
    Construction of Library for DNA/RNA想了解更多關於NGS的技術,可自行查找參考文獻         在GEO資料庫中,最多的為晶片數據,即採用探針技術,對基因表達和甲基化等進行定量檢測的技術。
  • 衛星影像識別技術在高德數據建設中的探索與實踐
    本文會介紹高德視覺團隊將衛星影像從被動參考升級為主動發現的過程中的探索和實踐。POI與樓塊強相關性衛星影像識別技術探索實踐Encoder-Decoder分別下採樣4次+上採樣4次,將Encoder得到的高級語義特徵圖恢復到原圖片的解析度。
  • 全美首家輔助生殖機構——太平洋生殖中心(PFC)
    新時代的女性,在社會上越發佔據著不可替代的位置,工作壓力大、生活環境差、超過最佳生育年齡等種種因素充斥著女性的生活,不孕的危機正慢慢侵蝕著現代女性。有的夫妻錯過了最佳的試管輔助治療時間,而把寶貴的時間用於所謂的身體中藥調理或營養補充劑加運動等所謂的健康修復中。大家不知道的是,生育能力的衰退是人類身體老化中一項不可逆的趨勢!  對於女性來說,年齡越高懷孕能力越低。
  • 人臉識別技術原理與工程實踐(10個月人臉識別領域實戰總結)
    前兩年,很多機場安檢都開始用上了人臉驗證;今年4月,很多一、二線城市的火車站也開通了「刷臉進站」的功能;北京的一些酒店開始使用人臉識別技術來做身份驗證。2 人臉識別應用場景(識別)我們再來看看幾個場景。第一個是刷臉的自動售貨機。當我第一次看到這個機器的時候就有個疑問:」現在人臉識別算法已經做到萬無一失了嗎,認錯人,扣錯錢怎麼辦?」
  • 樸華生命:打造男性健康服務閉環,引領中國生殖醫學智慧診療
    目前,樸華生命旗下自主研發的已上市的高價值臨床診療技術、醫療器械產品包括有:基於深度學習人工智慧算法的精子質量分析儀、全自動染色儀和精子DNA碎片、核成熟度、存活率、白細胞、活性氧等配套檢測試劑盒,以及面向醫療機構的男科課題組雲平臺整體解決方案,面向輔助生殖中心的精子優選微流控晶片,面向消費者的居家精液智能檢測設備、醫患線上診療移動端應用等一系列圍繞男性生殖健康服務的產品線。
  • 深度學習與圖像識別 圖像檢測
    來源:http://blog.csdn.net/omenglishuixiang1234/article/details/53305842  點擊閱讀原文直接進入主要做了基於深度學習的圖像識別與檢測的研究,下面是一些整理內容1、深度學習的優勢(1)從統計,計算的角度看,DL
  • 三代試管嬰兒PGD檢測的流程是什麼?
    1、促排卵治療2、取卵3、體外受精4、胚胎移植5、驗孕。三代試管嬰兒PGD檢測是包含在體外受精培育後的篩查檢測。什麼是植入前基因診斷(PGD)?試管嬰兒專家指出,植入前基因診斷(PGD)是與IVF周期一起使用的生殖技術,它的作用主要是用於提高懷孕的機會和分娩成功的可能性。它是從胚胎中去除細胞的基因測試,幫助選擇最好的胚胎進行妊娠或免於遺傳疾病。
  • 高精地圖中地面標識識別技術歷程與實踐
    目前檢測識別技術主要分為兩大方向:Two-Stage(如RCNN系列)和One-stage(SSD、YOLO等)。Two-Stage網絡優勢在於效果整體較好,識別位置較精確,對小目標檢測也有一定的競爭力。One-stage檢測識別方法優勢在於處理速度較快。
  • 這裡有份最佳實踐清單
    對於如何使用深度學習進行自然語言處理,本文作者 Sebastian Ruder 給出了一份詳細的最佳實踐清單,不僅包括與大多數 NLP 任務相關的最佳實踐,還有最常見任務的最佳實踐,尤其是分類、序列標註、自然語言生成和神經機器翻譯。作者對最佳實踐的選擇很嚴格,只有被證明在至少兩個獨立的群體中有益的實踐才會入選,並且每個最佳實踐作者至少給出兩個參引。
  • 泊車輔助系統中的車位線自動檢測與識別
    XU等人提出了一種基於顏色分割技術的的方法識別車位線,這種方法只能識別紅色車位線,而且基於顏色信息的方法已經被證明對光照變化是敏感的。Tanaka等人提出了一種對邊緣片段運用RANSAC檢測一組直線來識別車位線。由於這種方法高度依賴於直線檢測,其性能會因為部分汙損而下降。Jung等人提出的方法將各種類型的車位線模型化為一種分層樹結構,基於這種結構完成自動識別。
  • 自然語言處理的最佳實踐
    此存儲庫包含構建 NLP 系統的示例和最佳實踐,在 jupyter notebook 和實用程序函數中提供。知識庫的重點是最先進的方法和常見的場景,這些方法和場景在研究文本和語言問題的研究人員和實踐者中很流行。概述該知識庫的目標是利用 NLP 算法、神經架構和分布式機器學習系統的最新進展構建一套綜合的工具和示例。
  • 腫瘤精準醫療的實踐
    精準醫療是以個體化醫療為基礎,隨著基因組測序技術和蛋白質組檢測技術快速進步,生物信息學與大數據科學的交叉應用以及雲計算構架發展起來的新型醫學概念與醫療模式。源正細胞精準醫療事業部自2013年初開始開展了腫瘤精準治療的實踐,通過癌基因測序,ctDNA及CTC等檢測技術聯合傳統的腫瘤診斷技術,臨床上制定精準的個體化的治療方案並實施,例如腫瘤靶向藥物的跨適應症應用、個體化的腫瘤免疫治療等。未來源正細胞也將將精準醫療業務擴展到心腦血管疾病、糖尿病等慢性病領域。1.
  • PAM-4印刷電路板最佳實踐
    在400GbE通信的實施中,其電氣接口在8通道上傳輸4電平脈衝幅度調製(PAM-4)信令。每通道50Gbps,總共8個通道結合起來,使乙太網的總帶寬可以達到400Gbps。IEEE802.3bs定義了使用50Gbps(即25GBaud)PAM-4信令的400GbE的電氣規範。cHWedncPAM-4具有4種數字幅度電平,如圖1所示。
  • ...鄭大一附院生殖與遺傳專科醫院「植入前胚胎單細胞基因組微...
    患者夫婦女方本人為手足裂畸形患者,其母親和姐姐也為手足裂畸形患者,女方7年前曾生育一手足裂畸形的孩子,2年前再次懷孕,因B超檢測到胎兒手足裂,該夫婦忍痛行中期引產。他們一直期盼著能有一個手足健全的寶寶。手足裂畸形是一種嚴重的出生缺陷,影響患者生活中的精細操作及心理健康。2019年3月,該夫婦慕名來鄭大一附院生殖與遺傳專科醫院求醫。
  • 趙康:某天然氣管道高后果區管段識別及風險評估實踐
    某天然氣管道高后果區管段識別及風險評估實踐 趙康 丁融 田野 鄒斌 孫冰冰 西部管道公司 隨著管道沿線經濟快速發展,天然氣管道周圍住宅、工廠等人口聚集場所增多
  • 五湖名家共聚榕城,極深研幾齊話生殖 ——中國醫師協會生殖醫學專業委員會第五屆生殖醫學學術大會圓滿落幕
    共計兩天的日程分為了兩個主會場和十一個分會場,分別從生殖醫學前沿、生殖內分泌、生殖遺傳、生殖基礎、生殖倫理、生殖外科、輔助生殖技術、生殖男科、患者心理護理等方面,通過院士講堂、專家講壇、專家討論、病例分析、視頻演示、論文分享等豐富多彩的形式,為大家呈上了一場生殖醫學知識盛宴!