GATK4.0全基因組和全外顯子組分析實戰(修改版)

2021-01-18 生信知識

前言

GATK是目前業內最權威、使用最廣的基因數據變異檢測工具。相比samtools + bcftools call SNP/Indel,GATK更加精確,當然代價是流程複雜且耗時長。目前已經更新到GATK4,GATK3在官網已沒有下載通道但其使用仍然很廣泛。GATK4在核心算法層面並沒太多的修改,但參數設置還是有些改變的,並且取消了RealignerTargetCreator、IndelRealigner,應該是HaplotypeCaller繼承了這部分功能。GATK4使用了新的設計模式,做了很多功能的整合,已經把picard完全整合。本文使用的是GATK4.0.2.0,參考了其他人編寫的GATK3x和GATK4x教程,對全基因組和全外顯子組的每個步驟都進行了講解並放上腳本,但讀者還是要略作修改才能本地運行成功,所以具有基本的生信知識和編程、Linux技能才能更好的學習這篇教程,下面開始正文。


軟體

需要fastqc、fastp、BWA、samtools、GATK、annovar(需要學術郵箱才能註冊下載)


數據質控

這部分不贅述,公司交給你的數據肯定質量很高,否則不會交付給你,但是為了放心還是要檢查下的。先用fastqc

wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.7.zip

unzip fastqc_v0.11.7.zip

cd FastQC

chmod755 fastqc

使用:

fastqc wes_1.fq.gz -o fastqc_out_dir/  &&  fastqcwes_2.fq.gz -o fastqc_out_dir/

數據過濾使用fastp

安裝:wget http://opengene.org/fastp/fastp

chmod 755 fastp

使用:./fastp -i in.R1.fq.gz -o out.R1.fq.gz -I in.R2.fq.gz -O out.R2.fq.gz


比對

第一步下載參考基因組

for i in $(seq 1 22) X Y M;

do 

wget  http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr${i}.fa.gz & 

Done

下載完成後解壓合併

gunzip *.gz

for i in $(seq 1 22) X Y M;

do cat chr${i}.fa >> hg19.fa;

Done

構建索引

bwa index -a bwtsw -p hg19 hg19.fa  &

程序運行時間較長,建議使用nohup 或者 screen

最終生成文件  hg19.amb  hg19.ann  hg19.bwt  hg19.pac hg19.sa


bwa比對

bwa mem -t 4 -M -R 『@RG\tID:lane1\tPL:illumina\tLB:library\tSM:wes』 $GENOME clean_wes_1.fq.gz clean_wes_2.fq.gz > wes.sam 2> wes.bwa.align.log &

 -t,線程數;

-M , -M 將 shorter split hits 標記為次優,以兼容 Picard’s markDuplicates 軟體;

-R 接的是 Read Group的字符串信息,它是用來將比對的read進行分組的,這個信息對於我們後續對比對數據進行錯誤率分析和Mark duplicate時非常重要。不設置-R參數不會報錯,但使用GATK時是會報錯的。

(1)ID,這是Read Group的分組ID,一般設置為測序的lane ID

(2) PL,指的是所用的測序平臺

(3) SM,樣本ID

(4) LB,測序文庫的名字

這些信息設置好之後,在RG字符串中要用制表符(\t)將它們分開。


上一步生成的SAM文件是文本文件,一般整個文件都非常巨大,因此,為了有效節省磁碟空間,一般都會用samtools將它轉化為BAM文件(SAM的特殊二進位格式),而且BAM會更加方便於後續的分析。

samtools  view -b -S abc.sam > abc.bam ##由sam生成bam

samtools view -h abc.bam  > abc.sam##由bam生成sam,-h代表是否帶上header

想看bam文件使用命令samtools view -h abc.bam | less

bam文件是一個重要的文件,每一列的意義都需要理解。

前五列分別為:reads名 flag 染色體 位置  比對質量。第十列時read序列,11列是鹼基質量值。第1,10,11列可以提取出來還原成我們的測序數據fastq格式。有人說第五列比對質量值為0時代表該read可以比對到基因組多個位置,說法是否正確我不確定。

第二列的flag包含很多信息,flag解釋網站 http://broadinstitute.github.io/picard/explain-flags.html ,打開此網站

輸入flag值便可以看到包含的信息,其中read unmapped是4,mate unmapped是8,如果雙端reads都不能map到參考基因組上,flag值就包括4和8,和為12。可以用命令samtools view –f 12 wes.bam > unmapped.sam 提取雙端reads都沒有比對成功的reads,samtools view –F 12 wes.bam > mapped.sam 代表過濾雙端都比對不上的reads。


sort 排序

BWA比對後輸出的bam文件是沒順序的,比對後得到的結果文件中,每一條記錄之間位置的先後順序是亂的,我們後續去重複等步驟都需要在比對記錄按照順序從小到大排序下來才能進行。

samtools sort wes.bam -o wes.sorted.bam

做類似分析的時候在文件名字將所做的關鍵操作包含進去,因為這樣即使過了很長時間,當你再去看這個文件的時候也能夠立刻知道當時對它做了什麼。


bam信息統計

做到這一步需要對序列比對情況進行統計,如果比對情況很差需要查找原因。

samtools flagstat wes.sorted.bam > wes.sorted.bam.flagstat

運行samtools flagstat生成的wes.sorted.bam.flagstat包含很多信息,從中可以看出比對情況。


覆蓋度,深度等信息統計

覆蓋度和深度是我們關心的重要參數,如果是全外顯子組可以用picard(已經整合到GATK4中)進行統計。

生成參考基因組的dict文件

$GATK CreateSequenceDictionary -R hg19.fa -O hg19.dict 

生成interval

$GATK BedToIntervalList -I S31285117_Regions.bed -O Exon.Interval.bed -SD ../ref/hg19.dict

外顯子組是用試劑盒捕獲再進行測序,不同試劑盒捕獲的區域不同,要下載相應的包含捕獲區域bed文件,本文用的是安捷倫的捕獲區域的bed文件。

覆蓋度,深度等信息統計

$GATK  CollectHsMetrics -BI Exon.Interval.bed -TI Exon.Interval.bed -I wes.sorted.bam -O wes.cov.txt

生成的wes.cov.txt文件中,下面三個值非常重要,是評估捕獲效率的重要參考

On targeted bases相對總bases的比例(PCT_USABLE_BASES_ON_BAIT)

On and near targeted bases相對總bases的比例(PCT_SELECTED_BASES)

MEAN_TARGET_COVERAGE平均覆蓋度

如果是全基因組wgs,運行以下命令,

$GATK CollectWgsMetrics -I wes.sorted.bam -O wgs.metrics -R $GENOME

生成的wgs.metrics包含多種信息,可自行查閱研究。


去除由於PCR擴增引起的重複reads

在NGS測序之前都需要先構建測序文庫:通過物理(超聲)打斷或者化學試劑(酶切)切斷原始的DNA序列,然後選擇特定長度範圍的序列去進行PCR擴增並上機測序。這個過程中產生的重複reads,增大了變異檢測結果的假陰率和假陽率!!原因如下:

1.PCR反應過程中也會帶來新的鹼基錯誤。發生在前幾輪的PCR擴增發生的錯誤會在後續的PCR過程中擴大,同樣帶來假的變異;

2. PCR反應可能會對包含某一個鹼基的DNA模版擴增更加劇烈(這個現象稱為PCR Bias)

3.如果某個變異位點的變異鹼基都是來自於PCR重複,而我們卻認為它深度足夠判斷是真的變異位點,這個結論其實有很大可能是假陽性。


利用picard標記重複序列

$GATK --java-options "-Xmx10G -Djava.io.tmpdir=./" MarkDuplicates \

 -I wes.sorted.bam -O wes.sorted.MarkDuplicates.bam \

-M wes.sorted.bam.metrics > log.mark 2>&1 &

picard的MarkDuplicates默認情況則只是在BAM的FLAG信息中標記出來而不刪除,因此這些重複序列依然會被留在文件中,只是我們可以在變異檢測的時候識別到它們,並進行忽略。wes.sorted.bam.metrics有重複序列的統計信息,可以檢查自己的數據重複率是否異常。

查看被標記重複的reads

samtools view –f 1024 wes.sorted.MarkDuplicates.bam | less

為何是1024去查閱flag解釋網站。

下一步為wes.sorted.MarkDuplicates.bam創建索引文件,它的作用能夠讓我們可以隨機訪問這個文件中的任意位置,而且後面的步驟也要求這個BAM文件一定要有索引.

samtools index wes.sorted.MarkDuplicates.bam

完成之後,會生成一份wes.sorted.MarkDuplicates.bam.bai文件,這就是上面這份BAM的index。


變異檢測

開始檢測變異前還是要做一些準備工作,首先是重新校正鹼基質量值(BQSR)。

變異檢測是一個極度依賴測序鹼基質量值,因為這個質量值是衡量我們測序出來的這個鹼基到底有多正確的重要指標。它來自於測序圖像數據的base calling,因此,基本上是由測序儀和測序系統來決定的,計算出來的鹼基質量值要麼高於真實結果,要麼低於真實結果。

BQSR(Base Quality Score Recalibration)這個步驟就是為此而存在的,這一步非常重要。它主要是通過機器學習的方法構建測序鹼基的錯誤率模型,然後對這些鹼基的質量值進行相應的調整。

這裡包含了兩個步驟:

第一步,BaseRecalibrator,這裡計算出了所有需要進行重校正的read和特徵值,然後把這些信息輸出為一份校準表文件(wes.recal_data.table)

第二步,ApplyBQSR,這一步利用第一步得到的校準表文件(wes.recal_data.table)重新調整原來BAM文件中的鹼基質量值,並使用這個新的質量值重新輸出一份新的BAM文件。


$GATK --java-options "-Xmx10G -Djava.io.tmpdir=./" BaseRecalibrator \

-R $GENOME -I wes.sorted.MarkDuplicates.bam \

-L S31285117_Regions.bed -ip 90 \

--known-sites $hg19_VCF/1000G_phase1.indels.hg19.sites.vcf \

--known-sites $hg19_VCF/Mills_and_1000G_gold_standard.indels.hg19.sites.vcf \

--known-sites $hg19_VCF/dbsnp_138.hg19.vcf \

-O wes.recal_data.table

(注意:此步驟以及後面幾個步驟中外顯子數據要加上外顯子捕獲區域的bed文件,並把-ip設為reads長,全基因組數據則不需要加-L 和 -ip)


$GATK --java-options "-Xmx8G -Djava.io.tmpdir=./" ApplyBQSR \

-R $GENOME -I wes.sorted.MarkDuplicates.bam \

-bqsr wes.recal_data.table \

-L S31285117_Regions.bed -ip 90 \

-O wes.sorted.MarkDuplicates.BQSR.bam


$GATK  AnalyzeCovariates -bqsr wes.recal_data.table -plots wes.recal_data.table.plot(可選)


變異檢測前確定bam文件是否符合GATK要求,運行

$GATK  ValidateSamFile -I wes.sorted.MarkDuplicates.BQSR.bam,如果顯示 no error,則可以用HaplotypeCaller call SNP/Indel。


利用samtools為hg19.fa創建一個索引 samtools faidx hg19.fa

利用這個索引可以查看參考基因組任何位置,如運行

samtools faidx hg19.fa chr12:1000000-1000200(即查看chr12染色體1000000到1000200的序列),顯示


利用HaplotypeCaller檢測突變還需利用許多資料庫,這些資料庫包含以前研究過的突變位點,利用這些位點提高變異檢測的準確率。

wget  -c -r -nd -np -k -L -p    \ ftp://gsapubftpanonymous@ftp.broadinstitute.org/bundle/hg19

運行上面命令下載所需資料庫。注意下載文件均為壓縮文件,需要解壓才能使用。


下面開始HaplotypeCaller突變檢測,

HaplotypeCaller的應用有兩種做法,區別在於是否生成中間文件gVCF:

(1)直接進行HaplotypeCaller,這適合於單樣本,只執行一次HaplotypeCaller。如果多樣本,你每增加一個樣本數據都需要重新運行這個HaplotypeCaller,而這個時候算法需要重新去讀取所有人的BAM文件,浪費大量時間;

(2)每個樣本先各自生成gVCF,然後再進行群體joint-genotype。gVCF全稱是genome VCF,是每個樣本用於變異檢測的中間文件,格式類似於VCF,它把joint-genotype過程中所需的所有信息都記錄在這裡面,文件無論是大小還是數據量都遠遠小於原來的BAM文件。這樣一旦新增加樣本也不需要再重新去讀取所有人的BAM文件了,只需為新樣本生成一份gVCF,然後重新執行這個joint-genotype就行了。


推薦使用第二種,變異檢測不是一個樣本的事情,有越多的同類樣本放在一起joint calling結果將會越準確,而如果樣本足夠多的話,在低測序深度的情況下也同樣可以獲得完整並且準確的結果,而這樣的分步方式是應對多樣本的好方法。(這部分推薦閱讀http://www.huangshujia.me/2018/02/20/2018-02-20-WGS-Best-Practics.html)


第一種方法

$GATK --java-options "-Xmx8G -Djava.io.tmpdir=./" HaplotypeCaller \

-R $GENOME  -I wes.sorted.MarkDuplicates.BQSR.bam \

-D $hg19_VCF/dbsnp_138.hg19.vcf -L S31285117_Regions.bed -ip 90 \

-O wes.raw.vcf 


第二種方法

#1 生成中間文件gvcf

$GATK --java-options "-Xmx8G -Djava.io.tmpdir=./" HaplotypeCaller \

-R $GENOME --emit-ref-confidence GVCF \

-I wes.sorted.MarkDuplicates.BQSR.bam -D $hg19_VCF/dbsnp_138.hg19.vcf -L S31285117_Regions.bed -ip 90 -O wes.gvcf 

#2 通過gvcf檢測變異

$GATK --java-options "-Xmx8G -Djava.io.tmpdir=./" GenotypeGVCFs \

-R $GENOME -V wes.gvcf -L S31285117_Regions.bed -ip 90 \

 -O wes.raw.vcf


若有多個樣本的gvcf文件,運行$GATK CombineGVCFs  -V 1.gvcf –V 2.gvcf ……  -O final.gvcf ,再用final.gvcf運行下一步


變異質控和過濾

檢測出的突變並不是每一個都可以用於下遊分析,有些突變是假陽性,需要進行質控和篩選,將這些位點過濾掉。這部分推薦閱讀http://www.huangshujia.me/2018/03/23/2018-03-23-WGS-Best-Practics-2.html,後面的內容也主要參考這篇博文。

質控的含義和目的是指通過一定的標準,最大可能地剔除假陽性的結果,並儘可能地保留最多的正確數據。

第一種方法 GATK VQSR,它通過機器學習的方法利用多個不同的數據特徵訓練一個模型(高斯混合模型)對變異數據進行質控,使用VQSR需要具備以下兩個條件:

第一,需要一個精心準備的已知變異集,它將作為訓練質控模型的真集。比如,Hapmap、OMNI,1000G和dbsnp等這些國際性項目的數據,這些可以作為高質量的已知變異集。

第二,要求新檢測的結果中有足夠多的變異,不然VQSR在進行模型訓練的時候會因為可用的變異位點數目不足而無法進行。適合全基因組分析。

第二種方法通過過濾指標過濾。

QualByDepth(QD)

FisherStrand (FS)

StrandOddsRatio (SOR)

RMSMappingQuality (MQ)

MappingQualityRankSumTest (MQRankSum)

ReadPosRankSumTest (ReadPosRankSum)


GATK VQSR

$GATK --java-options "-Xmx8G -Djava.io.tmpdir=./"  VariantRecalibrator \

 -R $GENOME -V wes.raw.vcf \

-resource hapmap,known=false,training=true,truth=true,prior=15.0:$hg19_VCF/hapmap_3.3.hg19.sites.vcf \

-resource omini,known=false,training=true,truth=false,prior=12.0:$hg19_VCF/1000G_omni2.5.hg19.sites.vcf \

-resource 1000G,known=false,training=true,truth=false,prior=10.0:$hg19_VCF/1000G_phase1.snps.high_confidence.hg19.sites.vcf \

-resource dbsnp,known=true,training=false,truth=false,prior=6.0:$hg19_VCF/dbsnp_138.hg19.vcf \

-an QD -an MQ -an MQRankSum -an ReadPosRankSum -an SOR -mode SNP \

-O wes.snps.recal.vcf --tranches-file wes.snps.tranches \

 --rscript-file wes.snps.plots.R 


$GATK ApplyVQSR -V wes.raw.vcf -O wes.snps.VQSR.vcf \

--recal-file wes.snps.recal.vcf --tranches-file wes.snps.tranches -mode SNP

此方法要求新檢測的結果中有足夠多的變異,不然VQSR在進行模型訓練的時候會因為可用的變異位點數目不足而無法進行。可能很多非人的物種在完成變異檢測之後沒法使用GATK VQSR的方法進行質控,一些小panel、外顯子測序,由於最後的變異位點不夠,也無法使用VQSR。全基因組分析或多個樣本的全外顯子組分析適合用此方法。


通過過濾指標過濾

# 使用SelectVariants,選出SNP

$GATK SelectVariants -select-type SNP -V wes.GATK.vcf -O wes.GATK.snp.vcf

# 為SNP作過濾

$GATK VariantFiltration -V wes.GATK.snp.vcf --filter-expression "QD < 2.0 || MQ < 40.0 || FS > 60.0 || SOR > 3.0 || MQRankSum < -12.5 || ReadPosRankSum < -8.0" --filter-name "PASS" -O wes.GATK.snp.filter.vcf


# 使用SelectVariants,選出Indel

$GATK SelectVariants -select-type INDEL -V wes.GATK.vcf -O wes.GATK.indel.vcf

# 為Indel作過濾

$GATK VariantFiltration -V wes.GATK.indel.vcf --filter-expression "QD < 2.0 || FS > 200.0 || SOR > 10.0 || MQRankSum < -12.5 || ReadPosRankSum < -8.0" --filter-name "PASS" -O wes.GATK.indel.filter.vcf


VCF文件

VCF文件是記錄突變信息的重要文件

前五列信息為

1. 染色體(Chromosome)

2. 起始位置(Start)

3. 結束位置(End)

4. 參考等位基因(Reference Allele)

5. 替代等位基因(Alternative Allele)

ANNOVAR注釋時主要也是利用前五列信息對資料庫進行比對,注釋變異。Info和Format信息同樣重要,比如DP代表測序深度,這些內容的含義再vcf文件的開頭都有介紹,請仔細閱讀並理解相應內容的意義。


突變注釋

vcf文件中保存的突變位點不能直接使用,只有根據已有資料庫進行注釋,才能知道該位點的有何功能,是否與疾病相關以及其它信息。annovar是突變注釋的常用軟體,ANNOVAR是一個perl編寫的命令行工具,能在安裝了perl解釋器的多種作業系統上執行。允許多種輸入文件格式,包括最常被使用的VCF格式。輸出文件也有多種格式,包括注釋過的VCF文件、用tab或者逗號分隔的txt文件。ANNOVAR能快速注釋遺傳變異並預測其功能,這個軟體需要edu郵箱註冊才能下載。

http://www.openbioinformatics.org/annovar/annovar_download_form.php

軟體下載後無需安裝直接使用,但要下載資料庫才能對突變位點進行注釋,annotate_variation.pl可以方便快捷下載資料庫。

perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar refGene humandb/

 # -buildver 表示version 

 # -downdb 下載資料庫的指令

 # -webfrom annovar 從annovar提供的鏡像下載,不加此參數將尋找資料庫本身的源

 # humandb/ 存放於humandb/目錄下

其它資料庫下載

perl annotate_variation.pl--buildver hg19 --downdb gwascatalog humandb/ &

perl annotate_variation.pl--buildver hg19 --downdb ljb26_all --webfrom annovarhumandb/ &

perl annotate_variation.pl--buildver hg19 --downdb esp6500siv2_ea --webfromannovar humandb/ &

perl annotate_variation.pl--buildver hg19 --downdb esp6500siv2_all --webfromannovar humandb/ &

perl annotate_variation.pl--buildver hg19 --downdb 1000g2014oct humandb/ &

perl annotate_variation.pl--buildver hg19 --downdb cytoBand humandb/ &

perl annotate_variation.pl--buildver hg19 --downdb avsift -webfrom annovarhumandb/ &

perl annotate_variation.pl--buildver hg19 --downdb snp138 humandb/ &

perl annotate_variation.pl--buildver hg19 --downdb genomicSuperDups humandb/ &

perl annotate_variation.pl--buildver hg19 --downdbphastConsElements46wayhumandb/ &

perl annotate_variation.pl--buildver hg19 --downdb tfbs humandb/


annovar有三種注釋方式Gene-based Annotation(基於基因的注釋),Region-based Annotation(基於區域的注釋),Filter-based Annotation(基於過濾的注釋)。看起來很複雜實際做起來很簡單,用table_annovar.pl進行注釋,可一次性完成三種類型的注釋。

注釋的第一步是把要注釋的文件轉化成annovar需要的文件,

convert2annovar.pl #將多種格式轉為.avinput的程序

convert2annovar.pl -format vcf4   wes.GATK.snp.filter.vcf >snp. avinput


avinput文件由tab分割,最重要的地方為前5列,分別是:

1. 染色體(Chromosome)

2. 起始位置(Start)

3. 結束位置(End)

4. 參考等位基因(Reference Allele)

5. 替代等位基因(Alternative Allele)

annovar主要也是利用前五列信息對資料庫進行比對,注釋變異。


SNP注釋:

生成avinput文件:convert2annovar.pl -format vcf4   \  wes.GATK.snp.filter.vcf >snp.Avinput

用table_annovar.pl進行注釋,可一次性完成三種類型的注釋。

table_annovar.pl snp.avinput $humandb -buildver hg19 -out snpanno -remove -protocol refGene,cytoBand,genomicSuperDups,esp6500siv2_all -operation g,r,r,f -nastring . –csvout

# -buildver hg19 表示使用hg19版本

# -out snpanno 表示輸出文件的前綴為snpanno

# -remove 表示刪除注釋過程中的臨時文件

# -protocol 表示注釋使用的資料庫,用逗號隔開,且要注意順序

# -operation 表示對應順序的資料庫的類型(g代表gene-based、r代表region-based、f代表filter-based),用逗號隔開,注意順序

# -nastring . 表示用點號替代預設的值

# -csvout 表示最後輸出.csv文件

Indel注釋同上


最後生成的注釋文件如下


總結

本教程基本按照GATK4 Best Practices Germline short variant discovery (SNPs + Indels),GATK3與GATK4的分析思路也幾乎沒有變化,除了GATK4取消了RealignerTargetCreator 和 IndelRealigner 這兩步,另外一些命令發生了變化。在外顯子分析步驟中記得加上外顯子捕獲區域的bed文件(-L參數),這樣可以防止檢測出捕獲區域以外的突變,還可以顯著提高運行速度。



相關焦點

  • GATK4.0和全基因組數據分析實踐(上)
    另外,接下來我將系統寫一個關於全基因組關聯分析(GWAS)的文章,同時還會有更多全面而且緊扣前沿的技術文章分享出來。那麼,事不宜遲我們馬上開始。這裡補充一句,目前GATK4.0的正式版本已經發布,它的使用方式與之前相比有著一些差異(變得更加簡單,功能也更加豐富了),增加了結構性變異檢測和很多Spark、Cloud-Only的功能,併集成了MuTect2和picard的所有功能(以及其他很多有用的工具),這為我們減少了許多額外的工具,更加有利於流程的構建和維護,4.0之後的GATK是一個新的篇章,大家最好是掌握這一個版本
  • 全外顯子組測序(WES)
    2019-03-05 01:12:50 來源: 康安智檢 舉報   全外顯子組測序簡介
  • 華大科技首推基於Complete Genomics平臺的人全外顯子組測序服務
    中國深圳和美國劍橋2014年7月22日電 /美通社/ -- 全球較大的基因組學研究機構華大基因旗下子公司 -- 深圳華大基因科技服務有限公司(簡稱「華大科技」)今天宣布,在全球推出基於 Complete Genomics(簡稱「CG」)技術平臺的人全外顯子組測序服務。
  • 【Nature子刊】NB Seq最新進展:全外顯子組測序可幫助識別新生兒...
    在研究的發現和驗證階段,研究人員從1200名新生兒中挑選了一部分幹血點進行外顯子組測序。他們解釋說,這組樣本包括800多名已知具有IEM的新生兒,以及385個通過串聯質譜篩查得出假陽性IEM結果的嬰兒。
  • 華大基因全外顯子組檢測產品全面升級
    近日,華大基因全外顯子組檢測產品實現全方位升級,用更完善的檢測內容、更多樣的數據分析方式及更規範的檢測報告,讓全外顯子組檢測在臨床遺傳病領域發揮更大的能量。全外顯子組基因檢測是目前臨床常用的遺傳病檢測手段之一,可以一次性檢測人類 22000 多個基因的外顯子區。據估計,人類單基因遺傳病的致病變異超85%都包含在外顯子區內[1,2]。
  • 史上最大全外顯子組測序!深扒2型糖尿病遺傳學細節
    近日,全球百餘名遺傳學研究人員對約4.5萬例T2DM-正常人群體進行了全外顯子組測序分析,結合全基因組關聯分析(GWAS),大數據顯示大量可影響疾病風險的外顯子遺傳變異,從而成功將罕見的DNA改變與T2DM聯繫了起來。
  • NB Seq最新進展:全外顯子組測序可幫助識別新生兒先天性代謝缺陷
    通過將測序數據和質譜結果相結合,希望能夠降低代謝性疾病檢測的假陽性率。NB Seq已經成為美國國家衛生研究院(NIH)的基因組測序項目和新生兒疾病篩查研究項目。近日,該項目公布了其最新進展:一項回顧性研究表明,對新生兒血點樣本進行外顯子組測序,有助於發現遺傳性先天性代謝缺陷(IEM),這種方式可以補充基於質譜的傳統新生兒篩查測試。
  • 中國最大規模的臨床全外顯子組資料庫彰顯"精準醫療"威力
    全外顯子組測序(whole-exome sequencing, WES)在遺傳分析、發現導致疾病發生的潛在基因變異等方面得到了廣泛應用和認可。然而在實際應用時,臨床解讀不力和後續提供給患者的治療選擇無法跟上,使得WES在臨床上的價值尚未真正得到體現。
  • 【產品】FDA批准首個針對TMB的癌症全外顯子組臨床基因檢測產品
    醫谷微信號:yigoonet近日,NantHealth公司宣布,美國食品和藥品監督管理局(FDA)授予Nanthealth公司Omics CoreSM基因檢測技術市場許可。這是FDA批准的首個檢測實體瘤中總體腫瘤突變負荷(TMB)的全外顯子組體外診斷產品。
  • Am J Hum Genet:全外顯子組測序法鑑定代謝性疾病的病因
    對一個病人的全基因組測序來發現他或她的疾病的起源還是不能作為常規的。但是,遺傳學家正在努力靠近。發表在這周雜誌American Journal of Human Genetics上的一份病例報告表明研究人員能將簡單血液測試與基因組專業概要掃描相結合來診斷嚴重代謝性疾病。埃默裡大學醫學院和桑福德-伯納姆醫學研究所的研究人員使用全外顯子組測序法在2004年出生的男孩身上來尋找導致糖基化作用紊亂的突變。
  • GATK pipeline鑑定基因組變異的scripts
    前面我已經和大家分享了我的GATK-pipeline,最近GATK更新到了4.0,於是這裡有一些更新,我把我更新的scripts和大家分享。
  • 連全基因組測序也不能找出原因,天知道我到底得了什麼病
    後來Edwards一家三口都接受了全外顯子組測序。全外顯子組測序(whole-exome sequencing)是在七年前被引臨床診斷中的,其為疾病診斷領域帶來了巨大的飛躍。外顯子組「exome」中的「ex」是「表達」的意思,就是說只有產生蛋白質的外顯子序列才會被測定。外顯子只佔基因組DNA六十億鹼基中的1.5%。如果突變發生於這1.5%的鹼基內,那麼很容易會引起疾病。
  • 臨床全外顯子測序通常無法充分分析大片段 DNA 序列
    全外顯子組測序越來越多地用於醫療保健,而研究表明全外顯子測序通常並不能充分分析大片段 DNA 序列。對美國 3 個實驗室的病人樣本的再次分析表明,大多數基因測試對充分分析被測基因的覆蓋度不足四分之一。檢測到疾病的概率與實驗室是否對給定樣本中那些基因進行了充分分析密切相關。
  • 暨南大學周慶華研究員參與研究,揭示全外顯子組測序在妊娠流產中的...
    暨南大學周慶華研究員參與研究,揭示全外顯子組測序在妊娠流產中的臨床實用性 2020-07-30 16:41 來源:澎湃新聞·澎湃號·湃客
  • PNAS:外顯子變異檢測——全基因組測序比全外顯子測序更強大
    2015年4月7日訊 /生物谷BIOON/ --目前,全外顯子測序和全基因組測序技術在遺傳分析和發現導致疾病發生的潛在基因突變方面應用越來越廣泛
  • 對全外顯子檢測陰性案例進行全面的迭代分析非常高效
    其他一些研究發現重分析可以提高15-36%的診斷率,主要是因為使用trio測序,分析拷貝數變異(CNV),文獻報告以及案例配對平臺。對父母同時測序和新基因發現大概能提高15%的診斷率。我們自己的經驗是重分析提高診斷率是因為表型重新收集與整理、提高外顯子測序深度、重新比對、重新分析突變以及新基因發現,重新對表型進行分析採用一代測序或MLPA或長度分析可以找到被全外顯子漏掉的變異。
  • 針對大規模全基因組測序數據尋找與常見疾病有關的罕見遺傳變異的...
  • 三大絕招幫你從外顯子組中找到疾病基因突變
    外顯子組測序,也就是覆蓋了編碼蛋白基因組中1%-2%的序列,一般來說會揭示30,000 個遺傳變異,這需要仔細的被評估。生物信息學工具方面的發展也令研究人員快速的縮小了龐大的突變列表。一些網站平臺也幫助研究人員構建了因果關系列表。這些步驟很重要, 因為在動物模型或者細胞系中檢測候選基因需要大量的資源。
  • GATK4 最佳實踐-生殖細胞突變的檢測與識別
    GATK4 對於體細胞突變和生殖細胞突變的檢測分別給出了對應的pipeline:Germline SNPs+IndelsSomatic SNVs + Indels本篇主要關注生殖細胞突變的分析流程Germline SNPs+Indels。
  • 三家外顯子捕獲效率評估
    全外顯子組測序(WES)現在被越來越多地應用於研究和診斷領域。研究人員期望用足夠的測序深度和覆蓋度來對已知基因的整個編碼區域進行研究。現在市面上的眾多外顯子捕獲平臺,在具有各自優勢的同時,在捕獲效率方面也存在一些差異。近期《Nucleic Acids Research》刊登了瑞士心血管遺傳和基因診斷中心的一項研究結果。研究人員對Agilent,NimbleGen和Illumina公司的3個全外顯子組捕獲平臺進行了調研。