RNA-seq 檢測變異之 GATK 最佳實踐流程

2021-02-13 生信技能樹
RNA-seq 序列比對

對 RNA-seq 產出的數據進行變異檢測分析,與常規重測序的主要區別就在序列比對這一步,因為 RNA-seq 的數據是來自轉錄本的,比對到參考基因組需要跨越轉錄剪切位點,所以 RNA-seq 進行變異檢測的重點就在於跨剪切位點的精確序列比對。

文獻 systematic evaluation of spliced alignment programs for RNA-seq data 中對 RNA-seq 數據常用的 11 款比對軟體進行了詳細測試,包括 STAR 2-pass,而 GATK 對 RNA-seq 數據變異檢測的最佳實踐流程中選用了 STAR 2-pass 這一方法進行比對,STAR 發表的文章至今已被引用 1900 餘次,這款軟體的比對速度很快,也是 ENCODE 項目的御用比對軟體。

STAR 2-pass 模式需要進行兩次序列比對,建立兩次參考基因組索引。它的思路是第一次建參考基因組索引之後進行初步的序列比對,根據初步比對結果得到該樣本所有的剪切位點信息,包括參考基因組注釋 GTF 中已知的剪切位點和比對時新發現的剪切位點,然後利用第一次比對得到的剪切位點信息重新對參考基因組建立索引,然後進行第二次的序列比對,這樣可以得到更精確的比對結果。

這裡使用了一個測試數據演示流程

# star 1-pass index

STAR --runThreadN 8 --runMode genomeGenerate \

       --genomeDir ./star_index/ \

       --genomeFastaFiles ./genome/chrX.fa \

       --sjdbGTFfile ./genes/chrX.gtf

#star 1-pass align

STAR --runThreadN 8 --genomeDir ./star_index/ \

       --readFilesIn ./samples/ERR188044_chrX_1.fastq.gz ./samples/ERR188044_chrX_2.fastq.gz \

       --readFilesCommand zcat \

       --outFileNamePrefix ./star_1pass/ERR188044

# star 2-pass index

STAR --runThreadN 8 --runMode genomeGenerate \

       --genomeDir ./star_index_2pass/ \

       --genomeFastaFiles ./genome/chrX.fa \

       --sjdbFileChrStartEnd ./star_1pass/ERR188044SJ.out.tab

# star 2-pass align

STAR --runThreadN 8 --genomeDir ./star_index_2pass/ \

       --readFilesIn ./samples/ERR188044_chrX_1.fastq.gz ./samples/ERR188044_chrX_2.fastq.gz \

       --readFilesCommand zcat \

       --outFileNamePrefix ./star_2pass/ERR188044

由於後面要用 GATK 進行 call 變異,還需要對比對結果 SAM 文件進行一些處理,這些都可以用 picard 來做,包括 SAM 頭文件添加 @RG 標籤,SAM 文件排序並轉 BAM 格式,然後標記 duplicate:

# picard Add read groups, sort, mark duplicates, and create index

java -jar picard.jar AddOrReplaceReadGroups \

       I=./star_2pass/ERR188044Aligned.out.sam \

       O=./star_2pass/ERR188044_rg_added_sorted.bam \

       SO=coordinate \

       RGID=ERR188044 \

       RGLB=rna \

       RGPL=illumina \

       RGPU=hiseq \

       RGSM=ERR188044

java -jar picard.jar MarkDuplicates \

       I=./star_2pass/ERR188044_rg_added_sorted.bam \

       O=./star_2pass/ERR188044_dedup.bam  \

       CREATE_INDEX=true \

       VALIDATION_STRINGENCY=SILENT \

       M=./star_2pass/ERR188044_dedup.metrics

到此序列比對就完成了。

使用 GATK 進行變異檢測

感覺 GATK 裡面的工具都很慢(相對於其他的軟體特別慢!),都是單線程在跑,有的雖然可以設置為多線程但是感覺沒啥速度上的提升,所以要有點耐心……

由於 STAR 軟體使用的 MAPQ 標準與 GATK 不同,而且比對時會有 reads 的片段落到內含子區間,需要進行一步 MAPQ 同步和 reads 剪切,使用 GATK 專為 RNA-seq 應用開發的工具 SplitNCigarReads 進行操作,它會將落在內含子區間的 reads 片段直接切除,並對 MAPQ 進行調整。

DNA 測序的重測序應用中也有序列比對軟體的 MAPQ 與 GATK 無法直接對接的情況,需要進行調整。

# samtools faidx chrX.fa

# samtools dict chrX.fa

java -jar GenomeAnalysisTK.jar -T SplitNCigarReads \

       -R ./genome/chrX.fa \

       -I ./star_2pass/ERR188044_dedup.bam \

       -o ./star_2pass/ERR188044_dedup_split.bam \

       -rf ReassignOneMappingQuality \

       -RMQF 255 \

       -RMQT 60 \

       -U ALLOW_N_CIGAR_READS

之後就是可選的 Indel Realignment,對已知的 indel 區域附近的 reads 重新比對,可以稍微提高 indel 檢測的真陽性率,如果時間緊張也可以不做,這一步影響很輕微 :)

# 可選步驟 IndelRealign

java -jar GenomeAnalysisTK.jar -T RealignerTargetCreator \

       -R ./genome/chrX.fa \

       -I ./star_2pass/ERR188044_dedup_split.bam \

       -o ./star_2pass/ERR188044_realign_interval.list \

       -known Mills_and_1000G_gold_standard.indels.hg19.sites.vcf

java -jar GenomeAnalysisTK.jar -T IndelRealigner \

       -R ./genome/chrX.fa \

       -I ./star_2pass/ERR188044_dedup_split.bam \

       -known Mills_and_1000G_gold_standard.indels.hg19.sites.vcf \

       -o ./star_2pass/ERR188044_realign.bam \

       -targetIntervals ./star_2pass/ERR188044_realign_interval.list

然後還是可選的 BQSR,這一步操作主要是針對測序質量不太好的數據,進行鹼基質量再校準,如果對自己的測序數據質量足夠自信可以省略,2500 之後 Hiseq 儀器的數據質量都挺不錯的,可以根據 FastQC 結果來決定。這一步省了又能節省時間 :)

# 可選步驟 BQSR

java -jar GenomeAnalysisTK.jar \

       -T BaseRecalibrator \

       -R ./genome/chrX.fa \

       -I ./star_2pass/ERR188044_realign.bam \

       -knownSites 1000G_phase1.snps.high_confidence.hg19.sites.vcf \

       -knownSites Mills_and_1000G_gold_standard.indels.hg19.sites.vcf \

       -o ./star_2pass/ERR188044_recal_data.table

java -jar GenomeAnalysisTK.jar  \

       -T PrintReads \

       -R ./genome/chrX.fa \

       -I ./star_2pass/ERR188044_realign.bam \

       -BQSR ./star_2pass/ERR188044_recal_data.table \

       -o ./star_2pass/ERR188044_BQSR.bam

比如下面的數據就可以放心的省略這兩步了:

現在終於可以進行變異檢測了,GATK 官網說 HC 表現比 UC 好,所以這裡用 HC 進行變異檢測:

java -jar GenomeAnalysisTK.jar -T HaplotypeCaller \

       -R ./genome/chrX.fa \

       -I ./star_2pass/ERR188044_dedup_split.bam \

       -dontUseSoftClippedBases \

       -stand_call_conf 20.0 \

       -o ./star_2pass/ERR188044.vcf

call 完變異之後再進行過濾:

java -jar GenomeAnalysisTK.jar \

       -T VariantFiltration \

       -R ./genome/chrX.fa \

       -V ./star_2pass/ERR188044.vcf \

       -window 35 \

       -cluster 3 \

       -filterName FS -filter "FS > 30.0" \

       -filterName QD -filter "QD < 2.0" \

       -o ./star_2pass/ERR188044_filtered.vcf

然後就拿到變異檢測結果了,可以用 ANNOVAR 或 SnpEff 或 VEP 進行注釋,根據自己的需要進行篩選了。

歡迎點擊文末閱讀原文,閱讀作者相關其它文章。

相關焦點

  • GATK4 最佳實踐-生殖細胞突變的檢測與識別
    GATK4 對於體細胞突變和生殖細胞突變的檢測分別給出了對應的pipeline:Germline SNPs+IndelsSomatic SNVs + Indels本篇主要關注生殖細胞突變的分析流程Germline SNPs+Indels。
  • GATK pipeline鑑定基因組變異的scripts
    GATK鑑定基因組變異主要按照如下流程進行。這是一個簡單的while作為loop的循環命令,只要對所要分析的樣品文件名進行修改,並將reference genome的序列放在指定路徑就可以進行自動分析。在scripts運行過程中,會對序列insert length進行統計。
  • GATK4.0和全基因組數據分析實踐(上)
    這裡補充一句,目前GATK4.0的正式版本已經發布,它的使用方式與之前相比有著一些差異(變得更加簡單,功能也更加豐富了),增加了結構性變異檢測和很多Spark、Cloud-Only的功能,併集成了MuTect2和picard的所有功能(以及其他很多有用的工具),這為我們減少了許多額外的工具,更加有利於流程的構建和維護,4.0之後的GATK是一個新的篇章,大家最好是掌握這一個版本
  • GATK介紹
    通常NGS(Next Generation Sequencing)數據是指: WGS(whole genome sequencing), WES(whole exonme sequencing), RNAseq(RNA sequencing), scRNAseq(single cell RNA sequencing), chip-seq, ATACseq等等通過二代測序平臺
  • 解讀單細胞RNA-seq技術
    為此,他和同事們應用單細胞RNA-seq,來檢測細胞分化這類過程中基因轉錄的pseudotemporal動力學。通過編目所有的細胞RNA,連同它們在細胞中的出現和消失時間,Rinn希望找到一些有趣的新lncRNA,他能夠將特定的功能歸因於這些新lncRNA。但是,很奇怪的事情發生了:他發現了無聊的舊mRNA。
  • 從數據分析到結論產生,談談scATAC-seq
    開放染色質區域的全基因組圖譜可以通過它們與特徵相關序列變異型的聯繫來促進順式和反式調節元件的功能分析。目前,高通量測序分析轉座酶可及染色質(ATAC-seq)被認為是全基因組可及染色質的最易獲得和最具成本效益的策略。還開發了單細胞ATAC-seq(scATAC-seq)技術來研究包含異質細胞群體的組織樣本中細胞特異性染色質的可及性。
  • GATK BQSR的意義與作用
    對於變異位點的鑑定,鹼基質量是非常重要的。比如測序識別到的一個位點,其鹼基和參考基因組上的鹼基不同,但是其質量值特別低,此時可以認為是一個測序錯誤,而不是一個SNP位點。在測序的原始數據中,本身就提供了每個鹼基對應的質量值,但是GATK官方認為測序儀提供的鹼基質量值,是不準確的,存在誤差的。某個位點前後的鹼基的種類,稱之為上下文環境,會對這個鹼基的質量值產生影響。
  • Nature重磅綜述 |關於RNA-seq,你想知道的都在這
    你想知道的全在這)、ChIP-seq分析 (ChIP-seq基本分析流程)、單細胞測序分析 (重磅綜述:三萬字長文讀懂單細胞RNA測序分析的最佳實踐教程 (原理、代碼和評述))、DNA甲基化分析、重測序分析、GEO數據挖掘(典型醫學設計實驗GEO數據分析 (step-by-step) - Limma差異分析、火山圖、功能富集)等內容。
  • 微流控自動化技術革新RNA-Seq文庫構建流程 --- FLUIDIGM發布更...
    該方案利用微流控自動化技術,為RNA-seq二代測序文庫製備流程帶來突破性的變革,不但極大提高了中高通量實驗室的工作效率,同時也大幅降低了實驗成本。Advanta™ RNA-Seq NGS Library Prep Kit基於Fluidigm® Juno™微流控系統進行優化,為實驗室提供了完整的解決方案,使得全長方向性文庫的構建成本降低50%。
  • 學徒跟著B站ATAC-seq視頻5天完成流程
    最近刷視頻看到了b站jimmy老師又更新了ATAC-seq系列教學指引,趕緊花幾天時間follow了一遍!而且把我自己學習筆記分享給大家,視頻的話,文末的閱讀原文直達免費學習哈!雖然視頻錄製是兩年前,但是絲毫不影響學習體驗!
  • 3步教你構建RNAseq文庫
    RNAseq文庫,也稱全轉錄組散彈槍測序文庫,提供細胞進程的快照,使研究人員能夠獲得有關轉錄組在環境變化、疾病期間或藥物應用後的變化的信息。RNAseq文庫還允許檢測mRNA剪接變體和SNPs。RNAseq文庫幾乎取代了微陣列,因為微陣列需要一個已知的模板。
  • 合作文章|變異檢測軟體技能PK,誰是Battle King?
    DNA變異是個體間遺傳變異的重要來源之一。第二代測序技術(NGS)和第三代測序技術(TGS)都在遺傳變異研究中大放異彩。許多變異檢測工具可以用來解析二代或三代數據,但是目前沒有軟體能兼顧靈敏性和特異性地分析NGS或TGS數據,且通過不同工具組合的分析流程得到的結果可能會有很大差異,那麼變異檢測到底應該用什麼軟體呢?
  • The Scientist:從晶片到RNA-seq的轉型之路
    RNA-seq主要是將RNA轉化為cDNA文庫,然後進行直接測序。雖然處理原始數據比較麻煩,但RNA-seq能夠做得到晶片做不到的事。RNA-seq可以揭示未知的轉錄本、基因融合和遺傳多態性,而晶片只能檢出明確的已知目標。在測序深度足夠的情況下,RNA-seq在高豐度和低豐度轉錄本檢測中都比晶片有效。
  • RNA-seq的標準化方法的不完全整理
    在RNA-seq標準化這個領域也是如此,目前用的最多也就是, RPKM/FPKM, TPM,但是注意,有些時候一個方法出現的多,單純是因為公司沒有修改他們的分析流程。為了方便理解,假設目前你在一次測序中(即剔除批次效應)檢測了一個物種的3個樣本,A,B,C,這個物種有三個基因G1,G2,G3, 基因長度分別為100, 500, 1000.
  • non-coding RNA databases匯總
    自從1950s後期,rRNA和tRNA的發現以來,各種RNA也相繼被發現鑑定,RNA世界逐漸變得豐富多彩,同時非編碼世界的研究之門也逐漸在打開(見表1 ncRNA分類)。21世紀初期,通過對人類和小鼠基因組分析發現,98%的序列被劃分到「junk「 DNA之列,除被注釋的mRNA之外,大多收轉錄本似乎是不能encode蛋白質的,而這些轉錄本便是ncRNA, ncRNA因此也正式進入科學家的視野。
  • Chip-seq簡介
    染色質免疫共沉定技術,可以研究生物體內DNA與蛋白質的相互作用,首先在活細胞內固定DNA與蛋白結合的複合體,然後用蛋白特異性的抗體,通過抗原抗體特異性結合的免疫學手段捕獲該複合體,然後洗脫蛋白質,得到與目的蛋白結合的DNA片段,將富集到的DNA片段進行上機測序,即形成了一套成熟的分析流程,稱之為chip-seq, 就是將傳統的chip技術和高通量測序結合起來,對應的英文如下
  • 10x Genomics單細胞轉錄組+ISO-seq深入了解流感病毒感染細胞間異質性
    相關研究表明流感病毒感染過程中只有一部分細胞的先天免疫被激活的兩個重要因素在於純粹的隨機性和細胞狀態中預先存在的變異。第三個關鍵因素是病毒的遺傳多樣性。而現有的流式細胞和螢光檢測技術只能測定蛋白水平,單細胞轉錄組技術只能測定短片段轉錄本的豐度。這些技術均不能可靠地揭示感染細胞的病毒粒子是否具有某種特殊突變而不足以確定病毒遺傳多樣性如何在感染期間促進細胞間異質性從而激活先天免疫。
  • 綜述科普|染色質調控區域的研究:對CHIP-seq和ATAC-seq發展的深入思考
    (圖1) CHIP-seq和ATAC-seq的工作流程。a.在CHIP-seq中,染色質用甲醛交聯並超聲處理,得到200-600個鹼基對的DNA片段。然後,目標DNA-蛋白質複合體可以被抗體免疫沉澱。文庫製備步驟:末端修復、A-尾和接頭連接、文庫測序。
  • DNA+RNA聯合檢測實現腫瘤更全面精準化分析
    並且已有多項研究證明,將DNA檢測與RNA檢測相結合,可以實現核心治療靶點及罕見、有效的融合變異的同時測定,彌補常規檢測方法可能的漏檢、融合基因不明確等不足,有效提高融合基因檢出率,更好的幫助醫生進行臨床診斷及治療。