WES的CNV分析簡介

2020-10-18 生信修煉手冊

基於全基因組數據來檢測CNV是非常有效的一個手段,然而全基因組的成本還是挺高的。全外顯子組在檢測SNP方面已經比較成熟,考慮到外顯子上的變異可能更具有致病性,科研人員也希望通過檢測外顯子上的CNV來實現一個高效,經濟的CNV檢測,很多的軟體被開發用於WES的CNV分析。

CNV區域的長度可能橫跨了多個外顯子或者基因,斷裂點位於外顯子以外的位置,所以全基因組分析中Read-pair, split-read的策略無法應用到WES的CNV分析中,只能通過read-depth的策略來進行分析。

然而和全基因組不同,全外顯子靶向捕獲了基因組的外顯子區域,考慮到GC含量,序列捕獲等系統誤差,其測序深度的分布和CNV之間的相關性更加複雜,建模衡量的難度更大,所以之前適用於WGS分析的CNV檢測軟體很多都不可以用於WES的分析。

為了有效減少系統誤差的影響,提高CNV檢測的準確率,很多WES的分析軟體都會需要一個對照樣本,將對照樣本和測試樣本進行比較來識別二者間差異的地方,從而迴避系統誤差帶來的影響。同樣的protocol意味著同樣的系統誤差,而二者直接還存在的差異就是由於樣本本身的差異引起的了,這就是對照樣本的作用。所以WES的CNV檢測經典的用處就是檢測體細胞CNV,即SCNA變異,提供配對的癌和癌旁樣本來進行分析。

在以下文獻中,詳細列舉了幾種外顯子CNV檢測的軟體

https://academic.oup.com/bib/article/16/3/380/245577

根據是否需要對照樣本分成以下3大類

  1. paired data, 需要配對的對照樣本

  2. pooled data, 不需要對照樣本

  3. paired and pooled data, 兩種策略都可以

1. paired data

軟體列表如下

  1. ExomeCNV

  2. Varscan2

  3. Control-Freec

  4. exome2cnv

  5. PropSeg

2. pooled data

軟體列表如下

  1. condex

  2. exomeCOPY

  3. cn.mops

  4. conifer

  5. ExomeDepth

  6. XHMM

  7. ExoCNVTest

  8. Excavator

3. paired and pooled data

軟體列表如下

  1. contar

  2. ADTEx

  3. FishingCNV

該文章發表於2014年,在之後又陸續發表了很多新工具,比如excavator, 2016年發表在Nucleic Acids Research上的文章介紹了excavator2進行CNV分析的強大之處,連結如下

https://academic.oup.com/nar/article/44/20/e154/2607979

不同工具算法模型都各不相同,各有優劣,在2014年發表的一篇文章對多個軟體進行了評估,標題如下

在文章中,列舉了很多CNV分析的軟體,示意如下

最終選取了以下4款軟體來進行評估

  1. XHMM

  2. CoNIFER

  3. ExomeDepth

  4. CONTRA

從以下多個方面進行了評估

1. CNV長度和分布

不同軟體檢測到的CNV長度分布不同,結果統計如下

CNV的長度可以從幾十bp跨越到幾Mb的範圍,通常認為小於300bp和長度在6kb左右的CNV應該是數量最多的。WES的CNV檢測工具都是基於read-depth算法,採用滑動窗口的方法,窗口越大,最終鑑定出來的CNV可信度越高,所以在檢測小片段的CNV方面,能力較差。

從統計結果可以看出,Conifer沒有鑑定出1kb以下的CNV, 因為這款軟體要求CNV至少需要覆蓋3個exon區域,XHMM和ExomeDepth則可以同時檢測小片段和大片段的CNV, CONTRA檢測出來的數量過多,是由於其校正read-depthh的算法過於敏感,所以鑑定出來的CNV過多,在檢測小於1kb的小片段CNV時,比較適合。

不同軟體鑑定到的CNV的數量和類型展示如下

2. 和WGS的一致性

採用了cnvnator和ERDS兩款軟體對WGS數據進行CNV檢測,然後和WES的結果進行一致性分析,以exon為單位進行評估,當一個exon 50%以上的區域落在CNV區域時進行計算,比較不同軟體檢測到的exon和WGS數據exon的overlap情況,結果如下

儘管都很低,但是很明顯ExomeDepth overlap率最高,接下來是XHMM。

3. 和Common CNV的一致性

利用1000G項目中在人群中頻率大於5%的cnvs作為common cnv, 採用上述的方法評估不同軟體和common cnv的一致性,結果和WGS一致,也是ExomeDepth最高,XHMM次之。

4. Mendelian Error Rate評估

通常情況下denovo CNV的概率是非常低的,將denovo CNV作為Mendelian Error Rate的指標,對個體及其雙親同時進行CNV分析,評估denovo cnv的頻率,結果如下

每個軟體不符合孟德爾遺傳的CNV比例都很高,conifer最高,而CONTRA最低。

5. deletion CNV的假陽性檢測

對於deletion CNV而言,其染色體區域只剩下一份拷貝,在該區域內的SNV必然為純合性的,所以將包含了雜合SNV的CNV區域作為假陽性的結果,考慮到SNP分型的準確率,將同時滿足以下兩個條件的缺失區域定義為假陽性的結果

  1. 包含了2個以上的雜合SNP

  2. 20%以上的SNP位點為雜合

拷貝數缺失的假陽性統計結果如下

6. 不同軟體之間的一致性

基於exon水平來統計不同軟體之間的一致性,結果如下所示

綜合以上6個指標來看,沒有哪個軟體是全面優於其他軟體的,在不同指標上,不同軟體各有優劣。

在進行WES的CNV檢測時,基於一款軟體的結果很難兼顧靈敏度和特異性,最好的方法還是結合多款軟體的結果進行判斷。

·end·

相關焦點

  • 單細胞轉錄組高級分析四:scRNA數據推斷CNV
    ,然而那些分析只是揭開了組織異質性的面紗,還有更多的生命奧秘隱藏在數據中等待我們發掘。本專題將介紹一些單細胞轉錄組的高級分析內容:多樣本批次校正、轉錄因子分析、細胞通訊分析、基因集變異分析和更全面的基因集富集分析。不足之處請大家批評指正,歡迎添加Kinesin微信交流探討!inferCNV是大名鼎鼎的broad研究所開發的,可以使用單細胞轉錄組數據分析腫瘤細胞CNV。
  • 使用CNVnator進行CNV檢測
    CNVnator是一款CNV檢測軟體,基於Read-Depth的分析策略,通過對全基因組測序數據進行分析來預測CNV, 原始碼保存在github上,網址如下https://github.com/abyzovlab/CNVnator這個軟體的安裝比較複雜,我這裡直接使用別人裝好的docker
  • CNS圖表復現16—inferCNV結果解讀及利用
    首先查看inferCNV結果文件夾,可以看到每個步驟的中間文件,都是保存下來了的:01_incoming_data.infercnv_obj02_reduced_by_cutoff.infercnv_obj03_normalized_by_depth.infercnv_obj
  • XHMM分析原理簡介
    XHMM是一款利用WES數據分析CNV的軟體,利用PCA降維來歸一化外顯子區的測序深度信息,然後通過隱馬可夫模型來預測CNV,對應的文章連結如下https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3484655/該軟體的pipeline示意如下可以分成4個大的步驟1.
  • GATK4.0全基因組和全外顯子組分析實戰(修改版)
    ,它是用來將比對的read進行分組的,這個信息對於我們後續對比對數據進行錯誤率分析和Mark duplicate時非常重要。上一步生成的SAM文件是文本文件,一般整個文件都非常巨大,因此,為了有效節省磁碟空間,一般都會用samtools將它轉化為BAM文件(SAM的特殊二進位格式),而且BAM會更加方便於後續的分析。
  • 16p13.11的CNV,臨床意義如何看?
    我感覺這是由於cnv的解讀質量目前並無相關的監督引起的吧,可能實驗室覺得解讀不規範還有遺傳諮詢師盯著啊,而且解讀偏嚴重最多就是產前引產了一些胎兒而已,沒出生就肯定沒什麼醫療問題,因此家屬不太可能來找麻煩,沒有家屬鬧事,科室太平無事醫院才不會管你那點破事。
  • TCGA CNV全攻略
    ,然後你就會看到下面兩個截然不同的:Merge_snp__genome_wide_snp_6__broad_mit_edu__Level_3__segmented_scna_hg19__seg Merge_snp__genome_wide_snp_6__broad_mit_edu__Level_3__segmented_scna_minus_germline_cnv_hg19
  • 全外顯子組測序(WES)
    2019-03-05 01:12:50 來源: 康安智檢 舉報   全外顯子組測序簡介
  • 高爾夫球飛行階段力學分析(簡介)
    第四章  高爾夫球飛行階段力學分析第一節 高爾夫球飛行過程受力分析第二節高爾夫球飛行軌跡及其影響因素分析第三節 高爾夫球飛行路徑及其影響因素分析
  • 簡介差熱分析基本原理
    原創: 王昉【南師大】 江蘇熱分析>簡介差熱分析基本原理·熱分析  熱分析是指在程序控制溫度下,測量物質的物理性質隨溫度變化的一種技術。  當然,熱分析還可以給出有一定參考價值的動力學、質量、比熱熔、純度和模量變化等數據,所以它是分析和表徵各類物質物理轉變與化學反應基本特性的重要手段,在高分子材料、含能材料、藥物、食品、礦物、金屬/合金、陶瓷、考古以及資源利用等眾多領域有著極其廣泛的應用。
  • Meta分析的類型簡介
    近些年來 ,隨著Meta分析的不斷推廣,國內 Meta分析 大量湧現 ,這為臨床實踐提供了很好的支持。但因製作者的水平各異 ,使得Meta分析的質量良莠不齊,也給臨床實踐中使用者的選擇帶來了疑惑;再者,Meta分析只有真正走向臨床並正確的使用,才能體現其價值 ,而當前 Meta分析的應用較少。
  • 面板數據_面板數據分析 - CSDN
    = - (8)以例1(file:panel02)為例得到的個體固定效應模型估計結果如下: 注意:個體固定效應模型的EViwes輸出結果中沒有公共截距項。圖12EViwes估計方法:在EViwes的Pooled Estimation對話框中Intercept選項中選Fixed effects。其餘選項同上。
  • 局部埋子板PCB製程簡介!子母板的偏移分析與改善
    局部埋子板PCB製程簡介!為了降低局部埋子板加工的技術風險,本文將如實分析造成這些問題的原因,並提出一些切實有效的加工方案以供參考。 局部埋子板PCB製程簡介 圖1: 局部埋子板PCB的典型制板流程 局部埋子板PCB的典型制板流程如上圖1所示,
  • 基於SNP晶片進行CNV分析中的基本知識點
    通過BAF和LRR兩個統計值,藉助算法可以判斷對應區域的拷貝數,圖示如下有很多的軟體可以基於SNP晶片的數據進行CNV的分析,比如使用的非常廣泛的PennCNV, QuantiSNP等,藉助高密度的SNP晶片,可以實現更高解析度的
  • 首期CNV-seq實驗技術與分析解讀高級培訓班圓滿落幕
    11月17日-20日,來自湖南、陝西、廣西、內蒙古及深圳的8家產前診斷中心的檢測實驗室負責人和技術骨幹,集聚一堂,共同參加由貝瑞基因主辦的「第一期低深度全基因組測序(CNV-seq)實驗技術與分析解讀高級培訓班」!
  • 永安期貨簡介
    永安期貨簡介:永安期貨創辦於1994年5月,1997年7月正式註冊成立,是一家國有控股的專業期貨公司,經營範圍為商品期貨經紀、金融期貨經紀,現註冊資本人民幣8.6億元,總部設在杭州。以上內容就是本文關於永安期貨簡介的簡單介紹,想了解更多永安期貨簡介相關期貨公司知識,請關注金投期貨網相關期貨知識欄目。金投期貨今日推薦:外盤期貨行情 期貨市場技術分析 套期保值 做空
  • 錦衣之下人物角色簡介分析及關係圖 主要人物命運結局劇透
    錦衣之下人物角色簡介分析及關係圖  電視劇《錦衣之下》人物之間關係是什麼呢?各個人物角色之間有著怎麼樣的關係?下面一起來看看電視貓原創的錦衣之下人物關係圖:錦衣之下人物角色簡介分析及關係圖  錦衣之下主要人物關係介紹