歡迎關注」生信修煉手冊」!
XHMM是一款利用WES數據分析CNV的軟體,利用PCA降維來歸一化外顯子區的測序深度信息,然後通過隱馬可夫模型來預測CNV,對應的文章連結如下
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3484655/
該軟體的pipeline示意如下
可以分成4個大的步驟
1. 比對參考基因組將測序的reads比對到參考基因組上,計算外顯子區的原始測序深度。CNV預測的核心是通過測序深度和cnv的相關性來建模,所以需要保證這裡的測序深度和真實DNA拷貝數的一致性,需要去除PCR重複。
官方推薦使用GATK最佳實踐中的預處理流程, 同時還可以添加一個MAPQ的過濾,篩選MAPQ大於20的alignemnts,得到可以用於下遊分析的bam文件。
2. 歸一化測序深度計算每個樣本各個外顯子的平均測序深度,得到一個exon平均測序深度的矩陣,示意如下
每一行為一個樣本,每一列為一個eoxn區域,對應的值為該exon區域在樣本內的平均測序深度。
在歸一化之前,可以先對這個矩陣進行一個預處理,即對樣本或者目標區域進行過濾。對於目標區域,去除GC含量小於0.1或者大於0.9的目標區域,去除包含10%以上的低複雜度序列的目標區域,也可以根據測序深度進行過濾,去除過低或者過高的目標區域,比如去除測序深度小於5X的目標區域;對於樣本,可以根據測序深度的分布進行分析,去除離群的樣本。
預處理的目的是儘量保證用於後續分析的樣本在測序深度分布上的均一性,減小樣本間的偏差。預處理之後就可以進行歸一化,考慮到GC含量帶來的PCR偏倚,晶片捕獲,mapping準確率等系統誤差的影響,採用PCA算法來去除系統噪聲,得到歸一化之後的測序深度。
效果如下圖所示
左側為原始的測序深度,右側為歸一化之後的測序深度,每條線代表一個樣本的測序深度值,灰色區域表示正常的二倍體,綠色區域表示拷貝數增加,歸一化之後二者區分的更加顯著。
3. 構建隱馬可夫模型將CNV在全基因組範圍內分布的比例,長度,exon之間的距離等因素都考慮進來,構建了隱馬可夫模型, 將染色體區域分為以下3種類型
diploid
deletion
duplication
第一種代表拷貝數正常,為2拷貝,對應的測序深度為平均值,即baseline, 第二種代表缺失,小於2拷貝,測序深度低於平均值,第三種代表重複,大於2拷貝,測序深度高於平均值。
隱馬可夫模型中3種狀態之間的轉移概率矩陣如下所示
模型訓練好之後,對於每個樣本,通過維特比算法來分析染色體區域的拷貝數狀態,從而檢測CNV。
掃描關注微信號,更多精彩內容等著你!