XHMM分析原理簡介

2021-02-20 生信修煉手冊

歡迎關注」生信修煉手冊」!

XHMM是一款利用WES數據分析CNV的軟體,利用PCA降維來歸一化外顯子區的測序深度信息,然後通過隱馬可夫模型來預測CNV,對應的文章連結如下

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3484655/

該軟體的pipeline示意如下

可以分成4個大的步驟

1. 比對參考基因組

將測序的reads比對到參考基因組上,計算外顯子區的原始測序深度。CNV預測的核心是通過測序深度和cnv的相關性來建模,所以需要保證這裡的測序深度和真實DNA拷貝數的一致性,需要去除PCR重複。

官方推薦使用GATK最佳實踐中的預處理流程,  同時還可以添加一個MAPQ的過濾,篩選MAPQ大於20的alignemnts,得到可以用於下遊分析的bam文件。

2. 歸一化測序深度

計算每個樣本各個外顯子的平均測序深度,得到一個exon平均測序深度的矩陣,示意如下

每一行為一個樣本,每一列為一個eoxn區域,對應的值為該exon區域在樣本內的平均測序深度。

在歸一化之前,可以先對這個矩陣進行一個預處理,即對樣本或者目標區域進行過濾。對於目標區域,去除GC含量小於0.1或者大於0.9的目標區域,去除包含10%以上的低複雜度序列的目標區域,也可以根據測序深度進行過濾,去除過低或者過高的目標區域,比如去除測序深度小於5X的目標區域;對於樣本,可以根據測序深度的分布進行分析,去除離群的樣本。

預處理的目的是儘量保證用於後續分析的樣本在測序深度分布上的均一性,減小樣本間的偏差。預處理之後就可以進行歸一化,考慮到GC含量帶來的PCR偏倚,晶片捕獲,mapping準確率等系統誤差的影響,採用PCA算法來去除系統噪聲,得到歸一化之後的測序深度。

效果如下圖所示

左側為原始的測序深度,右側為歸一化之後的測序深度,每條線代表一個樣本的測序深度值,灰色區域表示正常的二倍體,綠色區域表示拷貝數增加,歸一化之後二者區分的更加顯著。

3. 構建隱馬可夫模型

將CNV在全基因組範圍內分布的比例,長度,exon之間的距離等因素都考慮進來,構建了隱馬可夫模型, 將染色體區域分為以下3種類型

diploid

deletion

duplication

第一種代表拷貝數正常,為2拷貝,對應的測序深度為平均值,即baseline, 第二種代表缺失,小於2拷貝,測序深度低於平均值,第三種代表重複,大於2拷貝,測序深度高於平均值。

隱馬可夫模型中3種狀態之間的轉移概率矩陣如下所示

4.  CNV calling

模型訓練好之後,對於每個樣本,通過維特比算法來分析染色體區域的拷貝數狀態,從而檢測CNV。

掃描關注微信號,更多精彩內容等著你!

相關焦點

  • R語言中的隱馬爾可夫HMM模型實例
    NA, N),return(cbind(roll = 1:N, draws))draws <- simulate(N, jbns = c(12, 4), switch.val = 4)ggplot(draws, aes(x
  • 一站式解決:隱馬爾可夫模型(HMM)全過程推導及實現
    = self.get_data_with_distribute(self.B[z]) result = [x] for _ in range(T-1): z = self.get_data_with_distribute(self.A[z]) x = self.get_data_with_distribute
  • 簡介差熱分析基本原理
    >簡介差熱分析基本原理·熱分析  熱分析是指在程序控制溫度下,測量物質的物理性質隨溫度變化的一種技術。根據熱力學的基本原理,物質的焓、熵和自由能都是物質的一種特性,可用Gibbs-Helmholts方程表達他們之間的關係:ΔG=ΔH-TΔS  其中: T絕對溫度;ΔG吉布斯能變;ΔH焓變;ΔS熵變  由於在給定溫度下每個體系總是趨向於達到自由能最小狀態,所以,當逐漸加熱試樣時,它可轉變成更穩定的晶體結構,或具有更低自由能的另一個狀態。
  • matlab代寫hmm算法程序(隱馬爾科夫模型)需要注意什麼?
    我要做的就是把svm/rf算法的輸出,作為hmm算法的輸入,然後來預測行為。1.Svm/rf算法的輸出也是預測意圖,我想通過hmm算法結合svm/rf的輸出得到更好的預測結果。2.組合各種意圖,比如通過svm/rf得到的意圖劃分為1-7個強度,我想用hmm將這個強度劃分為1,2兩個狀態。或者1,2,3 三個狀態,然後比較這些結果與svm/rf得到的預測結果3.直接運用特徵值用hmm來進行預測。
  • mmhmm重塑視頻會議、2020新款emoji可愛來襲、微軟將推雲遊戲服務x...
    mmhmm可在Zoom、Google Meet、YouTube以及其他影音串流服務上使用,它將用戶的房間轉換為虛擬舞臺,用戶自己也變成舞臺人物之一,可以被放大、縮小並淡出影音界面 。
  • X射線光電子能譜分析原理(XPS)簡介
    今天我們來看一下XPS的原理,不一定能用得到,但是多學一個東西是沒有壞處就是了,後面我們再講大家常用的SIMS(二次離子質譜
  • 新興的製程方法和分析手段 X-ray檢測設備的原理
    打開APP 新興的製程方法和分析手段 X-ray檢測設備的原理 卓茂科技 發表於 2020-11-17 14:26:20 近幾年,隨著通信、計算機、消費電子等產業的發展,x-ray檢測設備也漸漸發展起來。
  • GMM-HMM語音識別原理詳解
    本文簡明講述GMM-HMM在語音識別上的原理,建模和測試過程。本文引用地址:http://www.eepw.com.cn/article/201710/368485.htm  1. 什麼是Hidden Markov Model?
  • Gse v0.30.0 發布, Go 高性能分詞, 增加 hmm 支持
    HMM cut support[NEW] Add go mod support and remove dep files[NEW] Add find word in dictionary func[NEW] Add Cut(), CutAll(), CutSearch(), LoadModel(), HMMCut() func[NEW] Add hmm
  • X射線探傷原理詳解
    X射線探傷原理詳解 X射線探傷原理 通過實踐證明:X射線探傷應用在生產過程中,作為先進的檢測手段為產品品質的提高,起到了不可忽視的作用,使現場檢測從外觀目視提升到了內部探傷微觀檢測,使我公司的產品品質進人新的階段
  • 方差分析(ANOVA)原理
    方差分析(ANOVA)原理微信公眾號:生信小知識關注可了解更多的教程及單細胞知識。
  • 18種實驗室常用儀器分析簡介及原理
    慧聰化工網訊:紫外吸收光譜、螢光光譜法、紅外吸收光譜法……這些都是我們在實驗室裡常用的儀器分析方法。從縮寫、分析原理、譜圖的表示方法、提供的信息角度進行簡要梳理。    1.紫外吸收光譜     縮寫:UV;     分析原理:吸收紫外光能量,引起分子中電子能級的躍遷;     譜圖的表示方法:相對吸收光能量隨吸收光波長的變化;     提供的信息:吸收峰的位置、強度和形狀,提供分子中不同電子結構的信息。
  • X螢光光譜儀的分析原理及構造
    凡是能和X射線發生激烈作用的樣品都不能分析,而要分析的樣品必須經受在真空(4~5Pa)環境下測定,與其他分析技術相比,XRF具有分析速度快,穩定性和精密度好以及動態範圍寬等優點。  X-螢光光譜儀工作原理  X-螢光光譜儀有兩種類型:一種是波長色散型(WDX),一種是能量色散型(EDX),我公司(INNOV-X中國服務中心)使用的是波長色散型(XRF分析儀),在WDX中,螢光光譜通過色散元件(如晶體)被分離成不連續的波段,然後用氣體正比計數器或閃爍計數器檢測,其主要組成是X光管、初級準直器、晶體、次級準直器和探測器
  • 兩種基帶射頻接口協議介紹及基本工作原理分析
    打開APP 兩種基帶射頻接口協議介紹及基本工作原理分析 發表於 2017-12-11 15:09:01 1 協議簡介 OBSAI是由諾基亞、中興通訊、三星等知名公司發起的一個標準化組織,它致力於在基帶單元和射頻單元之間搭建一個公共接口,不同廠家的設備可以通過這個接口互聯。 OBSAI協議的最小單位是消息(Message),它包含目的地址、數據類型、時間戳和淨荷4個部分,共19個字節。消息每個部分的長度及含義如表1所示。
  • 十字相乘法簡介
    十字相乘法簡介公務員考試中的數學運算部分主要考察考生的算術式子的計算比較和數學應用題的分析運算能力。考生必須具備熟練的數學運算技能和紮實的數學基礎知識,掌握一定的數學思想和方法,才能達到準確、迅速求解的要求。利用十字相乘法解公務員考試中的一些習題是很有效的。
  • 水質檢測儀簡介及儀器原理
    水質檢測儀,用於分析水質成分含量的專業儀表,主要指測量水中:BOD、COD、氨氮、總磷、總氮、濁度、PH、溶解氧等項目的儀器   簡介   水質檢測儀,用於分析水質成分含量的專業儀表,主要指測量水中:BOD、COD、氨氮、總磷、總氮、濁度、PH、溶解氧等項目的儀器,為了保護水環境,必須加強對汙水排放的監測,水質檢測儀在環境保護、水質的檢測和水資源保護中起到了重要的作用
  • 程式設計師學習人工智慧,生成式對抗網絡(GAN)1,簡介與算法原理
    一、簡介生成式對抗網絡(GAN, Generative Adversarial Networks )是一種深度學習模型,是近年來複雜分布上無監督學習最具前景的方法之一。二、GAN原理GAN 主要包括了兩個部分,即生成器 generator 與判別器 discriminator。生成器主要用來學習真實圖像分布從而讓自身生成的圖像更加真實,以騙過判別器。判別器則需要對接收的圖片進行真假判別。
  • SEM如何定性、定量分析?一文搞定電子探針顯微分析的原理及應用
    那麼,小析姐就跟大家一起聊一聊電子探針顯微分析的原理和特點。電子探針的功能主要是進行微區成分分析。它是在電子光學和X射線光譜學原理的基礎上發展起來的一種高效率分析儀器。用細聚焦電子束入射樣品表面,激發出樣品元素的特徵X射線。
  • 微積分原理之辨析
    我國數學家丁小平以大無畏的批判精神和驚人的毅力致力於微積分原理的研究,指出了現行微積分原理存在的邏輯錯誤並構建了新的數—形模型,為數學的發展做出了貢獻。本文簡要梳理了微積分發展史以從歷史的角度認識微積分並不是完美的,接著對於博文《也談微分的本質--兼評丁小平〈微分之講授〉》的觀點談幾點看法;最後簡介丁小平先生的工作。1.