檢測CNV有多種技術手段,常見的有以下三種
aCGH晶片
SNP晶片
NGS測序
本文主要介紹SNP晶片檢測CNV的原理,本質是基於染色體區域內的SNP分型結果來判斷對應的拷貝數,示意圖如下
對於每個SNP位點的兩個allel, 分別用A和B來表示,A代表ref allel, B代表alt allel。在上述示意圖中,紅色區域表示一段雜合性缺失LOH區域,該區域為單拷貝,每個位點分型結果只有一個allel, 藍色區域表示一個3拷貝,每個位點分型有3個allel, 通過位點分型結果,可以判斷出對應染色體區域的拷貝數。在理解這幅圖之前,先來講解以下兩個基本概念。
SNP晶片的分型是通過比較A/B兩種allel對應的螢光信號強度的比值來確定的,同樣的,為了更好的描述CNV, 也定義了以下兩個統計值
LRR全稱是log R ratio, 公式如下
R代表的是A和B兩個allel螢光信號強度的總和,observed是實驗樣本中實際檢測到的數值,exprected是通過算法擬合的值,代表正常樣本的檢測值。
LRR類似aCGH晶片中的Log2 ratio, 表徵的是相對正常樣本的拷貝數變化情況。該值為0,表示拷貝數沒有異常,為二拷貝,大於0, 表示拷貝數增加,小於0,表示拷貝數減少。
BAF全稱是B allel frequency, 表示兩個allel信號強度的比值,公式如下
從上述定義可以看出來,BAF取值範圍為0-1, 0代表只檢測到了A這個allel對應的螢光信號,分型結果為AA, 1代表只檢測到了B這個allel的螢光信號,分型結果為BB; 0.5代表A和B兩個allel的螢光信號強度相等,分型結果為AB。
值得一提的是,雖然分型結果只會有3種,但是BAF的取值可以在0-1的範圍內波動,應為螢光信號強度會有一定的擾動。
需要注意的是,這裡的螢光信號強度都是歸一化之後的。通過BAF和LRR兩個統計值,藉助算法可以判斷對應區域的拷貝數,圖示如下
有很多的軟體可以基於SNP晶片的數據進行CNV的分析,比如使用的非常廣泛的PennCNV, QuantiSNP等,藉助高密度的SNP晶片,可以實現更高解析度的CNV檢測,同時檢測拷貝數,LOH,UPD等結構變異事件。
·end·