群體遺傳學習筆記:NGS結構變異檢測原理

2021-03-02 生信菜鳥團

隨著測序的成本越來越低,測序技術越發先進,除了研究單核苷酸多態性(SNP)。研究者們開始慢慢將目光轉向了各位複雜,但是也同樣非常常見的結構變異(SV)。接下來幾期推文會和大家一起學習結構變異的檢測原理,然後通過一系列的實戰演練和大家一起熟悉一些相關的工具和流程。

結構變異的定義與其研究的重要性

變異是導致基因組差異的最重要因素,具體可分為單個鹼基對的變異(SNVs/SNPs)、小的插入或缺失(InDels≤50bp)以及結構變異(SVs>50bp)。

根據結構變異的不同類型,結構變異可以進一步分為DNA序列的插入、缺失、重複、倒位、易位、拷貝數變異等。結構變異可以影響基因組的穩定性、相關基因的表達調控,進而決定物種表型。據統計,每個人類基因組都有超過20000個結構變異,基因組結構變異可能導致的疾病已經超過1000種,例如我們熟悉的耳聞的漸凍症、精神分裂症以及癌症。結構變異帶來的影響比SNVs/SNPs或者是InDels帶來的影響更大。另外,稀有且相同的一些結構性變異往往和疾病(包括癌症)的發生相互關聯甚至還是其直接的致病誘因。結構變異除了廣泛存在人類基因組外,也普遍存在於動植物之中。研究者發現,結構變異與一些關鍵的農藝性狀或者育種相關的性狀也是息息相關。並且多個研究表明,結構變異能夠更好的解析群體結構,為我們更深入了解動植物馴化過程提供進一步的有效信息。簡而言之,結構變異的相關研究必將是生物學未來的一個熱點。

結構變異檢測原理

目前經典的結構變異檢測方法包括:

Read Pair,一般稱為Pair-End Mapping,簡稱RP;

Split Read,分裂read,簡稱SR;

Read Depth,簡稱RD,也有人將其稱為RC——Read Count的意思,它與Read Depth是同一回事,都是利用序列read的橫縱覆蓋情況來檢測變異是否存在的方法;

從頭組裝(de novo Assembly, 簡稱AS)的方法。

Read Pair方法

簡單來說,Read Pair方法是根據pair-end兩端之間距離(插入片段)與參考基因組上差異來確認結構變異。根據測序的原理,這個插入片段長度是一個固定的值,通過測量插入片段的分布是RP方法進行變異檢測的一個關鍵點。

RP方法共有兩種策略來鑑定SVs/CNVs:

下面引用黃樹嘉老師(公眾號解螺旋的礦工中一文)所寫的一段話來解析一下RP探測結構變異的具體原理(我想不出我還能比他解析得更好):

如果插入片段長度有異常,它實際上包含的意思是,組成read1和read2的這個序列片段和參考基因組相比存在著序列上的變異。舉個例子,如果我們發現它這個計算出來的插入片段長度與正態分布的中心相比大了200bp(假設這個200bp已經大於3個標準差了),那麼就意味著參考基因組比read1和read2所在的片段要長200bp,通過類似這樣的方式,我們就可以發現read1和read2所在的序列片段相比與參考基因組而言發生了200bp的刪除(Deletion)。

RP除了可以利用異常插入片段長度的信息進行線性變異(特指Deletion和Insertion)的發現之外,通過比對read1和read2之間的序列位置關係,還能夠發現更多非線性的序列變異。比如,序列倒置(Inversion),因為,按照PE的測序原理,read1和read2與參考基因組相比對,正好是一正一負,要麼是read1比上正鏈,read2比上負鏈,要麼是反過來,而且read1和read2都應處於同一個染色體上,如果不是這種現象,那麼就很可能是序列的非線性結構性變異所致,比如前者是序列倒置(Inversion),後者是序列易位(Translocation)等。

接著簡單總結一下利用RP這個方法去探測結構變異的流程。通過PE reads的比對找出那些比對不正常的read pairs,進而提取出比對不正常的區域,發現相互關聯的聚集。根據這些區域的位置,大小,還有比對不正常的reads的數目來判斷對應的結構變異的種類,最後通過計算相關的置信值來確定對應的結構變異。

使用RP方法來檢測結構變異的不足:

由於RP方法主要是基於入片段長度的變化來檢測Deletion。RP對於比較長的Deletion(通常是大於1kbp)比較敏感,準確性也高。但是對於小片段的Deletion,例如小於200bp的片段,其檢測可靠性準確性就會降低。

它所能檢測的插入Insertion序列,長度無法超過插入片段的長度。如果其長度超過插入片段,相當於是整個片段都是插入序列,PE read將無法比對到基因組上,從而無法進行檢測。

Delly和Breakdancer是兩個最經典的,使用RP方法來進行結構變異檢測的軟體。

Split Read方法

Split Read方法又叫分裂read方法,其算法核心與RP一樣,都是利用PE read來進行變異檢測。但是正如它的名字一般(分裂),SR方法對應著一個特殊的情況:兩條PE的read,有一條能夠正常比對上參考基因組,但是另一條卻不行的情形。其能夠檢測的結構變異類型包括:

關於SR的優缺點,繼續引用黃老師的原話(不是我懶,是人家寫的真的很好):

SR的一個優勢在於,它所檢測到的SVs斷點能精確到單個鹼基,但是也和大多數的RP方法一樣,無法解決複雜結構性變異的情形。對於SR來說,它要求測序的read要更長才能體現它的優勢,read太短,許多變異都會不可避免地被漏掉,它的檢測功效在基因組的重複區域也會比較差。

Pindel,Delly,lumpy和SVseq2都是使用SR方法檢測結構變異的經典工具。

Read Depth方法

Read Depth方法,主要通過在指定區域內(根據滑動窗口)的序列read的橫縱覆蓋情況來檢測變異是否存在的方法。該方法目前普遍被使用於基因組拷貝數變異檢測(CNV)。CNV實質上是序列Deletion或Duplication。Deletion就CNV中最極端的情況,相當於沒有任何copy。這種極端的變異也可以被叫做存在或者缺失變異(PAV)。

全基因組測序(WGS)得到的覆蓋深度呈現出來的是一個泊松分布——因為基因組上任意一個位點被測到的機率都是很低的——是一個小概率事件,在很大量的測序read條件下,其覆蓋就會呈現一個泊松分布,如下圖:

拷貝數增加會使得該區域的Read Depth高於期望值,而拷貝數缺失使得該區域的Read Depth低於高於期望值。根據滑動窗口讀段深度來指示拷貝數擴增與缺失。在眾多的軟體中,CNVnator採取了RD的方法,目前已經被廣泛地被用於檢測CNV。

AS方法

AS方法(從頭組裝),通過將不同個體的read從頭組裝成基因組,然後兩兩之間一起比較找出其中的差異。這應該是最經典,最直接有效找結構變異的辦法。

但這裡,與上面的方法一樣。局限於短序列,你組裝的基因組可能會不完整片段化,導致無法進行精準的基因組比較。另外我們上面提到的所有方法其實都受限於read太短。由於read太短,不能在比對的時候橫跨基因組重複區域;並且無法抓捕很多大的Insertion序列。為了避免測序序列短的缺點,我們可以通過三代長read測序來克服二代數據短帶來的不便。但是長序列的引入,又需要考慮其錯誤高和測序價格相對較高的影響。在最理想的情況下,基於三代測序的從頭組裝應該是基因組結構性變異檢測上最有效的方法,它能夠檢測並且覆蓋所有類型的結構性變異。

總結

在最理想的狀態,不考慮成本,並且組裝的基因組的複雜性,基於三代測序的從頭組裝是最有效的結構變異檢測方法。在剩下三個方法中,每個方法都有自己的優缺點,並沒有說哪個方法會比其它方法有壓倒性的優勢。下表是不同結構變異檢測所推薦使用的工具:

目前大家最常用的方法就是,將幾個方法/工具結合在一起,取不同結果的重合區域作為最終的結構變異結構。進而減少由於二代短測序產生的假陽性結果。下一次內容會和大家進行一些相關的實戰,敬請大家關注。

參考資料:

【簡書】一篇文章說清楚基因組結構性變異檢測的方法

學術前沿 | NGS方法進行拷貝數變異檢測概述

明哥的GitHub:基於NGS SVs檢測原理

文末友情宣傳強烈建議你推薦我們生信技能樹給身邊的博士後以及年輕生物學PI,幫助他們多一點數據認知,讓科研更上一個臺階:

相關焦點

  • 研究揭示人口結構變異的群體結構、分層和滲入
    研究揭示人口結構變異的群體結構、分層和滲入 作者:小柯機器人 發布時間:2020/6/14 23:12:31 英國威康桑格研究所Yali Xue、Mohamed A.
  • 關聯分析和連鎖分析 | 群體遺傳專題
    質量性狀由一對或者少數幾對基因控制,表現在表型數據上就是不連續的變異,不恰當的例子是人分為男女,沒有中間型(人妖除外)。數量性狀是連續變異的性狀,其遺傳基礎複雜,受多基因控制,且易受環境影響,比如人的身高,有小巨人姚明,也有小土豆內特·羅賓遜,還有被吐槽身高的半殘廢的靠譜er。通常大多數的性狀為數量性狀,比如作物的產量、質量、株型、生長發育;動物的肌肉、脂肪沉積、產蛋/肉等性狀。
  • 遺傳與遺傳變異
    大凡動物和鳥類的繁衍,都與遺傳基因的傳遞有著密切的關聯。遺傳通俗說,又分「純合子」和「雜合子」遺傳,諸如信鴿的同品種配對和兩個不同的品種配對,將會產生不同的子裔。同品種配對偶爾也會發生遺傳變異,其形態遺傳性狀表現不類似親鴿,一般又都表現在羽色上較多。
  • 一輪複習,知識梳理:遺傳與變異
    ②基因通過控制蛋白質的結構直接控制生物體的性狀。(2)基因與性狀的關係並不都是簡單的線性關係。3.伴性遺傳(1)伴X染色體隱性遺傳病特點:女患者的父親和所有兒子都患病;男性患者多於女性患者;交叉遺傳;一般為隔代遺傳。
  • 【必修2教參】第五章 基因突變及其他變異
    3.3.5舉例說明染色體結構和數量的變異都可能導致生物性狀的改變甚至死亡3.3.6舉例說明人類遺傳病是可以檢測和預防的(2)教學提示調查常見的人類遺傳病並探討其預防措施(3)學業要求基於證據,論證可遺傳的變異來自基因重組、基因突變和染色體變異(科學思維、科學探究);運用統計與概率的相關知識,解釋並預測種群內某一遺傳性狀的分布及變化
  • 植物基因克隆發Nature的秘密全在這裡了 | 群體遺傳專題
    亞洲栽培稻遺傳多樣性廣泛,不同生態區也有大量的地方栽培。這些材料包含了大量的適應當地環境(包括土壤肥力)的遺傳變異,是優良的遺傳育種資源。目前水稻中有幾個氮素利用效率的基因被克隆(NRT1.1B,OsNR2),但是在更廣泛的群體範圍內,氮素利用的遺傳基礎並沒有被全面的揭示。本文就利用水稻的核心種質進行GWAS分析,鑑定到OsTCP19一個啟動子區域的突變和氮素響應的水稻分櫱表型關聯。
  • Nat Commun:大西洋鮭魚的結構變異
    教學視頻|重要文獻|實驗方法|生物軟體方案設計|生信分析|數據挖掘|寫作作圖|論文投稿結構變異(SVs)是遺傳和表型變異的一個主要來源,但SV calling仍然存在挑戰。這些SVs以高解析度構建群體遺傳結構,包括一個活躍的DNA轉座子,廣泛影響功能特徵,並且與祖先salmonid同源四倍體事件中保留的重複基因重疊。野生魚類和養殖魚類SV等位基因頻率的變化表明,馴養過程中行為特徵的多基因選擇。這項研究為SVs在基因組進化中的作用和馴化性狀的遺傳結構提供了新的見解,並提供了在非模式物種中可靠地鑑定SV的資源。
  • 【科普】種質資源——遺傳多樣性分析
    這兩個聚類分析都可以輸出聚類樹,對種質資源材料兩兩間的親緣關係和種質資源群體分層結構是很好的參考數據。群體分層結構分析目前主要是3種方法:前面提到的兩種聚類方法(UPGMA聚類和NJ聚類),Genalex6.2軟體和NTSYSPC2.10e軟體的二維主坐標分析(PCA)以及STRUCTUREV2.0軟體的群體結構分析。
  • OMSV:基於光學圖譜方法的大結構變異檢測手段
    ,2個能被部分驗證,僅剩下一個被判定為有誤;3.另外,OMSV在三個親子樣本上的探測結果,接近96%的插入或缺失突變結果符合孟德爾遺傳規律,這也從側面證明了該方法的有效性。文中還對各類結構變異進行了樣例分析,通過光學圖譜我們可以直觀地查看變異後的DNA片段分子結構,長達200Kbp的單分子DNA圖譜可以包裹多數大型結構變異區域,也簡化了對於複雜結構變異的檢測過程。且從這些樣例中可以發現,結構變異在DNA圖譜上的範圍越大,變異片段上的標記點構成的模式越複雜,使得其更不容易被錯誤匹配,因此也更容易被檢測到。
  • | 群體遺傳專題
    其校正原理為:在同一數據集上同時檢驗n個相互獨立的假設,那麼用於每一假設的統計顯著水平,應為僅檢驗一個假設時的顯著水平的1/n。如以顯著水平0.05檢驗同一數據集上兩個獨立的假設,此時用於檢驗該兩個假設應使用更嚴格的0.025;對於10000個基因的檢驗,若將p設置為1e-6,進行10000次比較之後犯錯誤的概率是10-6*10000 = 0.01,嚴格地控制了假陽性的出現。
  • 《染色體變異》說課稿
    染色體變異是目前生物學研究中一個十分活躍的領域,染色體變異的知識與人類生活和生產密切相關。本節知識點清晰,一是染色體變異的類型—結構變異和數目變異,二是染色體組、二倍體、多倍體以及單倍體的概念,三是單倍體和多倍體形成的原理以及在育種上的應用。呈現的方式也很直觀,主要是染色體結構變異、數目變異以及染色體組的圖片、文字和動畫資料,讓學生先觀察再討論總結,抽象的概念變得直觀,易於學生接受。
  • 前沿文獻|聚焦中國人群單純型甲基丙二酸血症遺傳變異圖譜
    通過對301例單純型MMA患者的臨床、生化和遺傳特徵進行回顧性分析,擴展了我國單純型MMA患者的臨床表型譜和基因型譜。同時鑑於MMA是可治可防的遺傳代謝病,通過新生兒篩查可以早期發現,早期治療,減少不可逆轉的併發症,降低病死率,因此推廣新生兒篩查是防控的關鍵。
  • 利用CUBIC群體推進定製化玉米遺傳改良 | Genome Biology
    該研究創新性地發展了被命名為CUBIC的遺傳群體,並利用此群體對23個玉米重要的農藝性狀進行了系統性的遺傳剖析。在鑑定到數百個數量性狀位點(QTL)的基礎上,充分利用本群體設計的優點,結合多組學、多群體分析快速鎖定目標基因,並以一個葉寬基因的克隆為例展示了該策略在功能基因快速克隆方面的優勢。點擊此處瀏覽論文全文。
  • 科學家揭示膜果麻黃居群遺傳變異分布的歷史成因
    譜系生物地理學研究有密切關係的種間或者種內支系的現有生物地理格局形成過程和形成機制,是歷史生物地理學的一門新興分支,主要研究地質構造及第四紀氣候變化對物種遺傳變異格局的影響
  • 一輪複習主題必背知識點匯總 | 細胞的生命歷程、遺傳變異與進化
    11.癌細胞具有無限增殖、形態結構發生改變、糖蛋白減少、易於擴散和轉移等特徵。四、遺傳、變異與進化必讀:一、遺傳的分子基礎1.S型細菌的DNA能使活的R型細菌轉化為S型細菌。2.噬菌體由蛋白質和DNA組成,在侵染細菌時只有DNA注入細菌內。
  • 華中農業大學油菜團隊揭示油菜籽粒含油量自然變異的遺傳基礎
    該研究在油菜籽粒含油量遺傳基礎解析,新基因挖掘和油脂合成調控網絡等方面取得新進展。  甘藍型油菜是世界上第三大植物油來源,其產量約佔全球食用油產量的13%。油菜籽粒含油量是油菜重要的性狀之一,籽粒含油量的遺傳機理解析對於高含油量品種的選育以及滿足我國不斷增長的食用油需求具有重要意義。
  • 利用葉綠體DNA條形碼和SSR基因分型來研究入侵植物遺傳分布和結構
    通過葉綠體DNA條形碼和SSR基因分型檢測,對入侵物種進行遺傳多樣性分析,評估其遺傳結構及起源,可為應對外來物種入侵提供科學的數據支撐。英文題目:Genetic Diversity of Invasive Spartina alterniflora Loisel.
  • 群體結構分析三種常用方法 (上篇)
    寫在前面在群體遺傳學和進化生物學相關的項目中,群體結構分析是最常見也是最初步的分析內容,可以幫助我們確認樣本分群是否符合預期以及檢測離群樣本。群體結構分析最常用的三種方法就是PCA、系統發生樹和祖先成分堆疊圖,下面我們將使用發表在Genome Rearch上的Gou et al,2014中的數據(60隻狗全基因組SNP)逐一講解,分為上下兩篇。一、 PCA分析1.
  • 中外合作揭示精神分裂症的遺傳結構
    中外合作揭示精神分裂症的遺傳結構 作者:小柯機器人 發布時間:2019/11/19 14:15:44 近日,北京大學第六醫院嶽偉華、西安交通大學第一附屬醫院馬現倉,以及美國加州大學聖地牙哥分校、西奈山伊坎醫學院、麻省總醫院,新加坡上海交通大學新加坡研究生院
  • 初中生物練習題之遺傳和變異現象
    第20章第1節遺傳和變異現象同步練習     1."龍生龍,鳳生鳳"所包含的生物現象是()     A.遺傳B.變異C.性狀D.遺傳與變異     2.水毛茛是一種水生植物,伸出水面的葉片呈扁平狀,而長期浸沒在水中的葉片分裂成絲狀,這表明()。