基因組測序原理及其發展歷程

2021-01-21 源宜基因

本文將介紹當前的基因組測序原理及其發展歷程。

第一節 NGS測序技術

在真正開始數據分析之前先知道我們是如何將那些原本存在於細胞中的DNA信息獲取出來的——也就是測序的原理,總是有益的。

測序,簡單來說就是將DNA化學信號轉變為計算機可處理的數位訊號。 

它從1977年的第一代Sanger技術發展至今,已經足有40年時間。在這個技術發展的更迭歷程中,測序讀長從長到短,再從短到長。雖然就當前形勢看第二代短讀長測序技術在全球範圍內上佔有著絕對的壟斷位置,但第三測序技術也已在這幾年快速地發展著。測序技術的每一次變革和突破,都對基因組學研究,疾病醫療研究,藥物研發,育種等領域產生巨大的推動作用。所以在這個系列的第一篇裡我將對當前最主流的測序技術以及它們的測序原理做一個全面的介紹。

圖1. 測序技術發展歷程


第一代測序技術

第一代DNA測序技術用的是1975年由桑格(Sanger)和考爾森(Coulson)開創的鏈終止法或者是1976-1977年由馬克西姆(Maxam)和吉爾伯特(Gilbert)發明的化學法(鏈降解). 並在1977年,由桑格老人家測定了第一個基因組序列——噬菌體phiX-174,全長只有5,375個鹼基。雖然與今日的技術比起來根本不算什麼,但自此之後,人類獲得了窺探生命本質的能力,並以此為開端真正步入了基因組學時代。

研究人員在Sanger法的多年實踐之中不斷對其進行改進。在2001年,完成的首個人類基因組圖譜就是以改進了的Sanger法為基礎進行測序的。Sanger法的核心原理是:由於ddNTP(4種帶有螢光標記的A,C,G,T鹼基)的2』和3』都不含羥基,其在DNA的合成過程中不能形成磷酸二酯鍵,因此可以用來中斷DNA的合成反應,在4個DNA合成反應體系中分別加入一定比例帶有放射性同位素標記的ddNTP(分別為:ddATP,ddCTP,ddGTP和ddTTP),然後利用凝膠電泳和放射自顯影后可以根據電泳帶的位置確定待測分子的DNA序列(圖2)。這個網站為Sanger測序法製作了一個小短片,形象而生動。

值得注意的是,在測序技術起步發展的這一時期中,除了Sanger法之外還出現了一些其他的測序技術,如焦磷酸測序法、連接酶法等。其中,焦磷酸測序法是後來Roche公司454技術所使用的測序方法,而連接酶測序法是後來ABI公司SOLID使用的測序方法,但他們的核心手段都是利用了Sanger中可中斷DNA合成反應的dNTP。

圖2. Sanger測序發原理(來源:huangshujia博客園)


第二代測序技術

總的來說,第一代測序技術的主要特點是測序讀長可達1,000bp,準確性高達99.999%,但其測序成本高,通量低等方面的缺點,嚴重影響了其真正大規模的應用。因而第一代測序技術並不是理想的測序方法。經過不斷的技術開發和改進,以Roche公司的454技術、illumina公司的Solexa/Hiseq技術和ABI公司的SOLID技術為標記的第二代測序技術誕生了。第二代測序技術在大幅提高了測序速度的同時,還大大地降低了測序成本,並且保持了高準確性,以前完成一個人類基因組的測序需要3年時間,而使用二代測序技術則僅僅需要1周,但其序列讀長方面比起第一代測序技術則要短很多,大多只有100bp-150bp。圖3. 是第一代和第二代測序技術測序成本作了一個簡單的比較,可以看出自第二代測序技術發展出來之後,歷史開始發生根本性的改變,測序的成本開始快速實現斷崖式下降,也就是業內經常提到的超摩爾定律現象。

圖3. 測序成本比較(來源:NIH官網)

接下來我以illumina(目前最大、最成功的NGS測序儀公司)的技術為基礎簡要單介紹第二代測序測序技術的原理和特點。 

目前illumina的測序儀佔全球75%以上,以Hisq系列為主。它的機器採用的都是邊合成邊測序的方法,主要分為以下4個步驟:

圖4. illumina測序原理(來源:illumina官網)

1)構建DNA測序文庫,圖4-1

簡單來說就是把一堆亂糟糟的DNA分子用超聲波打斷成一定長度範圍的小片段。目前除了一些特殊的需求之外,基本都是打斷為300bp-800bp長的序列片段,並在這些小片段的兩端添加上不同的接頭,構建出單鏈DNA文庫,以備測序之用;

2)測序流動槽(flowcell),圖4-2

flowcell是用於吸附流動DNA片段的槽道,也是核心的測序反應容器——所有的測序過程就發生在這裡。當文庫建好後,這些文庫中的DNA在通過flowcell的時候會隨機附著在flowcell表面的槽道(稱為lane)上。每個flowcell有8個lane(圖5),每個lane的表面都附有很多接頭,這些接頭能和建庫過程中加在DNA片段兩端的接頭相互配對,這就是為什麼flowcell能吸附建庫後的DNA的原因,並能支持DNA在其表面進行橋式PCR的擴增,理論上這些lane之間是不會相互影響的。

圖5. flowcell(實物 VS 示意圖)

3)橋式PCR擴增與變性

圖6. 橋式PCR擴增(來源:illumina官網)

這是NGS技術的一個核心特點。橋式PCR以flowcell表面所固定的序列為模板,進行橋形擴增,如圖6所示。經過不斷的擴增和變性循環,最終每個DNA片段都將在各自的位置上集中成束,每一個束都含有單個DNA模板的很多分拷貝,這一過程的目的在於實現將單一鹼基的信號強度進行放大,以達到測序所需的信號要求。 


4)測序,如圖4-4和圖7所示

圖7. 邊合成邊測序(來源:illumina官網)

測序方法採用邊合成邊測序的方法。向反應體系中同時添加DNA聚合酶、接頭引物和帶有鹼基特異螢光標記的4中dNTP(如同Sanger測序法)。這些dNTP的3』-OH被化學方法所保護,因而每次只能添加一個dNTP,這就確保了在測序過程中,一次只會被添加一個鹼基。同時在dNTP被添加到合成鏈上後,所有未使用的游離dNTP和DNA聚合酶會被洗脫掉。接著,再加入激發螢光所需的緩衝液,用雷射激發螢光信號(圖7),並有光學設備完成螢光信號的記錄,最後利用計算機分析將光學信號轉化為測序鹼基。這樣螢光信號記錄完成後,再加入化學試劑淬滅螢光信號並去除dNTP 3』-OH保護基團,以便能進行下一輪的測序反應。

Illumina的這種每次只添加一個dNTP的技術特點能夠很好的地解決同聚物長度的準確測量問題,它的主要測序錯誤來源是鹼基的替換,目前它的測序錯誤率在1%-1.5%左右。測序周期以人類基因組重測序為例,30x-50x測序深度對於Hisq系列需要3-5天時間,而對於2017年初最新推出的NovaSeq系列則只需要40個小時!

表1. 測序量比較(雙流動槽為例,如為單流動槽則測序量減少為下表的一半,時間不變)

*一次測序的數據總產量的單位Gb,不是計算機字節,而是測序鹼基的數目(Giga base)*


圖8. NovaSeq與其他測序儀測序通量的比較(來源:illumina官網)

上面表1和圖8是NovaSeq和其他測序系列的比較,數據相當好。按照這個數據量估算,一臺NovaSeq 6000(S4)在跑滿的情況下,一年可以測序6400多人。而且按照以往的經驗,illumina的官方公布的數據都是偏於保守的,我們在實際的使用過程中發現高質量(Q30)的read其實佔到了總數據的90%以上,遠高於官方公布的75%,數據的總產量也同樣更高。


第三代測序技術

這是一個新的裡程碑。以PacBio公司的SMRT和Oxford Nanopore Technologies的納米孔單分子測序技術為標誌,被稱之為第三代測序技術。與前兩代相比,最大的特點就是單分子測序,測序過程無需進行PCR擴增,超長讀長,以下圖9是PacBio SMRT技術的測序讀長分布情況,平均達到10Kb-15Kb,是二代測序技術的100倍以上,值得注意的是在測序過程中這些序列的讀長也不再是相等的,下文有解析!

圖9.  PacBio SMRT 測序read讀長分布

PacBio SMRT

PacBio SMRT技術其實也應用了邊合成邊測序的思想,並以SMRT晶片為測序載體(如同flowcell)。基本原理是: DNA聚合酶和模板結合,用4色螢光標記A,C,G,T這4種鹼基(即是dNTP)。在鹼基的配對階段,不同的鹼基加入,會發出不同的光,根據光的波長與峰值可判斷進入的鹼基類型。

圖10. PacBio SMRT 測序原理

這個DNA聚合酶是實現超長讀長的關鍵之一,讀長主要跟酶的活性保持有關,它主要受雷射對其造成的損傷所影響。PacBio SMRT技術的一個關鍵點是在於如何將反應信號與周圍游離鹼基的強大螢光背景區別出來。他們利用的是ZMW(零模波導孔)原理:如同微波爐壁上可看到的很多密集小孔。這些小孔的直徑是有嚴格要求的,如果直徑大於微波波長,能量就會在衍射效應的作用下穿透面板從而洩露出來(光波的衍射效應),從而與周圍小孔相互幹擾(光波的幹涉)。如果孔徑能夠小于波長,那麼能量就不會輻射到周圍,而是保持直線狀態,從而可起到保護的作用。同理,在一個反應管(SMRTCell:單分子實時反應孔)中有許多這樣的圓形納米小孔,,即 ZMW(零模波導孔),外徑100多納米,比檢測雷射波長小(數百納米),雷射從底部打上去後不會穿透小孔進入上方的溶液區,能量會被限制在一個小範圍(體積20X 10-21 L)裡(圖10-A),正好足夠覆蓋需要檢測的部分,使得信號僅僅只是來自於這個小反應區域,孔外過多的游離核苷酸單體依然留在黑暗中,從而實現將背景噪音降到最低的目的。

PacBio SMRT技術除了能夠檢測普通的鹼基之外,還可以通過檢測相鄰兩個鹼基之間的測序時間,來檢測鹼基的表觀修飾情況,如甲基化。因為假設某個鹼基存在表觀修飾,則通過聚合酶時的速度會減慢,那麼相鄰兩峰之間的距離會增大,我們可以通過這個時間上的差異來檢測表觀甲基化修飾等信息(圖11)。

圖11. PacBio SMRT 檢測甲基化修飾


SMRT技術的測序速度很快,每秒約10個dNTP。但這麼快的測序速度也帶來了一些明顯的缺點——測序錯誤率比較高(這幾乎是目前單分子測序技術的通病),可以達到10%-15%,而且以缺失序列和錯位居多,但好在它的出錯是隨機的,並不會像第二代測序技術那樣存在一定的鹼基偏向,因此可以通過多次測序來進行有效糾錯。


Oxford Nanopore

Oxford Nanopore 的MinION是另一個比較受關注的第三代測序儀,俗稱U盤測序儀,它真的很小,我親手拿過,並拆過,圖12(左)!這家公司開發的納米單分子測序技術與以往的測序技術相比都不一樣,它是基於電信號而不是光信號的測序技術!

圖12. Oxford Nanopore MinION

這個技術的關鍵點在於他們所設計的一種特殊納米孔,孔內共價結合分子接頭。當DNA分子通過納米孔時,它們使電荷發生變化,從而短暫地影響流過納米孔的電流強度(每種鹼基所影響的電流變化幅度是不同的),最後高靈敏度的電子設備檢測到這些變化從而鑑定所通過的鹼基(圖13)。

圖13. MinION 測序原理

納米孔測序以及其他第三代測序技術,有可能會徹底地解決目前第二代測序平臺的諸多不足。另外,MinION的主要特點是:讀長很長,而且比PacBio的都長得多,基本都是在幾十kb上百kb以上,最新的數據顯示可以達到900 kb!錯誤率是5%-15%,也是隨機錯誤,MinION最大的特點除了極小的體積之外,就是數據將是可實時讀取的,並且起始DNA在測序過程中不被破壞!這真是個可以上天的能力。然鵝,遺憾地多說幾句,目前還沒真正公布,細節也不知,自從2012開過一次發布會之後,就沒什麼聲響了。

這種納米孔單分子測序儀還有另一大特點,它能夠直接讀取出甲基化的胞嘧啶,而不必像二代測序方法那樣需要事先對基因組進行bisulfite處理。這對於在基因組水平直接研究表觀遺傳相關現象有極大的幫助。下面是對PacBio和Oxford Nanopore這兩家第三代測序技術公司的測序儀做的一個簡單比較,可以看出其實成本還是蠻高的,質量也只是還行,期待他們的下一次進化吧。


總結

以上,對各代測序技術的原理做了簡要的闡述。在這個比較的過程中,可以看到測序成本,讀長和通量是該測序技術先進與否的三個重要指標。其實第一代和第二代測序技術除了通量和成本上的差異之外,測序的核心原理都來自於邊合成邊測序的思想。第二代測序技術的優點是通量大大提升,成本大大減低,使得昔日王榭堂前燕,可以飛入尋常百姓家。總之,只有變成白菜價,才能真正對大眾有意義;但它的缺點是所引入PCR過程會在一定程度上增加測序的錯誤率,並且具有系統偏向性,同時讀長也比較短。第三代測序技術是為了解決第二代所存在的缺點而開發的,它的根本特點是單分子測序,不需要任何PCR的過程,這是為了能有效避免因PCR偏向性而導致的系統錯誤,同時提高讀長,但這個技術還不是很成熟,需要再進化,成本也偏高。

圖14. 全球測序儀數量分布

參考文獻

1. Sanger, F. & Nicklen, S. DNA sequencing with chain-terminating. 74, 5463–5467 (1977).

2. Mardis, E. R. Next-generation DNA sequencing methods. Annual review of genomics and human genetics 9, 387–402 (2008).

3. Shendure, J. & Ji, H. Next-generation DNA sequencing. Nature biotechnology 26, 1135–45 (2008).

4. Metzker, M. L. Sequencing technologies - the next generation. Nature reviews. Genetics 11, 31–46 (2010).

5. Niedringhaus, T. P., Milanova, D., Kerby, M. B., Snyder, M. P. & Barron, A. E. Landscape of Next-Generation Sequencing Technologies. 4327–4341 (2011).

6. Rothberg, J. M. et al. An integrated semiconductor device enabling non-optical genome sequencing. Nature 475, 348–52 (2011). 

Sanger示例網站:http://smcg.cifn.unam.mx/enp-unam/03-EstructuraDelGenoma/animaciones/secuencia.swf

文章來源於:宏基因組



相關焦點

  • 三代基因組測序技術原理簡介
    摘要:從1977年第一代DNA測序技術(Sanger法)1,發展至今三十多年時間,測序技術已取得了相當大的發展,從第一代到第三代乃至第四代,測序讀長從長到短,再從短到長。雖然就當前形勢看來第二代短讀長測序技術在全球測序市場上仍然佔有著絕對的優勢位置,但第三和第四代測序技術也已在這一兩年的時間中快速發展著。
  • 基因測序技術發展歷程
    基因組攜帶了個體的全部遺傳信息,基因測序能夠加深對疾病尤其是惡性腫瘤的分子機制理解,在診斷與治療方面都發揮著重要作用。人類基因組學計劃完成後,基因測序技術的發展更加迅猛,在臨床實踐和基礎研究中的應用更加廣泛。
  • 基因組測序是什麼
    基因組測序正在弄清楚基因組中DNA核苷酸或鹼基的順序-組成生物體DNA的As,Cs,Gs和Ts的順序。人類基因組由超過30億個這些遺傳字母組成。如今,大規模的DNA測序-雄心勃勃的項目(例如對整個基因組測序)所必需的規模-大多是由高科技機器完成的。就像您的眼睛掃描字母序列來閱讀句子一樣,這些機器「讀取」 DNA鹼基序列。
  • 基因組圖譜全面揭秘鳥類演化「大爆炸」歷程
    一項歷時四年之久、雄心勃勃的國際合作研究,通過全面解析現代鳥類基因組圖譜,使約6600萬年前地球上龐大動物類群恐龍覆滅之後出現的鳥類演化「大爆炸」歷程浮出水面,並深入解答了很多疑問。其中發表在《科學》雜誌的兩篇綜合性文章稱,研究人員基於全基因組數據構建了有史以來最高可信度的鳥類分子演化樹,前所未有地解決了關於早期鳥類演化關係的歷史爭論;描述了鳥類基因組演化的歷程,從基因組角度闡述了鳥類宏觀演化的重要特徵。
  • 首個珊瑚基因組測序完成
    日本科學家完成了對鹿角珊瑚的基因組測序工作。(圖片提供:Chuya Shinzato) 第一個完整的珊瑚基因組測序結果顯示,珊瑚的起源時間比之前認定的時間早了很多,並且至少有一個重要的物種比環保人士所擔心的更為脆弱。
  • 基因組圖譜全面揭秘鳥類演化「大爆炸」歷程—新聞—科學網
    一項歷時四年之久、雄心勃勃的國際合作研究,通過全面解析現代鳥類基因組圖譜,使約6600萬年前地球上龐大動物類群恐龍覆滅之後出現的鳥類演化「大爆炸」歷程浮出水面,並深入解答了很多疑問。其中發表在《科學》雜誌的兩篇綜合性文章稱,研究人員基於全基因組數據構建了有史以來最高可信度的鳥類分子演化樹,前所未有地解決了關於早期鳥類演化關係的歷史爭論;描述了鳥類基因組演化的歷程,從基因組角度闡述了鳥類宏觀演化的重要特徵。
  • 測序原理-------一代測序、二代測序、三代測序
    第一代測序技術-Sanger法測序今天我們從第一代測序出發,來看一下測序歷史上有什麼重要事件發生。一代測序技術是20世紀70年代中期有Sanger首先發明,他也是歷史上一生中獲得過兩次諾貝爾獎的科學家之一。他的基本原理如下:
  • 「基因組與轉錄組高通量測序應用最新技術與數據分析」高級實操...
    」高級實操班培訓通知各有關單位:隨著新一代高通量測序技術的快速發展,在準確度大大提高的前提下, 進一步降低測序成本。隨著生物信息學作為新興學科迅速蓬勃發展,正在改變人們研究生物醫學的傳統方式,高通量測序技術以及數據分析技術已成為探索生物學底層機制和研究人類複雜疾病診斷、治療及預後的重要工具,廣泛應用於生命科學各個領域,是21世紀生命科學與生物技術的重要戰略前沿和主要突破口。
  • 高通量測序技術的原理和應用——第二代測序技術
    , HTS) 是對傳統Sanger測序技術革命性的變革,可以一次對幾十萬到幾百萬條核酸分子進行序列測定,因此也稱其為下一代測序技術 (Next Generation Sequencing, NGS),高通量測序技術的出現使得對一個物種的轉錄組和基因組進行細緻全貌的分析成為可能。
  • 「基因組與轉錄組高通量測序應用最新技術與數據分析」高級實操班...
    隨著生物信息學作為新興學科迅速蓬勃發展,正在改變人們研究生物醫學的傳統方式,高通量測序技術以及數據分析技術已成為探索生物學底層機制和研究人類複雜疾病診斷、治療及預後的重要工具,廣泛應用於生命科學各個領域,是21世紀生命科學與生物技術的重要戰略前沿和主要突破口。
  • 第二代測序的原理
    >,又稱下一代測序(Next-generation Sequencing,NGS),該技術的核心思路是「通過合成來進行測序(Sequencing by Synthesis),即通過捕捉新合成核苷酸的標記(Tag)來確定核酸的序列。
  • 基因測序技術的未來在哪裡?
    2005年,454 Life Sciences公司開發出全球第一臺商業化邊合成邊測序測序儀,第二代測序儀誕生,由此拉開了基因產業發展的序幕。  2008年,Helicos Biosciences推出了首臺單分子測序儀,標誌第三代測序技術來臨。2011年,PacificBiosciences也推出單分子實時測序系統PacBioRS。
  • 精確醫學:不僅是簡單的基因組測序
    撰文 | 吳家睿(中國科學院上海生命科學研究院生物化學與細胞生物學研究所研究員)責編 | 葉水送● ● ●國內在介紹和討論精確醫學時,大多只強調基因組序列分析的重要性,給人造成一種「基因組測序」是精確醫學必由之路的幻象
  • 華大智造發布百萬級基因組測序設備
    該方案集樣本前處理、文庫製備、高通量測序、基因數據管理等模塊為一體,從樣本到報告全程自動化,目前可滿足每年五萬到百萬級規模高深度全基因組測序需求,全流程均可按需定製。華大智造高級副總裁倪鳴表示:「近年來大人群基因組測序和分析漸成趨勢,國家級別的基因組測序項目不斷湧現。全球範圍內大人群基因組計劃的實施,對高通量基因測序平臺技術的水平,對基因測序方案的通量、成本、精準度、智能化等提出了更高要求,華大智造也希望為此貢獻己力。」
  • 高通量測序(又名下一代測序, NGS)的原理簡介
    目前高通量測序的主要平臺代表有羅氏公司(Roche)的454測序儀(Roch GS FLX sequencer),Illumina公司的Solexa基因組分析儀(Illumina Genome Analyzer)和ABI的SOLiD測序儀(ABI SOLiD sequencer)。454公司首選將焦磷酸測序應用在測序技術上,之後便被羅氏診斷收購,形成了目前的Roche 454。
  • 科學網—口袋裝置測序人類基因組
    本報訊 1月30日,《自然—生物技術》在線發表的一篇論文介紹了利用一個口袋大小的納米孔裝置測序和從頭組裝人類基因組
  • 中國人參全基因組圖譜測序完成
    人參基因組圖譜測序是破解人參產業精細化、科學化發展瓶頸的前瞻性和戰略性的基礎工作。這項工作是2010年8月由通化市政府、中科院北京基因組研究所、紫鑫藥業共同啟動的。經過短時間的刻苦攻關,到今年2月底,人參的全基因組圖譜終於得以問世。
  • NGS測序技術原理,檢測方案及選擇標準大全!
    測序技術的發展主要基於兩個非常具有裡程碑意義的理念:「生命是序列的」和「生命是數據的」。序列是基因組學最基本最重要的數據,也是生命科學領域大數據時代的核心組成部分。簡單來說,測序技術就是將DNA/RNA分子中鹼基ATGC的排列順序顯示出來!
  • 倭黑猩猩基因組測序完成
    英國《自然》雜誌網站6月13日刊登報告說,一個國際研究小組完成了對倭黑猩猩的基因組測序,這是科學界獲得的又一份人類「近親」的基因組圖譜,有助於對比研究是哪些基因導致了人類與各種猩猩的區別
  • 「單細胞測序」技術發展迅速,實現產業化還要多久?
    單細胞測序即從單個細胞水平上對基因組進行測序,把基因測序應用到單個細胞層面,從而識別細胞的類型、功能,特定細胞健康或狀態的變化、變異。而常規的基於NGS的基因檢測,都是在大量細胞宏觀水平上,對整個細胞群進行遺傳分析。近年來,單細胞測序相關研究與日俱增,截止到2019年,Pubmed中已發表1338篇科學文獻。