本文將介紹當前的基因組測序原理及其發展歷程。
第一節 NGS測序技術
在真正開始數據分析之前先知道我們是如何將那些原本存在於細胞中的DNA信息獲取出來的——也就是測序的原理,總是有益的。
測序,簡單來說就是將DNA化學信號轉變為計算機可處理的數位訊號。
它從1977年的第一代Sanger技術發展至今,已經足有40年時間。在這個技術發展的更迭歷程中,測序讀長從長到短,再從短到長。雖然就當前形勢看第二代短讀長測序技術在全球範圍內上佔有著絕對的壟斷位置,但第三測序技術也已在這幾年快速地發展著。測序技術的每一次變革和突破,都對基因組學研究,疾病醫療研究,藥物研發,育種等領域產生巨大的推動作用。所以在這個系列的第一篇裡我將對當前最主流的測序技術以及它們的測序原理做一個全面的介紹。
圖1. 測序技術發展歷程
第一代測序技術
第一代DNA測序技術用的是1975年由桑格(Sanger)和考爾森(Coulson)開創的鏈終止法或者是1976-1977年由馬克西姆(Maxam)和吉爾伯特(Gilbert)發明的化學法(鏈降解). 並在1977年,由桑格老人家測定了第一個基因組序列——噬菌體phiX-174,全長只有5,375個鹼基。雖然與今日的技術比起來根本不算什麼,但自此之後,人類獲得了窺探生命本質的能力,並以此為開端真正步入了基因組學時代。
研究人員在Sanger法的多年實踐之中不斷對其進行改進。在2001年,完成的首個人類基因組圖譜就是以改進了的Sanger法為基礎進行測序的。Sanger法的核心原理是:由於ddNTP(4種帶有螢光標記的A,C,G,T鹼基)的2』和3』都不含羥基,其在DNA的合成過程中不能形成磷酸二酯鍵,因此可以用來中斷DNA的合成反應,在4個DNA合成反應體系中分別加入一定比例帶有放射性同位素標記的ddNTP(分別為:ddATP,ddCTP,ddGTP和ddTTP),然後利用凝膠電泳和放射自顯影后可以根據電泳帶的位置確定待測分子的DNA序列(圖2)。這個網站為Sanger測序法製作了一個小短片,形象而生動。
值得注意的是,在測序技術起步發展的這一時期中,除了Sanger法之外還出現了一些其他的測序技術,如焦磷酸測序法、連接酶法等。其中,焦磷酸測序法是後來Roche公司454技術所使用的測序方法,而連接酶測序法是後來ABI公司SOLID使用的測序方法,但他們的核心手段都是利用了Sanger中可中斷DNA合成反應的dNTP。
圖2. Sanger測序發原理(來源:huangshujia博客園)
第二代測序技術
總的來說,第一代測序技術的主要特點是測序讀長可達1,000bp,準確性高達99.999%,但其測序成本高,通量低等方面的缺點,嚴重影響了其真正大規模的應用。因而第一代測序技術並不是理想的測序方法。經過不斷的技術開發和改進,以Roche公司的454技術、illumina公司的Solexa/Hiseq技術和ABI公司的SOLID技術為標記的第二代測序技術誕生了。第二代測序技術在大幅提高了測序速度的同時,還大大地降低了測序成本,並且保持了高準確性,以前完成一個人類基因組的測序需要3年時間,而使用二代測序技術則僅僅需要1周,但其序列讀長方面比起第一代測序技術則要短很多,大多只有100bp-150bp。圖3. 是第一代和第二代測序技術測序成本作了一個簡單的比較,可以看出自第二代測序技術發展出來之後,歷史開始發生根本性的改變,測序的成本開始快速實現斷崖式下降,也就是業內經常提到的超摩爾定律現象。
圖3. 測序成本比較(來源:NIH官網)
接下來我以illumina(目前最大、最成功的NGS測序儀公司)的技術為基礎簡要單介紹第二代測序測序技術的原理和特點。
目前illumina的測序儀佔全球75%以上,以Hisq系列為主。它的機器採用的都是邊合成邊測序的方法,主要分為以下4個步驟:
圖4. illumina測序原理(來源:illumina官網)
1)構建DNA測序文庫,圖4-1
簡單來說就是把一堆亂糟糟的DNA分子用超聲波打斷成一定長度範圍的小片段。目前除了一些特殊的需求之外,基本都是打斷為300bp-800bp長的序列片段,並在這些小片段的兩端添加上不同的接頭,構建出單鏈DNA文庫,以備測序之用;
2)測序流動槽(flowcell),圖4-2
flowcell是用於吸附流動DNA片段的槽道,也是核心的測序反應容器——所有的測序過程就發生在這裡。當文庫建好後,這些文庫中的DNA在通過flowcell的時候會隨機附著在flowcell表面的槽道(稱為lane)上。每個flowcell有8個lane(圖5),每個lane的表面都附有很多接頭,這些接頭能和建庫過程中加在DNA片段兩端的接頭相互配對,這就是為什麼flowcell能吸附建庫後的DNA的原因,並能支持DNA在其表面進行橋式PCR的擴增,理論上這些lane之間是不會相互影響的。
圖5. flowcell(實物 VS 示意圖)
3)橋式PCR擴增與變性
圖6. 橋式PCR擴增(來源:illumina官網)
這是NGS技術的一個核心特點。橋式PCR以flowcell表面所固定的序列為模板,進行橋形擴增,如圖6所示。經過不斷的擴增和變性循環,最終每個DNA片段都將在各自的位置上集中成束,每一個束都含有單個DNA模板的很多分拷貝,這一過程的目的在於實現將單一鹼基的信號強度進行放大,以達到測序所需的信號要求。
4)測序,如圖4-4和圖7所示
圖7. 邊合成邊測序(來源:illumina官網)
測序方法採用邊合成邊測序的方法。向反應體系中同時添加DNA聚合酶、接頭引物和帶有鹼基特異螢光標記的4中dNTP(如同Sanger測序法)。這些dNTP的3』-OH被化學方法所保護,因而每次只能添加一個dNTP,這就確保了在測序過程中,一次只會被添加一個鹼基。同時在dNTP被添加到合成鏈上後,所有未使用的游離dNTP和DNA聚合酶會被洗脫掉。接著,再加入激發螢光所需的緩衝液,用雷射激發螢光信號(圖7),並有光學設備完成螢光信號的記錄,最後利用計算機分析將光學信號轉化為測序鹼基。這樣螢光信號記錄完成後,再加入化學試劑淬滅螢光信號並去除dNTP 3』-OH保護基團,以便能進行下一輪的測序反應。
Illumina的這種每次只添加一個dNTP的技術特點能夠很好的地解決同聚物長度的準確測量問題,它的主要測序錯誤來源是鹼基的替換,目前它的測序錯誤率在1%-1.5%左右。測序周期以人類基因組重測序為例,30x-50x測序深度對於Hisq系列需要3-5天時間,而對於2017年初最新推出的NovaSeq系列則只需要40個小時!
表1. 測序量比較(雙流動槽為例,如為單流動槽則測序量減少為下表的一半,時間不變)
*一次測序的數據總產量的單位Gb,不是計算機字節,而是測序鹼基的數目(Giga base)*
圖8. NovaSeq與其他測序儀測序通量的比較(來源:illumina官網)
上面表1和圖8是NovaSeq和其他測序系列的比較,數據相當好。按照這個數據量估算,一臺NovaSeq 6000(S4)在跑滿的情況下,一年可以測序6400多人。而且按照以往的經驗,illumina的官方公布的數據都是偏於保守的,我們在實際的使用過程中發現高質量(Q30)的read其實佔到了總數據的90%以上,遠高於官方公布的75%,數據的總產量也同樣更高。
第三代測序技術
這是一個新的裡程碑。以PacBio公司的SMRT和Oxford Nanopore Technologies的納米孔單分子測序技術為標誌,被稱之為第三代測序技術。與前兩代相比,最大的特點就是單分子測序,測序過程無需進行PCR擴增,超長讀長,以下圖9是PacBio SMRT技術的測序讀長分布情況,平均達到10Kb-15Kb,是二代測序技術的100倍以上,值得注意的是在測序過程中這些序列的讀長也不再是相等的,下文有解析!
圖9. PacBio SMRT 測序read讀長分布
PacBio SMRT
PacBio SMRT技術其實也應用了邊合成邊測序的思想,並以SMRT晶片為測序載體(如同flowcell)。基本原理是: DNA聚合酶和模板結合,用4色螢光標記A,C,G,T這4種鹼基(即是dNTP)。在鹼基的配對階段,不同的鹼基加入,會發出不同的光,根據光的波長與峰值可判斷進入的鹼基類型。
圖10. PacBio SMRT 測序原理
這個DNA聚合酶是實現超長讀長的關鍵之一,讀長主要跟酶的活性保持有關,它主要受雷射對其造成的損傷所影響。PacBio SMRT技術的一個關鍵點是在於如何將反應信號與周圍游離鹼基的強大螢光背景區別出來。他們利用的是ZMW(零模波導孔)原理:如同微波爐壁上可看到的很多密集小孔。這些小孔的直徑是有嚴格要求的,如果直徑大於微波波長,能量就會在衍射效應的作用下穿透面板從而洩露出來(光波的衍射效應),從而與周圍小孔相互幹擾(光波的幹涉)。如果孔徑能夠小于波長,那麼能量就不會輻射到周圍,而是保持直線狀態,從而可起到保護的作用。同理,在一個反應管(SMRTCell:單分子實時反應孔)中有許多這樣的圓形納米小孔,,即 ZMW(零模波導孔),外徑100多納米,比檢測雷射波長小(數百納米),雷射從底部打上去後不會穿透小孔進入上方的溶液區,能量會被限制在一個小範圍(體積20X 10-21 L)裡(圖10-A),正好足夠覆蓋需要檢測的部分,使得信號僅僅只是來自於這個小反應區域,孔外過多的游離核苷酸單體依然留在黑暗中,從而實現將背景噪音降到最低的目的。
PacBio SMRT技術除了能夠檢測普通的鹼基之外,還可以通過檢測相鄰兩個鹼基之間的測序時間,來檢測鹼基的表觀修飾情況,如甲基化。因為假設某個鹼基存在表觀修飾,則通過聚合酶時的速度會減慢,那麼相鄰兩峰之間的距離會增大,我們可以通過這個時間上的差異來檢測表觀甲基化修飾等信息(圖11)。
圖11. PacBio SMRT 檢測甲基化修飾
SMRT技術的測序速度很快,每秒約10個dNTP。但這麼快的測序速度也帶來了一些明顯的缺點——測序錯誤率比較高(這幾乎是目前單分子測序技術的通病),可以達到10%-15%,而且以缺失序列和錯位居多,但好在它的出錯是隨機的,並不會像第二代測序技術那樣存在一定的鹼基偏向,因此可以通過多次測序來進行有效糾錯。
Oxford Nanopore
Oxford Nanopore 的MinION是另一個比較受關注的第三代測序儀,俗稱U盤測序儀,它真的很小,我親手拿過,並拆過,圖12(左)!這家公司開發的納米單分子測序技術與以往的測序技術相比都不一樣,它是基於電信號而不是光信號的測序技術!
圖12. Oxford Nanopore MinION
這個技術的關鍵點在於他們所設計的一種特殊納米孔,孔內共價結合分子接頭。當DNA分子通過納米孔時,它們使電荷發生變化,從而短暫地影響流過納米孔的電流強度(每種鹼基所影響的電流變化幅度是不同的),最後高靈敏度的電子設備檢測到這些變化從而鑑定所通過的鹼基(圖13)。
圖13. MinION 測序原理
納米孔測序以及其他第三代測序技術,有可能會徹底地解決目前第二代測序平臺的諸多不足。另外,MinION的主要特點是:讀長很長,而且比PacBio的都長得多,基本都是在幾十kb上百kb以上,最新的數據顯示可以達到900 kb!錯誤率是5%-15%,也是隨機錯誤,MinION最大的特點除了極小的體積之外,就是數據將是可實時讀取的,並且起始DNA在測序過程中不被破壞!這真是個可以上天的能力。然鵝,遺憾地多說幾句,目前還沒真正公布,細節也不知,自從2012開過一次發布會之後,就沒什麼聲響了。
這種納米孔單分子測序儀還有另一大特點,它能夠直接讀取出甲基化的胞嘧啶,而不必像二代測序方法那樣需要事先對基因組進行bisulfite處理。這對於在基因組水平直接研究表觀遺傳相關現象有極大的幫助。下面是對PacBio和Oxford Nanopore這兩家第三代測序技術公司的測序儀做的一個簡單比較,可以看出其實成本還是蠻高的,質量也只是還行,期待他們的下一次進化吧。
總結
以上,對各代測序技術的原理做了簡要的闡述。在這個比較的過程中,可以看到測序成本,讀長和通量是該測序技術先進與否的三個重要指標。其實第一代和第二代測序技術除了通量和成本上的差異之外,測序的核心原理都來自於邊合成邊測序的思想。第二代測序技術的優點是通量大大提升,成本大大減低,使得昔日王榭堂前燕,可以飛入尋常百姓家。總之,只有變成白菜價,才能真正對大眾有意義;但它的缺點是所引入PCR過程會在一定程度上增加測序的錯誤率,並且具有系統偏向性,同時讀長也比較短。第三代測序技術是為了解決第二代所存在的缺點而開發的,它的根本特點是單分子測序,不需要任何PCR的過程,這是為了能有效避免因PCR偏向性而導致的系統錯誤,同時提高讀長,但這個技術還不是很成熟,需要再進化,成本也偏高。
圖14. 全球測序儀數量分布
參考文獻
1. Sanger, F. & Nicklen, S. DNA sequencing with chain-terminating. 74, 5463–5467 (1977).
2. Mardis, E. R. Next-generation DNA sequencing methods. Annual review of genomics and human genetics 9, 387–402 (2008).
3. Shendure, J. & Ji, H. Next-generation DNA sequencing. Nature biotechnology 26, 1135–45 (2008).
4. Metzker, M. L. Sequencing technologies - the next generation. Nature reviews. Genetics 11, 31–46 (2010).
5. Niedringhaus, T. P., Milanova, D., Kerby, M. B., Snyder, M. P. & Barron, A. E. Landscape of Next-Generation Sequencing Technologies. 4327–4341 (2011).
6. Rothberg, J. M. et al. An integrated semiconductor device enabling non-optical genome sequencing. Nature 475, 348–52 (2011).
Sanger示例網站:http://smcg.cifn.unam.mx/enp-unam/03-EstructuraDelGenoma/animaciones/secuencia.swf
文章來源於:宏基因組