16款測序平臺性能大PK!人類和細菌基因組DNA水平測序數據研究

2020-08-13 測序中國

DNA是生命遺傳信息的載體,獲取DNA序列信息對於基礎科研和臨床診斷都至關重要。自1977年第一代測序技術問世以來,經過四十餘年的探索,DNA測序技術取得了重大進展。隨著對測序成本降低的需求,以高通量為特點的第二代測序技術(NGS)應運而生並逐步成熟,以單分子測序為特點的第三代測序技術也已經誕生。DNA大規模平行測序已然成為基因組學研究和臨床診斷的重要工具。

目前,能夠完成DNA大規模平行測序的平臺,除了基於邊合成邊測序原理的Illumina平臺和基於半導體測序法的Thermo Fisher平臺外,作為新興測序平臺代表的華大智造DNBSEQ平臺異軍突起,長讀長平臺Oxford Nanopore也呈飛躍式發展。

各家測序儀的「霸主之爭」由來已久,在人類和細菌基因組DNA層面的測序性能到底如何,不同的檢測需求又該如何進行平臺選擇?到底應該如何看待各個平臺的錯誤模式?

近日,由生物分子資源設施協會(Association of Biomolecular Resource Facilities ,ARBF)支持的ABRF NGS II期研究成果發布於預印本平臺BioRxiv。此研究分析了在文庫製備和生物信息可控下, 各大測序平臺的數據,將平臺的性能和測序錯誤模式一一揭示,為各大平臺的「霸主之爭」提供真實全面的參考依據。

1.BRF NGS II 期研究,規模宏大

ABRF於1989年正式組建,成員包括來自41個國家/地區、340個不同核心實驗室的1000多位科學家,成員來自工業界、政府、學術界以及研究機構。ABRF致力於通過研究、交流和教育推進生物技術實驗室的核心競爭力和研究。

在ABRF NGS II期研究中,研究者在多個實驗室內,基於16款測序平臺,對一個人類基因組家族、三個單獨的菌株和十種細菌的宏基因組混合物測序,並將各平臺數據進行多角度比較。

這些平臺包括6款Illumina平臺、3款ThermoFisher Ion Torrent平臺, 2款DNBSEQ平臺(BGISEQ-500和MGISEQ-2000)以及Oxford Nanopore平臺和Genapsys平臺等。數據分析包括各平臺的reads mapping能力,不同平臺的測序覆蓋度、複雜區域的測序錯誤率、不同突變類型的檢出影響因素等。

圖1. 試驗設計圖:各大平臺數據質量都較高,和參考基因組的比對率平均為96.1% (93.0–97.7%)

2.DNA水平測序數據分析,各大平臺各有千秋

基因覆蓋度分析

以25X均一化測序深度後,長讀長和短讀長平臺的基因組覆蓋度均較好。

按照UCSC的 RepeatMask分類,DNA重複序列分為Alu、L1、L2、LTR、微衛星、簡單重複和端粒區域。測序數據顯示,對於DNA重複序列的檢測,平臺各有所長:BGISEQ-500、HiSeq4000 、NovaSeq 2x150bp在捕獲Alu區域時具有優勢,HiSeq 2500、HiSeq X10和NovaSeq 2x150bp在捕獲L1、L2和低複雜度區域表現最佳,PacBio CCS和NovaSeq在微衛星區域和簡單重複區域的測序中表現最好, PromethION平臺的特長則在端粒區域的捕獲。

圖2. 各測序平臺數據基因覆蓋情況分布:a.25X平均測序深度下,UCSC RepeatMask的覆蓋情況;b.基因組平均覆蓋度與所有其他平臺平均覆蓋度

測序錯誤率

分析結果顯示,測序錯誤率與基因組GC含量具有直接相關性。在GC含量比較高的區域(75%-100%),各平臺的錯誤率均比較高。就錯誤模式而言,華大智造的DNBSEQ平臺和Illumina平臺更傾向於核苷酸替代,而且這兩個平臺比較,靈敏度相當,但華大智造的精度略好;Genapsys平臺和長讀長平臺最主要錯誤來源是插入/缺失。

圖3. 按UCSC-RepeatMask區域的各平臺的測序錯誤率:(a)跨GC-windows的錯誤檢出類型;(b)條形圖顯示各區域類型的總平均錯誤率;(c)均聚物(n=72,687)和短串聯重複序列(n=928,143)區域的錯誤率

SNV和INDEL突變檢測

SNV(單核苷酸變異)和INDEL(插入/缺失突變)是生物DNA常見的突變類型。

在SNV的檢出中, 華大智造的DNBSEQ平臺最為靈敏,其次是NovaSeq 2x250bp、NovaSeq 2x150bp、HiSeq 2500、HiSeq X10和HiSeq4000平臺。對INDEL的檢出中,所有平臺靈敏度均達到99.5%,華大智造的DNBSEQ平臺和NovaSeq的檢出相似,優於其他平臺。PacBio、Nanopore平臺對於SNV和INDEL的捕獲能力均較弱。

圖4. 各平臺SNPs和 INDEL的檢出情況:(a)每個UCSC RepeatMask的SNP和INDEL檢出數量;(b)各平臺對SNP和INDEL突變檢出的靈敏性和特異性;(c)各平臺捕獲INDEL突變的片段大小分布

SV檢測

數據表明, SV(結構變異)的檢出與多因素相關,如SV類型、測序平臺、實驗室間的操作等。

在各平臺數據中,HiSeqX10檢測到SVs數量最多,其次是HiSeq4000和HiSeq2500。檢出假陽性最多的平臺依次是HiSeq2500, HiSeqX10和HiSeq4000。

圖5. 基於不同平臺的SV檢出:a.測序反應中,不同SV類型的檢出分布;b-d.關於SV突變檢出的多角度分析;b.測序平臺;c.實驗室;d.多重突變;e.每100kbwindows的SV檢出。

細菌基因組的捕獲

此研究對於GC不平衡的原核細菌基因組進行了測序分析,包括三種單一菌種和十種細菌的混合物,各樣本分別於MiSeq、Ion PGM和 Ion S5平臺測序。

細菌基因組捕獲的影響因素主要為菌種差異和測序平臺差異。在各個平臺中,ThermoFisher的Ion PM和 S5平臺在錯誤率角度略勝一籌。對於複雜的宏基因組樣本,所有平臺都能夠識別混合物中的所有菌株,但對基因突變的捕獲水平差異較大。

圖6. 細菌基因組測序數據:a.基於各個平臺細菌基因組混合物的檢測結果,各菌種的類型和分布;b.宏基因組中各菌種佔比;c.各個測序平臺,單一菌種和宏基因組混合物的測序錯誤率

3.成熟平颱風採依舊,新興平臺前景可期

ABRF NGS II期研究是迄今為止最全面的DNA測序分析研究之一,此研究跨越不同基因組大小和核苷酸組成,多角度分析揭示了測序平臺之間的特徵差異,以及同一平臺的可變性和可重複性。

綜合各項數據,樣本的GC含量是影響測序錯誤率的主要因素。對單一樣本的DNA測序而言,成熟的平臺如Illumina的表現依舊名列前茅,新興平臺的多項性能已經和成熟平臺不相上下。但就特定區域如Alu的捕獲能力,對SNV、INDEL的檢出和錯誤模式的評估,來自華大智造的DNBSEQ平臺,受益於其獨特的測序文庫方法學,已經獨具優勢。

不可忽略的是,「對於宏基因組樣本,各平臺對樣本變異的捕獲能力差異較大,這表明在複雜背景下對於特定突變的捕獲,仍存在挑戰」, 論文作者、威爾康奈爾醫學院Jonathan Foox教授如是說。

多年來,DNA大規模平行測序的市場一直由Illumina和ThermoFisher等寡頭壟斷。通過此研究,我們欣喜的發現,越來越多的新興測序平臺依託精益求精的性能指標,在「霸主之爭」中不可小覷。

參考資料:

Jonathan Foox .et al,Multi-Platform Assessment of DNA Sequencing Performance using Human and Bacterial Reference Genomes in the ABRF Next-Generation Sequencing Study , bioRxiv ,2020,doi:https://doi.org/10.1101/2020.07.23.218602

相關焦點

  • 宏基因組測序和16S rDNA測序有啥區別?
    編者按 16S rDNA測序及宏基因組測序都是微生物研究和應用的重要方法,那麼問題來了:兩者到底有什麼區別呢?什麼情況下需要做16S測序?什麼情況下需要做宏基因組測序?什麼情況下需要二者結合使用呢?宏基因組測序研究擺脫了微生物分離純培養的限制,擴展了微生物資源的利用空間,為環境微生物群落的研究提供了有效工具。微生物測序研究常用手段包括16S等擴增子測序和宏基因組測序,這兩者技術手段的主要區別如下:16S rDNA基因存在於所有細菌的基因組中,具有高度的保守性。
  • DNA測序
    自此DNA測序的速度就一直呈加速態勢。2001年人類基因組草圖耗資4.37億美元,耗時13年。到了2007年,第一個完整人類基因組序列圖譜的誕生只花費了150萬美元,3個月就搞定。有人評論道,DNA測序技術將跟隨計算機技術和通訊技術成為第三個「摩爾定律化」的學科產業。  快速測序造福人類  DNA測序方法的飛速發展讓我們不僅知曉了人類的全基因組序列,小麥、水稻、家蠶以及很多細菌的序列也都盡在掌握,這時探明一段序列所代表的生物學意義成了科學家的新目標。
  • Nature:藉助第三代測序韓國發表最連續人類基因組
    國立首爾大學醫學院的研究人員和美國被譽為「測序黑馬」的公司——10x Genomics聯合運用去年新發售的GemCodeTM測序平臺以及第三代測序PacBio單分子實時測序平臺在本期的Nature上發表了一項新的研究,對一名韓國人的基因組(AK1)進行從頭組裝和單倍體型定相信息分析。這是迄今為止發表的最為連續的人類基因組組裝。
  • 多種單細胞RNA測序平臺性能大比拼,七大平臺各有所長
    隨著低成本、高通量的液滴單細胞RNA測序平臺的推出,研究人員在單細胞研究中有了更多的選擇,但現有的平臺性能如何?科研人員又該如何選擇?  為幫助研究人員根據自身需求選擇最適合單細胞RNA測序平臺。部分國內外科學家對已有平臺進行了系統的性能比較,今年4月,生物分子資源設施協會(ABRF)公布了四種單細胞RNA測序平臺Fluidigm、WaferGen、10X Chromium Controlle和Illumina/Bio-Rad測序平臺的性能差異。
  • From 16S rDNA測序 To 宏基因組學研究—技術發展及異同點
    主要內容:1.16S rDNA測序2.宏基因組測序3.宏基因組的由來及發展過程4.16S rDNA測序與宏基因組的優勢和局限性5.16s rDNA測序與宏基因組技術差異—————————————————————1.
  • 通過轉錄組技術而測序的dna序列被稱為「dna受體」
    後面的dna受體可通過做dna晶片credit-sweep來獲得,後面的dna受體包括mirna,smallmrna,circrna和ae等。根據技術的不同,dna晶片可以分為三類:測mirna:測定mirna。測dna受體的全雙工轉錄信號的兩轉錄本等等。測vxrna:測vxrna。
  • 全球微生物模式基因組測序計劃獲進展
    近日,《核酸研究》(Nucleic AcidsResearch)在線發表了國家微生物科學數據中心(中國科學院微生物研究所微生物資源與大數據中心、世界微生物數據中心)關於全球模式微生物基因組資料庫gcType的論文。
  • Nanopore宏基因組測序揭示汙水處理過程中可移動抗生素抗性基因組
    汙水處理廠(wastewater treatment plants = WWTP)作為人類與環境之間的獨特接口,具有豐富的微生物遺傳多樣性,可通過水平基因轉移(HGT)促進ARGs的交換。從3個WWTPs的進水和出水培養物中均鑑定出可同時對4種不同的抗生素產生抗藥性的細菌。為了驗證基於Nanopore測序的微生物群落分析的準確性,對混合進水的多耐藥培養物進行了Illumina宏基因組測序。結果顯示Illumina測序分類結果在優勢種水平上與Nanopore測序獲得的基本一致。
  • 科學網—口袋裝置測序人類基因組
    本報訊 1月30日,《自然—生物技術》在線發表的一篇論文介紹了利用一個口袋大小的納米孔裝置測序和從頭組裝人類基因組
  • 美國利用納米孔測序技術,實現對非洲豬瘟病毒基因組的實時檢測
    由於目前尚無控制非洲豬瘟(ASF)的有效疫苗,基於檢測追蹤、流行病學調查、減少人員接觸以及消毒等控制措施,在當病毒脫落或其他的病毒和細菌感染產生相似的症狀時,這些方法就會變得非常複雜。因此,分子水平進行早期快速檢測和診斷有益於早期發現和更加有效的控制豬瘟。
  • 解讀基因測序流動槽、工作流程與文庫製備試劑盒
    在雙S2流動槽同時運行的情況下,使用2x150 bp讀長,一次NovaSeq測序可以在一天半內解碼16個人類基因體(平均30x覆蓋深度)。10月中推出的S4流動槽,更將通量翻了三遍。一個S4流動槽每次運行可達到80-100億數量的reads / clusters,所以雙S4流動槽運行可以在不到兩天內解碼48個人類基因體(6萬億礆基通量)。
  • 2017年度聚焦:DNA測序深度分析
    基因組學是一門研究生物基因組的組成,基因組中各基因的精確結構、相互關係及表達調控的科學。在基因組學中,科學家們通過新型的基因測序儀分析生物樣本(組織、細胞、血液樣本等)的基因組信息,並將這些信息用於臨床醫學診斷、個體化用藥指導、疾病發病機理研究、生命調控機制研究等領域。
  • 全球微生物模式基因組測序計劃取得重要進展
    10月29日,《核酸研究》(Nucleic AcidsResearch)在線發表了國家微生物科學數據中心(中國科學院微生物研究所微生物資源與大數據中心、世界微生物數據中心)團隊關於全球模式微生物基因組資料庫gcType的文章。gcType是由我國牽頭的全球模式微生物基因組測序計劃的重要成果。
  • 《核酸研究》:高質量模式微生物基因組資料庫及分析平臺
    近日,《核酸研究(Nucleic AcidsResearch)》在線發表了國家微生物科學數據中心(中國科學院微生物研究所微生物資源與大數據中心、世界微生物數據中心)團隊關於全球模式微生物基因組資料庫gcType的文章。gcType是由我國牽頭的全球模式微生物基因組測序計劃的重要成果。
  • 《核酸研究》:高質量模式微生物基因組資料庫及分析平臺
    )》在線發表了國家微生物科學數據中心(中國科學院微生物研究所微生物資源與大數據中心、世界微生物數據中心)團隊關於全球模式微生物基因組資料庫gcType的文章。2018年,微生物所牽頭組織發起了全球模式微生物基因組測序計劃,從全球微生物資源保藏中心選擇目前未進行測序的模式微生物菌株(包括細菌、古菌和可培養真菌),預計5年內完成超過10,000種的細菌、真菌
  • 利用Nanopore測序從微生物群系獲得完整、封閉成環的細菌基因組
    本周佳作提出了一套測序流程(Lathe,結合三代測序和二代測序的測序數據對細菌基因組進行組裝),作者利用多樣本對該套測序流程進行驗證,並最終得出該測序流程相比其他方法,組裝結果更具有連續性且成本更低,在研究生物功能尤其是重複原件的作用等方面具有廣闊應用前景。
  • 925個PacBio測序注釋的細菌基因組現已上線,拿走不謝!
    英國公共衛生部國家標準菌庫NCTC是世界上最大的菌庫之一,作為生物資源中心,為生物基礎及臨床研究提供已知種源地的菌株。然而,NCTC的大多數菌株目前都沒有參考基因組,這嚴重製約了NCTC菌株在研究中的參考應用。
  • 全球模式微生物基因組和微生物組測序合作計劃正式啟動
    2017年10月12日,在「第七屆世界微生物數據中心學術研討會」上,由世界微生物數據中心(WDCM)主任、中國科學院微生物研究所微生物資源與大數據中心馬俊才主任宣布啟動由WDCM和中國科學院微生物研究所牽頭,聯合全球12個國家的微生物資源保藏中心共同發起的全球微生物模式菌株基因組和微生物組測序合作計劃正式啟動
  • 測序原理-------一代測序、二代測序、三代測序
    比如對無基因組物種進行從頭測序(de novo sequencing),為後續研究和分子育種奠定基礎;對有基因組的物種,進行全基因組重測序(resequencing),檢測SNP。在轉錄組水平上開展小RNA測序(small RNA sequencing),從而發現新的microRNA分子。
  • 納米孔全長cDNA測序和直接DNA甲基化分析解決大麻基因組拷貝數的爭論
    2015年,索爾克生物研究所(Salk Institute for Biological Studies)的Todd教授及團隊進行了一項研究:將高THC植株與低THC植株進行雜交,進行QTL(數量性狀基因座)分析有以下關鍵發現:效力基因座位於1號和3 號染色體,基因組進行測序發現合酶基因座位於9號染色體,解析染色體結構發現合酶基因連在一起在9號染色體上形成串聯重複嵌套簇