DNA是生命遺傳信息的載體,獲取DNA序列信息對於基礎科研和臨床診斷都至關重要。自1977年第一代測序技術問世以來,經過四十餘年的探索,DNA測序技術取得了重大進展。隨著對測序成本降低的需求,以高通量為特點的第二代測序技術(NGS)應運而生並逐步成熟,以單分子測序為特點的第三代測序技術也已經誕生。DNA大規模平行測序已然成為基因組學研究和臨床診斷的重要工具。
目前,能夠完成DNA大規模平行測序的平臺,除了基於邊合成邊測序原理的Illumina平臺和基於半導體測序法的Thermo Fisher平臺外,作為新興測序平臺代表的華大智造DNBSEQ平臺異軍突起,長讀長平臺Oxford Nanopore也呈飛躍式發展。
各家測序儀的「霸主之爭」由來已久,在人類和細菌基因組DNA層面的測序性能到底如何,不同的檢測需求又該如何進行平臺選擇?到底應該如何看待各個平臺的錯誤模式?
近日,由生物分子資源設施協會(Association of Biomolecular Resource Facilities ,ARBF)支持的ABRF NGS II期研究成果發布於預印本平臺BioRxiv。此研究分析了在文庫製備和生物信息可控下, 各大測序平臺的數據,將平臺的性能和測序錯誤模式一一揭示,為各大平臺的「霸主之爭」提供真實全面的參考依據。
1.BRF NGS II 期研究,規模宏大
ABRF於1989年正式組建,成員包括來自41個國家/地區、340個不同核心實驗室的1000多位科學家,成員來自工業界、政府、學術界以及研究機構。ABRF致力於通過研究、交流和教育推進生物技術實驗室的核心競爭力和研究。
在ABRF NGS II期研究中,研究者在多個實驗室內,基於16款測序平臺,對一個人類基因組家族、三個單獨的菌株和十種細菌的宏基因組混合物測序,並將各平臺數據進行多角度比較。
這些平臺包括6款Illumina平臺、3款ThermoFisher Ion Torrent平臺, 2款DNBSEQ平臺(BGISEQ-500和MGISEQ-2000)以及Oxford Nanopore平臺和Genapsys平臺等。數據分析包括各平臺的reads mapping能力,不同平臺的測序覆蓋度、複雜區域的測序錯誤率、不同突變類型的檢出影響因素等。
圖1. 試驗設計圖:各大平臺數據質量都較高,和參考基因組的比對率平均為96.1% (93.0–97.7%)
2.DNA水平測序數據分析,各大平臺各有千秋
基因覆蓋度分析
以25X均一化測序深度後,長讀長和短讀長平臺的基因組覆蓋度均較好。
按照UCSC的 RepeatMask分類,DNA重複序列分為Alu、L1、L2、LTR、微衛星、簡單重複和端粒區域。測序數據顯示,對於DNA重複序列的檢測,平臺各有所長:BGISEQ-500、HiSeq4000 、NovaSeq 2x150bp在捕獲Alu區域時具有優勢,HiSeq 2500、HiSeq X10和NovaSeq 2x150bp在捕獲L1、L2和低複雜度區域表現最佳,PacBio CCS和NovaSeq在微衛星區域和簡單重複區域的測序中表現最好, PromethION平臺的特長則在端粒區域的捕獲。
圖2. 各測序平臺數據基因覆蓋情況分布:a.25X平均測序深度下,UCSC RepeatMask的覆蓋情況;b.基因組平均覆蓋度與所有其他平臺平均覆蓋度
測序錯誤率
分析結果顯示,測序錯誤率與基因組GC含量具有直接相關性。在GC含量比較高的區域(75%-100%),各平臺的錯誤率均比較高。就錯誤模式而言,華大智造的DNBSEQ平臺和Illumina平臺更傾向於核苷酸替代,而且這兩個平臺比較,靈敏度相當,但華大智造的精度略好;Genapsys平臺和長讀長平臺最主要錯誤來源是插入/缺失。
圖3. 按UCSC-RepeatMask區域的各平臺的測序錯誤率:(a)跨GC-windows的錯誤檢出類型;(b)條形圖顯示各區域類型的總平均錯誤率;(c)均聚物(n=72,687)和短串聯重複序列(n=928,143)區域的錯誤率
SNV和INDEL突變檢測
SNV(單核苷酸變異)和INDEL(插入/缺失突變)是生物DNA常見的突變類型。
在SNV的檢出中, 華大智造的DNBSEQ平臺最為靈敏,其次是NovaSeq 2x250bp、NovaSeq 2x150bp、HiSeq 2500、HiSeq X10和HiSeq4000平臺。對INDEL的檢出中,所有平臺靈敏度均達到99.5%,華大智造的DNBSEQ平臺和NovaSeq的檢出相似,優於其他平臺。PacBio、Nanopore平臺對於SNV和INDEL的捕獲能力均較弱。
圖4. 各平臺SNPs和 INDEL的檢出情況:(a)每個UCSC RepeatMask的SNP和INDEL檢出數量;(b)各平臺對SNP和INDEL突變檢出的靈敏性和特異性;(c)各平臺捕獲INDEL突變的片段大小分布
SV檢測
數據表明, SV(結構變異)的檢出與多因素相關,如SV類型、測序平臺、實驗室間的操作等。
在各平臺數據中,HiSeqX10檢測到SVs數量最多,其次是HiSeq4000和HiSeq2500。檢出假陽性最多的平臺依次是HiSeq2500, HiSeqX10和HiSeq4000。
圖5. 基於不同平臺的SV檢出:a.測序反應中,不同SV類型的檢出分布;b-d.關於SV突變檢出的多角度分析;b.測序平臺;c.實驗室;d.多重突變;e.每100kbwindows的SV檢出。
細菌基因組的捕獲
此研究對於GC不平衡的原核細菌基因組進行了測序分析,包括三種單一菌種和十種細菌的混合物,各樣本分別於MiSeq、Ion PGM和 Ion S5平臺測序。
細菌基因組捕獲的影響因素主要為菌種差異和測序平臺差異。在各個平臺中,ThermoFisher的Ion PM和 S5平臺在錯誤率角度略勝一籌。對於複雜的宏基因組樣本,所有平臺都能夠識別混合物中的所有菌株,但對基因突變的捕獲水平差異較大。
圖6. 細菌基因組測序數據:a.基於各個平臺細菌基因組混合物的檢測結果,各菌種的類型和分布;b.宏基因組中各菌種佔比;c.各個測序平臺,單一菌種和宏基因組混合物的測序錯誤率
3.成熟平颱風採依舊,新興平臺前景可期
ABRF NGS II期研究是迄今為止最全面的DNA測序分析研究之一,此研究跨越不同基因組大小和核苷酸組成,多角度分析揭示了測序平臺之間的特徵差異,以及同一平臺的可變性和可重複性。
綜合各項數據,樣本的GC含量是影響測序錯誤率的主要因素。對單一樣本的DNA測序而言,成熟的平臺如Illumina的表現依舊名列前茅,新興平臺的多項性能已經和成熟平臺不相上下。但就特定區域如Alu的捕獲能力,對SNV、INDEL的檢出和錯誤模式的評估,來自華大智造的DNBSEQ平臺,受益於其獨特的測序文庫方法學,已經獨具優勢。
不可忽略的是,「對於宏基因組樣本,各平臺對樣本變異的捕獲能力差異較大,這表明在複雜背景下對於特定突變的捕獲,仍存在挑戰」, 論文作者、威爾康奈爾醫學院Jonathan Foox教授如是說。
多年來,DNA大規模平行測序的市場一直由Illumina和ThermoFisher等寡頭壟斷。通過此研究,我們欣喜的發現,越來越多的新興測序平臺依託精益求精的性能指標,在「霸主之爭」中不可小覷。
參考資料:
Jonathan Foox .et al,Multi-Platform Assessment of DNA Sequencing Performance using Human and Bacterial Reference Genomes in the ABRF Next-Generation Sequencing Study , bioRxiv ,2020,doi:https://doi.org/10.1101/2020.07.23.218602