繼PacBio推出HiFi組裝的多個研究成果後,國內首篇基於HiFi組裝的基因組文章也於今年5月見刊Nature Communication[1],開啟了HiFi組裝的新風潮,你是不是也心動了呢?上次小編給大家介紹了一些關於HiFi組裝的小知識,今天繼續和大家分享關於HiFi組裝的那些事兒~
為什麼要用HiFi reads進行基因組組裝?
所謂HiFi組裝,是從三代測序下機的原始Subreads中調取聚合酶繞插入片段圈數大於3圈的Subreads互相校正,獲得高準確度的HiFi reads用於基因組組裝。相對於CLR組裝的高深度(100X subreads),HiFi模式直接用高準確度的HiFi reads進行基因組組裝,較低的測序深度(25X)即可獲得高質量的參考基因組。因用於基因組組裝的數據量較小,組裝過程中所需的計算資源也較少。而且,由於HiFi reads本身具有較高的準確度,不再需要用二代數據對三代組裝的基因組進行校正(圖1),大大縮短了組裝周期。
圖1 HiFi組裝(a)和CLR組裝(b)流程圖
HiFi reads組裝有多快?
基於HiFi reads,PacBio用6 h、1 d和6 d時間完成了2.5 Gb、11 Gb及47.7 Gb超大基因組的組裝。如此亮眼的數據,你是不是也想擁有?近來,安諾生信的小夥伴利用25X的HiFi reads,僅用6 h就完成了某二倍體植物1.0 Gb大小基因組的組裝,3 d完成了4.8 Gb大小基因組的組裝,組裝周期大大縮短。
表1 HiFi組裝結果展示
註:表中玉米、燕麥、紅杉數據來源於2020年PAG大會及PacBio官方公布數據,某植物1和2為安諾項目經驗數據。
HiFi組裝基因組的連續性與CLR差別會不會很大?
相對於CLR模式30 Kb的插入片段,HiFi模式插入的DNA片段相對會短一些,測序產生的Subreads和用於組裝的CCS reads也相對會短。那麼,HiFi組裝基因組的連續性會不會不如CLR?安諾用實際項目經驗告訴您:並不會!普通二倍體植物的Contig N50多在10 Mb以上,多倍體植物的Contig N50也達到了8 Mb,基因組的完整性均在96.9%以上,HiFi組裝基因組完整性和連續性均可與CLR模式相媲美。
表2 HiFi組裝項目經驗
HiFi組裝基因組的單鹼基準確度有保障麼?
CCS reads本身經過孔內糾錯校正,單孔內CCS reads的準確度可達99%以上,再經過一定深度的數據覆蓋進行校正,基因組組裝、質量能夠達到更高。那麼,組裝基因組的單鹼基準確度究竟如何呢?近來,我們利用高深度的illumina短reads,以HiFi組裝的基因組作為參考基因組,來檢測基因組中的純合SNP數目,平均每668.8 Mb才檢測到一個SNP,單鹼基準確度達到了99.999%以上。可見,HiFi reads用於基因組組裝可有效保障基因組的準確度。
表3 單鹼基準確性統計
總 結
PacBio CCS模式作為目前唯一可提供高準確度長讀長的測序技術,可獲得測序精度99%以上的HiFi reads,以少量的數據(25X)為研究人員帶來準確且有價值的信息:不僅能夠為基因組組裝提供準確的序列信息,還使得後續的運算和分析的流程更為簡單,耗費的計算資源更少。
自推出三代測序以來,安諾基因先後引入了10臺PacBio Sequel和7臺PacBioSequel II,打造了先進的三代測序平臺,日均產出數據量超2 Tb,產品服務類型涵蓋了基因組組裝、人重測序、動植物重測序、全長轉錄組等多種三代測序產品,累計項目經驗800+。高質量的測序數據、快速的分析周期,安諾優達一直秉承客戶至上的服務理念,為合作夥伴提供更快速、更優質的三代測序服務,期待您的垂詢~
參考文獻
[1] Chen H, Zeng Y, Yang Y, et al. Allele-aware chromosome-level genome assembly and efficient transgene-free genome editing for the autotetraploid cultivated alfalfa[J]. Nature Communications, 2020, 11(1)