HiFi reads,挑戰基因組組裝不可能

2020-08-29 安諾基因

繼PacBio推出HiFi組裝的多個研究成果後,國內首篇基於HiFi組裝的基因組文章也於今年5月見刊Nature Communication[1],開啟了HiFi組裝的新風潮,你是不是也心動了呢?上次小編給大家介紹了一些關於HiFi組裝的小知識,今天繼續和大家分享關於HiFi組裝的那些事兒~

為什麼要用HiFi reads進行基因組組裝?

所謂HiFi組裝,是從三代測序下機的原始Subreads中調取聚合酶繞插入片段圈數大於3圈的Subreads互相校正,獲得高準確度的HiFi reads用於基因組組裝。相對於CLR組裝的高深度(100X subreads),HiFi模式直接用高準確度的HiFi reads進行基因組組裝,較低的測序深度(25X)即可獲得高質量的參考基因組。因用於基因組組裝的數據量較小,組裝過程中所需的計算資源也較少。而且,由於HiFi reads本身具有較高的準確度,不再需要用二代數據對三代組裝的基因組進行校正(圖1),大大縮短了組裝周期。

圖1 HiFi組裝(a)和CLR組裝(b)流程圖

HiFi reads組裝有多快?

基於HiFi reads,PacBio用6 h、1 d和6 d時間完成了2.5 Gb、11 Gb及47.7 Gb超大基因組的組裝。如此亮眼的數據,你是不是也想擁有?近來,安諾生信的小夥伴利用25X的HiFi reads,僅用6 h就完成了某二倍體植物1.0 Gb大小基因組的組裝,3 d完成了4.8 Gb大小基因組的組裝,組裝周期大大縮短。

表1 HiFi組裝結果展示

註:表中玉米、燕麥、紅杉數據來源於2020年PAG大會及PacBio官方公布數據,某植物1和2為安諾項目經驗數據。

HiFi組裝基因組的連續性與CLR差別會不會很大?

相對於CLR模式30 Kb的插入片段,HiFi模式插入的DNA片段相對會短一些,測序產生的Subreads和用於組裝的CCS reads也相對會短。那麼,HiFi組裝基因組的連續性會不會不如CLR?安諾用實際項目經驗告訴您:並不會!普通二倍體植物的Contig N50多在10 Mb以上,多倍體植物的Contig N50也達到了8 Mb,基因組的完整性均在96.9%以上,HiFi組裝基因組完整性和連續性均可與CLR模式相媲美。

表2 HiFi組裝項目經驗

HiFi組裝基因組的單鹼基準確度有保障麼?

CCS reads本身經過孔內糾錯校正,單孔內CCS reads的準確度可達99%以上,再經過一定深度的數據覆蓋進行校正,基因組組裝、質量能夠達到更高。那麼,組裝基因組的單鹼基準確度究竟如何呢?近來,我們利用高深度的illumina短reads,以HiFi組裝的基因組作為參考基因組,來檢測基因組中的純合SNP數目,平均每668.8 Mb才檢測到一個SNP,單鹼基準確度達到了99.999%以上。可見,HiFi reads用於基因組組裝可有效保障基因組的準確度。

表3 單鹼基準確性統計

總 結

PacBio CCS模式作為目前唯一可提供高準確度長讀長的測序技術,可獲得測序精度99%以上的HiFi reads,以少量的數據(25X)為研究人員帶來準確且有價值的信息:不僅能夠為基因組組裝提供準確的序列信息,還使得後續的運算和分析的流程更為簡單,耗費的計算資源更少。

自推出三代測序以來,安諾基因先後引入了10臺PacBio Sequel和7臺PacBioSequel II,打造了先進的三代測序平臺,日均產出數據量超2 Tb,產品服務類型涵蓋了基因組組裝、人重測序、動植物重測序、全長轉錄組等多種三代測序產品,累計項目經驗800+。高質量的測序數據、快速的分析周期,安諾優達一直秉承客戶至上的服務理念,為合作夥伴提供更快速、更優質的三代測序服務,期待您的垂詢~

參考文獻

[1] Chen H, Zeng Y, Yang Y, et al. Allele-aware chromosome-level genome assembly and efficient transgene-free genome editing for the autotetraploid cultivated alfalfa[J]. Nature Communications, 2020, 11(1)

相關焦點

  • 基因組denovo組裝:一文詳解
    基因組序列組裝一般包括contig、scaffold和chromosome三個水平.主要通過滑動切割所有reads為Kmer,並通過相鄰Kmer之間的連接來構建de Bruijn圖。具體過程不做過多介紹。2.
  • 昆明植物所等在細胞器基因組組裝軟體開發研究中取得進展
    真核生物細胞器基因組包括線粒體和質體(包括葉綠體、白色體等)的全部DNA分子,是細胞質遺傳的主要載體。在動植物和真菌的單個細胞內,有多個(甚至成千上萬個)細胞器基因組單元的拷貝,使得利用低覆蓋度的全基因組測序數據組裝得到完整的細胞器基因組成為可能。
  • spades基因組組裝軟體簡介
    spades這款de novo基因組組裝軟體, 適用於細菌/真菌等小型基因組的組裝,不推薦用於動植物基因組的組裝。該軟體主要用於illumina,IonTorrent reads的組裝,也可以進行PacBio, Oxford nanopore, Sanger reads的組裝。
  • Hi-C輔助組裝知識大放送
    目前的二代+三代測序技術只能將基因組組裝至Contigs/Scaffolds水平,無法展示完整的基因組信息,需藉助遺傳圖譜、Hi-C技術等對基因組草圖進行進一步提升。Hi-C輔助組裝由於操作簡便,準確性高,已成為輔助基因組組裝的主流技術。那麼,Hi-C究竟如何輔助基因組組裝?結果文件如何解讀?
  • 浙大葉恭銀教授組納米孔測序從頭組裝高質量麥蛾繭峰基因組
    解決了個體小、樣品稀有、只能獲取少量DNA的物種的基因組組裝的難題。貝納基因開發的全基因組複製後基因組組裝的流程,可以對ng級DNA的個體進行基因組組裝。研究成果發表在預印本網站 BioRxiv。摘要基因組組裝需要大量的DNA(通常是ug級),以滿足二代和三代文庫構建的需求。但是諸如昆蟲這種個體小的動物,很難得到足夠的DNA進行後續的建庫和測序。
  • 【爾雲間】解析同源四倍體基因組的組裝
    但由於其同源四倍體和自交不親和性等特點,給基因組組裝帶來很大的挑戰性,一直難易突破。下面,我們一起來看看這項研究是如何成功解決同源多倍體組裝的難題。栽培的紫花苜蓿植物的新鮮的葉子,該植物種植於溫室中,溫度保持在21–23°C,每天光照16 h(380-450 W / m2的光照強度),相對溼度為70%。
  • 基因組學研究的未來之星——泛基因組
    但單一或者少數參考基因組中可能會缺少部分基因,不能完全覆蓋物種的全部遺傳信息,限制了基因組學研究的深入開展。泛基因組的提出,有效解決了該問題,成為了基因組學研究的新方向。01 什麼是泛基因組?目前比較主流的構建泛基因組圖譜的方法有以下三種:1) 迭代組裝將多個樣本的下機數據與參考基因組比對,未比對上的reads組裝成新的contigs,將這些contigs添加到原始的參考序列中,構建、獲得物種的泛基因組圖譜(圖3a),小麥泛基因組就是採用這種方法進行構建的[1]。
  • PNAS:測序組裝染色體技術
    你有沒有試過在不知道最終圖案的情況下玩拼圖遊戲?這正是一些基因組研究人員在嘗試通過新一代DNA測序數據,拼接成染色體時所面臨的同樣問題。這些染色體能提供基因組組織和結構變異方面的信息,有助於解析進化歷史。為了能拼湊出這些染色體來,科學家們可以通過物理或者遺傳圖譜完成,但是對於許多物種而言,這種指導性的圖譜並不存在。
  • 大型基因組(Large Genome Size)研究策略與思路
    植物基因組大小具有多樣性主要有兩個因素:(1) 多倍體或全基因組複製,引起了植物基因組大小的逐步增加:(2) 拷貝數的變化,可能導致植物基因組大小的變化;DNA重複序列在大多數植物中佔據基因組DNA序列的大部分,以幾百萬個拷貝的形式出現;隨著GS的增加,重複DNA序列比例在一定程度增加。
  • Nature:鴨嘴獸和針鼴基因組
    來自Nature的一項最新研究,組裝並分析了鴨嘴獸(Ornithorhynchus anatinus)和澳洲針鼴(Tachyglossusaculeatus)的參考基因組,它們代表了僅存的兩個極端物種。
  • stringTie:轉錄本組裝和定量工具
    首先將raw  count除了mapping 上的所有reads數,得到相對豐度,在除以該基因長度(exon長度之和), 就可以計算出RPKM值。測試時每一條插入片段稱為一個fragment, 對於雙端測序,一個fragment 會得到兩條reads。
  • 10分鐘帶你了解泛基因組做些什麼
    一、泛基因組的構建策略 泛基因組構建主要分為以下三種方式[1]: (1)選取一個參考基因組,各個材料的測序reads分別比對,將未比對上的reads進行組裝
  • 如何進行基因組序列比對?
    首先要做的就是將測序得到的reads比對到人基因組參考序列上。隨著人類基因組計劃(Human Genome Project,HGP)的進行,International Human Genome Sequencing Consortium在2001年首次公布了人基因組序列的草圖,2003年人類基因組計劃宣布完成。
  • NG|66個水稻泛基因組文獻分享
    13個基因組數據兩個馴化物種達到了參考基因組水平的組裝(IR 8和N22),7個野生物種((Oryza rufipogon, Oryza nivara, Oryza barthii, O. glumaepatula, Oryza meridionalis, Oryza punctata 和L. perrieri
  • 碧鳳蝶染色體水平基因組公布
    近日,中國科學院昆明動物研究所李學燕副研究員帶領的昆蟲研究團隊運用三代長讀長測序技術,結合高通量染色體構象捕獲(Hi-C)技術,成功地組裝了碧鳳蝶染色體水平的基因組,這是首個利用Hi-C技術完成的染色體水平的蝴蝶基因組。
  • 火爆的背後,高通量測序面臨5大挑戰|深度
    長讀數與短讀數Illumina對於基因測序市場的主導,意味著到目前為止產生的絕大多數數據都基於短讀數(short reads,高通量測序平臺產生的序列就稱為reads,這是測序讀到的鹼基序列片段,測序的最小單位)。大量短讀數的產生對大多數的應用都很適用。例如檢測基因組DNA的單核苷酸多態性和計數RNA的轉錄物。
  • Nanopore宏基因組測序揭示汙水處理過程中可移動抗生素抗性基因組
    結果表明,WWTPs的處理過程中存在高度多樣性的ARGs,與它們相關的質粒和IEs可能對ARGs的傳播有很大的貢獻。考慮到本研究中使用的抗生素,僅對在入水和出水培養物中同時編碼至少四種類型的ARGs的reads進行了研究(圖 5)。這些reads的遺傳分析顯示這些基因參與質粒融合(即鬆弛酶和IV型分泌系統),表明在多耐藥細菌中存在融合質粒。此外,在同一質粒上檢測到了不同氨基糖苷ARGs亞型的共現(圖 5)。除了ARG亞型之間的共現模式外,Nanopore長序列還鑑定了編碼汞抗性的基因簇。
  • 龍井茶樹染色體級別基因組完成組裝
    本報訊(記者李晨)近日,《自然—通訊》在線發表了我國科學家在茶樹全基因組組裝和茶樹起源演化研究上取得的重要突破。該研究由中國農業科學院茶葉研究所和中國農業科學院深圳農業基因組研究所主導,並攜手中國科學院昆明動物研究所等單位完成。該成果為茶樹基因組學和育種研究,以及茶樹遺傳和進化研究提供了豐富的素材。
  • 大山雀基因組組裝完畢
    最近科學家們又破解了一種重要模式生物的基因組,這項由裡程碑意義的研究成果發表在一月二十五日的Nature Communications雜誌上。  荷蘭生態研究所(NIOO-KNAW)和Wageningen大學的研究團隊首次組裝了大山雀參考基因組、轉錄組和甲基化組。他們發現,表觀遺傳在記憶和學習能力的進化中起到了關鍵性作用。