隨著NGS測序成本的下降,研究者通過獲得參考基因組來為下遊基因挖掘、比較基因組及功能基因組學提供基礎參考。然而,對於遠交品、野生型二倍體、非模式多倍體等複雜基因組而言,測序組裝分析充滿挑戰。
目前對雜合性二倍體、多倍體基因組的組裝問題解決方法較多,然而這些解決的方法都有各自缺陷。眾所周知,SMRT測序可提供長讀長,平均讀長10-15kb,最長可達100kb,可解決基因組中重複序列難題,是細菌基因組完成圖的首選測序手段,同時在哺乳類動物基因組組裝中連續性效果明顯,本應也能輔助解決複雜二倍體基因組單倍型難題,但現有的組裝軟體並未利用好長讀長這一優勢。
最近,研究人員在Nature Methods發表基於長讀長的開源基因組組裝算法——FALCON-Unzip,用以解決高雜合二倍體基因組中單倍體定相難題,組裝出準確、連續和正確定相的二倍體基因組。
FALCON是依照HGAP原理優化而來,通過已矯正的長讀長互相比對,將重疊的長讀長序列連接,其中含有 「haplotype-fused」 Contigs和差異序列「bubbles」,結果以Primary Contig(p-Contig)和Associate Contig(a-Contig)表示(Figure 1 a)。
第二步,經FALCON-Unzip分析「haplotype-fused」 Contigs,尋找其中雜合性差異,如Contigs內SNP等(Figure 1 b),對這些雜合性差異序列定相分類,整合「haplotype-fused」 Contigs,重新組裝到haplotigs,得到構成二倍體基因組組裝的Updated primary Contigs(p-Contig)和haplotigs(h-Contig)(Figure 1 c)。
其中,與a-Contig相比,h-Contig能呈現連續性更高的單倍體特異性序列信息,含有全面的phased SNPs和SVs(Figure 2)。
Figure 1 FALCON和FALCON-Unzip圖示概述
Figure 2 Unphased 和Phased 組裝圖示
左:Arabidopsis F1代雜種中一個Contig的初步組裝
右:Contig經FALCON-Unzip組裝後圖示
1.擬南芥自交親本Col-0、Cvi-0組裝結果,評估雜合二倍體子代F1經FALCON-Unzip的組裝質量。
Col-0:49 SMRT CELLs,P4C2,下機數據15.2 Gb (~130x),分別Canu、FALCON組裝
Cvi-0:60 SMRT CELLs,P4C2,下機數據14.7Gb(~120x),分別Canu、FALCON組裝
F1:(1)29 SMRT CELLs,18.5G(~140 x),P6C4,分別Canu、FALCON、FALCON-Unzip組裝
(2)60X,PE250,文庫長度450bp,分別SOAPdenovo、Platanus組裝
2.卡百內紅葡萄(V. vinifera cv.)測序組裝,其為Cabernet Franc x Sauvignon Blanc的F1,雜合度高,評估FALCON-Unzip的通用性。
(1)74 SMRT CELLs,P6C4,73.7G(~140 x),分別Canu、FALCON、FALCON-Unzip組裝
(2)45X,PE100,SOAPdenovo組裝
3.高雜合野生二倍體真菌杯珊瑚菌(Clavicorona pyxidata)測序組裝,評估FALCON-Unzip在野生雜合基因組中組裝性能。
6 SMRT CELLs,P6C4,4G(~100 x)
1. 三個高雜合基因組組裝結果發現,FALCON / FALCON-Unzip相對其他長讀長組裝軟體而言,連續性更明顯,如其Contig N50基本上是Canu的2-3倍;相對短讀長的組裝,連續性基本是30-100倍以上(Table 1)。
Table 1 三個基因組經不同組裝策略的組裝結果
2. 通過將擬南芥Col-0 x Cvi-0 F1經FALCON / FALCON-Unzip組裝結果與親本自交系Col-0 、Cvi-0組裝結果對比來評估單倍體定相的準確性,除了發現少量不準確的phased alleles,h-Contig幾乎能完全匹配到其中一個親本基因組(Figure 3)。同時,結合擬南芥參考基因組TAIR10分析,FALCON/FALCON-Unzip對F1組裝的準確性和完整性都較高。
Figure3 FALCON-Unzip組裝的擬南芥F1的4號染色體上SNP和SV
灰色線條:分別比對TAIR 4號染色體的p-contigs 和haplotigs
3. 在卡百內紅葡萄和杯珊瑚菌基因組測序組裝中,經FALCON / FALCON-Unzip組裝得到的二倍體的核心基因預測相比三代測序的其他組裝軟體更完整,通過其他數據評估,FALCON / FALCON-Unzip組裝結果能準確對單倍體定相。
4. 目前大部分單倍體定相算法大多關注雜合SNPs,而忽略了SVs,而FALCON-Unzip能結合SNPs和SVs來分離單倍體信息來構建單倍體特異性Contigs。
未來組作為中國首家第三代測序服務公司,專注於第三代測序技術的推廣及應用。在項目研發中,未來組解決了FALCON在大型基因組組裝中資源消耗瓶頸,隨著FALCON-Unzip的發布,未來組將有更多機會輔助研究者,攻克高雜合基因組組裝難題,探究二倍體和多倍體基因組多樣性,及其在基因表達和物種進化中的作用。
參考文獻
Chen-ShanChin et al. 2016. Phased Diploid Genome Assembly with Single Molecule Real-TimeSequencing. Nature Method.
本文系未來組原創,歡迎個人轉發分享。其他任何媒體、網站如需轉載,須在正文前註明來源未來組。武漢未來組生物科技有限公司(Nextomics Biosciences)成立於2011年8月8日,總部位於武漢光谷生物城,目前在北京生命科學園和美國紐約設立有分支機構,是中國首家第三代測序服務公司。
武漢未來組通過三代測序生物信息學工具和流程的開發,解決了複雜基因組組裝、微生物完成圖組裝、全長轉錄組分析、人類基因組變異檢測等領域的技術瓶頸,推動了基因組學研究的升級換代,目前已經完成數百個三代測序科研項目,發表了多篇三代測序的科學文獻。因為專注於三代測序技術開發和應用推廣,武漢未來組已經成為中國三代測序技術應用的第一品牌。