Falcon-Unzip何許神器?解決複雜二倍體基因組的單倍體定相難題

2021-02-19 希望組科技服務

隨著NGS測序成本的下降,研究者通過獲得參考基因組來為下遊基因挖掘、比較基因組及功能基因組學提供基礎參考。然而,對於遠交品、野生型二倍體、非模式多倍體等複雜基因組而言,測序組裝分析充滿挑戰。

目前對雜合性二倍體、多倍體基因組的組裝問題解決方法較多,然而這些解決的方法都有各自缺陷。眾所周知,SMRT測序可提供長讀長,平均讀長10-15kb,最長可達100kb,可解決基因組中重複序列難題,是細菌基因組完成圖的首選測序手段,同時在哺乳類動物基因組組裝中連續性效果明顯,本應也能輔助解決複雜二倍體基因組單倍型難題,但現有的組裝軟體並未利用好長讀長這一優勢。

最近,研究人員在Nature Methods發表基於長讀長的開源基因組組裝算法——FALCON-Unzip,用以解決高雜合二倍體基因組中單倍體定相難題,組裝出準確、連續和正確定相的二倍體基因組。



FALCON是依照HGAP原理優化而來,通過已矯正的長讀長互相比對,將重疊的長讀長序列連接,其中含有 「haplotype-fused」 Contigs和差異序列「bubbles」,結果以Primary Contig(p-Contig)和Associate Contig(a-Contig)表示(Figure 1 a)。

第二步,經FALCON-Unzip分析「haplotype-fused」 Contigs,尋找其中雜合性差異,如Contigs內SNP等(Figure 1 b),對這些雜合性差異序列定相分類,整合「haplotype-fused」 Contigs,重新組裝到haplotigs,得到構成二倍體基因組組裝的Updated primary Contigs(p-Contig)和haplotigs(h-Contig)(Figure 1 c)。

其中,與a-Contig相比,h-Contig能呈現連續性更高的單倍體特異性序列信息,含有全面的phased SNPs和SVs(Figure 2)。


Figure 1 FALCON和FALCON-Unzip圖示概述


Figure 2 Unphased 和Phased 組裝圖示

左:Arabidopsis F1代雜種中一個Contig的初步組裝 

右:Contig經FALCON-Unzip組裝後圖示

1.擬南芥自交親本Col-0、Cvi-0組裝結果,評估雜合二倍體子代F1經FALCON-Unzip的組裝質量。

Col-0:49 SMRT CELLs,P4C2,下機數據15.2 Gb (~130x),分別Canu、FALCON組裝

Cvi-0:60 SMRT CELLs,P4C2,下機數據14.7Gb(~120x),分別Canu、FALCON組裝

F1:(1)29 SMRT CELLs,18.5G(~140 x),P6C4,分別Canu、FALCON、FALCON-Unzip組裝

(2)60X,PE250,文庫長度450bp,分別SOAPdenovo、Platanus組裝

2.卡百內紅葡萄(V. vinifera cv.)測序組裝,其為Cabernet Franc x Sauvignon Blanc的F1,雜合度高,評估FALCON-Unzip的通用性。

(1)74 SMRT CELLs,P6C4,73.7G(~140 x),分別Canu、FALCON、FALCON-Unzip組裝

(2)45X,PE100,SOAPdenovo組裝


3.高雜合野生二倍體真菌杯珊瑚菌(Clavicorona pyxidata)測序組裝,評估FALCON-Unzip在野生雜合基因組中組裝性能。

6 SMRT CELLs,P6C4,4G(~100 x)


1. 三個高雜合基因組組裝結果發現,FALCON / FALCON-Unzip相對其他長讀長組裝軟體而言,連續性更明顯,如其Contig N50基本上是Canu的2-3倍;相對短讀長的組裝,連續性基本是30-100倍以上(Table 1)。

Table 1 三個基因組經不同組裝策略的組裝結果


2. 通過將擬南芥Col-0 x Cvi-0 F1經FALCON / FALCON-Unzip組裝結果與親本自交系Col-0 、Cvi-0組裝結果對比來評估單倍體定相的準確性,除了發現少量不準確的phased alleles,h-Contig幾乎能完全匹配到其中一個親本基因組(Figure 3)。同時,結合擬南芥參考基因組TAIR10分析,FALCON/FALCON-Unzip對F1組裝的準確性和完整性都較高。


Figure3 FALCON-Unzip組裝的擬南芥F1的4號染色體上SNP和SV

灰色線條:分別比對TAIR 4號染色體的p-contigs 和haplotigs

3. 在卡百內紅葡萄和杯珊瑚菌基因組測序組裝中,經FALCON / FALCON-Unzip組裝得到的二倍體的核心基因預測相比三代測序的其他組裝軟體更完整,通過其他數據評估,FALCON / FALCON-Unzip組裝結果能準確對單倍體定相。

4. 目前大部分單倍體定相算法大多關注雜合SNPs,而忽略了SVs,而FALCON-Unzip能結合SNPs和SVs來分離單倍體信息來構建單倍體特異性Contigs。

未來組作為中國首家第三代測序服務公司,專注於第三代測序技術的推廣及應用。在項目研發中,未來組解決了FALCON在大型基因組組裝中資源消耗瓶頸,隨著FALCON-Unzip的發布,未來組將有更多機會輔助研究者,攻克高雜合基因組組裝難題,探究二倍體和多倍體基因組多樣性,及其在基因表達和物種進化中的作用。

參考文獻

Chen-ShanChin et al. 2016. Phased Diploid Genome Assembly with Single Molecule Real-TimeSequencing. Nature Method.

本文系未來組原創,歡迎個人轉發分享。其他任何媒體、網站如需轉載,須在正文前註明來源未來組。

武漢未來組生物科技有限公司(Nextomics Biosciences)成立於2011年8月8日,總部位於武漢光谷生物城,目前在北京生命科學園和美國紐約設立有分支機構,是中國首家第三代測序服務公司。

武漢未來組通過三代測序生物信息學工具和流程的開發,解決了複雜基因組組裝、微生物完成圖組裝、全長轉錄組分析、人類基因組變異檢測等領域的技術瓶頸,推動了基因組學研究的升級換代,目前已經完成數百個三代測序科研項目,發表了多篇三代測序的科學文獻。因為專注於三代測序技術開發和應用推廣,武漢未來組已經成為中國三代測序技術應用的第一品牌。

相關焦點

  • 基因組組裝的那些困擾,用單倍體基因組一一破解!
    動植物基因組非常複雜,基因組大小、雜合度、GC含量、倍性等都會影響著基因組組裝的難度和結果。特別是目前動植物基因組大多採用二倍體或多倍體材料直接進行測序組裝,對於複雜基因組如高雜合、大基因組等,組裝的難度很高。
  • 綜述 :2017 年基因編輯、大數據育種和單倍體技術
    ▨ 正文作物育種技術常用的有 9 種:遠源雜交、自交不親和、雜種優勢利用、單倍體育種、多倍體育種、基因組編輯、全基因組選擇、分子設計育種、轉基因育種。該軟體包還支持對若干個動物基因組編輯的靶點設計和基因組片段序列的下載。水稻突變體是進行水稻功能基因組學基礎研究和水稻分子設計育種的重要材料。常規的水稻突變體來源於自發突變或化學、物理及生物的誘變,具有很大的隨機性和局限性,不能滿足大規模的水稻功能基因組學研究和水稻分子設計育種的需求。
  • 體式精講:戰士二式,初學者尤其注意了!!!
    關於這三個戰士體式有個很形象的描述:戰二是蓄勢待發,戰一是準備發動了,戰三是發動向前衝,大家在腦海中過一遍這三個體式,感覺一下這個描述,這可以幫助我們在這三個體式的練習中找到重點。同時也告訴我們在這三個體式的練習過程中,通常是先練習戰二、然後是戰一,最後練習戰三。戰士二式的功效:1、快速提升能量,增強腿部和核心肌肉力量,美化腿型。
  • 人工智慧與「星際爭霸」:多智能體博弈研究新進展
    多智能體博弈遊戲具有實時對抗、群體協作、非完全信息博弈、龐大的搜索空間、多複雜任務和時間空間推理等特點,是當前人工智慧領域極具挑戰的難題。同時,該領域研究成果在社會管理、智能交通、經濟、軍事等領域有廣闊的應用前景。
  • 人類基因組計劃
    人類基因組計劃與曼哈頓原子彈計劃和阿波羅計劃並稱為三大科學計劃,是人類科學史上的又一個偉大工程,被譽為生命科學的「登月計劃」。人類基因組計劃由美國科學家於1985年率先提出,於1990年正式啟動的。美國、英國、法國、德國、日本和我國科學家共同參與了這一預算達30億美元的人類基因組計劃。
  • 你家門口的不一定是狗----喬治亞(高加索)狼和牧羊犬群體之間的基因流動
    研究了來自喬治亞(高加索)的102隻灰狼,57隻牲畜守衛犬和9隻雜種犬的8個位點的線粒體DNA單倍型和微衛星基因型的分布。大多數被研究的狗具有線粒體單倍型,大概是東亞狗譜系,大多數研究的狼具有與歐洲狼群聚的單倍型,但是20%的狼和37%的狗共享相同的線粒體單倍型。
  • 平方反比有心力作用下的二體系統的一套初等教案
    ),力避求解複雜的微分方程,突出利用一元二次方程的韋達定理等初等數學技巧,給出了在平方反比有心力作用下,克卜勒系統之軌道問題的一套初等教案。3 對二體克卜勒運動系統的修正3.1 二體問題的質心系與等效的單體描述仿照文獻[10]的方法, 引入質心C和質心繫的概念,即可將以上理論推廣應用於二體問題;它既能描述質量任意的二體克卜勒運動,又能同時適用於平方反比有心力系統。
  • 《自然》:創造更多的數字孿生體
    經陶飛授權,工業4.0研究院翻譯,供數字孿生體同行參考。數字孿生體(Digital Twin)——虛擬的、精確的機器或系統的複製模型,正在改變工業。這些複雜的計算機模型由實時傳感器收集的數據驅動,反映了產品、流程服務的幾乎全部方面。許多大公司已經使用數字孿生體來發現問題和提高效率。一位分析師預測,到2021年,可能有一半以上的企業都在使用數字孿生體了。
  • TurbulenceFD:基於體素的氣體流體動力學(二)
    TurbulenceFD還支持具有各種複雜動畫的碰撞對象,包括MDD導入和剛體動力學控制的對象。著色曲線編輯器體素著色的核心是函數曲線(f曲線),它將溫度和密度等值重新映射到用於不透明度和顏色的強度值。
  • 【 Multi-agent Systems 】無人機蜂群作戰技術與多智能體系統理論
    1987年,Reynolds提出一種Boid模型,這種模型的特點為:(1)聚集:使整個組群中的智能體緊密相鄰;(2) 距離保持:相鄰智能體保持安全距離;(3)運動匹配: 相鄰智能體運動狀態相同。這種模型大體概括描述了自然界中群體的運動特徵。1995年,Vicsek 等人提出一種粒子群模型,這種模型中每個粒子以相同的單位速度運動,方向則取其鄰居粒子方向的平均值。
  • 世界人種基因圖譜
    研究得最多的是人類特異性免疫蛋白基因HLA。他的確有相當多的類型,可以觀察到大量群體間的差異。但由於與重要的人體功能有關,所以它的變異受到相當程度的限制,無法與人群 的分化完全同步。其實,《人類基因組計劃書》的完成使人們發現,在人類冗長的DNA分子中,有具體表達功能的基因只有三萬個左右,而大部分的區段都只是填充基因組或維持分子結構的無意序列。
  • CRISPR/Cas9:基因編輯的歷史與發展
    2011年,CRISPR/Cas系統的分子機制被揭示:當病毒首次入侵時,細菌會將外源基因的一段序列整合到自身的CRISPR的間隔區;病毒二次入侵時,CRISPR 轉錄生成 前體crRNA (pre-crRNA), pre-crRNA 經過加工形成含有與外源基因匹配序列的crRNA,該crRNA與病毒基因組的同源序列識別後,介導 Cas 蛋白結合併切割,從而保護自身免受入侵。
  • 錯位的等位基因
    表現型指生物個體表現出來的性狀,如豌豆的高莖和矮莖;與表現型有關的基因組成叫做基因型,如高莖豌豆的基因型是DD或Dd,矮莖豌豆的基因型是dd。控制相對性狀的基因,叫做等位基因(allele), 如D和d。「同時,在P12配有一道判斷題「(2)D和D,D和d,d和d都是等位基因。」人教版教參中給的答案是錯誤,並沒有解釋原因。
  • 你以為體脂測量很準確?這些誤區你必須知道!(二)
    在昨天的文章中,我提到了為什麼體脂測試只能算是一種估測,而不是測量。我還提到了二室模型,它的局限性,以及為什麼水下稱重對於小組相對準確,而對個人能有高達6%的誤差率。水下稱重並不是唯一的二室模型,接下來我會介紹另外一種---Bod Pod,也叫空氣置換法。
  • 人類基因組計劃(genome project)的「非官方」延續
    他們指出,人類基因組計劃(genome project)也曾被一些人認為有爭議性,但現在被視為是最偉大的探索壯舉之一。人類基因組計劃(genome project)從1990年持續到2003年,重點是基因測序,讓研究人員能夠「閱讀」基因組。而人類基因組編寫計劃的重點是構建基因,讓研究人員能夠「編寫」基因組。
  • 和記憶有關的海馬體尖波波紋也能調節血糖
    在一項新的針對小鼠的研究中,來自美國紐約大學的研究人員發現稱為海馬體的大腦區域中的一組已知與記憶形成有關的特殊信號模式也影響著代謝,即飲食營養物轉化為血糖
  • 【異構體合集】讓我們重回貝萊格萊德,再度開啟異構體巡禮之旅
    親愛的指揮官,6月24日維護結束後2019年冬季活動【異構體】將加入常駐活動關卡微信娘將往期異構體攻略
  • FastApi-06-請求體-3
    動態請求體訴求:當我們想要動態的向請求體中增加一個欄位