【爾雲間】解析同源四倍體基因組的組裝

2021-01-20 雲生信學生物信息學


同源多倍體基因組一直以來是組裝界難以攻破的大boss,幸運的是,基於迄今可用的最佳技術(準確的CCS reads,Hi-C數據和allele-aware組裝算法),首次破譯了我國特有品種「新疆大葉」紫花苜蓿的四倍體基因組,成功地組裝出了所有等位基因染色體,該研究成果於2020年5月19日在Nature Communications期刊上發表。

紫花苜蓿由於其高品質的營養,高產和適應性,是多年生最重要的牧草種類。不但具有很高的飼料價值,還能改善適當地區的土壤質量。但由於其同源四倍體和自交不親和性等特點,給基因組組裝帶來很大的挑戰性,一直難易突破。下面,我們一起來看看這項研究是如何成功解決同源多倍體組裝的難題。



栽培的紫花苜蓿植物的新鮮的葉子,該植物種植於溫室中,溫度保持在21–23°C,每天光照16 h(380-450 W / m2的光照強度),相對溼度為70%。使用DNeasy Plant Mini Kit(Qiagen)從這些葉片中提取DNA。DNA的一部分被送到AnnoRoad以構建環形共有序列(CCS)庫,並使用PacBio Sequal平臺對其進行測序,其他部分被送至Nextomicsto構建庫,並使用Nanopore ONT和Illumina Hiseq平臺對其進行測序。這些測序工作分別產生了70G的ccs數據(reads N50 12.6K)、99G的ONT數據(reads N50 21.58K)和126Gb Illumina數據 (Insert size 300bp),用於從頭組裝栽培的紫花苜蓿基因組。

   從用於全基因組測序的植物中摘下新鮮的葉子和枝條,然後將樣品中的染色質交聯至DNA並固定。將固定的樣品發送到青島BGI(中國青島)進行Hi-C文庫的構建和測序。使用DpnII限制性核酸內切酶構建了兩個文庫,並獲得了200 Gbp的數據。


使用Trimmomatic默認參數質控Illumina數據。使用兩個文庫,每個文庫具有約56 Gbp的reads,通過SOAPec(v.2.01)軟體包中的Kmerfreq,基於K-mer 17的方法獲得的苜蓿基因組大小的估計值為〜3.15Gb(2n = 4x);通過腳本計算得到雜合率為3.7%。同時,藉助流式細胞儀預估得到基因組大小為〜3Gb(2n = 4x)。

Kmer 17預估:基因組大小=總kmer數/覆蓋深度=59,975,196,680 / 19 = 3,156,589,298

流式細胞儀評估:M.sativa (cultivar XinJiangDaYe)和M.truncatula (cultivar Jemalong,A17) DNA峰比率推算(718/206=3.49)


(1)使用Canu默認參數,利用CCS clean reads組裝contigs。組裝得到的Contig N50值為459kb,總長度為3154Mb。(2)使用HiC-Pro將Hi-C reads與contigs 進行比對,產生比對BAM文件。(3)使用注釋的蒺藜苜蓿蛋白作為參考,完全基於同源的策略注釋contigs。對138,729個同源基因進行了結構注釋。用MCscan用於鑑定contigs和參考基因組之間的共線性。顯示紫花苜蓿和蒺藜苜蓿之間的高共線性。(4)使用內部腳本處理BAM文件,去除等位基因contigs之間的links。使用ALLHiC軟體,提取、聚類和重排Contigs (Contigs syntenic與蒺藜苜蓿染色體一致),得到原始的scaffolds。(5)Juicebox用於以圖形和交互方式微調組裝的scaffolds。剪裁了40個總長度達1800Mb的scaffolds 。(6) 基於組裝的scaffold,通過Hi-C數據,每個unplaced contig被分配到互作最強的那些contig cluster裡。(7)使用ALLHiC對那些contig clusters再次進行重排和構建scaffold。(8)使用Juicebox對scaffolds進行微調,並從scaffolds上去除不一致的contigs,產生最終的染色體基因組,其包含32條染色體(8個同源組,每個組中有4個等位基因染色體),總長度為2738Mb,和419Mb未掛載到染色體水平的序列。

ALLHiC算法主要步驟的概述 

染色體水平基因組統計



(1) BUSCO評估基因組完整性 

(2) 驗證scaffolding 的homologous group

參考遺傳圖譜比對到栽培紫花苜蓿的基因組,比對結果顯示組裝的紫花苜蓿基因組與參考遺傳圖譜基本一致。

(3) 檢查Hi-C互作矩陣進一步評估了組裝的質量。繪製的Hi-C linkage表明染色體組是清晰的

(3) 提取99Gb ONT數據的前200個最長的ONT reads,範圍從95到263 Kb,比對到組裝的紫花苜蓿染色體基因組上,其中大多數(89%)可以比對到一條長度超過其自身長度80%的單個染色體。證明大多數染色體的phased是正確。(4) 超過90%的組裝轉錄本可以定位到組裝的基因組上。


 在本項研究中,利用高精度的CCS 加Hi-C數據的策略,成功的組裝出同源四倍體基因組的所有等位基因染色體,儘管由於該物種本身具有四體遺傳的特徵,導致在分相過程中可能存在一些錯誤,但得到的染色體基因組在後續研究中仍具有非常重要的意義;另外,基於目前的技術,這種組裝策略是最有希望解決其他多倍體物種基因組組裝的問題。


相關焦點

  • 龍井茶樹染色體級別基因組組裝成功
    近日,由我所和中國農業科學院深圳農業基因組研究所(以下簡稱基因組所)主導並攜手中國科學院昆明動物研究所(以下簡稱昆明動物所)及雲南省農業科學院茶葉研究所等單位,在茶樹全基因組組裝和茶樹起源演化研究上取得重要突破,相關研究成果以「群體測序增強對茶樹進化的認識」(「Population
  • 昆明植物所解析極小種群野生植物漾濞槭全基因組—新聞—科學網
    記者從中科院昆明植物所獲悉,該所極小種群野生植物綜合保護團隊完成了漾濞槭全基因組測序、組裝,獲得了近於染色體水平的高質量全基因組
  • 作物基因組學研究進展
    蜀恢498基因組測序工作的完成,對於水稻尤其是秈稻優異等位基因資源的挖掘和利用、秈稻群體的全基因組關聯分析的相關研究具有很重要的應用價值,同時對於提高目前高等動植物基因組的組裝質量具有重要的指導意義。研究人員還對一個大麥關鍵馴化基因TtBtr1進行研究,在野生小麥馴化的過程中,麥穗變得不易破碎,從而表現為不易落粒。通過構建定位群體,研究人員發現了調控麥穗脆性表型的基因組區域,並最終推測馴化小麥含有的TtBtr1⁃A和TtBtr1⁃B等位基因變異可能引起蛋白質功能喪失,導致麥穗不易破碎。同時作者還檢測了二粒小麥中可能受到選擇的馴化區域,發現與野生二粒小麥相比,栽培二粒小麥間遺傳多樣性僅略微降低。
  • 鼴鼠基因組揭示調控重排與適應性雌雄間性相關
    鼴鼠基因組揭示調控重排與適應性雌雄間性相關 作者:小柯機器人 發布時間:2020/10/11 21:50:32 近日,德國馬克斯·普朗克分子遺傳學研究所Darío G.
  • 田誌喜團隊在植物中首次實現基於圖形結構基因組的構建
    該研究突破傳統線性基因組的存儲形式,在植物中首次實現基於圖形結構基因組的構建。它將引領全新的下一代基因組學研究思路和方法,被審稿人稱為「基因組學的裡程碑工作」。田誌喜對《中國科學報》說,「基於圖形結構泛基因組打破了傳統基因組對遺傳信息的線性記錄方式(ATCG按照鹼基序列順序排列到染色體),是一種結合了傳統基因組和圖論的新型基因組存儲方式。其優勢是突破了傳統基因組只能存儲一個個體遺傳信息的局限性,可以存儲、展示某類群中不同個體的遺傳變異信息,從而真正代表一個類群的遺傳信息,而非特定個體的遺傳信息。」
  • 非模式哺乳動物與其寄生蛔蟲協同演化的基因組學機制
    協同演化(Coevolution)指兩個或多個物種通過自然選擇的過程相互影響彼此的演化,按種間關係可分為互利的協同演化和拮抗的協同演化。宿主和寄生蟲的協同演化就是典型的拮抗協同演化。已有的關於協同演化遺傳機制的研究較多集中於候選基因水平,缺乏基因組水平的研究。隨著基因組測序技術的發展,一些和人類及家養動物健康相關的寄生蟲基因組被解析。
  • 我國科學家在龍井茶樹品種基因組組裝和茶樹起源演化研究上取得重要突破
    北京時間9月8日,由中國農業科學院茶葉研究所和中國農業科學院深圳農業基因組研究所(以下簡稱基因組所)主導並攜手中國科學院昆明動物研究所(以下簡稱昆明動物所)及雲南省農業科學院茶葉研究所等單位,在茶樹全基因組組裝和茶樹起源演化研究上取得重要突破,相關研究成果以「群體測序增強對茶樹進化的認識」(「Population sequencing enhances understanding of tea
  • 基因組學研究的未來之星——泛基因組
    高通量測序技術的迅猛發展,極大地推動了全基因組測序進程及物種的群體進化、遺傳多樣性、性狀定位等研究。但單一或者少數參考基因組中可能會缺少部分基因,不能完全覆蓋物種的全部遺傳信息,限制了基因組學研究的深入開展。泛基因組的提出,有效解決了該問題,成為了基因組學研究的新方向。01 什麼是泛基因組?
  • 我國率先完成草地貪夜蛾染色體基因組測序和組裝
    僅用25天,從害蟲採樣到論文發表,我國首次在全球完成對這種外來入侵者染色體級別的基因測序與組裝。  「草地貪夜蛾基因組的解讀和深層次回答,對進一步研究其亞型、耐藥性和長期防控具有重要意義。」中國科學院院士、華大基因學院院長楊煥明18日在昆明表示,入侵生物的耐毒性與遺傳機制、確定入侵中國的樣本類型、遷飛路線、基因防禦技術、雜食性遺傳機制等研究與應用,都離不開高質量參考基因組。
  • 18650鋰電池組組裝方法
    18650鋰電池組組裝需要理解的幾個特點:1、18650鋰電池組是有多個18650電芯通過串聯和並聯的方式焊接組裝成的;2、18650鋰電池組需要電池保護板對個個18650電芯進行均衡和保護;3、18650鋰電池組每個電芯之間的電壓誤差要在10毫伏以內
  • 研究揭示非模式哺乳動物與其寄生蛔蟲協同演化的基因組學機制
    協同演化(Coevolution)指兩個或多個物種通過自然選擇的過程相互影響彼此的演化,按種間關係可分為互利的協同演化和拮抗的協同演化。宿主和寄生蟲的協同演化就是典型的拮抗協同演化。已有的關於協同演化遺傳機制的研究較多集中於候選基因水平,缺乏基因組水平的研究。隨著基因組測序技術的發展,一些和人類及家養動物健康相關的寄生蟲基因組被解析。
  • 研究揭示非模式哺乳動物與其寄生蛔蟲協同演化的基因組學機制
    協同演化(Coevolution)指兩個或多個物種通過自然選擇的過程相互影響彼此的演化,按種間關係可分為互利的協同演化和拮抗的協同演化。宿主和寄生蟲的協同演化就是典型的拮抗協同演化。已有的關於協同演化遺傳機制的研究較多集中於候選基因水平,缺乏基因組水平的研究。
  • 世界首個棗全基因組測序完成
    原標題:世界首個棗全基因組測序完成   ■最新發現與創新   科技日報訊 (記者劉廉君)10月29日,國際權威科學雜誌《自然通訊》在線發表了以河北農業大學劉孟軍教授為第一和通訊作者的棗基因組測序重大研究成果《棗複雜基因組測序及其果樹生物學性狀解析》。
  • 探索爪蟾異源四倍體基因組演化之旅
    研究證實非洲爪蟾是異源四倍體,並區分出了兩個非對稱演化的亞基因組——一個往往保留了遠祖狀態,而另一個則經歷了基因損失、刪除、重組和表達降低的情況。這兩種二倍體的祖先約在3400萬年前出現分化,並在約1800萬年前結合形成異源四倍體。組學君為大家解讀此篇文獻,共同探索數千萬年前的爪蟾異源四倍體基因組演化。
  • 動物所揭示非模式哺乳動物與其寄生蛔蟲協同演化的基因組學機制
    協同演化(Coevolution)指兩個或多個物種通過自然選擇的過程相互影響彼此的演化,按種間關係可分為互利的協同演化和拮抗的協同演化。宿主和寄生蟲的協同演化就是典型的拮抗協同演化。已有的關於協同演化遺傳機制的研究較多集中於候選基因水平,缺乏基因組水平的研究。
  • Nature genetics|新方法實現多倍體植物基因組的全染色體組裝
    Coin課題組利用新方法實現多倍體植物基因組的全染色體組裝。相關論文於2020年10月30日發表在《自然—遺傳學》雜誌上。研究人員報導了通過遺傳連鎖分析將重疊群分組和排序為假分子的PolyGembler方法。這個方法還提供了一種檢測和修復裝配錯誤的準確方法。使用模擬數據,研究人員證明了該方法具有很高的準確性,並且優於三種現有的最新遺傳作圖工具。
  • 鞍帶石斑魚基因組精細圖譜繪製完成
    日前,在山東省農業良種工程等項目支持下,海洋試點國家實驗室海洋漁業科學與食物產出過程功能實驗室(以下簡稱「海洋漁業功能實驗室」)陳松林研究員團隊、林浩然院士團隊和美國密西根州立大學李偉明教授團隊等,聯合完成了鞍帶石斑魚(龍膽石斑)的全基因組測序和基因組圖譜繪製,並解析了其先天性免疫和快速生長的基因組學機制。
  • FASEB J | 我校曾凡力課題組解析Npa3組裝RNA聚合酶II的分子機制
    這項工作得到了國家自然科學基金(No. 32070574)和河北省優秀青年科學基金(C2020204109)的資助,是曾凡力課題組繼2018年解析RNA聚合酶II首步組裝機制以來又一深入的原創性成果。RNA聚合酶II在真核生物中主要負責合成mRNA及大多數snRNA和microRNA前體。
  • 解碼生命:從多視角看生命|遺傳|人類基因組計劃|解碼生命|基因組|...
    腸道微生物和代謝組的結合應用 30715.5 代謝組學面臨的技術挑戰和未來發展趨勢 30815.5.1 代謝組學發展面臨的技術挑戰 30815.5.2 代謝晶片的發展與應用 30915.5.3 代謝組學在腦科學研究計劃和表型組學研究中的應用 310結語 31016 其他組學技術及不同組學間的協同作用 311