同源多倍體基因組一直以來是組裝界難以攻破的大boss,幸運的是,基於迄今可用的最佳技術(準確的CCS reads,Hi-C數據和allele-aware組裝算法),首次破譯了我國特有品種「新疆大葉」紫花苜蓿的四倍體基因組,成功地組裝出了所有等位基因染色體,該研究成果於2020年5月19日在Nature Communications期刊上發表。
紫花苜蓿由於其高品質的營養,高產和適應性,是多年生最重要的牧草種類。不但具有很高的飼料價值,還能改善適當地區的土壤質量。但由於其同源四倍體和自交不親和性等特點,給基因組組裝帶來很大的挑戰性,一直難易突破。下面,我們一起來看看這項研究是如何成功解決同源多倍體組裝的難題。
栽培的紫花苜蓿植物的新鮮的葉子,該植物種植於溫室中,溫度保持在21–23°C,每天光照16 h(380-450 W / m2的光照強度),相對溼度為70%。使用DNeasy Plant Mini Kit(Qiagen)從這些葉片中提取DNA。DNA的一部分被送到AnnoRoad以構建環形共有序列(CCS)庫,並使用PacBio Sequal平臺對其進行測序,其他部分被送至Nextomicsto構建庫,並使用Nanopore ONT和Illumina Hiseq平臺對其進行測序。這些測序工作分別產生了70G的ccs數據(reads N50 12.6K)、99G的ONT數據(reads N50 21.58K)和126Gb Illumina數據 (Insert size 300bp),用於從頭組裝栽培的紫花苜蓿基因組。
從用於全基因組測序的植物中摘下新鮮的葉子和枝條,然後將樣品中的染色質交聯至DNA並固定。將固定的樣品發送到青島BGI(中國青島)進行Hi-C文庫的構建和測序。使用DpnII限制性核酸內切酶構建了兩個文庫,並獲得了200 Gbp的數據。
使用Trimmomatic默認參數質控Illumina數據。使用兩個文庫,每個文庫具有約56 Gbp的reads,通過SOAPec(v.2.01)軟體包中的Kmerfreq,基於K-mer 17的方法獲得的苜蓿基因組大小的估計值為〜3.15Gb(2n = 4x);通過腳本計算得到雜合率為3.7%。同時,藉助流式細胞儀預估得到基因組大小為〜3Gb(2n = 4x)。
Kmer 17預估:基因組大小=總kmer數/覆蓋深度=59,975,196,680 / 19 = 3,156,589,298流式細胞儀評估:M.sativa (cultivar XinJiangDaYe)和M.truncatula (cultivar Jemalong,A17) DNA峰比率推算(718/206=3.49)
ALLHiC算法主要步驟的概述
染色體水平基因組統計
(1) BUSCO評估基因組完整性
(2) 驗證scaffolding 的homologous group參考遺傳圖譜比對到栽培紫花苜蓿的基因組,比對結果顯示組裝的紫花苜蓿基因組與參考遺傳圖譜基本一致。
(3) 檢查Hi-C互作矩陣進一步評估了組裝的質量。繪製的Hi-C linkage表明染色體組是清晰的(3) 提取99Gb ONT數據的前200個最長的ONT reads,範圍從95到263 Kb,比對到組裝的紫花苜蓿染色體基因組上,其中大多數(89%)可以比對到一條長度超過其自身長度80%的單個染色體。證明大多數染色體的phased是正確。(4) 超過90%的組裝轉錄本可以定位到組裝的基因組上。