第二代測序通過大量短序列組裝基因組,會留下大量gap,相比而言,第三代測序的長讀長能夠最大限度地保證基因組的完整性,例如納米孔測序 (Nanopore sequencing) 的最大讀長可以超過2M。納米孔測序在降低測序成本和時間上具有較大潛力,但僅憑藉納米孔測序的長讀長數據進行基因組組裝的研究目前僅限於果蠅、線蟲等少數模式動物。福建省水產研究所等單位藉助納米孔測序和Hi-C測序技術,利用長讀長數據完成了我國重要經濟魚類赤點石斑魚的基因組的從頭組裝。
▉ 原文信息
▉ 正文
赤點石斑魚 (Epinephelus akaara;圖1) 是中國、日本和東南亞等地區最具有經濟價值的海洋魚類之一,但其野生種群數量在近幾十年急劇下降。赤點石斑魚也是研究動物性別反轉、發育、免疫和遺傳多樣性的良好材料,但是其遺傳變異數據還比較匱乏,沒有參考基因組發表。鑑於此,該論文藉助牛津納米孔技術 (Oxford Nanopore Technology, ONT) 和高通量染色體構象捕獲 (High-throughput/resolution chromosome conformation capture,Hi-C) 的單分子超長讀長測序和從頭組裝的優勢,構建了赤點石斑魚染色體水平的參考基因組。
圖1 赤點石斑魚照片
測序覆蓋度上,從納米孔測序儀ONT GridlON上獲取了106.29Gb的校正後的數據,最終組裝出1.135Gb的基因組,測序的基因組覆蓋度大約為96倍。基因組組裝質量上,根據BUSCO估計基因組的組裝完整性為96.8%,其中contig N50為5.25Mb,最長的contig達25.75Mb,結合Hi-C測序數據,把contig聚類和排序到24條虛擬染色體上 (圖2),覆蓋了95.5%的contig鹼基數,scaffold N50為46.03 Mb。基因組結構和功能預測上,基因組包含了43.02% 的重複序列和5480 條非編碼RNA,結合RNA-seq數據,預測的23923條蛋白編碼序列中有23808條 (99.5%) 被成功地功能注釋。
圖2 基於Hi-C的赤點石斑魚基因組contig接觸矩陣。顏色越深,接觸密度越大
藉助ONT和Hi-C,赤點石斑魚的參考基因組首次在染色體水平上實現了高質量的從頭組裝,這是後續分子育種和功能基因組研究的重要參考資源。同時,該案例研究也揭示了基於納米孔測序的長讀長序列的基因組組裝的潛力。
研究方向:蘆葦的譜系地理與生態適應研究、黃河三角洲溼地生態系統功能研究
歡迎關注「Wiley生態學」微信公眾號