體檢單小夥伴們肯定不陌生,身體好不好全由它說了算。同樣地,基因組也有自己的「體檢單」。「體檢單」的主要內容包括基因組的大小、GC含量、雜合度的高低以及重複序列的比例等。這些信息可為後期de novo測序和組裝策略的制定提供依據,這些基本信息的獲得需要通過基因組Survey分析來獲得。
基因組大小是基因組學研究的問題之一,其分析方法很多,K-mer分析是常用的評估基因組大小、重複與雜合的方法,基因組Suvey分析使用的就是K-mer分析。K-mer是指將一條長度為L的Read,連續切割,連續划動得到的(L-K+1 )個長度為K的核苷酸序列(圖2)。在基因組中,除由測序錯誤導致的低頻率K-mer外,K-mer的頻率與深度的分布應符合泊松分布。
圖1 K-mer序列
選取一定的測序數據使用jellyfish軟體進行K-mer分析,統計K-mer的頻率和深度信息。利用公式:基因組的大小(G)=K-num/K-depth可初步估計的基因組大小。其中K-num為全部K-mer的個數,K-depth為K-mer的期望深度(K-mer深度分布曲線的峰值對應的深度)。從K-mer曲線來看,如果主峰前約1/2位置有峰說明存在雜合,曲線存在拖尾說明存在一定比例的重複序列。對獲得的測序數據進行初步組裝,可以獲得物種的GC含量和判斷是否存在汙染。
先構建1-2個小片段文庫,測序深度為50X,文庫質檢合格後,進行高通量測序。完成測序後對下機數據進行如下分析:數據過濾、汙染分析、Survey的K-mer分析和Survey的組裝分析。具體分析流程如下圖:
圖2 基因組Survey分析流程
2015年發表在Nature Biotechnology上的陸地棉基因組,使用180GB小片段原始測序數據進行Survey分析,預估陸地棉基因組大小為2.5Gb。下圖展示的是陸地棉31-mer深度分布圖,從圖中可以看到兩個峰,對應的深度分別為49X和104X,主峰對應的深度為K-mer的期望深度,主峰後約2倍的位置為重複序列峰。
圖3 TM-1基因組大小的估計
橫軸表示K-mer的深度,即K-mer出現的次數,縱軸表示對應深度的K-mer的頻率。
2014年發表在Nature Communications上的棗樹基因組,通過小片段的測序數據進行Survey分析,預估基因組大小為444Mb。下圖藍線表示棗樹17-mer深度分布,紅線和綠線表示的是模擬的雜合度為1.8%和2.0%的基因組。從圖中可明顯看到棗樹基因組存在兩個峰,對應深度為30X和59X,其中深度30X對應峰為雜合峰,位於紅線和綠線之間,據此估計棗樹基因組的雜合率介於1.8%-2.0%之間,約為1.9%。從Survey分析中可以知道棗樹基因組是一個高度雜合的基因組。
圖4 棗樹基因組大小的估計
橫軸表示K-mer的深度,即K-mer出現的次數,縱軸表示對應深度的K-mer的頻率。藍線表示棗樹基因組,紅線和綠線分別表示模擬的雜合率為2.0%和1.8%的雜合基因組。
基因組Survey分析是基因組進行組裝前期非常重要的工作哦~今天小編先是系統地為大家介紹了基因組Survey分析相關內容,如果小夥伴們想要更深入學習基因組Survey分析,可以給小編留言哦~後續小編會持續為大家進行分享。
Liu B H, Shi Y J, Yuan J Y, et al. Estimation of genomic characteristics by analyzing k-mer frequency in de novo genome projects[J]. Quantitative Biology, 2013, 35: 62-67.
Marcais G, Kingsford C. A fast, lock-free approach for efficient parallel counting of occurrences of k-mers[J]. Bioinformatics, 2011, 27(6): 764-770.
Zhang T Z, Hu Y, Jiang W K, et al. Sequencing of allotetraploid cotton (Gossypium hirsutum L. acc. TM-1) provides a resource for fiber improvement[J]. Nature Biotechnology, 2015, 33(5): 531-5377.
Liu M J, Zhao J, Cai Q L, et al. The complex jujube genome provides insights into fruit tree biology[J]. Nature Communications, 2014, 5: 5315-5315.