文章題目:在沒有完整基因組的植物中鑑別潛在表型變異的遺傳變異
發表期刊:Nat Genet.
影響因子:25.5
發表時間:2020.05
植物基因組中普遍存在結構變異以及多態性的存在或缺失,但它們在全基因組關聯分析(GWAS)中經常被忽略。在這裡,研究者擴展了GWAS檢測到的遺傳變異類型,包括主要的缺失、插入和重排。首先,直接使用原始測序數據來獲得短序列k-mers,k-mers標記了不依賴參考基因組的廣泛的多態性。然後,將與表型相關的k-mers關聯到特定的基因組區域。利用這種方法,研究者重新分析了擬南芥、番茄和玉米群體中的2000個性狀。發現與k-mers的關聯包含了與SNPs的關聯,但比SNPs的關聯有更強的統計數據支持。重要的是,研究者發現了與結構變異和參考基因組缺失區域的新關聯。研究結果證明,在將序列reads關聯到特定基因組區域之前進行GWAS,可以檢測更廣泛的導致表型變異的遺傳變異。
GWAS支持對表型變異的候選基因組位點的系統識別。植物基因組中經常存在許多結構變異(SVs),這些SVs往往會導致表型變異。短序列讀取雖然不常被分析,但原則上比SNPs和InDels能提供更多基因組變異的信息。
從所有reads中提取k-mers後,可以比較不同樣本的k-mers集合。重要的是,k-mers在一些樣本中存在,但在其他樣本中缺失,可以識別廣泛的遺傳變異。大片段缺失、倒位和易位等SVs也會導致k-mers的差異。因此,在GWAS中,可以直接將原始測序數據中k-mers的存在/缺失模式與表型聯繫起來,以擴大標記的遺傳變異,而不是相對於參考基因組定義群體中的遺傳變異。
雖然基於k-mers的方法可能特別適用於植物,但現有的k-mers方法計算量非常大,使其在具有巨大基因組、高度種群結構和過多遺傳變異的植物中難以應用。在這裡,研究者顛覆了傳統的先構建基因組再做表型關聯的思路,首先將測序reads與表型聯繫起來,然後再推斷出相關序列的基因組背景。用此方法,研究者分析了來自擬南芥、玉米和番茄的三個不同基因組和物種群體特徵的2000多個表型,並與傳統的基於SNPs的方法進行了比較,證明研究者的方法在植物中是有效的。
1. 以擬南芥開花時間為例,比較該表型與SNPs和k-mers的GWAS(圖1)。
使用k-mers作為兩個等位基因存在與否的對比,用線性混合模型(LMM)做GWAS來解釋群體結構,並與用SNPs和InDels做GWAS進行比較。通過對閾值進行合理設定,共28個SNPs和105個k-mers通過了相應的閾值。利用連鎖不平衡(LD)直接將SNPs和k-mers進行了關聯,而沒有把k-mers先定位到基因組上。利用兩種方法鑑定了4個連鎖遺傳變異家族,與預期的一樣,k-mers被標記在與相應SNPs相同的基因組位點。因此,在擬南芥開花時間表型上,k-mers與SNPs具有同樣的關聯模式。
圖1 | 用SNPs和k-mers對擬南芥開花時間的關聯分析2. 評估了擬南芥1582種表型與SNPs和k-mers的關聯分析結果的異同(圖2)。
在顯著的SNPs和k-mers關聯之間存在大量重疊,並且每個表型的k-mers和SNPs數量高度相關。在嚴格設定閾值的情況下,137種表型中只有一個顯著的SNP可以被識別出來。而且,超出SNPs閾值的k-mers處於高LD,且SNPs最高。儘管k-mers的閾值比SNPs的閾值更嚴格,但僅在129種表型中發現了k-mers的關聯。另外,還發現Top SNPs和k-mers的P-value高度相關。
圖2 | 基於SNPs和k-mers 方法對擬南芥1582種表型的GWAS分析3. K-mers關聯比SNPs關聯具有優勢的案例分析(圖3)。
二羥基苯甲酸(DHBA)木苷在總DHBA糖苷中的佔比表型相關的所有重要的k-mers都在AT5G03490附近唯一定位,編碼UDP-糖基轉移酶。較強的k-mers關聯可以追溯到基因S編碼區兩個相距4 bp的非同義SNPs。由於它們的接近性,一個k-mers包含了兩個SNPs的狀態,它們的聯合信息比單獨的SNPs更能預測表型。
幼苗生長有關的flg22突變體中,研究者只能將10個顯著k-mers中的3個映射到參考基因組上AT1G23050的顯著SNPs附近。為了確定另外7個k-mers的基因組來源,研究者將它們的來源進行了拼接,結果得到的962 bp片段也包含三個可映射的k-mers,但不包含參考基因組中存在的一個892 bp helitron轉座因子(TE)。雖然k-mers方法沒有發現一個新的基因座,但它揭示了SV可能是導致flg22敏感性差異的原因。
一個擬南芥種子在低營養條件下黑暗中萌發的案例,有11個k-mers都不能追溯到參考基因組。含有這些k-mers的reads被組裝成458 bp的片段,這些片段在Ler-0品種的基因組中被破壞。把側翼序列與參考基因組同步,發現一個2kb的SV,其中包括組裝好的458 bp片段,這種變異影響了編碼bZIP67轉錄因子基因的3'-UTR。bZIP67蛋白的積累而不是bZIP67 mRNA的積累似乎介導了對萌發環境的調控。3'-UTR中的SV與bZIP67的翻譯調控一致。這個案例證明了k-mers方法能夠揭示與未被SNPs標記的SVs之間的關聯。
圖3 | 與SNPs相比,k-mers關聯GWAS分析具有優勢的示例
4. 在玉米中驗證基於k-mers的GWAS(圖4)。
用SNPs和k-mers方法對測序深度6×以上的150個玉米自交系中252個主要形態性狀進行了GWAS研究。至少用一種方法鑑定出具有顯著相關性的性狀有89個,兩種方法同時鑑定出的有37個。和在擬南芥中的表現一樣,顯著變異與top關聯在兩種方法之間具有良好的相關性。Top k-mers的P-value低於Top SNPs,用k-mers的方法檢測到了用SNPs沒有發現的關聯。
對玉米來說,一個主要的挑戰是大量的短片段不能完全映射到基因組上,需要群體LD和遺傳圖譜輔助進行SNPs定位。因此,研究者使用LD比較了SNPs和k-mers,而沒有在基因組中定位k-mers。與穗發育天數和與穗重有關的表型中,k-mers標記到了一些SNPs方法未能識別的等位基因。因此,利用k-mers可以發現對玉米性狀具有高預測能力的新等位基因。
圖4 | 基於SNPs和k-mers的GWAS在玉米中的驗證5. 基於k-mers的GWAS在番茄中的驗證(圖5)。
對246份樣本的96個代謝物進行了全基因組關聯分析。對於大部分代謝物,用兩種方法都鑑定出了相關性,但其中3個只有SNPs能檢測到, 13個只有k-mers能檢測到。與其他物種相似,鑑定的變異數和top P-value在方法之間存在相關性。Top k-mers的關聯也比Top SNPs的關聯更強,甚至比擬南芥或玉米的關聯更強。
研究者檢測了導致番茄產生強烈異味的愈創木酚的濃度性狀,在9號染色體和「0號染色體」上發現了相關的SNPs,其中包含了未分配到12條染色體上的scaffolds。在293個愈創木醇相關的k-mers中,有180個可以被唯一地映射到基因組中,全部都接近顯著的SNPs。在其餘的k-mers中,有35個k-mers的高LD和特別低的P-value引人注意。將相應的短reads組裝後,得到1172 bp的片段,其中第一個574 bp在0號染色體的顯著SNPs附近排列,其餘的片段與無參考的NSGT1基因匹配,該基因最初被確定為guaiacol變異的原因。35個重要的k-mers覆蓋了這兩個可映射區域之間的連接。大多數NSGT1編碼序列在參考基因組中缺失,但在其他品種中存在。因此,研究者確定了參考基因組之外的關聯,並將0號染色體上的SNPs與9號染色體連接起來。
圖5 | 基於SNPs和k-mers的GWAS在番茄中的驗證基於k-mers和基於SNPs的GWAS的比較提供了一個有趣的觀點來權衡遺傳變異的特性。基於k-mers的方法顛倒了GWAS的通常做法,研究者不是首先定位基因組中的序列變異,而是從序列-表型關聯開始,然後才找到相關序列在基因組上的前後序列。在短讀序列和長讀序列方面的技術改進,以及將它們整合到群體水平遺傳變異數據結構中的方法,將擴大所涵蓋的遺傳變異。傳統的GWAS方法將受益於這些改進,基於k-mers的方法也將受益,它將能夠使用跨越更大基因組距離的標籤。因此,研究者認為,對於GWAS,基於k-mers的方法是理想的。
歐易生物擁有專業的動植物基因組研發團隊,為客戶提供從PacBio三代測序、de novo組裝、基因注釋、基礎分析,到比較基因組、個性化分析及多組學聯合分析等高質量的技術服務,博士級專業人員,經過多年經驗沉澱積累,具備多角度分析問題能力,提供多元化項目技術服務,多組學技術平臺聯合支撐,極力打造一站式服務。