Nat Genet | 還在用SNPs做GWAS?試試k-mers吧!

2021-01-12 歐易生物

文章題目：在沒有完整基因組的植物中鑑別潛在表型變異的遺傳變異

發表期刊：Nat Genet.

影響因子：25.5

發表時間：2020.05

植物基因組中普遍存在結構變異以及多態性的存在或缺失，但它們在全基因組關聯分析(GWAS)中經常被忽略。在這裡，研究者擴展了GWAS檢測到的遺傳變異類型，包括主要的缺失、插入和重排。首先，直接使用原始測序數據來獲得短序列k-mers，k-mers標記了不依賴參考基因組的廣泛的多態性。然後，將與表型相關的k-mers關聯到特定的基因組區域。利用這種方法，研究者重新分析了擬南芥、番茄和玉米群體中的2000個性狀。發現與k-mers的關聯包含了與SNPs的關聯，但比SNPs的關聯有更強的統計數據支持。重要的是，研究者發現了與結構變異和參考基因組缺失區域的新關聯。研究結果證明，在將序列reads關聯到特定基因組區域之前進行GWAS，可以檢測更廣泛的導致表型變異的遺傳變異。

GWAS支持對表型變異的候選基因組位點的系統識別。植物基因組中經常存在許多結構變異(SVs)，這些SVs往往會導致表型變異。短序列讀取雖然不常被分析，但原則上比SNPs和InDels能提供更多基因組變異的信息。

從所有reads中提取k-mers後，可以比較不同樣本的k-mers集合。重要的是，k-mers在一些樣本中存在，但在其他樣本中缺失，可以識別廣泛的遺傳變異。大片段缺失、倒位和易位等SVs也會導致k-mers的差異。因此，在GWAS中，可以直接將原始測序數據中k-mers的存在/缺失模式與表型聯繫起來，以擴大標記的遺傳變異，而不是相對於參考基因組定義群體中的遺傳變異。

雖然基於k-mers的方法可能特別適用於植物，但現有的k-mers方法計算量非常大，使其在具有巨大基因組、高度種群結構和過多遺傳變異的植物中難以應用。在這裡，研究者顛覆了傳統的先構建基因組再做表型關聯的思路，首先將測序reads與表型聯繫起來，然後再推斷出相關序列的基因組背景。用此方法，研究者分析了來自擬南芥、玉米和番茄的三個不同基因組和物種群體特徵的2000多個表型，並與傳統的基於SNPs的方法進行了比較，證明研究者的方法在植物中是有效的。

1. 以擬南芥開花時間為例,比較該表型與SNPs和k-mers的GWAS（圖1）。

使用k-mers作為兩個等位基因存在與否的對比，用線性混合模型（LMM）做GWAS來解釋群體結構，並與用SNPs和InDels做GWAS進行比較。通過對閾值進行合理設定，共28個SNPs和105個k-mers通過了相應的閾值。利用連鎖不平衡(LD)直接將SNPs和k-mers進行了關聯，而沒有把k-mers先定位到基因組上。利用兩種方法鑑定了4個連鎖遺傳變異家族，與預期的一樣，k-mers被標記在與相應SNPs相同的基因組位點。因此，在擬南芥開花時間表型上，k-mers與SNPs具有同樣的關聯模式。

圖1 | 用SNPs和k-mers對擬南芥開花時間的關聯分析

2. 評估了擬南芥1582種表型與SNPs和k-mers的關聯分析結果的異同(圖2)。

在顯著的SNPs和k-mers關聯之間存在大量重疊，並且每個表型的k-mers和SNPs數量高度相關。在嚴格設定閾值的情況下，137種表型中只有一個顯著的SNP可以被識別出來。而且，超出SNPs閾值的k-mers處於高LD，且SNPs最高。儘管k-mers的閾值比SNPs的閾值更嚴格，但僅在129種表型中發現了k-mers的關聯。另外，還發現Top SNPs和k-mers的P-value高度相關。

圖2 | 基於SNPs和k-mers 方法對擬南芥1582種表型的GWAS分析

3. K-mers關聯比SNPs關聯具有優勢的案例分析（圖3）。

二羥基苯甲酸(DHBA)木苷在總DHBA糖苷中的佔比表型相關的所有重要的k-mers都在AT5G03490附近唯一定位，編碼UDP-糖基轉移酶。較強的k-mers關聯可以追溯到基因S編碼區兩個相距4 bp的非同義SNPs。由於它們的接近性，一個k-mers包含了兩個SNPs的狀態，它們的聯合信息比單獨的SNPs更能預測表型。

幼苗生長有關的flg22突變體中，研究者只能將10個顯著k-mers中的3個映射到參考基因組上AT1G23050的顯著SNPs附近。為了確定另外7個k-mers的基因組來源，研究者將它們的來源進行了拼接，結果得到的962 bp片段也包含三個可映射的k-mers，但不包含參考基因組中存在的一個892 bp helitron轉座因子(TE)。雖然k-mers方法沒有發現一個新的基因座，但它揭示了SV可能是導致flg22敏感性差異的原因。

一個擬南芥種子在低營養條件下黑暗中萌發的案例，有11個k-mers都不能追溯到參考基因組。含有這些k-mers的reads被組裝成458 bp的片段，這些片段在Ler-0品種的基因組中被破壞。把側翼序列與參考基因組同步，發現一個2kb的SV，其中包括組裝好的458 bp片段，這種變異影響了編碼bZIP67轉錄因子基因的3'-UTR。bZIP67蛋白的積累而不是bZIP67 mRNA的積累似乎介導了對萌發環境的調控。3'-UTR中的SV與bZIP67的翻譯調控一致。這個案例證明了k-mers方法能夠揭示與未被SNPs標記的SVs之間的關聯。

圖3 | 與SNPs相比，k-mers關聯GWAS分析具有優勢的示例

4. 在玉米中驗證基於k-mers的GWAS（圖4）。

用SNPs和k-mers方法對測序深度6×以上的150個玉米自交系中252個主要形態性狀進行了GWAS研究。至少用一種方法鑑定出具有顯著相關性的性狀有89個，兩種方法同時鑑定出的有37個。和在擬南芥中的表現一樣，顯著變異與top關聯在兩種方法之間具有良好的相關性。Top k-mers的P-value低於Top SNPs，用k-mers的方法檢測到了用SNPs沒有發現的關聯。

對玉米來說，一個主要的挑戰是大量的短片段不能完全映射到基因組上，需要群體LD和遺傳圖譜輔助進行SNPs定位。因此，研究者使用LD比較了SNPs和k-mers，而沒有在基因組中定位k-mers。與穗發育天數和與穗重有關的表型中，k-mers標記到了一些SNPs方法未能識別的等位基因。因此，利用k-mers可以發現對玉米性狀具有高預測能力的新等位基因。

圖4 | 基於SNPs和k-mers的GWAS在玉米中的驗證

5. 基於k-mers的GWAS在番茄中的驗證（圖5）。

對246份樣本的96個代謝物進行了全基因組關聯分析。對於大部分代謝物，用兩種方法都鑑定出了相關性，但其中3個只有SNPs能檢測到, 13個只有k-mers能檢測到。與其他物種相似，鑑定的變異數和top P-value在方法之間存在相關性。Top k-mers的關聯也比Top SNPs的關聯更強，甚至比擬南芥或玉米的關聯更強。

研究者檢測了導致番茄產生強烈異味的愈創木酚的濃度性狀，在9號染色體和「0號染色體」上發現了相關的SNPs，其中包含了未分配到12條染色體上的scaffolds。在293個愈創木醇相關的k-mers中，有180個可以被唯一地映射到基因組中，全部都接近顯著的SNPs。在其餘的k-mers中，有35個k-mers的高LD和特別低的P-value引人注意。將相應的短reads組裝後，得到1172 bp的片段，其中第一個574 bp在0號染色體的顯著SNPs附近排列，其餘的片段與無參考的NSGT1基因匹配，該基因最初被確定為guaiacol變異的原因。35個重要的k-mers覆蓋了這兩個可映射區域之間的連接。大多數NSGT1編碼序列在參考基因組中缺失，但在其他品種中存在。因此，研究者確定了參考基因組之外的關聯，並將0號染色體上的SNPs與9號染色體連接起來。

圖5 | 基於SNPs和k-mers的GWAS在番茄中的驗證

基於k-mers和基於SNPs的GWAS的比較提供了一個有趣的觀點來權衡遺傳變異的特性。基於k-mers的方法顛倒了GWAS的通常做法，研究者不是首先定位基因組中的序列變異，而是從序列-表型關聯開始，然後才找到相關序列在基因組上的前後序列。在短讀序列和長讀序列方面的技術改進，以及將它們整合到群體水平遺傳變異數據結構中的方法，將擴大所涵蓋的遺傳變異。傳統的GWAS方法將受益於這些改進，基於k-mers的方法也將受益，它將能夠使用跨越更大基因組距離的標籤。因此，研究者認為，對於GWAS，基於k-mers的方法是理想的。

Voichek Y and Weigel D. Identifying genetic variants underlying phenotypic variation in plants without complete genomes. Nature Genetics 2020 May;52(5):534-540

歐易生物擁有專業的動植物基因組研發團隊，為客戶提供從PacBio三代測序、de novo組裝、基因注釋、基礎分析，到比較基因組、個性化分析及多組學聯合分析等高質量的技術服務，博士級專業人員，經過多年經驗沉澱積累，具備多角度分析問題能力，提供多元化項目技術服務，多組學技術平臺聯合支撐，極力打造一站式服務。

Nat Genet | 還在用SNPs做GWAS?試試k-mers吧!

相關焦點

GWAS大家都耳熟能詳, TWAS又是何方神聖

一定要用割補法求三角形面積嗎?來試試新思路吧!

還在用i7 8700K的你是否有必要升級i7 9700

網紅泡泡水的配方來啦,還在等什麼,學會了給孩子做去玩吧!

【流體】| k-ε(epsilon)模型中的K和ε物理意義

詳解虛擬機中的NAT網絡連接方式

NAT網絡地址轉換複習一(思科)

Nat Genet:GWAS分析發現增加子宮內膜癌風險的新變異

薑黃也能做美食?馬上來試試做這道薑黃豬排飯吧!

還在用翹板開關嗎?免布線遙控開關了解下

手工DIY:漂亮的小鳥窩兒,幾塊舊木板就能做一個,快來試試吧

淺析NAT應用上

NAT地址轉換概念分析與應用設置技巧

SARS、MERS 和新冠病毒,冠狀病毒三兄弟誰最厲害?

DisGeNet:疾病相關的基因與突變位點資料庫

Nat Genet | 還在用SNPs做GWAS?試試k-mers吧!

相關焦點

GWAS大家都耳熟能詳, TWAS又是何方神聖

一定要用割補法求三角形面積嗎?來試試新思路吧!

還在用i7 8700K的你是否有必要升級i7 9700

網紅泡泡水的配方來啦,還在等什麼,學會了給孩子做去玩吧!

【流體】| k-ε(epsilon)模型中的K和ε物理意義

詳解虛擬機中的NAT網絡連接方式

NAT網絡地址轉換複習一(思科)

Nat Genet:GWAS分析發現增加子宮內膜癌風險的新變異

薑黃也能做美食?馬上來試試做這道薑黃豬排飯吧!

還在用翹板開關嗎?免布線遙控開關了解下

手工DIY:漂亮的小鳥窩兒,幾塊舊木板就能做一個,快來試試吧

淺析NAT應用 上

NAT地址轉換概念分析與應用設置技巧

SARS、MERS 和新冠病毒,冠狀病毒三兄弟誰最厲害?

DisGeNet:疾病相關的基因與突變位點資料庫

淺析NAT應用上