Nat Genet | 還在用SNPs做GWAS?試試k-mers吧!

2021-01-12 歐易生物

文章題目:在沒有完整基因組的植物中鑑別潛在表型變異的遺傳變異

發表期刊:Nat Genet.

影響因子:25.5

發表時間:2020.05 

植物基因組中普遍存在結構變異以及多態性的存在或缺失,但它們在全基因組關聯分析(GWAS)中經常被忽略。在這裡,研究者擴展了GWAS檢測到的遺傳變異類型,包括主要的缺失、插入和重排。首先,直接使用原始測序數據來獲得短序列k-mers,k-mers標記了不依賴參考基因組的廣泛的多態性。然後,將與表型相關的k-mers關聯到特定的基因組區域。利用這種方法,研究者重新分析了擬南芥、番茄和玉米群體中的2000個性狀。發現與k-mers的關聯包含了與SNPs的關聯,但比SNPs的關聯有更強的統計數據支持。重要的是,研究者發現了與結構變異和參考基因組缺失區域的新關聯。研究結果證明,在將序列reads關聯到特定基因組區域之前進行GWAS,可以檢測更廣泛的導致表型變異的遺傳變異。


GWAS支持對表型變異的候選基因組位點的系統識別。植物基因組中經常存在許多結構變異(SVs),這些SVs往往會導致表型變異。短序列讀取雖然不常被分析,但原則上比SNPs和InDels能提供更多基因組變異的信息。

從所有reads中提取k-mers後,可以比較不同樣本的k-mers集合。重要的是,k-mers在一些樣本中存在,但在其他樣本中缺失,可以識別廣泛的遺傳變異。大片段缺失、倒位和易位等SVs也會導致k-mers的差異。因此,在GWAS中,可以直接將原始測序數據中k-mers的存在/缺失模式與表型聯繫起來,以擴大標記的遺傳變異,而不是相對於參考基因組定義群體中的遺傳變異。

雖然基於k-mers的方法可能特別適用於植物,但現有的k-mers方法計算量非常大,使其在具有巨大基因組、高度種群結構和過多遺傳變異的植物中難以應用。在這裡,研究者顛覆了傳統的先構建基因組再做表型關聯的思路,首先將測序reads與表型聯繫起來,然後再推斷出相關序列的基因組背景。用此方法,研究者分析了來自擬南芥、玉米和番茄的三個不同基因組和物種群體特徵的2000多個表型,並與傳統的基於SNPs的方法進行了比較,證明研究者的方法在植物中是有效的。


1. 以擬南芥開花時間為例,比較該表型與SNPs和k-mers的GWAS(圖1)。

使用k-mers作為兩個等位基因存在與否的對比,用線性混合模型(LMM)做GWAS來解釋群體結構,並與用SNPs和InDels做GWAS進行比較。通過對閾值進行合理設定,共28個SNPs和105個k-mers通過了相應的閾值。利用連鎖不平衡(LD)直接將SNPs和k-mers進行了關聯,而沒有把k-mers先定位到基因組上。利用兩種方法鑑定了4個連鎖遺傳變異家族,與預期的一樣,k-mers被標記在與相應SNPs相同的基因組位點。因此,在擬南芥開花時間表型上,k-mers與SNPs具有同樣的關聯模式。

圖1 | 用SNPs和k-mers對擬南芥開花時間的關聯分析

2. 評估了擬南芥1582種表型與SNPs和k-mers的關聯分析結果的異同(圖2)。

在顯著的SNPs和k-mers關聯之間存在大量重疊,並且每個表型的k-mers和SNPs數量高度相關。在嚴格設定閾值的情況下,137種表型中只有一個顯著的SNP可以被識別出來。而且,超出SNPs閾值的k-mers處於高LD,且SNPs最高。儘管k-mers的閾值比SNPs的閾值更嚴格,但僅在129種表型中發現了k-mers的關聯。另外,還發現Top SNPs和k-mers的P-value高度相關。

圖2 | 基於SNPs和k-mers 方法對擬南芥1582種表型的GWAS分析

3. K-mers關聯比SNPs關聯具有優勢的案例分析(圖3)。

二羥基苯甲酸(DHBA)木苷在總DHBA糖苷中的佔比表型相關的所有重要的k-mers都在AT5G03490附近唯一定位,編碼UDP-糖基轉移酶。較強的k-mers關聯可以追溯到基因S編碼區兩個相距4 bp的非同義SNPs。由於它們的接近性,一個k-mers包含了兩個SNPs的狀態,它們的聯合信息比單獨的SNPs更能預測表型。

幼苗生長有關的flg22突變體中,研究者只能將10個顯著k-mers中的3個映射到參考基因組上AT1G23050的顯著SNPs附近。為了確定另外7個k-mers的基因組來源,研究者將它們的來源進行了拼接,結果得到的962 bp片段也包含三個可映射的k-mers,但不包含參考基因組中存在的一個892 bp helitron轉座因子(TE)。雖然k-mers方法沒有發現一個新的基因座,但它揭示了SV可能是導致flg22敏感性差異的原因。

一個擬南芥種子在低營養條件下黑暗中萌發的案例,有11個k-mers都不能追溯到參考基因組。含有這些k-mers的reads被組裝成458 bp的片段,這些片段在Ler-0品種的基因組中被破壞。把側翼序列與參考基因組同步,發現一個2kb的SV,其中包括組裝好的458 bp片段,這種變異影響了編碼bZIP67轉錄因子基因的3'-UTR。bZIP67蛋白的積累而不是bZIP67 mRNA的積累似乎介導了對萌發環境的調控。3'-UTR中的SV與bZIP67的翻譯調控一致。這個案例證明了k-mers方法能夠揭示與未被SNPs標記的SVs之間的關聯。

圖3 | 與SNPs相比,k-mers關聯GWAS分析具有優勢的示例

4. 在玉米中驗證基於k-mers的GWAS(圖4)。

用SNPs和k-mers方法對測序深度6×以上的150個玉米自交系中252個主要形態性狀進行了GWAS研究。至少用一種方法鑑定出具有顯著相關性的性狀有89個,兩種方法同時鑑定出的有37個。和在擬南芥中的表現一樣,顯著變異與top關聯在兩種方法之間具有良好的相關性。Top k-mers的P-value低於Top SNPs,用k-mers的方法檢測到了用SNPs沒有發現的關聯。

對玉米來說,一個主要的挑戰是大量的短片段不能完全映射到基因組上,需要群體LD和遺傳圖譜輔助進行SNPs定位。因此,研究者使用LD比較了SNPs和k-mers,而沒有在基因組中定位k-mers。與穗發育天數和與穗重有關的表型中,k-mers標記到了一些SNPs方法未能識別的等位基因。因此,利用k-mers可以發現對玉米性狀具有高預測能力的新等位基因。

圖4 | 基於SNPs和k-mers的GWAS在玉米中的驗證

5. 基於k-mers的GWAS在番茄中的驗證(圖5)。

對246份樣本的96個代謝物進行了全基因組關聯分析。對於大部分代謝物,用兩種方法都鑑定出了相關性,但其中3個只有SNPs能檢測到, 13個只有k-mers能檢測到。與其他物種相似,鑑定的變異數和top P-value在方法之間存在相關性。Top k-mers的關聯也比Top SNPs的關聯更強,甚至比擬南芥或玉米的關聯更強。

研究者檢測了導致番茄產生強烈異味的愈創木酚的濃度性狀,在9號染色體和「0號染色體」上發現了相關的SNPs,其中包含了未分配到12條染色體上的scaffolds。在293個愈創木醇相關的k-mers中,有180個可以被唯一地映射到基因組中,全部都接近顯著的SNPs。在其餘的k-mers中,有35個k-mers的高LD和特別低的P-value引人注意。將相應的短reads組裝後,得到1172 bp的片段,其中第一個574 bp在0號染色體的顯著SNPs附近排列,其餘的片段與無參考的NSGT1基因匹配,該基因最初被確定為guaiacol變異的原因。35個重要的k-mers覆蓋了這兩個可映射區域之間的連接。大多數NSGT1編碼序列在參考基因組中缺失,但在其他品種中存在。因此,研究者確定了參考基因組之外的關聯,並將0號染色體上的SNPs與9號染色體連接起來。

圖5 | 基於SNPs和k-mers的GWAS在番茄中的驗證


基於k-mers和基於SNPs的GWAS的比較提供了一個有趣的觀點來權衡遺傳變異的特性。基於k-mers的方法顛倒了GWAS的通常做法,研究者不是首先定位基因組中的序列變異,而是從序列-表型關聯開始,然後才找到相關序列在基因組上的前後序列。在短讀序列和長讀序列方面的技術改進,以及將它們整合到群體水平遺傳變異數據結構中的方法,將擴大所涵蓋的遺傳變異。傳統的GWAS方法將受益於這些改進,基於k-mers的方法也將受益,它將能夠使用跨越更大基因組距離的標籤。因此,研究者認為,對於GWAS,基於k-mers的方法是理想的。

Voichek  Y  and Weigel D. Identifying genetic variants underlying phenotypic variation in plants without complete genomes. Nature Genetics 2020 May;52(5):534-540


歐易生物擁有專業的動植物基因組研發團隊,為客戶提供從PacBio三代測序、de novo組裝、基因注釋、基礎分析,到比較基因組、個性化分析及多組學聯合分析等高質量的技術服務,博士級專業人員,經過多年經驗沉澱積累,具備多角度分析問題能力,提供多元化項目技術服務,多組學技術平臺聯合支撐,極力打造一站式服務。


相關焦點

  • GWAS大家都耳熟能詳, TWAS又是何方神聖
    不同的是,gwas是全基因組, 而TWAS則是全轉錄組。reference panel中的樣本同時擁有基因分型和表達量的結果,根據距離確定基因對應的SNP位點,比如選擇基因上下遊500kb或者1M範圍內的SNP位點,擬合這些SNP位點和基因表達量之間的關係第二步,用第一步建模的結果來預測另外一個隊列的基因表達量,這個隊列中的樣本量只有GWAS結果,稱之為gwas cohort, 這一步可以看做是對
  • 一定要用割補法求三角形面積嗎?來試試新思路吧!
    一定要用割補法求三角形面積嗎?來試試新思路吧!在反比例函數與一次函數結合之後,求構造出的三角形面積也是常見考點之一。題目如圖所示,已知直線x=1/2x與雙曲線y=k/x(k>0)交於點A,且點A的橫坐標為4.
  • 還在用i7 8700K的你是否有必要升級i7 9700
    兩年前英特爾第8代酷睿i7-8700k可以問世,第一次將主流CPU從4核拓展到6核,不少人稱其為最強遊戲處理器,自然而然吸引了大量玩家前來選購。而現在它的下一代i7-9700k出現了,那我們消費者是否應該將自己的i7-8700k升級為i7-9700K呢?
  • 網紅泡泡水的配方來啦,還在等什麼,學會了給孩子做去玩吧!
    給大家發出來,家裡有孩子的,這個夏天,讓孩子可以玩夠泡泡,也讓那些特別貴的網紅泡泡液都去一邊去吧!走起!哈哈,給大家總結下:一.150毫升水二.15毫升洗潔精三.5勺白糖四.充分攪拌均勻然後就可以做出來不會破的泡泡水啦!還在等什麼,趕緊去試試吧,不回來找我呦。
  • 【流體】| k-ε(epsilon)模型中的K和ε物理意義
    epsilon=Cu*k*k/Vt這些在軟體裡有詳細介紹。陶的書中有類似的處理,假定了進口的湍流雷諾數。fluent幫助裡說,用給出的公式計算就行。用粗網格的結果做初場。網格加密不是根本原因,更本的原因是在加密過程中,部分網格質量差,注意改進網格質量,應該就會好轉。在求解標準k-ε 雙方程湍流模型時(採用渦粘假設,求湍流粘性係數,然後和N-S方程耦合求解粘性流場),發現湍動能產生項(雷諾應力和一個速度張量相乘組成的項)出現負值,請問是不是一種錯誤現象?如果是錯誤現象一般怎樣避免。
  • 詳解虛擬機中的NAT網絡連接方式
    :)老鳥就趕快飛吧 呵呵先說一點別的,做為引子假設現在R老師帶3個班的學生,分別為a班、 b班、 c班 。現在就出現了兩個交流方式:第1種交流方式:本班內交流,比如說a班的一個同學想和另一個同學交流,就可以直接在班裡喊那個同學的名字。這個就向計算機內的同一個網段的計算機的交流方式-廣播。第2種交流方式:班與班之間的學生交流,這個時候在a班裡面直接喊b班同學名字就沒作用了,因為隔著牆,根本就聽不見。
  • NAT網絡地址轉換複習一(思科)
    進入全局配置模式下,命令格式:「ip nat inside source static + 內部IP位址 + 公網IP位址」。3.啟用NAT,進入接口配置模式,命令格式:「ip nat inside/ ip nat outside」。Inside對應內網接口,outside對應公網接口。
  • Nat Genet:GWAS分析發現增加子宮內膜癌風險的新變異
  • 薑黃也能做美食?馬上來試試做這道薑黃豬排飯吧!
    你會變得喜歡豬排的,它可能會是你一次又一次做的米飯配菜,因為它與各種菜餚完美搭配。 首先,您需要選擇去骨豬排來做這個食譜,以獲得充分的口味深度。在平底鍋中放入豬肉,每面烤4分鐘或直到達到所需的程度,再將它轉移到盤子裡;用剩餘的油混合物刷豬肉的兩面,使其保持溫暖。 2、在中高溫度的的烤盤上加入粗切的洋蔥,烤2分鐘。 3、根據包裝說明加熱大米。把蔥、米、剩下的1湯匙油、1/4茶匙鹽和1/4茶匙胡椒粉混合。米飯配豬肉,撒上芫荽葉;配上青檸條。
  • 還在用翹板開關嗎?免布線遙控開關了解下
    還在用翹板開關?冬天不願意起床關燈?還在煩惱家具擋住了開關?免布線遙控開關了解下吧。市面上的智能開關,大部分用的是WIFI協議,為什麼用的不多,因為需要加適配器安裝很麻煩,現在射頻433的技術已經很成熟了,不妨可以入手試試,而且可以穿牆走壁,想安在哪就安在哪,沒有電線的束縛,大冬天的躲在被窩裡關燈不再是一件奢侈的事了。
  • 手工DIY:漂亮的小鳥窩兒,幾塊舊木板就能做一個,快來試試吧
    手工DIY:漂亮的小鳥窩兒,幾塊舊木板就能做一個,快來試試吧。不知道愛手工的人是不是都有一個通病,那就是,看到好看的、好玩的,就琢磨它是怎麼做出來的。如果手工DIY道行深的話,基本上看幾眼,就能做出來。
  • 淺析NAT應用 上
    CIDR(Classless Inter-Domain Routing)的出現緩解了ip地址耗盡的問題,但它的主要目的是更有效地使用現有的ip地址,RFC1631規定了nat可以在多重的internet子網中使用相同的ip地址,從而減少公網ip的使用。下面讓我們通過實例來認識一下NAT應用。
  • NAT地址轉換概念分析與應用設置技巧
    —-定義本地埠IP位址    Ip nat inside  !—-定義為本地埠  Interface fastethernet 0/1    Ip address 202.99.160.129 255.255.255.252  !—-定義廣域網埠IP位址    Ip nat outside  !
  • SARS、MERS 和新冠病毒,冠狀病毒三兄弟誰最厲害?
    Middle East respiratory syndrome coronavirus (MERS-CoV)(https://www.who.int/emergencies/mers-cov/en/).[7]Doucleff, Michaeleen. Holy Bat Virus! Genome Hints At Origin Of SARS-Like Virus.
  • DisGeNet:疾病相關的基因與突變位點資料庫
    是一個專門收錄人類疾病相關的基因與突變位點信息的資料庫,對應的文章發表在Nucleic Acids Research上,連結如下https://academic.oup.com/nar/article/45/D1/D833/2290909網址如下http://www.disgenet.org