MULTIPLE WHEAT GENOMES REVEAL GLOBAL VARIATION IN MODERN BREEDING
近日, 我們小麥10+基因組團隊(http://www.10wheatgenomes.com/)在國際著名雜誌《自然》上在線發表了標題為「MULTIPLE WHEAT GENOMES REVEAL GLOBAL VARIATION IN MODERN BREEDING」的最新研究成果, 揭示多個小麥基因組的結構和變異以及對當代小麥育種的影響。小麥10+基因組初步成立於2017年並且與2011年20國集團(G20)農業部長會議後成立的Wheat Initiative有很大淵源。加拿大薩斯喀徹溫大學和穀物委員會Sean Walkowiak博士, 就職於堪薩斯州立大學的我國學者Liangliang Gao (高亮亮)博士, 和德國萊布尼茨(Leibniz)植物遺傳和作物研究所(IPK)的Cecile Monat博士為本文的共同第一作者。加拿大農業及農業食品部Curt A. McCartney博士, 德國環境健康研究中心Manuel Spannagl博士, 瑞士蘇黎世大學的Thomas Wicker博士和加拿大薩斯喀徹溫大學的Curtis Pozniak教授為本文的通訊作者。下面對這篇《自然》文章的背景和主要內容做以介紹。麵包小麥提供給人類的能量大約佔人類消耗能量的20%。它有著複雜且巨大的基因組(16Gb, 2n=6x=42, AABBDD), 其大小約為人類基因組的5倍, 玉米的7倍, 大豆的14倍, 水稻的35倍, 以及擬南芥的100多倍。小麥參考基因組測序和拼裝工作在主要作物中進展相對緩慢, 國際小麥基因組測序聯盟(IWGSC) 大約用了13年的時間(2005-2018)才公布了麵包小麥中國春的第一個染色體水平參考質量基因組及注釋 (IWGSC, 2018), 這一具有裡程碑意義的工作給小麥研究者提供了極大的便利。這10多年的時間恰恰也是基因組技術的飛速發展時期, 包括高通量短測序技術(以Illumina公司sequencing-by-synthesis為代表), 高通量長測序技術(Oxford Nanopore, PacBio SMRT), 基因組光學圖譜技術(Bionano), 染色體構象捕獲Hi-C技術, 長距離連鎖測序10XGenomics技術, 以及NRGene DeNovoMagic序列組裝技術等。藉助於基因組測序及組裝技術的飛速進步, 中國春之外的多個六倍體小麥的參考基因組的測序組裝等得以較快速度(1-2年)完成 (參考本篇《自然》文章及Guo et al 2020等), 正式宣布六倍體小麥基因組研究進入泛基因組(Pan-Genome)時代。一個物種的泛基因組指的是在一個物種中所有基因和遺傳變異的總和而不是單純某一個個體的全基因組。 泛基因組包括核心基因組(由所有樣本中都存在的序列組成)和非必須基因組(由只在部分或單個個體中存在的序列組成)。 小麥作為異源六倍體(AABBDD)作物,其巨大的基因組具有非常強大的可塑性, 可以包含容納大的結構變異包括整條以及部分染色體的缺失、插入、替換等。小麥基因組的上述特點促成了小麥豐富的遺傳資源和基因組研究材料。本文的主要的研究內容包括以下幾點1. 組裝完成了15個六倍體小麥的基因組, 其中10個達到染色體水平參考基因組的質量(RQA), 另外5個為scaffold水平的基因組(scaffold assembly)我們首先對加拿大(CDC Landmark, CDC Stanley)、 美國(Jagger)、 德國(Julius)、 瑞士(ArinaLrFor)、 澳大利亞(Mace, LongReach Lancer)、 日本(Norin 61)、 法國(SY Mattis)、以色列(PI190962 Spelt wheat)的10個六倍體小麥進行了深度測序, 並通過NRGene DeNovoMagic3平臺結合10X Genomics進行了組裝, 獲得了高質量參考基因組, 組裝結果約為14.2Gb-14.8Gb, 大小和中國春參考基因組相似。我們進一步藉助染色體構象捕獲(Hi-C)數據和POPSEQ數據對RQA基因組的嵌合體scaffold進行了糾正並排序和定向, 從而達到染色體水平參考基因組。為了驗證Hi-C對scaffold銜接的準確性,我們還通過長讀長測序(Oxford Nanopore)對其中一個RQA(CDC Landmark)的scaffold組裝質量進行了驗證。我們發現RQA基因空間的完整度以及組裝的連續性都很高(BUSCO>97%, scaffold N50>10Mb)。在組裝RQA基因組的同時, 我們也對5個小麥品種, 其中4個來自英國(包括Cadenza, Paragon, Robigus, Clare), 一個來自國際玉米小麥改良中心CIMMYT (Weebill),進行了高通量短測序(來自於Pair End, Mate-Pair文庫等),並應用 W2RAP流程組裝了scaffold水平的基因組,組裝總長度同樣為約14.2Gb。我們還對所組裝的15個六倍體小麥在全球小麥資源中的定位(註:部分變異數據來自He et al 2019) 進行了分析, 發現其遺傳距離或資源定位與系譜、地理位置、生活習性(春小麥冬小麥)等相符, 且大部分組裝小麥品種與中國春小麥有較遠遺傳距離,提示其可能包含了不同於中國春參考基因組的遺傳變異(圖1a)。
2. 初步通過從中國春基因組的映射注釋了10個RQA基因組的基因, 並研究了一些農藝相關性狀基因家族在各個基因組中的分布
我們將中國春小麥的參考基因組所注釋的絕大多數(~107,000/107,891)高置信度基因映射到了10個RQA基因組上(註:這不是重新注釋de novo數據, 小麥10+基因組的重新注釋數據尚未公開,我們希望近期可以公布出來)。我們還鑑定了已經映射過來的基因的同源基因群(OGs)並分析了部分同源基因(Homeologs)編碼區核苷酸多態性(包括同義π_sil)以及Tajima’s D參數的分布, 發現這些參數在部分同源基因中的相關係數很小π(r = 0.11–0.29) and Tajima’s D (r = 0.02–0.06), 提示多倍化進程極可能地增加了普通小麥的可選擇遺傳位點, 促進了其廣泛的適應性。我們發現~12%的基因存在PAV (有或無)變異, 基於這些數據的聚類分析結果與PCA結果一致(圖1b)。我們還發現~26%基因在基因組上有串聯重複, 提示拷貝數變異CNV對遺傳變異有很大貢獻。我們還通過與雜交育種相關的不育恢復Rf基因家族在RQA基因組中擴張的例子說明了育種選擇對基因擴張的影響。為了進一步驗證證多個參考基因組對農藝性狀相關基因家族闡釋的價值, 我們還注釋了RQA基因組中的NLR抗病基因家族。並在每個RQA基因組中都發現了大約2,500個NLR基因位點。只有大約31-34%的NLR是在所有基因組中都存在的。RQA泛基因組總的NLR基因數目可能達到5905-7780個(圖1c)。我們10+基因組的多個課題組還注釋了小麥的其它基因家族,比如與小麥品質相關的高分子量谷蛋白和醇溶蛋白基因等, 結果與討論在若干companion文章中,並未包含在這次發表的《自然》主刊文章中。
3. 小麥10+基因組的轉座子TE差異, 外緣染色體片段, 著絲粒動態,大的結構變異(SV)
我們發現TE約佔小麥基因組的81.6%(包括69%的長末端重複序列, 12.5%DNA轉座子)。我們注釋了122萬條全長-長末端重複序列fl-LTRs, 基於這些序列的聚類分析結果與基於SNP以及PAV的分析是一致的。總體上來說,特異長末端重複序列(fl-LTR)較年輕(中位數90萬年), 主要分布在重組率高染色體遠端。相對應的, 共有的fl-LTR較古老(中位數130萬年)(圖1d) (注: 此處圖片理解和譯文有學者提出不同意見)。RLC_Angela長末端重複序列是最常見的(每個基因組有2.1-2.7萬拷貝)。對這些重複序列變異規律的分析揭示很多獨特的fl-LTR可能與外源滲入片段相關。比如LongReach Lancer 基因組的2B和3D, 分別攜帶來自Triticum timopheevii小麥的Sr36以及來自Thinopyrum ponticum的Lr24及Sr24 (圖2a, b)。基於這些野生種的重測序數據分析其3D染色體可能攜帶了大約60Mb的Th. ponticum外源片段(含抗小麥杆鏽菌Ug99的Sr24), 而2B染色體大部分區域被T. timopheevii取代(~427Mb, 含抗小麥杆鏽菌Ug99的Sr36)。我們總共發現了341個超過20Mb的特異fl-LTR片段。同時, 應用相似的方法, 我們還在四個RQA基因組中探測到來自Aegilops ventricosa的Vpm-1 2N滲入片段, 大小約為33Mb。該片段被發現與小麥對多個疾病的抗性相關,包括麥瘟病(wheat blast),小麥銹病,線蟲病等等。由於這是初次對該片段組裝完成, 我們還對其做了(preliminary)初步的de novo基因注釋並對其在全球多個育種群體中的分布和與產量的關係等進行了研究 (該片段的細胞遺傳學, 基因組學, 遺傳育種中的應用等詳細信息請參考Gao et al 2020)。基於RLC_Angela初步估計10+基因組中總的外源(此處用詞不一定準確)片段長度可能超過12-14Gb (註:對此數據或有多種的理解), 這可能與大量的野生滲入相關 (參考He et al 2019, Zhou et al 2020)。我們還用ChIP-seq的方法分析了RQA 基因組中著絲粒的位置。發現多個基因組的著絲粒有相對位置偏移 (圖2d), 有些是由於著絲粒區域的倒位導致。我們發現10個RQA基因組中存在巨大的結構變異包括倒位易位等。最顯著的例子就是5B與7B的染色體易位形成了品種SY Mattis和ArinaLrFor中488Mb(5BS/7BS)和993Mb(7BL/5BL)的兩條染色體 (圖2e,f,g)。我們還對該易位系在群體中的穩定性進行了研究, 發現它在群體中是選擇中性(selectively neutral)的。4. 應用10+基因組序列單倍型輔助克隆/鎖定抗病蟲基因
我們開發了單倍型可視化工具。並且利用該工具進行單倍型分析, 快速鎖定了一個抗小麥橙色花蠓蟲OWBM (圖3a), Sitodiplosis mosellana Géhin的Sm1基因。該蟲害主要發生在歐洲, 北美, 西亞和遠東。基因Sm1是唯一一個已知的抗OWBM基因。10+基因組小麥品種中的CDC Landmark, Robigus, Paragon都是抗OWBM的, 且都含有2B染色體上7.3Mb的單倍型(圖3b)。我們首先通過精細遺傳定位把Sm1定位於587Kb區間(圖3c)。並且發現一個感病個體Waskada在該區間與抗病單倍型完全一致,只在一個基因附近不同。該基因在CDC Landmark中注釋為典型的具有激酶和MSP蛋白聯合域的NLR基因。而Waskada感病個體在激酶區域有不同單倍型。對該基因的敲除導致了感病的表型。序列分析發現兩個突變體中存在NB-ARC區域G->A突變(Gly->Arg)(G182R個體)或stop codon變異(W98*)。基因Sm1的激酶區域屬於絲氨酸/蘇氨酸類別。據我們所知,這是第一個與抗蟲相關聯的NBARC-LRR-kinase-MSP類基因。 該單倍型可視化工具為農藝基因的篩選定位提供了極大的便利。部分相關數據下載,工具使用
RQA基因組及注釋數據:
https://wheat.ipk-gatersleben.de/
共線性:
https://kiranbandi.github.io/10wheatgenomes/
單倍型:
http://www.crop-haplotypes.com/
作者介紹
這篇解讀的作者和這篇《自然》文章的共同一作是堪薩斯州立大學的高亮亮博士(lianggao@ksu.edu)。高亮亮2000-2004年於河北大學讀生物科學本科(學士畢業論文在張利平教授組); 2004-2007年於中國農業大學小麥組讀作物遺傳育種碩士(導師為時任副校長的孫其信教授和剛從美國回來的特聘劉志勇教授); 2007-2013年於美國明尼蘇達大學讀博, 研究方向為馬鈴薯的遺傳病理及(功能)基因組學(導師為Dr. James Bradeen教授); 2013-2016年在明尼蘇達大學做小麥等作物的遺傳育種和基因組關聯以及基因組選擇等博士後研究(Dr. James Anderson教授課題組); 2016年8月加入堪薩斯州立大學Dr. Jesse Poland課題組 (https://wheatgenetics.k-state.edu/)。Dr. Jesse Poland教授(引用 17000+, i10指數100+)同時還是K-STATE小麥遺傳資源中心及工業界學界研究聯盟(WGRC I/UCRC)的主任, 以及USAID Feed the Future Innovation Lab for Applied Wheat Genomics實驗室的主任,該實驗室也在小麥表型組(Phenomics)方面有大量開拓性工作。高博士在Dr. Poland教授課題組主要從事小麥和野生小麥的基因組, 生物信息以及小麥育種等數據分析研究, 並於2018年赴德國IPK研究所Dr. Martin Mascher課題組(Domestication Genomics)做訪問研究, 進一步進行小麥10+基因組(包括Jagger, SY Mattis, CDC Stanley等)的染色體構象捕獲組裝與結構分析等。本解讀力求內容儘量準確,但是由於作者水平所限,且多項工作並非直接參與, 理解和寫作包括翻譯難免存在錯漏之處。具體問題以諸位通訊作者或負責課題組長的回覆為準。高博士迄今以第一或共同第一作者身份發表SCI論文10篇, 另有10多篇合作作者文章。小麥10+基因組團隊(包括Poland實驗室)另有多篇companion文章或已發表或在審稿中, 敬請持續關注。
致謝和心聲
本研究由加拿大薩斯喀徹溫大學Dr. Curtis Pozniak教授領導,有95位以上科學家及單位的貢獻(http://www.10wheatgenomes.com/members/),限於篇幅就不一一列舉,請詳細參考本篇《自然》文章。這裡只簡短感謝Dr. Jesse Poland 教授和Poland Lab的共同作者Emily Delorean(負責高分子量谷蛋白glutenin注釋), Dr. Dal-Hoe Koo(負責染色體著絲粒centromere細胞遺傳學等), 及各位同事同學朋友等。另外高博士還就本研究的部分內容與華中農業大學的嚴建兵教授, 李林教授, 陳偉教授等多位老師和國際國內同行在第三屆南湖國際青年科學家論壇上進行過交流, 也同中國科學院凌宏清研究員, 中國農業科學院賈繼增研究員, 郭剛剛研究員等同行朋友做過探討, 尤其感謝凌老師也給我們10+基因組報告交流過他們實驗室組裝的一個國產小麥品種的基因組情況,儘管由於基金項目要求等種種原因不能和我們一塊發表結果,在此一併致以深深的謝意。2020是很特別的一年, 在這個特別的感恩節來臨之前, 特別想感謝孫老師、 劉老師以及現小麥研究中心主任倪中福教授以及諸位老師師兄師姐師弟師妹這些年來對高亮亮的指導提攜鼓勵幫助鞭策陪伴等等(千言萬語有些不知如何表達, 他愛你們! [])。感謝《小麥研究聯盟》平臺(郭偉龍博士, 馬省偉博士等同行)對高博士近期發表文章的解讀邀請和推送,以及編輯排版標題建議等, 也感謝堪薩斯州立大學植物病理系王巍博士(Eduard Akhunov Lab)、賀飛博士(Eduard Akhunov Lab)、王旭博士(Poland Lab)、胡瑩博士(Poland/DeHaan Lab)和林桂芳準博士(Sanzhen Liu Lab), 以及加利福尼亞大學戴維斯分校王樂博士(Ming-Cheng Luo Lab)等人在看不到原文的情況下對這篇解讀或者主要是譯文文章的閱讀修改和建議。最後感謝高博士的妻子和兩個女兒, 以及家人朋友兄弟姐妹親人們, 你們是他生命的泉源[]!。真誠祝願祖國的小麥及各作物科學研究都能有更多好的成果。也期待與大家有更多的學習和合作機會!值得一提的是趕在2020加美等國的感恩節前,《自然》雜誌不單發表了小麥10+的泛基因組文章, 還發表了由德國IPK研究所Dr. Nils Stein博士領銜的大麥泛基因組標題為The barley pan-genome reveals the hidden legacy of mutation breeding的文章, 歡迎感興趣的讀者查閱對比。最後再感謝funding支持10+基因組研究的眾多機構和單位包括US National Science Foundation, US Agency for International Development, USDA National Institute of Food And Agriculture, Kansas Wheat Commission等。更多的國際單位支持者可參閱: https://www.10wheatgenomes.com/funders/。
參考文獻:
Walkowiak S*, Gao L* (共同第一作者), Monat C*, et al (2020) Multiple Wheat Genomes Reveal Global Variation in Modern Breeding. Nature. https://doi.org/10.1038/s41586-020-2961-x
Gao L, Koo D-H, Juliana P, et al (2020) The Aegilops ventricosa 2NvS segment in bread wheat: cytology, genomics and breeding. Theoretical and Applied Genetics https://doi.org/10.1007/s00122-020-03712-yInternational Genome Sequencing Consortium (2018) Shifting the limits in wheat research and breeding using a fully annotated reference genome Science 361:eaar7191 http://doi.org/10.1126/science.aar7191
Guo W, Xin M, Wang Z, et al (2020) Origin and adaptation to high altitude of Tibetan semi-wild wheat. Nature Communications 11:5085. https://doi.org/10.1038/s41467-020-18738-5
He F, Pasam R, Shi F, et al (2019) Exome sequencing highlights the role of wild-relative introgression in shaping the adaptive landscape of the wheat genome. Nature Genetics 51:896–904. https://doi.org/10.1038/s41588-019-0382-2
Zhou Y, Zhao X, Li Y, et al (2020) Triticum population sequencing provides insights into wheat adaptation. Nature Genetics 1–11. https://doi.org/10.1038/s41588-020-00722-w
相關連結:
堪薩斯州立大學官方新聞:https://www.k-state.edu/media/newsreleases/2020-11/project-10-genome-project112520.html
薩斯喀徹溫大學官方新聞:https://news.usask.ca/media-release-pages/2020/landmark-study-generates-first-genomic-atlas-for-global-wheat-improvement.php
原文連結:
https://www.nature.com/articles/s41586-020-2961-x
掃描二維碼
關注我們
小麥族多組學網站:http://202.194.139.32
投稿、合作等郵箱:13148474750@163.com
微信群: 加群點擊小麥研究聯盟交流群
論文查重、潤色:點擊下方圖片了解
雜誌影響因子查詢:點擊查詢