一作解讀|Mol Plant中國農大小麥研究中心提出泛基因組時代同源基因推斷新策略並構建小麥族同源基因資料庫

2021-01-20 小麥研究聯盟


                           

2020年9月23日,中國農業大學農學院小麥研究中心郭偉龍副教授作為通訊作者在Molecular Plant在線發表了題為「A Collinearity-incorporating Homology Inference Strategy for Connecting Emerging Assemblies in Triticeae Tribe as a Pilot Practice in the Plant Pangenomic Era」的研究論文。通過融合序列相似性和基因共線性信息開發了適用於植物泛基因組時代同源基因推斷的新策略(GeneTribe),並構建了以小麥族物種為核心的「小麥族同源基因資料庫」(Triticeae-GeneTribe, http://wheat.cau.edu.cn/TGT/)。基於小麥族物種基因組間和亞基因組間的共線性分析,該研究提出了六倍體普通小麥的「4A-5A-7B染色體重排」是兩次染色體易位事件的結果,並明確了重排的基因組區間的精細邊界;同時研究了春化基因Vrn2的複雜進化歷史,提出Vrn2同源基因在普通小麥基因組中的複雜分布是包含串聯重複、多倍化、染色體易位和基因丟失在內的一系列事件疊加的結果。該工作為泛基因組時代的植物比較基因組學研究和功能基因挖掘提供了新思路。

 

近年來,隨著多種測序技術的結合和分析策略的進步,越來越多的物種完成了高質量基因組參考序列的組裝。植物中許多物種已經從「一個物種,一個基因組」的時代進入了「一個物種,多個基因組」的「泛基因組時代」(pan-genomicera)。特別是如小麥、玉米和水稻等主要作物,在近緣種、亞種、個體水平都已經完成多個參考基因組的組裝和基因的注釋。在泛基因組時代,如何整合諸多的參考基因組信息並將這些寶貴的數據利用起來,是我們目前面臨的新挑戰。


我們開發了GeneTribe  (https://chenym1.github.io/genetribe/)工具用於同源關係的推斷,既考慮了複雜的基因組間的層級關係,也針對富集異源多倍體的小麥族物種的複雜的網狀進化關係進行了特殊設計;通過綜合共線性分數和序列相似性分數進行動態加權優化,並引入基因注釋質量等因素進行罰分質控,形成可動態適用於不同進化距離的基因組之間的同源基因推斷策略(圖1)。通過和傳統僅基於序列相似性的同源推斷方法進行綜合評估,GeneTribe具有更好的準確率和檢測效率。


考慮到同源基因分析中「直系同源」、「旁系同源」等經典概念的定義具有不可傳遞性,且應用於遺傳距離較近的基因組間的研究時容易出現「歧義」,該工作提出了包含四類同源基因表格的基礎數據結構方案(圖1)。該方案既可滿足不同比較基因組學分析的需要,也使得在新基因組不斷湧現的常態下更易及時擴展;同時也支持「傳遞性同源推斷」,可降低未來更大規模的基因組的同源基因資料庫的構建和維護的複雜度。


圖1.同源關係推斷工具GeneTribe的原理示意圖和TGT資料庫的設計架構

 

小麥族(TriticeaeTribe)的物種中包含了普通小麥(Triticumaestivum, BBAADD)、硬粒小麥(Triticumtrugium, BBAA)、大麥(Hordeumvulgare, HH)等重要經濟作物;其基因組普遍較大,重複序列比例高,富集不同倍型的異源多倍體物種,具有複雜的物種進化歷史。本研究整合了目前已經發表的12個小麥族物種參考基因組和3個外群基因組(水稻、玉米和擬南芥),藉助GeneTribe算法搭建了「小麥族同源基因資料庫」——Triticeae-GeneTribe(http://wheat.cau.edu.cn/TGT/),可滿足同源基因查詢、序列分析、基因注釋查詢等分析,也支持基於同源基因映射的GeneOntology富集分析、宏共線性(macrocollinearity)和微共線性(microcollinearity)等創新分析功能,並提供了靈活的可視化和數據下載支持;為相關領域的研究者提供了功能豐富的同源基因大數據分析平臺(圖2)。


圖2.TGT資料庫的主要分析和可視化功能展示

 

在宏觀尺度上,通過對小麥多個物種間的染色體共線性區間進行綜合分析,對普通小麥中4A-5A-7B染色體的重排區間進行了精確定位和溯源分析,解析了該複雜易位關係的形成過程,提出了包含兩次主要易位事件的重排模型(圖3)。


圖3.經過兩次主要易位事件形成普通小麥的4A-5A-7B染色體重排區間的模型


在微觀尺度上,TGT資料庫可為研究基因重複、基因丟失、基因簇擴張等提供豐富的信息。以著名的小麥春化基因Vrn2為例,本研究指出其在六倍體小麥中的「奇怪」位置和拷貝數多態性是伴隨小麥進化過程中出現的易位、複製、多倍化和丟失的進化事件的疊加結果(圖4)。

 

圖4.小麥春化基因Vrn2的同源基因的基因進化模型


隨著越來越多高質量基因組的完成,針對特定物種或者特定領域構建同源資料庫將成為趨勢,這也有利於更及時的數據更新和更專業的資料庫維護。本研究提出的同源基因推斷策略可為其它植物物種(特別是多倍體植物)在泛基因組時代進行多基因組數據整合和比較基因組研究提供新的參考方案。

 

中國農業大學農學院小麥研究中心(http://wheat.cau.edu.cn)的郭偉龍副教授(http://guoweilong.github.io)為該論文的通訊作者,博士研究生陳永明為第一作者。小麥研究中心已畢業碩士宋皖君、碩士研究生謝小明(參與時為本科生)、博士研究生王梓豪,博士後關攀峰為共同作者。中國農業大學小麥研究中心孫其信教授、倪中福教授、彭惠茹教授和中國科學院植物研究所焦遠年研究員對該工作進行了指導和幫助。該工作得到了國家自然科學基金(31991210和31701415)項目的資助。

 

圖5.中國農業大學農學院小麥研究中心團隊

 

感謝餘闊海、秦震、楊正釗、王小波等同學提供技術支持。感謝中國農業大學農學院小麥研究中心的百餘位師生在該資料庫的設計、開發和試用階段提出的寶貴建議!期待各位同行的寶貴建議和使用反饋!

 

一作心聲

至今年長穗偃麥草的參考基因組序列公布,小麥族已經公開發表了接近10個染色體水平的參考基因組序列,而未來10+genome等項目也將公布,小麥的研究已經進入了泛基因組時代,這些基因組都是在2017年,也就是我剛本科畢業之後發表的,我們趕上了一個好時代。小麥族內部物種數目多,錯綜複雜,而之前的資料庫不支持或不適合於小麥族同源基因分析,將小麥族中海量的數據聯繫起來,建立一個我們自己的資料庫來幫助基因功能的挖掘尤為重要。項目誕生之初是為滿足小麥研究中心的師生們查詢小麥基因對應其他物種的同源基因和注釋信息的需求,已畢業碩士宋皖君進行了初期同源基因鑑定方法的探索,後來項目交到了我手上。在項目進行了一段時間後,在去年煙臺舉辦的第十屆全國小麥基因組學及分子育種大會提交了該工作的牆報和摘要,雖然還只處在初步階段,但在牆報交流過程中不少前輩和研究生對該工作表達出了興趣,讓我們更加有信心和動力來把這個工作做好。工作進行並不一帆風順,中間遇到了很多困難,在嘗試了許多此方法後才有了現在的版本。在資料庫開發過程中,我們決定投稿,讓資料庫能幫助到更多的研究者。

特別感謝郭譯文同學的陪伴和鼓勵。

最後,我們歡迎同行、專家、朋友為資料庫的提供建議和反饋。

(聯繫方式:chen_yongming@126.com)

原文連結

https://doi.org/10.1016/j.molp.2020.09.019


掃描二維碼

關注我們

小麥族多組學網站:http://202.194.139.32

投稿、合作等郵箱:13148474750@163.com

 微信群: 加群點擊小麥研究聯盟交流群

論文查重、潤色:點擊下方圖片了解

雜誌影響因子查詢:點擊查詢



相關焦點

  • 中國農大提出同源基因推斷新策略,並構建小麥族同源基因資料庫
    Mol Plant | 中國農大研究團隊提出同源基因推斷新策略,並構建小麥族同源基因資料庫來源 | Mol Plant2020年9月23日,中國農業大學農學院小麥研究中心郭偉龍副教授作為通訊作者在Molecular Plant
  • 小麥多組學網站上線「藏1817」基因組資源
    小麥多組學網站上線「藏1817」基因組資源 昨天,中國農業大學農學院小麥研究中心孫其信教授、倪中福教授和彭惠茹教授為論文通訊作者,郭偉龍副教授、辛明明教授和博士生3 基因組以及基因 blast小麥多組學網站(http://202.194.139.32/blast/viroblast.php)
  • 報告提醒|小麥基因組與分子育種講壇(二)「題目有更新」
    報告題目:泛基因組時代的同源基因推斷新策略及小麥族同源基因資料庫的構建報 告 人:郭偉龍副教授時 間:2020年9月24日 (周四)上午10:00承 辦:全國小麥基因組學與分子育種組委會騰訊會議,主要以小麥為研究對象,結合基因組學、生物信息學、表觀遺傳學的手段,開展一系列原創性研究。
  • 一作解讀|中國農大小麥研究中心揭示小麥馴化和多倍化過程中基因可變剪接的變異規律
    近日,Plant Physiology在線發表了中國農業大學小麥研究中心題為「Changes in Alternative Splicing in Response to Domestication and Polyploidization in Wheat」的研究論文。該論文揭示了小麥馴化以及多倍化過程中基因可變剪接的規律。
  • 一作解讀|ph1基因誘導染色體重組特徵解析
    該項研究揭示了同源重組和部分同源重組的差異主要是量化差異,對小麥  ph1  基因的作用機制的理解和通過操縱  ph1  基因誘導外緣(部分同源)染色體與小麥ABD染色體重組來豐富小麥種質資源提供一定依據。
  • 一作解讀|BSE-Seq助力小麥基因克隆
    首先,基於中國春基因組序列信息(IWGSC RefSeq v1.0)設計了新的外顯子捕獲探針,同時提出了一種能夠在基因定位和SNP分析中有效降低背景噪音算法—varBScore,利用該策略成功克隆了一個調控小麥葉色的基因TaYGL1,並通過基因編輯手段對目標基因進行了驗證[3]。
  • 泛基因組資料庫:找到油菜的「好基因」
    為了克服這些困難,科學家提出了通過整合多個代表性種質資源的基因組信息,構建泛基因組的研究思路和策略。首個油菜泛基因組甘藍型油菜是研究植物多倍化和進化的模式物種。遺憾的是,甘藍型油菜一直缺乏專門的基因組資料庫,研究人員不得不藉助蕓薹屬資料庫(BRAD)和其他公共資料庫(Genoscope和Ensembl等)來獲取甘藍型油菜的基因組數據。
  • [重磅] Nature|一作解讀|10+小麥基因組項目:揭示全球小麥當代育種材料豐富的變異
    藉助於基因組測序及組裝技術的飛速進步, 中國春之外的多個六倍體小麥的參考基因組的測序組裝等得以較快速度(1-2年)完成 (參考本篇《自然》文章及Guo et al 2020等), 正式宣布六倍體小麥基因組研究進入泛基因組(Pan-Genome)時代。一個物種的泛基因組指的是在一個物種中所有基因和遺傳變異的總和而不是單純某一個個體的全基因組。
  • 泛基因組資料庫:找到油菜的「好基因」—新聞—科學網
    今年初,華中農業大學一支科研隊伍公布了8個甘藍型油菜的高質量參考基因組。近日,他們在原有研究基礎上,通過整合1689份油菜的基因組及重測序數據,構建了首個油菜泛基因組和比較基因組生物信息平臺BnPIR。 有了這一平臺,研究人員可以更快捷、更方便地檢索和使用油菜泛基因組相關資源。為何建設油菜泛基因組平臺?這是一個什麼樣的資料庫?油菜相關的多組學數據研究進展情況如何?
  • 小麥基因定位與基因組研究平臺構建
    近日,中國農業科學院作物科學研究所(以下簡稱作科所)小麥基因資源發掘與利用創新團隊牽頭構建了小麥基因定位與基因組研究平臺-WheatGmap(https://www.wheatgmap.org),為高效克隆小麥功能基因提供了一個有效的數據利用、分析和共享平臺。近日,相關研究成果在線發表於《分子植物》。
  • PNAS發表小麥等異源多倍體物種部分同源重組事件重要進展
    部分同源重組(homoeologous exchange, HE)特指異源多倍體中具有高序列相似度的部分同源染色體之間通過配對交叉(cross-over)而導致的大規模染色體片段交換的現象,影響著基因組的結構變化和基因表達。
  • 人類基因組時代的泛基因組學
    薩爾茲伯格是一位橫跨計算機領域和生物學領域的專家,名氣很大,他是約翰霍普金斯大學計算生物學中心的主任,同時在計算機系和醫學院任職,專門從事基因測序和基因組學應用研究,人類基因組計劃的參與者之一,最近還主持了非洲裔美國人的基因組學項目等。開發過很多有名的生物信息算法,大家使用過的生信軟體如:bowtie、TopHat、cufflinks等都出自於他的實驗室,今天要談的泛基因組學也是他的研究內容之一。
  • 我國科學家構建小麥基因定位與基因組研究平臺
    新京報訊(記者 周懷宗)隨著科技的發展,分子生物學、基因組學等在育種中使用的越來越廣泛。近日,一個小麥基因定位與基因組研究平臺—WheatGmap構建成功,該平臺由中國農科院作科所小麥基因資源發掘與利用創新團隊牽頭構建。據介紹,這一成果為高效克隆小麥功能基因提供了一個有效的數據利用、分析和共享平臺。相關研究成果在線發表於《分子植物(Molecular Plant)》。
  • 最全小麥重測序合集:小麥基因組變異聯合資料庫(WheatUnion)
    魯非  研究員以及中國農科院作科所  張學勇  研究員積極參與並無私奉獻,最後由中國農業大學小麥研究中心  郭偉龍  老師和生信協作組同學們一起在自主開發的生物信息學分析平臺SnpHub(一作解讀|GigaScience:可快速部署的SNP數據檢索分析資料庫模型SnpHub
  • 一作解讀|小麥D基因組物種的起源——同倍體雜交與祖先亞分化的區分
    但近年來隨著高通量測序技術的發展,該現象已廣泛報導於動植物的系統發育基因組學(phylogenomics)研究中,並已被認為是一種普遍的物種形成過程。當前推斷雜交的主要策略是通過排除不完全譜系分選(incomplete lineage sorting)的情況接受雜交的可能。
  • 同源重組基因敲除技術
    接下來就是同源重組技術了。本來是想由我的三位萌新師弟寫,我負責匯總。收上來後發現不是那麼回事兒。在此公開點名一下我們的豹豹童鞋,作為小組稻瘟菌研究的唯一男孩子(不包括畢業生哈)。想著ATMT是他現階段主要用到的實驗步驟,沒想到收上來的竟然是copy的,還是植物。。。只能我依靠記憶寫了(大神勿噴)。
  • 基因組學研究的未來之星——泛基因組
    高通量測序技術的迅猛發展,極大地推動了全基因組測序進程及物種的群體進化、遺傳多樣性、性狀定位等研究。但單一或者少數參考基因組中可能會缺少部分基因,不能完全覆蓋物種的全部遺傳信息,限制了基因組學研究的深入開展。泛基因組的提出,有效解決了該問題,成為了基因組學研究的新方向。01 什麼是泛基因組?
  • biomaRt包實現不同物種之間同源基因轉換
    【參考文章:生信中各種ID轉換】,這些轉換通常都是基於同一物種而言,但在基礎醫學研究中,很多實驗模型都是在動物上完成的,比如小鼠。假如我們研究某藥物的抗腫瘤效果,涉及到機制,最終都會往人上靠的,一般幾個基因,資料庫直接查一下就可以啦。但如果基因很多,人工查就不太現實,一般也是測序後的數據。所以在這裡我給大家介紹一下,不同物種之間的同源基因名稱轉換,這種轉換是基於物種間基因的同源性的。
  • 植物科學常用資料庫和生物信息學工具
    topic=plantprom&group=data&subgroup=plantprom   植物啟動子資料庫    http://www.sesame-bioinfo.org/PMDBase/用於研究植物物種和基因組進化中的微衛星DNA和標記開發的資料庫
  • 華中農業大學構建油菜泛基因組資料庫助力油菜遺傳育種研究進入泛...
    研究團隊負責人介紹,參考基因組作為生命科學研究中的「標準地圖」,促進了動植物重要生產和經濟性狀相關的變異位點鑑定、關鍵基因的發掘與應用等研究。然而生物體在長期進化和人工選擇的作用下,同一物種各個株系在遺傳和表型等層面均積累了豐富的變異,單一參考基因組往往無法很好包含物種內豐富的遺傳變異信息。