2020年9月23日,中國農業大學農學院小麥研究中心郭偉龍副教授作為通訊作者在Molecular Plant在線發表了題為「A Collinearity-incorporating Homology Inference Strategy for Connecting Emerging Assemblies in Triticeae Tribe as a Pilot Practice in the Plant Pangenomic Era」的研究論文。通過融合序列相似性和基因共線性信息開發了適用於植物泛基因組時代同源基因推斷的新策略(GeneTribe),並構建了以小麥族物種為核心的「小麥族同源基因資料庫」(Triticeae-GeneTribe, http://wheat.cau.edu.cn/TGT/)。基於小麥族物種基因組間和亞基因組間的共線性分析,該研究提出了六倍體普通小麥的「4A-5A-7B染色體重排」是兩次染色體易位事件的結果,並明確了重排的基因組區間的精細邊界;同時研究了春化基因Vrn2的複雜進化歷史,提出Vrn2同源基因在普通小麥基因組中的複雜分布是包含串聯重複、多倍化、染色體易位和基因丟失在內的一系列事件疊加的結果。該工作為泛基因組時代的植物比較基因組學研究和功能基因挖掘提供了新思路。
近年來,隨著多種測序技術的結合和分析策略的進步,越來越多的物種完成了高質量基因組參考序列的組裝。植物中許多物種已經從「一個物種,一個基因組」的時代進入了「一個物種,多個基因組」的「泛基因組時代」(pan-genomicera)。特別是如小麥、玉米和水稻等主要作物,在近緣種、亞種、個體水平都已經完成多個參考基因組的組裝和基因的注釋。在泛基因組時代,如何整合諸多的參考基因組信息並將這些寶貴的數據利用起來,是我們目前面臨的新挑戰。
我們開發了GeneTribe (https://chenym1.github.io/genetribe/)工具用於同源關係的推斷,既考慮了複雜的基因組間的層級關係,也針對富集異源多倍體的小麥族物種的複雜的網狀進化關係進行了特殊設計;通過綜合共線性分數和序列相似性分數進行動態加權優化,並引入基因注釋質量等因素進行罰分質控,形成可動態適用於不同進化距離的基因組之間的同源基因推斷策略(圖1)。通過和傳統僅基於序列相似性的同源推斷方法進行綜合評估,GeneTribe具有更好的準確率和檢測效率。
考慮到同源基因分析中「直系同源」、「旁系同源」等經典概念的定義具有不可傳遞性,且應用於遺傳距離較近的基因組間的研究時容易出現「歧義」,該工作提出了包含四類同源基因表格的基礎數據結構方案(圖1)。該方案既可滿足不同比較基因組學分析的需要,也使得在新基因組不斷湧現的常態下更易及時擴展;同時也支持「傳遞性同源推斷」,可降低未來更大規模的基因組的同源基因資料庫的構建和維護的複雜度。
圖1.同源關係推斷工具GeneTribe的原理示意圖和TGT資料庫的設計架構
小麥族(TriticeaeTribe)的物種中包含了普通小麥(Triticumaestivum, BBAADD)、硬粒小麥(Triticumtrugium, BBAA)、大麥(Hordeumvulgare, HH)等重要經濟作物;其基因組普遍較大,重複序列比例高,富集不同倍型的異源多倍體物種,具有複雜的物種進化歷史。本研究整合了目前已經發表的12個小麥族物種參考基因組和3個外群基因組(水稻、玉米和擬南芥),藉助GeneTribe算法搭建了「小麥族同源基因資料庫」——Triticeae-GeneTribe(http://wheat.cau.edu.cn/TGT/),可滿足同源基因查詢、序列分析、基因注釋查詢等分析,也支持基於同源基因映射的GeneOntology富集分析、宏共線性(macrocollinearity)和微共線性(microcollinearity)等創新分析功能,並提供了靈活的可視化和數據下載支持;為相關領域的研究者提供了功能豐富的同源基因大數據分析平臺(圖2)。
圖2.TGT資料庫的主要分析和可視化功能展示
在宏觀尺度上,通過對小麥多個物種間的染色體共線性區間進行綜合分析,對普通小麥中4A-5A-7B染色體的重排區間進行了精確定位和溯源分析,解析了該複雜易位關係的形成過程,提出了包含兩次主要易位事件的重排模型(圖3)。
圖3.經過兩次主要易位事件形成普通小麥的4A-5A-7B染色體重排區間的模型
在微觀尺度上,TGT資料庫可為研究基因重複、基因丟失、基因簇擴張等提供豐富的信息。以著名的小麥春化基因Vrn2為例,本研究指出其在六倍體小麥中的「奇怪」位置和拷貝數多態性是伴隨小麥進化過程中出現的易位、複製、多倍化和丟失的進化事件的疊加結果(圖4)。
圖4.小麥春化基因Vrn2的同源基因的基因進化模型
隨著越來越多高質量基因組的完成,針對特定物種或者特定領域構建同源資料庫將成為趨勢,這也有利於更及時的數據更新和更專業的資料庫維護。本研究提出的同源基因推斷策略可為其它植物物種(特別是多倍體植物)在泛基因組時代進行多基因組數據整合和比較基因組研究提供新的參考方案。
中國農業大學農學院小麥研究中心(http://wheat.cau.edu.cn)的郭偉龍副教授(http://guoweilong.github.io)為該論文的通訊作者,博士研究生陳永明為第一作者。小麥研究中心已畢業碩士宋皖君、碩士研究生謝小明(參與時為本科生)、博士研究生王梓豪,博士後關攀峰為共同作者。中國農業大學小麥研究中心孫其信教授、倪中福教授、彭惠茹教授和中國科學院植物研究所焦遠年研究員對該工作進行了指導和幫助。該工作得到了國家自然科學基金(31991210和31701415)項目的資助。
圖5.中國農業大學農學院小麥研究中心團隊
感謝餘闊海、秦震、楊正釗、王小波等同學提供技術支持。感謝中國農業大學農學院小麥研究中心的百餘位師生在該資料庫的設計、開發和試用階段提出的寶貴建議!期待各位同行的寶貴建議和使用反饋!
一作心聲:
至今年長穗偃麥草的參考基因組序列公布,小麥族已經公開發表了接近10個染色體水平的參考基因組序列,而未來10+genome等項目也將公布,小麥的研究已經進入了泛基因組時代,這些基因組都是在2017年,也就是我剛本科畢業之後發表的,我們趕上了一個好時代。小麥族內部物種數目多,錯綜複雜,而之前的資料庫不支持或不適合於小麥族同源基因分析,將小麥族中海量的數據聯繫起來,建立一個我們自己的資料庫來幫助基因功能的挖掘尤為重要。項目誕生之初是為滿足小麥研究中心的師生們查詢小麥基因對應其他物種的同源基因和注釋信息的需求,已畢業碩士宋皖君進行了初期同源基因鑑定方法的探索,後來項目交到了我手上。在項目進行了一段時間後,在去年煙臺舉辦的第十屆全國小麥基因組學及分子育種大會提交了該工作的牆報和摘要,雖然還只處在初步階段,但在牆報交流過程中不少前輩和研究生對該工作表達出了興趣,讓我們更加有信心和動力來把這個工作做好。工作進行並不一帆風順,中間遇到了很多困難,在嘗試了許多此方法後才有了現在的版本。在資料庫開發過程中,我們決定投稿,讓資料庫能幫助到更多的研究者。
特別感謝郭譯文同學的陪伴和鼓勵。
最後,我們歡迎同行、專家、朋友為資料庫的提供建議和反饋。
(聯繫方式:chen_yongming@126.com)
原文連結:
https://doi.org/10.1016/j.molp.2020.09.019
掃描二維碼
關注我們
小麥族多組學網站:http://202.194.139.32
投稿、合作等郵箱:13148474750@163.com
微信群: 加群點擊小麥研究聯盟交流群
論文查重、潤色:點擊下方圖片了解
雜誌影響因子查詢:點擊查詢