▲嚴建兵課題組在武漢田間春播後休息
▲玉米種質資源中的表型變化 華中農大供圖
■本報記者 張楠 通訊員 蔣朝常
近日,華中農業大學教授嚴建兵課題組成功整合了來自同一玉米群體的多組學數據,構建了玉米屬綜合資料庫ZEAMAP,相關成果發表於iScience雜誌。
該資料庫內嵌了基因組「瀏覽器」和「搜尋引擎」,從而實現了對相關組學生物大數據的高度集成、快速檢索和智能分析。
此前,我國玉米基礎研究取得了顯著成績,但在其研究材料和數據的共享平臺建設上有待加強。該資料庫的建立,不僅幫助用戶提升了對作物組學數據挖掘的時間效率,更實現了多維組學大數據之間的聯繫,在打通信息「孤島」上邁出有力一步。
多組學信息整合破壁壘
談及搭建玉米多組學資料庫的動因,論文通訊作者嚴建兵介紹,他曾在國際玉米小麥改良中心學習、工作4年多。「該中心的使命就是向全世界無償分發種質資源。這段經歷對我產生了很大影響。」從2010年底回國開展工作第一天,嚴建兵就把建立玉米多組學資料庫提上了日程。
此外,國內學者基礎研究的材料和數據收集、分享工作長期依賴於國際資料庫,如美國國家生物信息中心(NCBI)、歐洲分子生物學實驗室(EMBL)等建立的資料庫。嚴建兵對《中國科學報》表示:「這些國際資料庫極大促進了後來者的科學研究,為全球科技進步作出了重要貢獻。」
不過,「隨著高通量測序技術的快速發展,生物學數據朝著多組學、多維度的層面快速積累。以玉米為例,現有資料庫大多關注一種或幾種特定組學數據,不同資料庫之間難以有效整合利用。」嚴建兵指出。
於是,這些數據成了一座座「孤島」。論文第一作者桂松濤告訴《中國科學報》,有的玉米組學資料庫只包含了基因的注釋信息,有的只記錄了遺傳變異信息。僅通過這兩個孤立的資料庫資源難以判斷出某個遺傳變異是否會對附近的基因表達造成影響。
為了突破信息壁壘、提高研究效率,嚴建兵課題組以其自身牽頭收集並被國內外同行廣泛使用的玉米關聯群體為基礎,整合了該群體的基因組、轉錄組、表型組、代謝組、表觀基因組、遺傳變異以及遺傳定位結果等多組學大數據,構建了玉米屬綜合資料庫ZEAMAP。
在該平臺,用戶可根據相應的條目連結,在不同組學大數據之間進行跳轉訪問,實現信息互聯。
目前,ZEAMAP收錄了4個玉米基因組和1個大芻草基因組,並對每個基因組中數萬個預測基因予以詳細的功能注釋。該資料庫還整合了玉米關聯群體507份自交系中數百萬遺傳變異的基因型信息,並整合了遺傳變異與數十種農藝表型、數百種籽粒代謝產物以及上萬個基因表達量的遺傳定位結果。
ZEAMAP內嵌基因組「瀏覽器」以及豐富的數據檢索、分析和展示工具,用戶可直觀地對比較基因組、基因共線性區塊、表達模式聚類、遺傳變異基因型、連鎖圖譜、遺傳定位結果、染色質交互、組蛋白修飾以及群體水平的DNA甲基化等多組學數據進行檢索和分析。
數據分享與數據安全都不能缺
「從用戶角度來說,ZEAMAP極大降低了用戶對作物組學數據挖掘的時間成本。」華中農業大學教授李林主要利用生物大數據進行玉米株型建成分子機制研究。他指出,目前全球已有的幾乎都是單一組學大資料庫,ZEAMAP則在一定程度上實現了多維組學大數據之間的聯繫,立足於完整反映遺傳信息的整個鏈條,超越了存儲層面的資料庫。
嚴建兵進一步解釋說:「我們收集、整合的同時,還做了很多關聯分析。如果你做了基因組學的實驗,那麼通過與代謝組學或遺傳組學的結果比對,可以查驗你的結論受到支持還是反對。對於入門研究者來說,可以清晰明了地看到,其他學者已經做過哪些相關研究。」
也就是說,該資料庫可以幫助學者直觀了解到,他們感興趣的基因與附近的哪些遺傳變異有關聯。同時也可以根據這些遺傳變異和相關表型的遺傳定位結果,去尋找可能的從遺傳變異到基因表達,再到表型改變之間的關係。
據不完全統計,已有超過60個國內外實驗室使用嚴建兵課題組資源,產生了一大批基礎研究成果。「即便不是我們自己產出的成果,但是數據和種質資源的分享,對整個玉米研究領域的發展是非常有益的,對於農作物的遺傳改良、作物育種非常重要。」嚴建兵說。
不僅僅是資料庫類型單一的問題需要關注,去年上半年發生的一次事件也提醒科學家,當前的組學資料庫過於集中在歐美國家。由於美國政府預算未被國會批准,政府相關機構停擺,美國玉米基因組和遺傳學資料庫(www.maizeGDB.org)被關停,導致研究者無法及時獲取完整數據。而類似事件並不少見。
「學界缺乏能夠真正服務於中國作物學研究的資料庫。」李林強調,「如果能夠具有多樣化的選擇,那對數據安全、研究的方便程度都會更有利。」
維護更新須持之以恆
李林也正嘗試建立網絡大資料庫,深知其中不易:「大數據時代,信息很多也很全面,但同時也會帶來『噪聲』,整合起來非常麻煩。嚴建兵課題組是通過10年積累,多位研究人員、研究生接力實現的。而資料庫搭建完成後,對其維護更新也是件持之以恆的事。」
對此,嚴建兵坦陳,在國際上一些成熟資料庫會有專職人員進行維護,從幾人到幾百人的規模都有。而國內無論從項目體系還是評價體系,都暫時沒有相應支持,做資料庫只能靠兼職。
「研究人員搭建資料庫,不僅要具備深度的專業知識,能夠對基因、轉錄、蛋白等組學數據進行挖掘分析,還要對計算機語言、資料庫搭建規則等有所掌握。」嚴建兵說。
從另一個角度看,搭建生物組學資料庫,不僅是促進科學事業發展的公益性工作,同時也是培養交叉學科人才的過程。第一位幫助嚴建兵從零開始搭建資料庫的博士生劉海軍,目前已經在奧地利科學院格雷戈爾·孟德爾研究所從事博士後研究。
桂松濤從事生物組學資料庫工作一年半時間,鑽研了許多搭建工具,從做實驗慢慢轉到做生物信息,經歷了收穫也經歷了許多嘗試和妥協。
「搭建資料庫與傳統科研工作有很大差別,不僅要解決技術上的問題,還要考慮展示邏輯,考慮用戶對數據的了解程度,以及用戶體驗。資料庫平臺在簡單、直觀、易用的同時,最好還要儘量美觀。」桂松濤說。
「我們期待這一雲端集成檢索,能有效促進現有玉米組學數據資源的利用率,幫助科學家深入理解玉米遺傳變異、表型和基因之間的關係,輔助玉米的遺傳育種和改良。」嚴建兵團隊已經發出邀請,期待學者們上傳數據,共同完善該資料庫。
相關論文信息:https://doi.org/10.1016/ j.isci.2020.101241
《中國科學報》 (2020-07-21 第3版 農業科技)