近日,南方科技大學生物系副教授翟繼先課題組發布可以方便快速查詢超過兩萬個公共RNA-seq文庫的在線資源,相關成果以「A comprehensive online database for exploring ~20,000 public Arabidopsis RNA-Seq libraries」為題發表在植物學領域知名學術期刊《分子植物》(Molecular Plant)。
過去十年,隨著測序成本的降低和文庫構建方法的發展,RNA-seq已成為繼microarray之後研究基因表達的黃金標準。到目前為止,公共資料庫釋放的擬南芥相關的RNA-seq文庫數目已經超過20000個。這些海量數據資源對研究基因的轉錄調控、組織特異性、脅迫處理以及不同發育階段的基因表達是十分寶貴的資源。然而,如何高效地利用如此龐大的高通量測序數據資源,對於研究者來說是一個巨大的挑戰,特別是在缺少編程基礎的實驗人員或者計算資源短缺的研究團隊使用時。
翟繼先課題組此次發布的資料庫(Arabidopsis RNA-seq database, ARS)整合了來自GEO、SRA、ENA和DDBJ資料庫的20,068個擬南芥RNA-seq數據,提供了「Google-style」在線查詢工具。該研究對所有文庫進行了基因表達水平定量和共表達網絡分析,並將所有文庫進行分類,總共涉及1176個突變體、1102種處理條件、12個組織和176個發育時期,同時也對突變體和處理條件分別同對應的對照組進行差異表達分析。
圖1: 網頁數據集與功能說明(上圖),網站首頁及部分button說明(下圖)
為提高實驗人員搜索海量數據的效率,ARS不僅支持基因的搜索,同時還提供文庫、項目編號、關鍵字以及任意不同組合的查詢方式。ARS具有快速查找基因表達量、組織特異性、突變體和處理響應的功能,並以多種圖表返回搜索結果,同時支持下載搜索結果。用戶可根據自己的需求在搜索前和搜索後對表格結果進行過濾,在畫圖區域單擊獲取相應文庫的信息。此外,網站設置了online基因組瀏覽器(IGV),實驗人員可更加便捷地查看每個文庫的詳細比對情況。為便於研究者之間快捷分享最新搜索結果,ARS提供了網頁共享功能,並定期更新文庫資源,研究者可通過共享按鈕來共享相關搜索結果。
圖2: 基因表達量結果展示(上圖),IGV查看序列比對情況(下圖)
課題組研究助理張洪、研究助理張飛、博士研究生於義溟為論文共同第一作者,翟繼先為該論文的通訊作者,南科大為唯一通訊單位。生物系講席教授郭紅衛和研究助理教授李博生參與了本研究的部分工作。該研究得到了國家自然科學基金委員會、廣東省創新創業團隊、深圳市科技創新委員會的資助。
論文連結:https://www.cell.com/molecular-plant/fulltext/S1674-2052(20)30257-4