北京生科院成功構建環形RNA大數據整合挖掘和分析平臺

2020-11-29 中國科學院

北京生科院成功構建環形RNA大數據整合挖掘和分析平臺

2020-04-30 北京生命科學研究院

【字體:

語音播報

  428日,中國科學院北京生命科學研究院趙方慶團隊在國際期刊Genome Biology發表題為CircAtlas: an integrated resource of one million highly accurate circular RNAs from 1070 vertebrate transcriptomes 的研究論文。該研究基於現有的海量轉錄組數據,採用多維數據智能整合分析手段,成功解析了跨物種、多組織、大樣本的環形轉錄本表達特徵和進化規律,為探索真核生物複雜多變的環形RNA全貌和產生機制提供了強有力的數據支持。

  近年來,環形RNA作為一類新型的內源性非編碼RNA在生物系統調控和疾病發展過程中的作用不斷被發現和擴展。高通量測序技術的快速發展和廣泛應用,更是將環形RNA研究帶入了大數據時代,使之迅速成為RNA研究領域的熱點之一。環形RNA轉錄組數據的大量積累,給研究人員帶來了新的機遇和挑戰:如何從轉錄組數據海洋中高效篩選和獲取具有重要生物學功能的環形RNA分子。物種信息的日益豐富為全面解讀複雜的環形RNA轉錄調控過程打開新的突破口:基於多物種的進化保守性分析將有助於篩選出具有潛在功能的環形轉錄本,而多組學數據的整合分析則可以從不同層次解析環形RNA的表達調控過程。

  研究人員通過整合自有及公共轉錄組數據,獲得覆蓋6個物種(人、猴、小鼠、大鼠、豬和雞)的19個組織類型,共計1070個轉錄組數據集,構建了目前覆蓋物種最廣、數據最齊全的環形RNA整合數據資源平臺circAltas (http://circatlas.biols.ac.cn)。該平臺收錄超過100萬個高質量的環形RNA分子,其中>80%具有全長轉錄本序列。此外,通過整合功能組學數據和注釋信息,為環形RNA數據挖掘和功能研究提供了重要的數據資源和技術保障。

  在上述數據的基礎上,他們進一步提出了新的保守環形RNA識別方法和保守性多層次評估機制。通過結合全局比對和反向剪接位點的局部比對特徵,篩選出超過12萬保守的環形RNA,並進一步結合物種間、組織間和個體間的表達一致性對其保守性進行打分(Multiple Conservation Score),直觀反映出環形轉錄本在不同層次的保守性和進化規律,對功能環形RNA分子的篩選具有重要意義。此外,研究人員還結合保守性和表達量信息,對收錄的環形RNA進行重新命名,並提供多個環形RNA資料庫間的名稱查詢和轉換功能,釐清了環形RNA領域存在的命名混亂問題。此外,利用重建的環形RNA全長序列,該團隊首次通過大規模分析其可能的ORFIRES序列,去預測其翻譯成蛋白質的潛力。進一步結合CLIP等多組學數據,構建環形RNAmRNAmiRNARBP的表達調控網絡,並結合網絡中眾多調控元件的注釋信息對環形RNA的功能進行預測。該研究為環形RNA的功能挖掘和注釋提供了重要的分析工具。

  該工作由趙方慶課題組的博士研究生吳婉瑩和助理研究員冀培豐完成,並獲得了國家自然科學基金委、科技部重點研發計劃及中科院的經費支持。趙方慶團隊在前期的工作中建立了環形RNA識別和質控、轉錄本組裝、可變剪接識別及定量等一系列方法和工具,相關研究發表在Genome Biology (2015, 2020)Nature Communications (20162020)Briefings in Bioinformatics (2017)Trends in Genetics (2018)Genome Medicine (2019)Cell Reports (2019)Bioinformatics (2020)。這些研究豐富了人們對環形RNA的表達和功能的認識,為深入了解這一嶄新類型的非編碼RNA分子奠定了方法學基礎。

  論文連結

圖1.環形RNA整合數據資源和挖掘平臺——circAtlas

圖2. 保守性環形RNA的識別和打分策略


  4月28日,中國科學院北京生命科學研究院趙方慶團隊在國際期刊Genome Biology發表題為CircAtlas: an integrated resource of one million highly accurate circular RNAs from 1070 vertebrate transcriptomes 的研究論文。該研究基於現有的海量轉錄組數據,採用多維數據智能整合分析手段,成功解析了跨物種、多組織、大樣本的環形轉錄本表達特徵和進化規律,為探索真核生物複雜多變的環形RNA全貌和產生機制提供了強有力的數據支持。
  近年來,環形RNA作為一類新型的內源性非編碼RNA在生物系統調控和疾病發展過程中的作用不斷被發現和擴展。高通量測序技術的快速發展和廣泛應用,更是將環形RNA研究帶入了大數據時代,使之迅速成為RNA研究領域的熱點之一。環形RNA轉錄組數據的大量積累,給研究人員帶來了新的機遇和挑戰:如何從轉錄組數據海洋中高效篩選和獲取具有重要生物學功能的環形RNA分子。物種信息的日益豐富為全面解讀複雜的環形RNA轉錄調控過程打開新的突破口:基於多物種的進化保守性分析將有助於篩選出具有潛在功能的環形轉錄本,而多組學數據的整合分析則可以從不同層次解析環形RNA的表達調控過程。
  研究人員通過整合自有及公共轉錄組數據,獲得覆蓋6個物種(人、猴、小鼠、大鼠、豬和雞)的19個組織類型,共計1070個轉錄組數據集,構建了目前覆蓋物種最廣、數據最齊全的環形RNA整合數據資源平臺circAltas (http://circatlas.biols.ac.cn)。該平臺收錄超過100萬個高質量的環形RNA分子,其中>80%具有全長轉錄本序列。此外,通過整合功能組學數據和注釋信息,為環形RNA數據挖掘和功能研究提供了重要的數據資源和技術保障。
  在上述數據的基礎上,他們進一步提出了新的保守環形RNA識別方法和保守性多層次評估機制。通過結合全局比對和反向剪接位點的局部比對特徵,篩選出超過12萬保守的環形RNA,並進一步結合物種間、組織間和個體間的表達一致性對其保守性進行打分(Multiple Conservation Score),直觀反映出環形轉錄本在不同層次的保守性和進化規律,對功能環形RNA分子的篩選具有重要意義。此外,研究人員還結合保守性和表達量信息,對收錄的環形RNA進行重新命名,並提供多個環形RNA資料庫間的名稱查詢和轉換功能,釐清了環形RNA領域存在的命名混亂問題。此外,利用重建的環形RNA全長序列,該團隊首次通過大規模分析其可能的ORF和IRES序列,去預測其翻譯成蛋白質的潛力。進一步結合CLIP等多組學數據,構建環形RNA和mRNA、miRNA及RBP的表達調控網絡,並結合網絡中眾多調控元件的注釋信息對環形RNA的功能進行預測。該研究為環形RNA的功能挖掘和注釋提供了重要的分析工具。
  該工作由趙方慶課題組的博士研究生吳婉瑩和助理研究員冀培豐完成,並獲得了國家自然科學基金委、科技部重點研發計劃及中科院的經費支持。趙方慶團隊在前期的工作中建立了環形RNA識別和質控、轉錄本組裝、可變剪接識別及定量等一系列方法和工具,相關研究發表在Genome Biology (2015, 2020)、Nature Communications (2016,2020)、Briefings in Bioinformatics (2017)、Trends in Genetics (2018)、Genome Medicine (2019)、Cell Reports (2019)和Bioinformatics (2020)。這些研究豐富了人們對環形RNA的表達和功能的認識,為深入了解這一嶄新類型的非編碼RNA分子奠定了方法學基礎。
  論文連結
  圖1.環形RNA整合數據資源和挖掘平臺——circAtlas
  圖2. 保守性環形RNA的識別和打分策略
  

列印 責任編輯:葉瑞優

相關焦點

  • 中科院趙方慶團隊在Genome Biology發表環形RNA大數據整合挖掘平臺
    該研究基於現有的海量轉錄組數據,採用多維數據智能整合分析手段,成功解析了跨物種、多組織、大樣本的環形轉錄本表達特徵和進化規律,為探索真核生物複雜多變的環形RNA全貌和產生機制提供了強有力的數據支持。近年來,環形RNA作為一類新型的內源性非編碼RNA在生物系統調控和疾病發展過程中的意義不斷被擴展。
  • 北京生科院提出環形RNA內部序列結構可視化新方法
    這個情況表明,環形RNA的分析應與線性RNA一樣,需要將其內部的所有剪接產物的結構與相對豐度考慮在內。過去的研究只驗證了少數環形RNA的功能,並且發現環形RNA的功能都與其獨特的結構有關,這表明只有將環形RNA的分析提升到剪切產物結構的水平才能準確地預測環形RNA的功能。
  • 北京生科院提出環形RNA全長轉錄本重建和定量新方法
    目前絕大多數環形RNA的功能尚未明確,並且現有方法無法提供足夠充足序列特徵信息,該方法可以幫助研究者更有效地篩選出具有潛在功能的環形可變剪接產物,對環形RNA的功能研究與轉錄本水平上的差異表達分析具有重要意義。
  • 大數據分析平臺搭建架構圖
    這個步驟包括從預先計算匯總的結果中讀取和用一種友好界面或者表格的形式展示出來,這樣便於企業內部非專業人員對數據分析結果的理解。 最基礎的大數據分析平臺有上述的幾層架構,如果是數據量龐大的企業,會需要架構更加複雜的分析平臺。
  • 北京生科院揭示人體口腔菌群的穩定性和動態變化規律
    北京生科院揭示人體口腔菌群的穩定性和動態變化規律 2019-06-25 北京生命科學研究院 研究團隊通過對洗牙前後三個月間11個連續時間點內的169個唾液和牙菌斑微生物組數據進行深度挖掘分析,以確定因受到外力擾動而崩解的口腔微生物膜恢復到初始狀態的時間以及口腔菌群作為標誌物是否具有足夠的穩健性(如圖)。
  • 醫院大數據平臺建設_構建醫院智能BI平臺的關鍵技術
    接下來以Smartbi大數據分析系統為例為大家做詳細介紹。一個醫院大數據平臺建設必須具備四個關鍵技術,它們分別是ETL技術、數據倉庫技術、OLAP技術、BI展現技術。1) ETL技術 — 跨多個業務系統的數據來源抽取、加工、整合特性ETL (Extraction-Transformation-Loading)實現整合日益增長的數據量、通過捕捉數據的變化降低數據裝載量、簡化數據插入和更新進程、剖析信息以識別髒數據等功能,從而使準確、乾淨、一致的數據進入數據倉庫。
  • 大數據中數據挖掘的基本步驟
    導讀 數據挖掘基本步驟,數據挖掘過程定義問題、建立數據挖掘庫、分析數據、準備數據、建立模型、評價模型和實施。
  • AdTime推出國內首個大數據營銷分析平臺—雲圖
    近日,全球領先的大數據營銷平臺AdTime宣布推出國內首個大數據營銷分析平臺——雲圖。雲圖的「雲」代表雲計算,「圖」代表可視化。雲圖旨在挖掘網際網路數據深層次關係,構建可視化的大數據平臺。
  • 【金猿產品展】Yonghong Z-Suite——一站式大數據分析平臺
    全面覆蓋數據分析過程中的各個環節,包括數據採集、清洗、整合、存儲、計算、建模、訓練、展現、協作等,讓用戶可以在一個統一的平臺上完成全流程數據分析任務,極大降低了實施、集成、培訓的成本。 ●自助式探索分析 過濾數據、多維鑽取分析、數據高亮分析、趨勢分析、目標值分析、聚焦分析。 ●AI深度分析 通過AI深度分析算法進行數據預測和數據關聯性洞察的數據挖掘。
  • 從宏基因組數據中挖掘、分析和整合病毒信號
    今天分享的生物信息分享工具,VirMiner,一款網頁伺服器,用於宏基因組數據的分析,挖掘、分析和整合病毒信號。一、背景病毒是微生物群落的重要組成部分,有助於其穩態和進化。人體腸道菌群中的病毒群落以噬菌體為主。
  • 北京醫院「老年病大數據平臺」瞄向京津冀
    人們對北京醫院往往有這樣一種印象:這是一家以幹部醫療保健為中心、老年醫學研究為重點的綜合醫院,是中央幹部保健基地。不過,最近幾年,北京醫院不甘寂寞,搞起了醫療大數據,將一個京津冀互通互聯的老年病大數據中心做得有聲有色。 5月7日,「2016年京津冀地區醫療協同醫院院長論壇」在北京召開。
  • 智慧東營時空大數據與雲平臺構建全市數據底圖 發掘城市管理密碼
    一年多來,該試點項目始終扭住「創新突破和突出地方特色亮點」這一關鍵,從項目定位、數據匯聚、示範應用、城市管理、技術創新五個維度進行摸索和探索,取得了一系列創新成果。  立項之初,試點項目建設定位於打造新時期的標杆和典範,設計書提出的無人機一體化更新、網際網路實時抓取等內容被納入全國時空大數據平臺技術大綱(2019版)和國家新型基礎測繪技術體系。
  • 乾貨 面向大數據的時空數據挖掘
    時空數據挖掘作為一個新興的研究領域,正致力於開發和應用新興的計算技術來分析海量、高維的時空數據,發掘時空數據中有價值的信息。  面向大數據的時空數據挖掘的挑戰  儘管時空數據挖掘研究在近幾年引起了人們的廣泛關注並得到快速發展,但與傳統數據挖掘相比,時空數據挖掘研究還遠未成熟。
  • 構建快消企業決策大腦:從數據分析到智能決策
    、個體數據難以打通整合分析,缺乏統一分析框架指導營銷運營等問題,此時亟需一套統一的數據分析體系,對收集到的數據進行統一的運營和全局分析。玄訊快消智研中心認為,快消企業所建立的數據分析體系要遵循以下三個原則,才能真正挖掘數據價值和發揮數據驅動業務增長的最大效能。第一,支持無縫對接內外部的不同業務系統。唯有這樣,才能實現各個業務系統數據的打通共享,實現數據的整合分析。第二,支持多主題、多維度組合分析,並形成數據業務化的閉環體系。
  • 數據不夠?生信分析幫你湊!學會深度挖掘快速發文章
    這個時候需要的是生信分析——深度的數據挖掘和分析處理,可以幫助臨床醫生不耗費大量的時間通過實驗攢數據,而是通過數據處理得到自己想要的信息,更快速地發文章。 學習哪種生信分析的工具?
  • 「oncomine」——如何在大數據時代挖掘腫瘤數據
  • 企業大數據挖掘:為員工構建職場知識圖譜
    在英劇《黑鏡》第二季第一集當中,女主人公通過和機器人對話的方式懷念自己逝去的男友。藉助大數據的力量,這個機器人能夠從主人公男友的社交網絡甚至私人郵件中抽取和整合他的個人信息、關係網絡和語言習慣,構建屬於這位男生的個性化知識圖譜,從而實現對他惟妙惟肖的模仿——如上圖臺詞所說,系統抓取到的信息越多,機器人模仿的語言行為就越和他本人相似。
  • IBM推通用數據平臺 擬整合不兼容系統的獨立數據
    其寄希望於通過該平臺整合各個不兼容系統中獨立存儲的數據,從而對這些數據進行深入分析。數據科學家,有人也稱之為矽谷的統計學家,其潛力毋庸置疑。但目前對其作用不乏出現了一些失望。這個問題並不是關於大數據本身,而是相關技術的實用性。簡單的說,我們最先設計的系統能夠執行特定的任務,進行特定的數據分析,隨後發現我們想讓它做的更多,作用更大。當需求明確起來時,會發現最大的問題是系統的兼容性。
  • GB-GIAS基因組數據分析一體化服務平臺
    第三屆「精準醫療與基因測序大會」期間,23GENEBANK正式發布GB-GIAS基因組數據分析一體化服務平臺,受到廣泛關注。本屆大會於2017年7月15日,在北京·協和學術會堂盛大召開,並圓滿結束。羅氏、賽莫飛、諾河致源、瑞寧、23GENEBANK等企業代表參展,與會的數百位醫療行業從業者共同進行了最直觀的交流。
  • 大數據應用案例TOP100
    深圳市兒童醫院成功部署IBM集成平臺與商業智能分析系統  IBM利用其行業領先的大數據與分析技術,支持深圳市兒童醫院搭建信息集成平臺,整合原有分散在多系統中的海量數據,實現各部門的信息共享;同時通過商業智能分析對集成數據進行深入挖掘,為醫院各部門人員的科學決策提供全面的輔助,提升醫院的服務水平和管理能力。  2.