Oncomine:癌基因晶片數據挖掘平臺系列介紹(一)

2021-01-14 中翰金諾

Oncomine 是目前世界上最大的癌基因晶片資料庫和整合數據挖掘平臺,旨在挖掘癌症基因信息。到目前為止,該資料庫已經收集了729個基因表達數據集,90000多個癌症組織和正常組織的樣本數據。Oncomine可用於比較癌症和正常組織的差異表達分析,也可以用於探索各種癌症亞型以及基於臨床和病理學的比較分析。同時還可以進行藥物敏感性、突變或甲基化引起的表達變化等方面的分析。Oncomine可進行一個或多個基因的查詢,結果可視化。

數據來源和數據類型

Oncomine中僅包括研究表達變化的mRNA表達譜晶片和研究拷貝數的aCGH晶片。這些晶片數據來源於美國 NCBI的Gene Expression Omnibus (GEO) 、EBI的ArrayExpress,斯坦福基因晶片資料庫( Stanford Microarray Database, SMD ), 癌症和腫瘤基因圖譜(TCGA)以及文獻。

圖1 Oncomine中數據來源和數據類型


癌症類型

Oncomine中包括乳腺癌、膀胱癌、肺癌等20種癌症類型,共有729個數據集和90,000多個樣本的數據。

圖 2 Oncomine中的癌症類型及其數據集數


分析類型

Oncomine是對同個數據集內的樣本進行計算的,常用的分析分為4種:

差異表達分析:根據樣本類型或臨床數據對樣本進行分組,然後比較分析不同組內基因的變化(表達變化或者是拷貝數變化)。差異表達分析是Oncomine中主要的分析方法,差異分析除cancer vs. normal analysis以外,還包括cancer vs. cancer analysis、 clinical outcome analysis、pathway and drug analysis、drug sensitivity analysis等差異分析類型。

圖3 差異分析類型


協同表達分析:Oncomine採用層次聚類的方法可查詢到在特定癌症中某個基因與哪些基因表達模式相似。層次聚類方法會產生一個相關性(Correlation)的值,值越大,相關性越大。

Outlier 分析:可確定在部分癌症樣本中異常表達的基因。由於腫瘤異質性的存在,常規的t檢驗方法已不適應,Oncomine團隊建立了COPA分析方法來篩選在某些癌症中的部分樣本中異常表達的基因。

Concept分析:Oncomine內置第3方的數據,如GO 資料庫、KEGG資料庫、Transfac Transcription Factor Targets、picTar predicted miRNA target genes、COSMIC等。

優勢

節省成本:

豐富的癌症基因晶片數據,內容豐富,知識龐大 ;

臨床數據豐富,包括預後、轉移、TMN、用藥等臨床資料;

內置了豐富的第三方注釋數據,如GO、KEGG、COSMIC等 ;

用戶可以上傳自己的數據進行分析,免去了繁雜和重複的分析過程。

節省時間:

內置常見的晶片分析算法,分析結果直接可用 ;

操作簡便,結果可視化

在科研中的應用

確定癌症研究的目的基因

指導癌症研究的科研方向

幫助篩選潛在的腫瘤標記物

對前期實驗結果行驗證,補充文章依據。


利用Oncomine數據,

中翰金諾可以做的分析如下:


分析類型

具體分析項目

差異分析 

分析單個基因在特定癌症中的差異表達/拷貝數變異

分析單個基因在多個癌症中的差異表達/拷貝數變異

分析多個基因在特定癌症中的差異表達/拷貝數變異

分析特定癌症中差異表達/拷貝數變異

共表達分析

獲取單個基因在特定癌症中的共表達基因

Meta分析

比較單個基因特定癌症中的表達

比較單個基因在多個癌症中的表達

比較多個癌症中差異表達基因

比較特定癌症不同亞型中差異表達基因

outlier分析

分析特定癌症部分樣本中異常表達基因

concept分析

分析特定基因集在特定癌症中的表達

綜合分析

meta分析和concept分析結合篩選目的基因

差異分析、meta分析和concept分析結合篩選藥物靶點

與GEO資料庫結合進行個性化分析



中翰金諾在Oncomine數據挖掘方面有著豐富的經驗,我們秉承一諾千金的服務理念竭誠為您提供可靠的,真實的,可視化的,有指導意義的數據結果。


說明:本文為中翰金諾原創作品,其他公眾號或網站轉載請聯繫zhuye@joingenome.com


中翰金諾業務聯繫方式:

浙江地區:於經理 18767167378

全國地區:陳經理 18767167375





相關焦點

  • 「oncomine」——如何在大數據時代挖掘腫瘤數據
    起始level 1 指的是原始數據;level 2指的是處理過的數據:經過標準化後的單樣本數據或對存在或者不存在特定分子異常的解釋;level 3指的是經過分割、解釋的數據:來自單個樣本的經過處理的數據的匯集;level 4 指的是感興趣的區域:基於兩個或多個數據的關聯,包含分子異常,樣本特徵,臨床變量。換句話說,也就是數據的權限,level 越高,數據可及性越低。
  • 傳說中的Oncomine! 【基因數據挖掘專題第十三期】
    它結合了TCGA、GEO、ArrayExpress等資料庫,經過一系列加工、標準化和分析後匯集而成。這有什麼好處?我們平時做的晶片數據往往來自於一個或兩個數據集,偶爾會因為樣本的批次、平臺的差異、實驗的條件等因素使結果與我們預期的不一樣。
  • Oncomine:腫瘤晶片資料庫
    隨著晶片和NGS技術的發展,發表了很多的腫瘤相關數據。然而這些數據來自不同的組織和團隊,由於缺乏統一的數據管理和組織,這些數據在發表之後就沒有再利用了,為了提高數據利用率,促進腫瘤研究的發展,Oncomine的開發團隊收集了各種來源的腫瘤相關的晶片數據,用標準化的分析流程處理這些數據,數據分析的結果通過web服務查詢和可視化,對應的文章連結如下https://www.ncbi.nlm.nih.gov/pmc/articles
  • 腫瘤全面分析資料庫:oncomine使用介紹
    經典的我們可以使用TCGA的數據來進行分析,我們之前介紹的GEPIA就可以來進行分析。但是對於測序的結果而言,其檢測的結果不管是基於人種或者其他的原因,可能和我們的實驗結果有可能存在偏差。這個時候其實多分析幾個結果,多看個數據集的結果會更好一些。常用的資料庫就是GEO了,但是使用GEO還要一個一個數據集找,這樣又很浪費時間。所以有沒有簡單的方法呢?
  • Oncomine數據挖掘快速發文捷徑
    但是現在不一樣了,現在進入了數據大時代,特別是生物信息學方面的數據,資料庫越來越多,像GEO,TCGA,Oncomine。雖然專業搞生信都要會編程,當然GEO,TCGA也離不開編程,但是這裡有一個資料庫不用編程的,這個資料庫是Oncomine,差異表達分析,共表達分析,Outlier分析等等Oncomine自己都會分析,不用任何代碼,我們只要會點滑鼠就可以了。接下讓我們一起看一下到底是怎麼樣操作?
  • #數據挖掘##高階統計#「距離計算」(基因晶片數據挖掘基本概念)
    原標題:#數據挖掘##高階統計#「距離計算」(基因晶片數據挖掘基本概念) 餘弦相似度 這裡我將奉上最後一個公式:餘弦相似度。它在文本挖掘中應用得較多,在協同過濾中也會使用到。為了演示如何使用該公式,我們換一個示例。
  • oncomine資料庫的申請和使用
    網站:https://www.oncomine.org/首先需要去申請帳號:一般需要學校edu
  • 文章著急發表數據卻不夠?找找這幾個網站吧,圖片直接拿來用!
    1、Oncomine網址:https://www.oncomine.org/resource/login.html應該是現在最方便的腫瘤數據挖掘平臺了,用學校郵箱註冊以後,按照自己的研究方向一頓選擇,就能產出一堆圖出來,關鍵還能直接放到文章裡。
  • 基因晶片技術未來大有可為
    摘要:2008年12月16日,上海生物晶片有限公司暨生物晶片上海國家工程研究中心整合旗下系統技術平臺、商業化服務體系、高素質服務團隊等資源成立了致力於研發外包服務的專業化公司——上海伯豪生物技術有限公司。我們就基因晶片技術與服務的市場發展這一話題,特別採訪了現任上海伯豪董事長兼總經理肖華勝博士。
  • SBC ceRNA晶片的潛在轉錄調控機制和臨床應用方向
    它們可以通過作為轉錄因子和輔助因子的結合平臺來維持轉錄的精確控制。超級增強子是由一簇典型增強子串聯組成的具有更強轉錄調控能力的順式元件。而全基因組分析發現增強子和超級增強子可以普遍進行轉錄,產生eRNA和SE-lncRNA。它們都具有組織表達特異性,而且在影響增強子活性和其他不同機制來調控著基因表達。
  • 基因測序(視頻+課件),輕鬆學會數據的處理和分析
    那麼對於初學者來說,想要進入這個領域,我覺得一開始需要重點搞清楚幾個基本概念。比如,什麼是基因組,什麼是轉錄組,什麼是蛋白組,什麼是染色體,什麼是基因,什麼是基因重組,什麼是進化/演化,什麼是表觀遺傳,什麼是變異,變異類型有哪些,NGS技術是什麼,測序儀的工作原理是什麼,DNA是如何被測出來的等這些東西。
  • 中科院趙方慶團隊在Genome Biology發表環形RNA大數據整合挖掘平臺
    研究人員通過整合自有及公共轉錄組數據,獲得覆蓋6個物種(人、猴、小鼠、大鼠、豬和雞)的19個組織類型,共計1070個轉錄組數據集,構建了目前覆蓋物種最廣、數據最齊全的環形RNA整合數據資源平臺circAltas (http://circatlas.biols.ac.cn)。該平臺收錄超過100萬個高質量的環形RNA分子,其中>80%具有全長轉錄本序列。
  • 基因晶片研究,潛在的醫學診斷需求為基因晶片創造市場空間
    這一階段,中國政府對基因晶片診斷技術的審核、醫療機構、醫師和技師開展基因晶片診斷技術有了嚴格的管理要求,基因晶片診斷技術的臨床應用規範化發展。產業化探索期(2011 年至今)在取得基因晶片診斷技術的一系列革新後,中國政府將行業發展重心放置於產業化,通過建立基因檢測技術應用示範中心、建立多種疾病基因資料庫等措施加強醫療機構、科研機構、 基因晶片生物企業等與基因晶片行業相關的主體之間的合作,推進技術創新和臨床應用,促進基因晶片產業化進程,有助於行業蓬勃發展。
  • 生物晶片入門(一):生物晶片及應用簡介(生物晶片,基因,藥物,晶片技術)
    現在,肝炎病毒檢測診斷晶片、結核桿菌耐藥性檢測晶片、多種惡性腫瘤(malignant tumor)相關病毒基因晶片等一系列診斷晶片逐步開始進入市場。基因診斷是基因晶片中最具有商業化價值的應用。基因晶片技術就是為實現這一環節而建立的,使對個體生物信息(bioinformation)進行高速、並行採集和分析成為可能,必將成為未來生物信息(bioinformation)學研究中的一個重要信息採集和處理平臺,成為基因組信息學研究的主要技術支撐。比如研究基因生物學功能的最好方式是監測基因在不同組織、不同發育階段、不同健康狀況下在機體中活性的變化。
  • 尹文兵 基於基因組數據的真菌天然產物挖掘——國家微生物科學數據...
    國家微生物科學數據中心特別邀請我國微生物組學技術及大數據領域十位名師,推出網絡系列精品課程,本期邀請中國科學院微生物研究所尹文兵研究員分享《基於基因組數據的真菌天然產物挖掘》。本課程從天然產物來源,作用,發展現狀,挖掘方式幾個角度進行講解,包括發展現狀中的兩個重要事件,單基因和調控因子兩種天然產物挖掘方式具體實例解析等內容。歡迎大家登陸國家微生物科學數據中心網站(http://nmdc.cn/video)觀看學習。/主講嘉賓介紹//精彩搶先看/真菌是世界上第二大物種,可產生豐富多彩,結構多樣化的天然產物。
  • 廈門建染色體遺傳病基因晶片開放式檢測研究平臺
    新華社廈門5月29日電(記者項開來)廈門市婦幼保健院日前建成染色體遺傳病基因晶片開放式檢測研究平臺。今後只需取10毫升羊水或2毫升臍血,就能進行全基因掃描,一次性檢測出90多種遺傳病,幾乎囊括了人類目前已發現的所有遺傳病。
  • 精品網課:尹文兵 基於基因組數據的真菌天然產物挖掘
    國家微生物科學數據中心特別邀請我國微生物組學技術及大數據領域十位名師,推出網絡系列精品課程,本期邀請中國科學院微生物研究所尹文兵研究員分享《基於基因組數據的真菌天然產物挖掘》。本課程從天然產物來源,作用,發展現狀,挖掘方式幾個角度進行講解,包括發展現狀中的兩個重要事件,單基因和調控因子兩種天然產物挖掘方式具體實例解析等內容。歡迎大家登陸國家微生物科學數據中心網站(http://nmdc.cn/video)觀看學習。
  • GB-GIAS基因組數據分析一體化服務平臺
    【IT168 資訊】23GENEBANK的基因組數據分析系統,從GB-CHIP,GB-WGS-REPORT,GB-TARGRUG等一路走來,歷經15項核心技術突破,完成了從基因晶片到二代測序,從定製靶向捕獲測序到全基因組測序,從疾病風險預測到家族遺傳性疾病檢測再到腫瘤精準用藥的全方位覆蓋。
  • 確認過眼神,是值得挖掘的單細胞測序資料庫
    另外就是存儲在GEO資料庫中的單細胞測序數據結果了,其中的存儲相對比較零散,沒有專庫專用的特點。考慮到單細胞測序的趨勢,這裡總結整理一個單細胞測序資料庫相關的系列,今天白介素同學介紹一個著名的公共資料庫內置的單細胞測序資料庫,ArrayExpress https://www.ebi.ac.uk/arrayexpress/,存儲了大量的晶片及測序結果,大概看下長啥樣。