終於來了!傳說中的Oncomine! 【基因數據挖掘專題第十三期】

2021-02-19 醫學方

今天,我們要介紹一個全新的、大名鼎鼎的資料庫

——Oncomine


為了更加形象地幫大家理解這個詞,我們不妨解釋為Oncology Mining,顧名思義,就是挖掘腫瘤方面的生物學信息它結合了TCGA、GEO、ArrayExpress等資料庫,經過一系列加工、標準化和分析後匯集而成。這有什麼好處?我們平時做的晶片數據往往來自於一個或兩個數據集,偶爾會因為樣本的批次、平臺的差異、實驗的條件等因素使結果與我們預期的不一樣。而這個資料庫,可以讓我們站在更高的一個位置來觀察所有相關研究的晶片結果,這一點會在這一節講課中會為大家展示。

另外,據統計,該資料庫收集了約500種腫瘤的基因表達樣本數據。意味著無論你是研究什麼方向,只要是腫瘤方面的,在這裡都能找到屬於你自己的菜。最後的最後,告訴大家的是,oncomine可以進行在線分析,這對於我們一些非生物信息學專業的同志們來說是個極好的消息。那廢話不多說,我們還是來點實實在在的乾貨。

首先打開主頁:

https://www.oncomine.org/resource/login.html

第一步我們就需要進行帳號註冊,這裡需要提醒大家的是,註冊過程中需要非營利性機構的郵箱(大學或研究機構),類似QQ、新浪郵箱是不接受的。其他步驟大家只要按照說明依次操作既可。

註冊成功後,我們就輸入帳號和密碼,進入下面這個界面。

在頁面的左側紅色方框內是我們進行篩選的地方,主要的操作就是在這裡完成的。

接下來,我們假設想驗證一下EGFR這個因子在腦膜瘤中的表達情況。這時,我們得在下面的紅色框內輸入EGFR,並點擊旁邊的「放大鏡」。

此時就會跳出右側這張圖,它反應了EGFR在各種腫瘤內的一個表達情況,其中紅色代表高表達,顏色越深,則表達越高。藍色就代表低表達。這個就有點類似我們之前在GEO裡面學的熱圖。但是第一行分別表示的是不同研究中的組織對照的情況,這裡分別是癌灶Vs.正常組織,癌灶Vs.癌症,癌灶亞型分析等等。

接下來我們點擊上圖中箭頭所指的地方。得到下面這個界面。表示EGFR在神經系統腫瘤與正常組之間的一個表達情況。

方框一指的是我們的過濾條件,一般默認既可。第二個紅色方框表示的是不同神經系統腫瘤與正常組的研究,按照generank由大到小排列。什麼是generank?比方說第一個研究的generank為24,也就意味著在該項研究中有23個其他基因比EGFR更具有顯著性。

這裡由於有很多類型的腫瘤,我們假設只考慮神經膠質瘤,那麼我們把所有的GlionlastomaVs. Normal都選上,進行綜合分析,如下圖。

然後點擊compare即可。

可以很容易看到之前我們選的7個研究,EGFR都是表現為高表達的。同樣地,我們可以去考察其他的亞型是否能得到相似的結果。

這裡小編索性將所有神經系統的腫瘤都納入進來,可以發現有的研究EGFR表達無明顯的統計學差異,顏色上表現為白色。其他則表現為高表達。

好了,今天的內容先介紹到這裡。大家是不是覺得非常簡單呢?但是由於操作的界面有很多選項,所以建議大家還是自己操作一遍會印象深刻。接下去,小編還會繼續跟大家分享這個資料庫的其他功能,希望大家再接再厲!

溫馨提醒:如需查詢既往「豪斯醫生基因數據挖掘專題」推文及視頻,請關注「醫學方」公眾號後點擊「精品專題」進入 

「醫學方」始終致力於服務「醫學人」,將最前沿、最有價值的臨床、科研原創文章推送給各位臨床醫師、科研人員

醫學方已推出「臨床數據挖掘」、「基因數據挖掘」、「R語言教程」、「醫學統計學」、「微創動物實驗培訓」等多個專題課程,如需了解課程詳細推文,可關注「醫學方」公眾號,點擊「精品專題」進入

想了解「醫學方」最新視頻課程動態?可登陸騰訊課堂或網易雲課堂收看

目前已有課程:

(1)醫學方|醫學統計學公開課|石小白老師教您輕鬆學統計(公益免費課程)

(2)醫學方|醫學數據挖掘精品課程|豪斯醫生手把手教您如何數據挖掘

騰訊課堂:https://medfun.ke.qq.com

網易雲課堂:http://study.163.com/u/ykt1467466791112

客服電話:15821255568

客服微信:yixuefang1234

微信公眾號:

如果你覺得文章還不錯,就請點擊右上角選擇發送給朋友或者轉發到朋友圈。您的支持和鼓勵是我們最大的動力。喜歡就請關注我們吧~

長按二維碼

關注我們

相關焦點

  • 「oncomine」——如何在大數據時代挖掘腫瘤數據
    這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程。--by老談  在生物學領域,大數據的整合分析更是亟不可待。到目前為止,在腫瘤方面已有oncomine和TCGA這兩個資料庫,可供分析參考。
  • Oncomine:癌基因晶片數據挖掘平臺系列介紹(一)
    這些晶片數據來源於美國 NCBI的Gene Expression Omnibus (GEO) 、EBI的ArrayExpress,斯坦福基因晶片資料庫( Stanford Microarray Database, SMD ), 癌症和腫瘤基因圖譜(TCGA)以及文獻。
  • Oncomine數據挖掘快速發文捷徑
    Oncomine是大型腫瘤基因晶片資料庫,涵蓋65個基因晶片數據集、4700個晶片及4億8千萬個基因表達數據,可用於分析基因表達差異、尋找離群值、預測共表達基因等,並可根據腫瘤分期、分級、組織類型等臨床信息進行分類,還可依據已知的基因—藥物分析尋找可能的分子標記物與治療靶點。Oncomine囊括了19種癌症基因晶片數據,含有715個數據集,86733個樣本,各樣各樣的分析。
  • 腫瘤全面分析資料庫:oncomine使用介紹
    經典的我們可以使用TCGA的數據來進行分析,我們之前介紹的GEPIA就可以來進行分析。但是對於測序的結果而言,其檢測的結果不管是基於人種或者其他的原因,可能和我們的實驗結果有可能存在偏差。這個時候其實多分析幾個結果,多看個數據集的結果會更好一些。常用的資料庫就是GEO了,但是使用GEO還要一個一個數據集找,這樣又很浪費時間。所以有沒有簡單的方法呢?
  • oncomine資料庫的申請和使用
    網站:https://www.oncomine.org/首先需要去申請帳號:一般需要學校edu
  • Oncomine:腫瘤晶片資料庫
    該資料庫中主要收錄了以下兩種類型的腫瘤晶片數據mRNA  expressionDNA copy number每批晶片數據用dataset表示,所有晶片數據對應的腫瘤類型和樣本數示意如下共表達分析在search框中指定一個感興趣的基因,然後可以查看在特定數據集中與該基因存在共表達的基因結果,示意如下correlation從0到1,越接近於0, 說明相關性越高。
  • DIA年會專題 深度基因數據與深度臨床數據在新藥研發中的應用
    10月29日,領星生物如期亮相「新興技術和數位化醫療」專場,並由創始人、總裁兼執行長許強博士發表主題為「深度基因數據與深度臨床數據在新藥研發中的應用」的專題演講, 分享了數據驅動的真實世界臨床研究方案如何為生物製藥公司提供強大的數據挖掘能力,為腫瘤藥物的開發和商業化提供助力,並且以中國癌症患者真實世界數據(RWD)帶來的挑戰與機遇為切入點,闡述了領星生物如何運用中國癌症患者的真實世界全面的基因組數據以及縱深臨床數據(Complete genomic+ Deep Clinical)並結合人工智慧算法,在疾病洞察、癌症轉化研究以及腫瘤藥物臨床開發等多個維度幫助製藥企業實現更高效的真實世界研究
  • 科學網—韓家煒:數據挖掘第一人
    「他有『數據挖掘第一人』之稱,是伊利諾伊大學香檳分校具有國際影響力的著名科學家,我們很多學生都選了他的課。」 「我上個月去聽了韓家煒教授的講座,果然是學術大牛,分析問題一針見血,講述道理深入淺出,原先對數據挖掘領域許多一知半解的問題都豁然開朗。」一個園藝設計專業的中國留學生介紹。
  • 從概念到應用,這一次終於把數據挖掘給講明白了
    作者 | 陳封能 來源 | 《數據挖掘導論》(原書第2版) 導讀:數據採集和存儲技術的迅速發展,加之數據生成與傳播的便捷性,致使數據爆炸性增長,最終形成了當前的大數據時代。圍繞這些數據集進行可行的深入分析,對幾乎所有社會領域的決策都變得越來越重要:商業和工業、科學和工程、醫藥和生物技術以及政府和個人。
  • 【高中生物】專題十三 | 基因工程和細胞工程
    ①第1次篩選:利用特定選擇培養基篩選,獲得雜交瘤細胞,即AB型細胞(A為經免疫處理的B淋巴細胞,B為骨髓瘤細胞)。  ②第2次篩選:利用多孔板法和抗原—抗體雜交法篩選,獲得產生特定抗體的雜交瘤細胞。【常用句式】1.基因表達載體的構建過程中,使用兩種識別序列不同的限制酶切割目的基因和質粒的目的是 避免目的基因和質粒的自身環化和隨意連接。2.核移植獲得的克隆動物與提供細胞核的親本性狀可能不同的三個原因:卵母細胞的細胞質中含有少量的遺傳物質;發育過程中可能發生基因突變或染色體變異;外界環境可能引起不遺傳的變異。
  • 青年大學習|第九季第十三期:「構建人類命運共同體」的重要性和...
    「青年大學習」系列精品課   第九季第十三期   今天   我們學習的主題是:   構建人類命運共同體   開始學習之前,先來回顧一下   第九季第十二期各團組織的學習情況吧   第九季第十二期   各團組織「青年大學習」紅旗榜   學校線   在參學比上
  • 文章著急發表數據卻不夠?找找這幾個網站吧,圖片直接拿來用!
    實驗數據的豐富程度是你能不能發文章的關鍵,我明明很努力了,可我的文章為什麼還這麼單薄呢?那是因為有些資源你還沒有利用起來,合理利用這些資源能夠讓你的文章今天跟大家總結一下文章中,那些可以直接為你「產圖」的網站吧。
  • 在大數據中,數據挖掘到底有幾種方法?我來告訴你!
    利用數據挖掘開展數據統計分析常見的方法關鍵有歸類、多元回歸分析、聚類算法、關聯規則、特點、轉變和誤差剖析、web頁挖掘等,他們各自從不一樣的視角對數據信息開展挖掘1、神經元網絡方法2、遺傳算法遺傳算法是一種根據微生物自然選擇學說與基因遺傳原理的任意優化算法,是一種仿生技術全局性提升方法。遺傳算法具備的暗含並行性、便於和其他實體模型融合等特性促使它在數據挖掘中被多方面運用。
  • GEO數據挖掘篩選關鍵基因,然後實驗驗證的發文思路
    沒有科研經費的人會比較喜歡純生信數據挖掘這種模式;有科研經費的人可能更喜歡生信+實驗這種模式。之前純生信數據挖掘的發文思路已經分享了很多,所以這次我們分享一下GEO數據挖掘篩選關鍵基因,然後實驗驗證的發文思路。本次的參考範文發表在Thoracic Cancer上,影響因子:2.61,中科研分區:3區。
  • 2020年 第1期 | 專題前言:突發事件應急情報分析
    大數據環境下,應急管理工作面臨嚴峻的挑戰,需要在新時代中國特色社會主義體系建設中,在總體國家安全觀的理論指導下,努力將我國建設成為既能有效預防和減少突發事件的發生,又能在事件發生時及時響應、事後迅速恢復的強韌性國家。
  • 從宏基因組數據中挖掘、分析和整合病毒信號
    今天分享的生物信息分享工具,VirMiner,一款網頁伺服器,用於宏基因組數據的分析,挖掘、分析和整合病毒信號。一、背景病毒是微生物群落的重要組成部分,有助於其穩態和進化。人體腸道菌群中的病毒群落以噬菌體為主。
  • 第十期蛋白質分離純化技術專題研討班通知
    關於舉辦第十期蛋白質分離純化技術專題研討班的通知  隨著生物技術的迅猛發展,我國在生命科學領域的創新能力顯著提高,一大批具有自主智慧財產權的生物技術成果得到廣泛應用,中國生物產業正高速成長
  • 領域大數據知識圖譜專題 《中國科學:信息科學》
    卷 第7期 專題簡介 知識圖譜本質上是一種大型的語義網絡,用以描述客觀世界中的概念、實體及其相互關係。 為推動領域大數據知識圖譜的研究,交流相關研究進展與成果,《中國科學: 信息科學》在2020年第50卷第7期組織出版「領域大數據知識圖譜專題」,經過嚴格的同行評議, 專題共收錄 7 篇文章, 主題涵蓋推薦系統、科技知識圖譜、事理認知圖譜、人物關係圖譜、地理知識圖譜、篇章事件連通圖、旅遊知識圖譜等方面的內容。
  • #數據挖掘##高階統計#「距離計算」(基因晶片數據挖掘基本概念)
    原標題:#數據挖掘##高階統計#「距離計算」(基因晶片數據挖掘基本概念) 餘弦相似度 這裡我將奉上最後一個公式:餘弦相似度。它在文本挖掘中應用得較多,在協同過濾中也會使用到。為了演示如何使用該公式,我們換一個示例。
  • ...志行遠——我校第十三期「青馬工程」培訓班開展集中理論學習教育
    青馬工程為深入學習貫徹習近平新時代中國特色社會主義思想,認真貫徹落實習近平總書記關於青年工作重要論述,著力提升我校「青年馬克思主義者」理論素養,我校第十三期「青年馬克思主義者培養工程」培訓班廣泛開展集中學習活動,通過舉辦專題線上理論講座、學員討論會、撰寫讀書報告等形式,開展學習習近平總書記系列重要講話精神、「四史」專題教育