腫瘤經典資料庫Oncomine,腫瘤研究的萬金油,看這篇就夠了

2021-01-14 挑圈聯靠


Oncomine也是腫瘤領域中一個經典的樣本資料庫,能幫助我們篩選一些值得研究的靶分子,或預測表型。為什麼說「也」呢?因為它和咱們之前討論過的TCGA一樣,都是腫瘤領域應用較廣的資料庫。


不過Oncomine和TCGA相比的優勢就是,它除了數據,還提供了一些簡潔易操作的分析工具,如差異表達分析、共表達分析等,分析後可以直接出圖用在文章裡。另外它還整合了TCGA和GEO的部分數據。缺點是,免費版的數據不能下載,收費又天價。不過辦法還是有的,先賣個關子。


TCGA的優點就是維度較高,層次很豐富,缺點就是不提供分析工具,得另找或另學。這裡就不說這麼多了,大家可以根據自己的情況選用。今天我們單講Oncomine。



要說應用,倒和TCGA差不多,主要兩方面。


一方面是在沒有前期工作基礎的時候,從資料庫中挖掘篩選出候選分子作為今後的研究方向。翻譯:用來博士開題,或者忽悠一個基金。


另一方面,是在自己做過高通量篩選拿到靶分子的情況下,利用資料庫來分析它們在腫瘤中的表達情況,跟臨床生存、預後的相關性,為自己的研究提供更多的論據;同時也是為將來的機制研究多做點評估,如果你的實驗中有差異的分子在別人的實驗中也有差異,相對來說風險就小一些。


於是,咱們之前討論過的《TCGA篩到了基因,如何繼續往下做?》這個話題,其實也適用於Oncomine。


從技術上說,Oncomine的主要功能有基因表達差異分析、基因表達與臨床相關性、多基因共表達分析等。


下面咱們繼續通過五個案(作)例(業),來了解一下從檢索到分析出圖的流程。聽說這回的作業是「授之以漁、考之以鮒鯰魴鯨魷鮪鮫鮮鱷鰾鯛鰷鯪鮑鱗鮐鱘」?嗯,確實有點難的。


註:Oncomine的帳號註冊是要用非營利郵箱的,大家自行準備。有學校郵箱的小夥伴要珍惜;沒有的能借就借,實在沒有的,呃,去找馬爸爸吧(可能有些學校的郵箱註冊了要等一會才有驗證消息,不要急著花錢,我等了一天呢)。



登錄Oncomine之後,可以看到左邊有一個搜索框和篩選目錄(filter)。當你本身已有候選基因時,可以在搜索框中輸入基因名去檢索,沒有就留著。


下邊的篩選目錄分好幾個層次,包括Primary Filters,Sample Filters,Dataset Filters,Concept Filters。Primary Filters可選擇分析類型、數據集、數據來源、癌種等。還可以再點開子目錄。


下邊的Sample Filters則是對臨床相關的信息做出分類,如腫瘤來源部位、治療應答情況、復發、生存等等。


Dataset Filters可以選擇數據類型(DNA或mRNA)、數據集名稱、大小、測序平臺等等。


Concept Filter咱們不太常用,是一種預設好的模式,在此表過不提。



咱們查詢、篩選,找到自己需要的信息,就是通過這些Filters的組合。其實你玩著玩著就會發現它很像某些購物網站嘛,輸入關鍵字「鞋子」,然後通過篩選條件,鞋跟選「細高細」啦、風格選「森女」啦等等。


誒?森女風 + 細高跟會搜出來什麼鬼?篩基因也有可能出現這種情況哦,Filters搭配不合理,搜出來的東西很少甚至空白,你還以為發現了未開發的處女地。所以Filters的搭配是很體現研究者策略能力的地方,這可以通過文獻學習來提高。


下面,假設我們前期通過自己的高通量實驗或讀文獻,拿到了幾個感興趣的候選分子,現在要在Oncomine中看看它們的表達情況。


作業一:


用Oncomine查詢CXCL8、CXCR1、CXCR2在腫瘤中的差異表達情況(cancer VS normal)。篩選條件:P-value:1E-5;Fold Change:3;GENE Rank:Top10%;DATA TYPE:mRNA。


三個候選基因,一個一個查。首選在搜索框中輸入CXCL8,然後按題目要求選擇Filters。Filter目錄中,Primary Filters → Differential Analysis → Cancer vs. Normal Analysis。還有下方的Dataset Filters → Data Type → mRNA。選上的Filters就會出現在上邊selected板塊,想改變的化還可以點旁邊的 x 刪掉。



然後看頁面最右邊,找到Other Views,選中Gene Summary View。



在上方還有一個篩選條,再根據題目要求選上相應的P值、變化倍率、Gene Rank。



這樣就可看到下方的熱圖展示CXCL8在腫瘤中Cancer vs. Normal的差異表達情況。



旁邊的列表裡還有不同的癌腫,你也可以點進去看看,看完又從剛才的Other View那裡點回Summary。


用同樣的方法檢索其他兩個基因,我就不貼圖了。


作業二:


用Oncomine分別查詢CXCL8在腸癌組織(與正常比)中高表達的數據集和低表達的數據集。篩選條件:P-value:1E-4;Fold Change:3;GENE Rank:Top10%。


也和剛才的差不多,變換一下篩選條件。在剛才Cancer vs. Normal的篩選目錄下,再點開一步,找到Colorectal Cancer blabla。



然後右邊彈Datasets選項卡,繼續選上符合條件的P值、Fold Change和Gene Rank。然後題目還有個要求,是分別看高表達和低表達的數據集,此處ORDER排序框中的Over-expression就是高表達,把下拉框打開選Under-expression就是低表達的數據集了。



如上圖中Kaiser Colon下邊還有展開的數據集,都可以點進去看。選擇Under-expression後沒有展開的數據集,那就是沒有符合搜索條件的了。



排序除了按Gene Rank,還可以按變化倍率、P值,大家可以自己試一下。下邊展示的是剛才高表達數據目錄中第一個數據集。你也可以點旁邊的箱形圖圖標去看看匯總統計的情況。



可以從legend看到左邊是結腸組織(5個樣本),右邊是黏液腺癌(13個樣本)。



作業三


用Oncomine查詢CXCL8在腸癌TCGA數據子集中的表達,並查看其表達與腸癌患者總體生存狀態的關係。


仍然是篩選條件的組合,像剛才一樣,P值、變化倍率等沒要求的地方就用默認值吧。這回找「腸癌」不要從剛才差異分析那裡找了哦,從下方的Cancer Type裡找。然後右邊Order按名稱排序就可以方便地拉到T字頭找TCGA。



可以看到TCGA來源的數據集有2個,一個是mRNA,一個是DNA。可以點數據集標題看一下總的情況,分別選擇箱線圖或條形圖看看。



接下來要看生存狀態了,在Group by下拉框中選擇Overall Survival Status。




那個下拉框中還有其他關於生存情況的信息,如隨訪天數、生存/死亡時是否帶病、1年/3年生存狀態等,大家自行去看吧。



剛才做了幾個熱身,大家是不是躍躍欲試了呢?文獻中的圖就是這麼來的嗎?找兩篇來照貓畫虎就是了~


作業四:


模仿文獻(PMC4466664)作圖,如下Figure 2A和2B,LIFR mRNA在肝癌中表達下調。



前期工作中(可能是文獻閱讀)找到一個感興趣的分子LIFR,想看看它能否作為高分化肝細胞癌的診斷標誌物。於是作者先在Oncomine中查看一下已發表的數據中它是個什麼情況。


搜索LIFR,在Cancer Type中找到肝癌,然後在Summary圖形上方設置篩選條件,左邊一欄Cancer vs. Normal的總覽情況截下來就是圖A了。



這部分圖中可以看出,20種癌症中,有12種是LIFR下調的,尤其是消化系統癌症,如肝、腸、胃。然後點一個自己研究範圍內的癌腫,本例中就是肝癌。


點開之後,先看到左邊排第一位的是Wurmbach Liver數據集,圖下方有其發表的文獻出處,可以檢索來進一步閱讀了解。目前展示的兩個直方圖是肝細胞癌和癌前病變的樣本。



點選左邊Wurmbach Liver的粗體標題,就變成全樣本,下邊的箱線圖就把癌前病變的樣本展開了,包括肝硬化和肝細胞不典型增生,加上No value的。這就是圖B左上方的那個小圖。



接著看Reporter,這是測序時的探針,點選另三個就可得到圖B的另外三個小圖,這裡不再貼出。


所以,四個探針中,肝癌樣本中LIFR都是低表達的。再從文獻中查閱其他研究,看看它的生物學意義,探討一下它是否可能成為診斷標誌物,然後就可找自己的樣本來檢測驗證一下。


作業五


模仿文獻(PMC4012734)Figure 3A作圖,TP63和MMP3在乳腺癌中的共表達分析。


文章是做了乳腺癌和黑色素瘤的,我們就用乳腺癌為例吧。


作者通過一些前期工作(細胞實驗等)發現p63可能會直接調控MMP13的表達,與癌症侵襲轉移相關。於是在Oncomine中看看人類癌症樣本的情況,做個共表達分析。


因為是研究癌症轉移,而乳腺癌異質性較大,還未有很好的標誌物來鑑定轉移性高的乳腺癌;而黑色素瘤的進展、轉移發生率較高,是侵襲性較高的癌症之一,所以選擇這兩種癌症。



共表達分析(Coexpression)咱們剛才沒有多說,但細心的同學可能已經發現在哪了,操作不難。


按圖注所說,在搜索欄中搜「TP63」,Filter目錄中的Analysis Type選Coexpression,Cancer Type選Brest Cancer。右邊數據集列表中根據圖的小標題找到Loi的數據集。



點開之後看旁邊的熱圖,第一行就是TP63,通過翻頁的方式找到下邊的MMP13。剩下的就截圖組合粘貼的工作了。黑色素瘤再來一遍。



不過這樣做有可能達不到發表要求。如果你有收費版帳號,是可以去右上角導出Excel,用原數據自己做一個高清的圖。但是收費太太太太太貴了!咋辦呢!


我用的Chrome瀏覽器,其他的應該也有這個功能吧?你試試。在瀏覽器中Shit + Ctrl + I,或者右鍵 → 檢查。然後會在瀏器下方彈出一個窗口。選擇Element之後會彈出一堆網頁代碼。不管,Ctrl + F搜索MMP13。



找到MMP13後,把滑鼠懸停在MMP13第一個方格上,再對比代碼,看看這一行不就是滑鼠懸停時彈出來的標籤?



然後選中那行,右鍵 → Copy → Copy Element,再貼到微軟自帶的那個記事本裡。然後把表達值和樣本名字前後的代碼都刪掉,而表達值和樣本名稱中間的那串東西,選中之後按鍵盤上的Tab鍵。



是的,87個樣本就操作87次,因為沒法一下子選擇多行。87行都做成上圖第3行那種效果之後保存。再強調一遍,表達值和樣本名稱中間那個空格不是按空格鍵的效果,而是按Tab鍵!保存好之後就可以用Excel打開了。


然後做熱圖的方法咱們教過的吧?這些數據你也可以拿去做其他分析。貌似我還沒有想到更好的偷數據的辦法,你有的話分享粗來,我們會很感激的~


好了,教你偷數據這種事可不能到外面亂講,萬一……(呃,我好像不該寫)。你造嗎?馬爸爸上edu郵箱的價格,本課程剛開設的時候,酸菜打聽的行情是10塊錢,現在都翻三倍多了。你要是去找馬爸爸要郵箱,記得說「老闆就給10塊錢預算」。不許說是我說的。


相關焦點

  • Oncomine:腫瘤晶片資料庫
    腫瘤作為人類健康的頭號殺手,其研究的重要性不言而喻。隨著晶片和NGS技術的發展,發表了很多的腫瘤相關數據。然而這些數據來自不同的組織和團隊,由於缺乏統一的數據管理和組織,這些數據在發表之後就沒有再利用了,為了提高數據利用率,促進腫瘤研究的發展,Oncomine的開發團隊收集了各種來源的腫瘤相關的晶片數據,用標準化的分析流程處理這些數據,數據分析的結果通過web服務查詢和可視化,對應的文章連結如下https://www.ncbi.nlm.nih.gov/pmc/articles
  • 腫瘤全面分析資料庫:oncomine使用介紹
    經典的我們可以使用TCGA的數據來進行分析,我們之前介紹的GEPIA就可以來進行分析。但是對於測序的結果而言,其檢測的結果不管是基於人種或者其他的原因,可能和我們的實驗結果有可能存在偏差。這個時候其實多分析幾個結果,多看個數據集的結果會更好一些。常用的資料庫就是GEO了,但是使用GEO還要一個一個數據集找,這樣又很浪費時間。所以有沒有簡單的方法呢?
  • 「oncomine」——如何在大數據時代挖掘腫瘤數據
    這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程。--by老談  在生物學領域,大數據的整合分析更是亟不可待。到目前為止,在腫瘤方面已有oncomine和TCGA這兩個資料庫,可供分析參考。
  • oncomine資料庫的申請和使用
    網站:https://www.oncomine.org/首先需要去申請帳號:一般需要學校edu
  • 腫瘤標誌物是什麼?看完這篇文章讓你能讀懂腫瘤標誌物
    腫瘤標誌物 ,也被稱作腫瘤標記物 ,能夠判斷患者體內是否存在腫瘤 ,了解腫瘤的發展情況 ,觀察治療後腫瘤的具體變化 。 腫瘤標誌物存在於患者體內的組織 、排洩物 、體液中 ,能夠使用醫學上的專業手法進行檢測 ,不同的腫瘤類型 ,其腫瘤標誌物也有存在不同之處 。
  • 找找這幾個網站吧,圖片直接拿來用!
    1、Oncomine網址:https://www.oncomine.org/resource/login.html應該是現在最方便的腫瘤數據挖掘平臺了,用學校郵箱註冊以後,按照自己的研究方向一頓選擇,就能產出一堆圖出來,關鍵還能直接放到文章裡。
  • The Cancer Immunome Atlas:腫瘤免疫圖譜資料庫
    腫瘤免疫療法在多種惡性腫瘤的臨床治療上取得了顯著效果,然而還是存在大部分患者對於免疫療法沒有響應的問題。為了更好的理解腫瘤和免疫細胞相互作用,科學家對來自TCGA和其他幾個大型腫瘤研究項目,共20種實體瘤的NGS數據進行分析,對應文章連結如下https://linkinghub.elsevier.com/retrieve/pii/S2211124716317090為了更好的查看分析結果,將相關數據整理成了一個資料庫,網址如下
  • 傳說中的Oncomine! 【基因數據挖掘專題第十三期】
    它結合了TCGA、GEO、ArrayExpress等資料庫,經過一系列加工、標準化和分析後匯集而成。這有什麼好處?我們平時做的晶片數據往往來自於一個或兩個數據集,偶爾會因為樣本的批次、平臺的差異、實驗的條件等因素使結果與我們預期的不一樣。
  • 突破 | 中國學者建立大規模腫瘤免疫單細胞資料庫
    腫瘤免疫療法在控制腫瘤方面療效顯著,但臨床試驗表明,該療法僅對部分患者有效,多項研究表明這是由高度複雜的腫瘤微環境所導致的,解析腫瘤微環境的生物學特徵將有助於提高腫瘤免疫療法的實用性【2】。傳統的測序技術只能在群體水平進行測序,單細胞轉錄組測序技術的出現,極大地提高了腫瘤微環境圖譜的解析度,使得研究人員可以在單細胞層面探究腫瘤微環境中的細胞組成以及基因表達調控的異質性。近幾年腫瘤病人組織的單細胞轉錄組數據迅速累積,但目前還沒有一個綜合的資料庫將這些已有的數據資源整合起來。
  • 滬建首個兒童血液腫瘤資料庫
    □記者 許沁晚報訊 今天上午,上海交通大學醫學院附屬上海兒童醫學中心兒童血液腫瘤中心大樓奠基。與此同時,上海兒童醫學中心還將建立國內首個兒童血液腫瘤診治信息資料庫,將收集血液腫瘤患兒在發病症狀、醫療過程、預後情況,以及生活情況長期追蹤等方面的信息,用於幫助分析來自不同區域的病兒在疾病發展上的各種情況、治療效果和生活質量。
  • TSGene:腫瘤抑癌基因資料庫
    TSGene是一個從文獻中收集整理的抑癌基因資料庫,文章發表在Nucleic Acids Research,連結如下https://academic.oup.com/nar/article/41/D1/D970/1074154資料庫的網址如下https://bioinfo.uth.edu
  • Martin Murphy談腫瘤資料庫
    腫瘤是人類的公敵,攻克腫瘤是大家共同奮鬥的目標。無論在中國還是全球,我們看到腫瘤的發病率都在逐年攀升,這是全球也是CSCO關注的焦點。在中國,每年約有3百萬新發診斷的癌症患者,2百萬患者每年會死於癌症。CSCO的任務和宗旨就是如何改變這一現狀。
  • OncoKB:腫瘤藥物靶點相關基因組變異資料庫
    OncoKB收集了腫瘤發生發展相關的,具有臨床意義的基因組變異信息,對於每個變異,提供了其對應的生物學效應,藥物互作,預後和治療意義等詳細信息,對應的文章連結如下http://ascopubs.org/doi/full/10.1200/PO.17.00011資料庫的網址如下
  • 多篇文章解讀腫瘤異質性的發生及研究進展
    (CNA),相比常規的基因組分析步驟而言,這種新方法還能以較低的成本保持較高的準確度,這或為後期研究人員開發基因組驅動的靶向性療法以及在液體活檢中對患者的疾病進展進行檢測提供了新的思路和希望。腫瘤細胞的基因組通常會經歷多個異常事件,而這些均與腫瘤生物背後發生的機制密切相關,同時其也能反映在整個基因組的CNA剖面上,而最近研究人員對多種癌症類型進行的研究也都闡明了這一事實,即腫瘤細胞所發生的異常改變模式與癌細胞對不同類型藥物耐受性的增加直接相關,這些藥物包括經典化療、PARP抑制劑乃至免疫檢查點抑制劑等。
  • 類器官模型國內外資料庫近10年文獻研究熱點分析
    目的:總結和分析近10年國內外資料庫類器官模型文獻的研究熱點。方法:計算機檢索萬方、Web of Science、中國臨床試驗註冊中心、北美臨床試驗註冊中心及SooPAT中國專利資料庫與類器官相關的近10年文獻,對類器官模型文獻的研究熱點進行分析總結。
  • oncotator:腫瘤研究專用的突變注釋軟體
    目前,較為流行的突變注釋軟體有以下3種ANNOVARSnpEffVariant Effect Predictor(VEP)這三款軟體適用範圍廣
  • 這款circRNA腫瘤異質性研究神器,究竟有多強?
    各位小夥伴們,大家好~這裡是火火的資料庫專欄。經過前幾期推文的介紹,我們大概說完了circRNA研究領域三個主流研究方向的常用資料庫,包括circbank, circinteractome以及circRNADb資料庫。circRNA研究神器!circRNA編碼蛋白研究必備!我藏不住了!真香!
  • 【三軍大Nature子刊】腫瘤微環境中腫瘤相關巨噬細胞與腫瘤幹細胞...
    腫瘤幹細胞(CSC)及其診療意義是腫瘤研究的重要前沿領域和進展。越來越多的證據表明,CSC是腫瘤發生、轉移和復發的關鍵細胞。CSC如何產生和維持?腫瘤內免疫細胞為何不能有效阻抑CSC的惡性行為?
  • 腫瘤細胞固有PD-1是一種腫瘤抑制因子--免疫治療方法的潛在生物...
    1 腫瘤細胞亞群可以表達PD-1  為了研究PD-1是否在腫瘤細胞上表達,研究人員分析了編碼PD-1的PDCD1基因在癌症基因組圖譜(TCGA)資料庫數據中的表達譜,發現人類PDCD1在32種癌症組織類型中被廣泛轉錄。
  • 腫瘤蛋白標誌物論壇搶先看 | CCTB 2020中國腫瘤標誌物學術大會
    同看一片月,俱在廣州城。2020年中國腫瘤標誌物學術大會暨第十四屆腫瘤標誌物青年科學家論壇,將於12月11日-13日在廣州南豐朗豪酒店(主會場)隆重召開。從事生命體中蛋白質組和蛋白質翻譯後修飾組的分析方法學研究和蛋白質腫瘤標誌物研究。主持國家重點研發計劃、國家自然基金重點項目和 973 課題等課題, 在 Nat Immun、Nat Commun 等期刊發表 SCI 論文164 篇,以第一或通訊作者發表SCI論文一百多篇。