在做腫瘤研究的時候,我們現在都知道可以提前查一下基因的表達和臨床特徵有沒有相關性 ,這樣對我們的下一步實驗也是一個預測的方向。經典的我們可以使用TCGA的數據來進行分析,我們之前介紹的GEPIA就可以來進行分析。但是對於測序的結果而言,其檢測的結果不管是基於人種或者其他的原因,可能和我們的實驗結果有可能存在偏差。這個時候其實多分析幾個結果,多看個數據集的結果會更好一些。常用的資料庫就是GEO了,但是使用GEO還要一個一個數據集找,這樣又很浪費時間。所以有沒有簡單的方法呢?今天就給大家介紹一個匯總了多個癌種,多個數據集的綜合性分析基因表達和臨床相關性的資料庫:oncomine(https://www.oncomine.org/)。
由於這個資料庫還是很重要使用起來也是很簡單的,所以這裡就從註冊帳號開始,很詳細的介紹一下這個資料庫的功能吧。
要想順利使用Oncomine,首先得有個帳號,其中免費註冊僅限非營利機構郵箱(院校或科研機構)。
點擊上圖紅色方框處Not a user? Register now!進行註冊。
根據上圖提示,輸入相關信息,提交。要注意檢查一下自己郵箱,系統會發送帳號密碼過來,我們使用郵件提供的帳號密碼登陸oncomine,系統會提示修改密碼,按照指示操作即可。注意,修改密碼後系統會再次發送一封確認修改密碼的驗證郵件,其中包含確認連結,我們必須點擊連結後才可正常使用。
登陸帳號後,選擇數據集(研究對象):在左邊的 「Primary Filter」 中依次選擇Analysis Type →Differential Analysis → Cancer vs. Normal Analysis → Gastric Cancer vs. Normal Analysis(7)。頁面自動跳轉為胃癌及癌旁對照的晶片數據子集。
其中數字7代表該資料庫包含7個胃癌相關相關數據集。
此處默認顯示的是第一個數據子集的數據表達情況,我們可以通過選擇其他數據子集來查看相應數據。詳細介紹如上圖所示,其中熱圖的每個格子代表一個樣本的表達數據,滑鼠置于格子上時,會顯示該樣本的對應數據信息。
點擊研究名稱(此處為Chen Gastric(132)),可以查看該研究中的數據情況,如下圖。
當然,我們也可以進行多數據集整合檢索基因表達差異(Meta分析)。
根據研究目的,選擇數據集,比如我們這裡想看一下與腸型胃癌相關的差異表達基因。勾選該資料庫包含所有腸型胃癌的數據子集後,點擊上方Compare按鈕。
右側頁面將會顯示所選數據集的meta分析結果。其中Median Rank代表中位秩,即秩的中位數。
Oncomine支持幾乎所有蛋白編碼基因,部分研究較多的非編碼 RNA也能搜索到。這裡我們以編碼基因TP53為例,進行後續介紹。在搜索欄中輸入TP53,點擊搜索按鈕,頁面如下:
我們可以根據表格上方的篩選條件(p值、變化倍數等)擴大或縮小篩選範圍。
Outlier分析是基於腫瘤異質性進行的離群值或異常值的分析,即只在腫瘤的某些亞型或特定群體中異常表達。比如10%胃癌中TP53表達顯著升高,但如果是在全部樣品中分析TP53的表達差異顯著性,不會有顯著性差異,但是僅在這10%的樣品中有差異,我們可以分析這10%的樣品有何共同之處,從而找出影響TP53顯著變化的因素。
對於圖中的小方格,藍色代表TP53在對應的腫瘤低表達,紅色代表高表達,灰色代表沒有數據。其中數字表示符合篩選條件的研究數量。
滑鼠置于格子上方,會顯示對應的信息。點擊小方格可以直接進入該研究的數據頁面。比如這裡點擊胃癌,可以進入TP53在胃癌中的表達數據頁面。
Reporter代表探針。一般晶片對同一基因可能會設計多個探針(分別針對基因的不同位置的序列),不同的探針會返回不同的信號值,因此選擇不同的探針,分析的結果就會不同,當然,不同的探針的結果不能放在一起進行比較(當成是同一探針)。檢索時Oncomine會自動顯示P值最小的結果。
頁面最下方顯示數據來源。如上圖中所選擇的分析來源是GEO資料庫中的GSE13911研究。我們一般要使用這個研究的數據時,除了引用Oncomine之外,還要引用這個分析來源(原始文獻)。
當然,我們也可以進行單基因的Meta分析。輸入目的基因後,根據研究目的,選擇相應數據集,比如我們這裡依舊想看一下TP53與腸型胃癌的關係。勾選該資料庫包含所有腸型胃癌的數據子集後,點擊上方Compare按鈕。
Meta分析結果顯示TP53在腸型胃癌中的表達情況,P值<0.05。勾選的分析名稱前面的數字對應Meta分析結果裡的序號。Meta分析的的意義在於整合比較該基因在不同研究和不同分析中的表達情況,結果可以直接用於文章中。
說起基因表達,那必須要研究生存呀。這裡我們想看TP53在胃癌中的生存情況,輸入基因名稱後,依次選擇左側欄的篩選條件,頁面自動跳轉。
由於我們是免費版本,所以這些數據不能下載,要手動摘錄樣品名稱、基因表達、生存狀態及生存時間數據後再利用其他軟體(SPSS、GraphPad、R等)做生存分析。
數據少的話尚不費力,但碰到巨多樣本的時候怎麼辦?一個個摘錄就沒意思啦。這裡告訴大家一個小竅門,我們上文數次提到數據來源,這個很重要,我們可以根據數據來源來直接下載數據。如下圖:根據Pubmed連結可直接連結至該文章,一般在補充材料部分作者會上傳該項研究的基因表達及臨床相關信息,包括臨床病理參數及生存情況。這時候我們下載後便可以進行後續分析啦。當然,有的上傳部分或者乾脆沒有上傳的也無可厚非,大家可以先自行找一下。
如果有臨床病理參數數據的話,自然也可以進行基因表達與臨床病理參數的相關分析,比如腫瘤分期分級、突變、藥物敏感性等。操作過程同上,輸入目的基因後,選擇癌症類型,選擇病理亞型。
輸入目的基因TP53,依次選擇左側篩選框內的篩選條件後,頁面跳轉如下:
圖中顯示,與TP53表達相關係數最高為0.753,我們可以進一步檢索這些高相關性基因的功能,必要時進行實驗驗證。
我們要注意的是Oncomine中的共表達不能對多個研究進行比較(Meta分析)。因為不同的研究中,與目標分子共表達的基因大多是不同的,所以在選擇研究名稱時,儘量選擇「cell line」的研究,因為在細胞系中檢測,相對於臨床組織樣本,個體差異更小,幹擾更小,後期實驗可預期性會更好。
好啦,今天給大家介紹了Oncomine的大部分功能,整體不難,傻瓜式的點點點,具體還有更多更為詳盡的功能等著大家去發掘,而不僅限於查看一個基因是否差異表達喲!