Oncomine也是腫瘤領域中一個經典的樣本資料庫,能幫助我們篩選一些值得研究的靶分子,或預測表型。為什麼說「也」呢?因為它和咱們之前討論過的TCGA一樣,都是腫瘤領域應用較廣的資料庫。
不過Oncomine和TCGA相比的優勢就是,它除了數據,還提供了一些簡潔易操作的分析工具,如差異表達分析、共表達分析等,分析後可以直接出圖用在文章裡。另外它還整合了TCGA和GEO的部分數據。缺點是,免費版的數據不能下載,收費又天價。不過辦法還是有的,先賣個關子。
TCGA的優點就是維度較高,層次很豐富,缺點就是不提供分析工具,得另找或另學。這裡就不說這麼多了,大家可以根據自己的情況選用。今天我們單講Oncomine。
要說應用,倒和TCGA差不多,主要兩方面。
一方面是在沒有前期工作基礎的時候,從資料庫中挖掘篩選出候選分子作為今後的研究方向。翻譯:用來博士開題,或者忽悠一個基金。
另一方面,是在自己做過高通量篩選拿到靶分子的情況下,利用資料庫來分析它們在腫瘤中的表達情況,跟臨床生存、預後的相關性,為自己的研究提供更多的論據;同時也是為將來的機制研究多做點評估,如果你的實驗中有差異的分子在別人的實驗中也有差異,相對來說風險就小一些。
於是,咱們之前討論過的《TCGA篩到了基因,如何繼續往下做?》這個話題,其實也適用於Oncomine。
從技術上說,Oncomine的主要功能有基因表達差異分析、基因表達與臨床相關性、多基因共表達分析等。
下面咱們繼續通過五個案(作)例(業),來了解一下從檢索到分析出圖的流程。聽說這回的作業是「授之以漁、考之以鮒鯰魴鯨魷鮪鮫鮮鱷鰾鯛鰷鯪鮑鱗鮐鱘」?嗯,確實有點難的。
註:Oncomine的帳號註冊是要用非營利郵箱的,大家自行準備。有學校郵箱的小夥伴要珍惜;沒有的能借就借,實在沒有的,呃,去找馬爸爸吧(可能有些學校的郵箱註冊了要等一會才有驗證消息,不要急著花錢,我等了一天呢)。
登錄Oncomine之後,可以看到左邊有一個搜索框和篩選目錄(filter)。當你本身已有候選基因時,可以在搜索框中輸入基因名去檢索,沒有就留著。
下邊的篩選目錄分好幾個層次,包括Primary Filters,Sample Filters,Dataset Filters,Concept Filters。Primary Filters可選擇分析類型、數據集、數據來源、癌種等。還可以再點開子目錄。
下邊的Sample Filters則是對臨床相關的信息做出分類,如腫瘤來源部位、治療應答情況、復發、生存等等。
Dataset Filters可以選擇數據類型(DNA或mRNA)、數據集名稱、大小、測序平臺等等。
Concept Filter咱們不太常用,是一種預設好的模式,在此表過不提。
咱們查詢、篩選,找到自己需要的信息,就是通過這些Filters的組合。其實你玩著玩著就會發現它很像某些購物網站嘛,輸入關鍵字「鞋子」,然後通過篩選條件,鞋跟選「細高細」啦、風格選「森女」啦等等。
誒?森女風 + 細高跟會搜出來什麼鬼?篩基因也有可能出現這種情況哦,Filters搭配不合理,搜出來的東西很少甚至空白,你還以為發現了未開發的處女地。所以Filters的搭配是很體現研究者策略能力的地方,這可以通過文獻學習來提高。
下面,假設我們前期通過自己的高通量實驗或讀文獻,拿到了幾個感興趣的候選分子,現在要在Oncomine中看看它們的表達情況。
作業一:
用Oncomine查詢CXCL8、CXCR1、CXCR2在腫瘤中的差異表達情況(cancer VS normal)。篩選條件:P-value:1E-5;Fold Change:3;GENE Rank:Top10%;DATA TYPE:mRNA。
三個候選基因,一個一個查。首選在搜索框中輸入CXCL8,然後按題目要求選擇Filters。Filter目錄中,Primary Filters → Differential Analysis → Cancer vs. Normal Analysis。還有下方的Dataset Filters → Data Type → mRNA。選上的Filters就會出現在上邊selected板塊,想改變的化還可以點旁邊的 x 刪掉。
然後看頁面最右邊,找到Other Views,選中Gene Summary View。
在上方還有一個篩選條,再根據題目要求選上相應的P值、變化倍率、Gene Rank。
這樣就可看到下方的熱圖展示CXCL8在腫瘤中Cancer vs. Normal的差異表達情況。
旁邊的列表裡還有不同的癌腫,你也可以點進去看看,看完又從剛才的Other View那裡點回Summary。
用同樣的方法檢索其他兩個基因,我就不貼圖了。
作業二:
用Oncomine分別查詢CXCL8在腸癌組織(與正常比)中高表達的數據集和低表達的數據集。篩選條件:P-value:1E-4;Fold Change:3;GENE Rank:Top10%。
也和剛才的差不多,變換一下篩選條件。在剛才Cancer vs. Normal的篩選目錄下,再點開一步,找到Colorectal Cancer blabla。
然後右邊彈Datasets選項卡,繼續選上符合條件的P值、Fold Change和Gene Rank。然後題目還有個要求,是分別看高表達和低表達的數據集,此處ORDER排序框中的Over-expression就是高表達,把下拉框打開選Under-expression就是低表達的數據集了。
如上圖中Kaiser Colon下邊還有展開的數據集,都可以點進去看。選擇Under-expression後沒有展開的數據集,那就是沒有符合搜索條件的了。
排序除了按Gene Rank,還可以按變化倍率、P值,大家可以自己試一下。下邊展示的是剛才高表達數據目錄中第一個數據集。你也可以點旁邊的箱形圖圖標去看看匯總統計的情況。
可以從legend看到左邊是結腸組織(5個樣本),右邊是黏液腺癌(13個樣本)。
作業三
用Oncomine查詢CXCL8在腸癌TCGA數據子集中的表達,並查看其表達與腸癌患者總體生存狀態的關係。
仍然是篩選條件的組合,像剛才一樣,P值、變化倍率等沒要求的地方就用默認值吧。這回找「腸癌」不要從剛才差異分析那裡找了哦,從下方的Cancer Type裡找。然後右邊Order按名稱排序就可以方便地拉到T字頭找TCGA。
可以看到TCGA來源的數據集有2個,一個是mRNA,一個是DNA。可以點數據集標題看一下總的情況,分別選擇箱線圖或條形圖看看。
接下來要看生存狀態了,在Group by下拉框中選擇Overall Survival Status。
那個下拉框中還有其他關於生存情況的信息,如隨訪天數、生存/死亡時是否帶病、1年/3年生存狀態等,大家自行去看吧。
剛才做了幾個熱身,大家是不是躍躍欲試了呢?文獻中的圖就是這麼來的嗎?找兩篇來照貓畫虎就是了~
作業四:
模仿文獻(PMC4466664)作圖,如下Figure 2A和2B,LIFR mRNA在肝癌中表達下調。
前期工作中(可能是文獻閱讀)找到一個感興趣的分子LIFR,想看看它能否作為高分化肝細胞癌的診斷標誌物。於是作者先在Oncomine中查看一下已發表的數據中它是個什麼情況。
搜索LIFR,在Cancer Type中找到肝癌,然後在Summary圖形上方設置篩選條件,左邊一欄Cancer vs. Normal的總覽情況截下來就是圖A了。
這部分圖中可以看出,20種癌症中,有12種是LIFR下調的,尤其是消化系統癌症,如肝、腸、胃。然後點一個自己研究範圍內的癌腫,本例中就是肝癌。
點開之後,先看到左邊排第一位的是Wurmbach Liver數據集,圖下方有其發表的文獻出處,可以檢索來進一步閱讀了解。目前展示的兩個直方圖是肝細胞癌和癌前病變的樣本。
點選左邊Wurmbach Liver的粗體標題,就變成全樣本,下邊的箱線圖就把癌前病變的樣本展開了,包括肝硬化和肝細胞不典型增生,加上No value的。這就是圖B左上方的那個小圖。
接著看Reporter,這是測序時的探針,點選另三個就可得到圖B的另外三個小圖,這裡不再貼出。
所以,四個探針中,肝癌樣本中LIFR都是低表達的。再從文獻中查閱其他研究,看看它的生物學意義,探討一下它是否可能成為診斷標誌物,然後就可找自己的樣本來檢測驗證一下。
作業五
模仿文獻(PMC4012734)Figure 3A作圖,TP63和MMP3在乳腺癌中的共表達分析。
文章是做了乳腺癌和黑色素瘤的,我們就用乳腺癌為例吧。
作者通過一些前期工作(細胞實驗等)發現p63可能會直接調控MMP13的表達,與癌症侵襲轉移相關。於是在Oncomine中看看人類癌症樣本的情況,做個共表達分析。
因為是研究癌症轉移,而乳腺癌異質性較大,還未有很好的標誌物來鑑定轉移性高的乳腺癌;而黑色素瘤的進展、轉移發生率較高,是侵襲性較高的癌症之一,所以選擇這兩種癌症。
共表達分析(Coexpression)咱們剛才沒有多說,但細心的同學可能已經發現在哪了,操作不難。
按圖注所說,在搜索欄中搜「TP63」,Filter目錄中的Analysis Type選Coexpression,Cancer Type選Brest Cancer。右邊數據集列表中根據圖的小標題找到Loi的數據集。
點開之後看旁邊的熱圖,第一行就是TP63,通過翻頁的方式找到下邊的MMP13。剩下的就截圖組合粘貼的工作了。黑色素瘤再來一遍。
不過這樣做有可能達不到發表要求。如果你有收費版帳號,是可以去右上角導出Excel,用原數據自己做一個高清的圖。但是收費太太太太太貴了!咋辦呢!
我用的Chrome瀏覽器,其他的應該也有這個功能吧?你試試。在瀏覽器中Shit + Ctrl + I,或者右鍵 → 檢查。然後會在瀏器下方彈出一個窗口。選擇Element之後會彈出一堆網頁代碼。不管,Ctrl + F搜索MMP13。
找到MMP13後,把滑鼠懸停在MMP13第一個方格上,再對比代碼,看看這一行不就是滑鼠懸停時彈出來的標籤?
然後選中那行,右鍵 → Copy → Copy Element,再貼到微軟自帶的那個記事本裡。然後把表達值和樣本名字前後的代碼都刪掉,而表達值和樣本名稱中間的那串東西,選中之後按鍵盤上的Tab鍵。
是的,87個樣本就操作87次,因為沒法一下子選擇多行。87行都做成上圖第3行那種效果之後保存。再強調一遍,表達值和樣本名稱中間那個空格不是按空格鍵的效果,而是按Tab鍵!保存好之後就可以用Excel打開了。
然後做熱圖的方法咱們教過的吧?這些數據你也可以拿去做其他分析。貌似我還沒有想到更好的偷數據的辦法,你有的話分享粗來,我們會很感激的~
好了,教你偷數據這種事可不能到外面亂講,萬一……(呃,我好像不該寫)。你造嗎?馬爸爸上edu郵箱的價格,本課程剛開設的時候,酸菜打聽的行情是10塊錢,現在都翻三倍多了。你要是去找馬爸爸要郵箱,記得說「老闆就給10塊錢預算」。不許說是我說的。