最近安排學員做了一下:Endothelial(單細胞研究調研),見:https://share.mubu.com/doc/6capdKnSkBv
明明Endothelial Cell Marker是 (CD31, CD34, ICAM1, CD45),但是有一個研究卻關注了CD105 (Endoglin) ,我就去bing搜索了CD105 (Endoglin) ,發現一個有意思的研究。
發表在Sci Rep. 2019;的文章,標題是:《CD105 (Endoglin) as negative prognostic factor in AML》,本來以為是一個單基因數據挖掘文章, 結果分析他們是自己的 a cohort of 62 AML patients,看CD105的蛋白水平在AML疾病的生存意義。
而且為了拿到統計學顯著的生存分析結果,研究者們根據CD105的蛋白水平的quartiles (Q1-4) 分成4組後,主要是看Q1和Q4組的差異。
To correlate CD105 expression in quartiles with OS, Kaplan-Meier analysis was performed and revealed that patients with low or absent CD105 expression (Q1) showed superior survival and did not reach median OS in the observation time, whereas for patients in the highest quartile (Q4) median OS was 284 days (p = 0.0098) (Fig. 3B).
這個生存分析結果很容易解釋,如果按照 CD105表達量高低對病人分組呢,沒有統計學顯著的結果,但是呢,如果把表達量四等分後,再次把病人也對應的分成4個組,針對性的比較表達量最高和最低的兩個組,然後就有統計學顯著的結果啦!
Next we established a cut-off specific fluorescence level of 5.22 using receiver-operating characteristics, which allowed to group patients in cases with CD105lo and CD105hi surface expression and revealed that high CD105 expression correlated significantly with poor overall and progression free survival.
第一眼看到研究者的這個結論呢,我就想起來了很明顯的生存分析網頁工具,就可以看TCGA的AML病人隊列的該基因的生存預後意義。同樣的,在bing搜索了一些TCGA的AML病人隊列文章,發表的比較早:
TCGA在N Engl J Med 2013; 的文章,納入了200 patients,連結:https://www.nejm.org/doi/full/10.1056/NEJMoa1301689
RNA-expression profiling on the Affymetrix U133 Plus 2 platform for 197 samples,RNA sequencing for 179 samples, (一般來說,大家會挖掘這個數據,RNA-seq and mutation data from 176 AML patients from the Cancer Genome Atlas (TCGA) database )microRNA (miRNA) sequencing for 194 samples,Illumina Infinium HumanMethylation450 BeadChip profiling for 192 samples,Affymetrix SNP Array 6.0 for both tumor and normal skin sampleswhole-genome sequencing (50 cases)whole-exome sequencing (150 cases)實際上晶片拿到的表達矩陣和RNA-seq拿到的,是可以都分析一下,相呼應。
OncoLnc是最簡單的TCGA生存分析網頁工具如果我們按照默認參數來進行網頁工具查詢,可以看到, CD105表達量高低對病人分組呢,沒有統計學顯著的結果:
http://www.oncolnc.org/kaplan/?lower=50&upper=50&cancer=LAML&gene_id=2022&raw=ENG&species=mRNA按照高低分組,生存分析不顯著同樣的,我們按照文章的分成4個組,針對性的比較表達量最高和最低的兩個組:
http://www.oncolnc.org/kaplan/?lower=25&upper=25&cancer=LAML&gene_id=2022&raw=ENG&species=mRNA四分位數的最高和最低的兩個組別生存分析顯著確實達到了統計學顯著!
也就是說,這個研究,其實就網頁工具同樣的結果!
公共資料庫挖掘這個技能的重要性大家認識不夠,其實是能極大程度的避免大家重複浪費科研經費去做一些明明可以通過分析公共資料庫拿到的結論!
比如你研究的癌症裡面哪些基因高表達,哪些低表達,你通過數據挖掘拿到了感興趣基因,後續自己設計基礎實驗來探索它們,完善你的生物學故事。假如你並不知道可以分析公共資料庫,那麼你就不得不自己去做一次癌症病人隊列的轉錄組,耗費幾萬塊錢來拿到一個本來就可以通過公共資料庫分析拿到的上下調基因。或者說,你已經有了比較完整的生物學故事,定位到了具體的通路或者基因,如果想設計病人隊列來說明你感興趣的基因或者通路的臨床意義,就是一個大工程,從病人招募信息整理,到ngs組學數據採集,分析,統計可視化等等。但是大概率上你感興趣的疾病都會有現成的公共數據,你完全可以選擇從你感興趣的角度來對它進行分析。
數據挖掘的核心是縮小目標基因各種數據挖掘文章本質上都是要把目標基因集縮小,比如表達量矩陣通常是2萬多個蛋白編碼基因,不管是表達晶片還是RNA-seq測序的,採用何種程度的差異分析,最後都還有成百上千個目標基因。如果是臨床隊列,通常是會跟生存分析進行交集,或者多個數據集差異結果的交集,比如:多個數據集整合神器-RobustRankAggreg包 ,這樣的基因集就是100個以內的數量了,但是仍然有縮小的空間,比如lasso等統計學算法,最後搞成10個左右的基因組成signature即可順利發表。
其實還有另外一個策略方向,有點類似於人工選擇啦,通常是可以往熱點靠,比如腫瘤免疫,相當於你不需要全部的兩萬多個基因的表達量矩陣進行後續分析,僅僅是拿著幾千個免疫相關基因的表達矩陣即可。
最近比較熱門的有:自噬基因,鐵死亡,EMT基因,核受體基因家族,代謝基因。還有一個最搞笑的是m6a基因,完全是無釐頭的基因集搞小,純粹是為了搞小而搞小。