「大數據」時代已經降臨,在商業、經濟及其他領域中,決策將日益基於數據和分析而作出,而並非基於經驗和直覺。這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程。
--by老談
在生物學領域,大數據的整合分析更是亟不可待。到目前為止,在腫瘤方面已有oncomine和TCGA這兩個資料庫,可供分析參考。
先說TCGA,TCGA只提供數量有限的癌症基因表達譜,但是不能夠提供相關分析。其資料庫數據涉及到相關癌症基因的mRNA/microRNA表達譜、拷貝數變異、突變等大量的生物信息學數據。TCGA網絡中,數據類型包括拷貝數結果、雜合缺失、SNP等。
另外,在搜索TCGA數據如何使用的過程中,相信小夥伴們會遇到level 1, level 2……等字眼。起始level 1 指的是原始數據;level 2指的是處理過的數據:經過標準化後的單樣本數據或對存在或者不存在特定分子異常的解釋;level 3指的是經過分割、解釋的數據:來自單個樣本的經過處理的數據的匯集;level 4 指的是感興趣的區域:基於兩個或多個數據的關聯,包含分子異常,樣本特徵,臨床變量。換句話說,也就是數據的權限,level 越高,數據可及性越低。
Oncomine是目前世界上最大的癌基因晶片資料庫和整合數據挖掘平臺,旨在挖掘癌症基因信息。到目前為止,該資料庫已經收集了715個基因表達數據集,86733個癌症組織和正常組織的樣本數據。Oncomine擁有最全的癌症突變譜、基因表達數據以及相關的臨床信息,可利於發現新的生物標記物或新的治療靶點。
Oncomine的使用並非免費的,廣大高校的小夥伴們可要好好的珍惜自己的學生身份,在校生可以通過學校的郵箱註冊使用,今天就先給大家介紹下這個資料庫的功能,有興趣的同學可以自行研究,下期也會詳細介紹使用流程。
如下圖所示,oncomine整合了文獻及晶片資料庫中高質量標準的腫瘤組織晶片結果,14個注釋資料庫的分析,並且oncomine裡的數據會隨著這些數據可的跟新而及時跟新。通過oncomine網站(
www.oncomine.org)分析,可以得到差異表達的結果,共表達分析,富集分析,相互作用的網絡、及meta分析。
接上圖
老談雜談:
通過oncomine,可以進行差異表達分析、共表達分析,查找某種癌症中差異表達的基因,確定目的基因,確定研究方向。對於研究方向還沒有確定的臨床醫生,如果想要通過晶片篩選確定感興趣的研究分子,可以通過oncomine數據挖掘的方法確定研究方向。不僅可以為您節省科研成本,而且其信息也更加全面。
點擊頁面左下角閱讀原文查看以下文章
江洋小盜NF-kB進城記-47
5-10分SCI文章入門-100
你會寫標書麼?-108
評審專家談國家自然科學基金上會評審情況-124
IF:3-4分文章和5分文章的差距-127
國自然敲門磚の表觀遺傳學-128
醫學科研圈的裝逼指南——Bigger than bigger,豈止是裝!-136