最近雜事一堆各種糾結時常感覺心塞,剛好有老師做心肌梗死的,問我說想初步判斷幾個自己感興趣基因在模型中的表達情況。我就整理了一下如何利用NCBI-GEO資料庫查詢對感興趣的基因在自己研究方向上的豐度。
好吧,就還是以心塞為例吧!心塞大家都經歷過吧,就是傳說中的心肌梗死,哎我能說我是文盲嗎?心肌梗死英文咋說的?我大概只記得小米了。對就是屌絲專用機的MI。
NCBI-GEO大家可玩過?
Gene Expression Omnibus (GEO) Profiles and Datasets。簡單點說就是一個開放的高通量檢測資料庫,對你沒看錯它就是開放的。其實這樣的開放資料庫還不少!做科研嘛,心裡有底點-安心。另外沒錢就先用別人的數據。以後有機會和大家扯下單純用別人的數據如何分析發SCI吧!
看名字似乎是只有表達層面(RNA & DNA)的數據,額這個RNA嘛也有mi/lnc/mRNA等等的嘛。
但事實上它也是包含大量的DNA層面高通量檢測數據,比如SNP/CNV/甲基化晶片、外顯子組測序、全基因組重測序神馬等等的。
好吧,扯得遠了,心塞嚴重起來。還是去找小米發騷吧!原諒我,我是南方淫!!正常點吧!!!
1、首先打開NCBI,搜索「myocardial infarction」。
2、進入如下界面。
看到上圖春色方框了吧?
簡單說,GEO Datasets是指有多少個項目數據,GEO Profiles是指有多少個樣本數據。注意到了吧,這個keyword數據真尼瑪多。我們點擊GEO datasets看看。
可能再詳細點解釋下?哎懶癌開始顯現,別怪我,下次的吧。
另外這麼多項目/樣本你準備要我自己一個一個找?噢,忘了這兩資料庫有高級搜索。
3、GEO profiles高級搜索
點擊搜索得到如下結果:
5、確認profiles對應GEO datasets信息
好吧第一個模型似乎和我想的一樣,但還是點擊GEO datasets看看詳情吧。
您最好點擊原文查看更加具體情況。
5、假設第四步中的第一條信息通過geo datasets查詢確認。點擊右側柱狀圖。
看的夠詳細了吧。對了,組間差異倍數?
總結出來了吧?FC(fold change)是指MI組/對照組的差異倍數,其中底數為2,指數為組間value平均數之差。注意這兒的value是晶片信號值取完log2後的值。
到此我們基本可以搞定自己感興趣基因的表達情況。但是我們也希望全局的看待自己研究模型中所有基因的表達情況,希期可以發現比較新的功能基因,下次有機會再和大家扯一下如何利用GEO資料庫實現吧!