引言
您有沒有這樣的經歷,拿到轉錄組報告後,各種數據應有盡有,但是如何從龐雜的數據中,挑選出關鍵目的基因進行驗證和下遊分析,往往有種無從下手的感覺。
它來了!!!歐易重磅推出關鍵基因篩選報告,對表達到功能選取重要指標進行打分,同時根據生物學意義賦值及權重設置,錨定關鍵基因,將結果可視化呈現,一應俱全。您只需根據「一張表」,對其中各項內容進行組合篩選,便能獲得您想要的關鍵基因。
一張表
下面展示的,就是涵蓋各類關鍵指標及其賦值並最終匯總的「一張表」:
「一張表」關鍵基因打分部分(Top20)
「一張表」關鍵基因表達及差異部分
「一張表」關鍵基因注釋部分
歐易關鍵基因打分機制
結合「一張表」,我們來梳理一下歐易關鍵基因打分機制,具體如下:
1) 依據研究目的及生物學相關性,選取參與打分的表達及功能指標。
在示例中,我們選取Diff (基因在差異分組比較中出現的頻次)、Keywords(客戶提供關鍵詞的匹配結果)、TFs(轉錄因子注釋及其調控靶基因)、PPI(蛋白互作)、Dapars(可變多聚腺苷酸化)、TCC(多組差異分析)以及Diff_AS(基因在差異可變剪切中出現的頻次)作為後續打分指標。客戶可以結合項目生物學背景、先驗知識、表達及功能預期等因素,選取和調整打分指標。
2) 根據每個指標的生物學意義,進行指標賦值。
根據指標的生物學和統計學意義,對各指標進行賦值,原始值可以是差異基因出現的頻次,互作蛋白或者基因的數量,轉錄因子靶基因的數量。依據呈現的最大值或者理論最大值,將各個指標的賦值範圍設定在0-1以內。值越接近1,則代表該基因的該指標功能(統計上)越顯著。如有疑問,可電聯。
3) 設置各指標權重,進行綜合打分。
歐易打分機制對各個指標進行默認權重設置。當然,客戶也可以結合項目生物學背景及預期,根據各個指標的重要性,進行指標權重設置。關於指標權重設置和打分算法細節,也歡迎老師們電聯溝通。需要說明的是,歐易打分算法,並非是對各指標的簡單累加,而是依據研究背景和生物學及統計意義,通過合理的賦值和權重設置,科學的打分機制,呈現各個基因在差異、功能和統計上的顯著性,便於客戶挑選關鍵基因。細則在此繼續賣個關子。
4) 根據綜合打分排序。
挑選topN基因,進行關鍵結果展示,包括但不限於聚類熱圖,表達變化趨勢點線圖、PCA圖及蛋白互作網絡圖。基於展示結果,挖掘表達及功能規律。
結果呈現示例如下:
圖1 top50基因在各樣本間表達變化點線圖
圖2 所有基因PCA圖
圖3 top50基因PCA圖
在理想狀態下,top 50基因能極大程度上代表樣本間(組間)的差別,而使得top 50的PCA與所有基因的PCA(圖2)比較接近。
圖4 top50基因表達聚類熱圖
圖5 top50基因GO富集柱狀圖
圖6 top50基因KEGG富集氣泡圖
圖7 top50基因結合轉錄因子信息的蛋白互作網絡圖
說明:以上結果僅為示例,實際分析過程中會有調整,最終以報告為準。
根據實際分析案例來看,關鍵基因篩選得到的top 50 基因PCA圖(圖3)與所有基因總體PCA圖(圖2)十分接近,說明top 50基因比較好地表徵了組與組之間的差別,而且沒有造成生物學重複之間的偏離。從基因表達變化水平看(圖1和圖4),top 50基因呈現出顯著的變化規律,在某組樣本中出現了明顯的表達升高或降低。從top 50基因功能富集上看(圖4-圖6),top 50 富集到的功能條目和通路與研究背景和目的相關性和統一性比較高。
關鍵基因總表(一張表)包含關鍵基因打分,基因在所有差異比較分組中的差異倍數、p值、上下調信息,以及所有樣本的表達fpkm值和功能注釋信息。根據此表,可綜合各個指標進行定量驗證和下遊功能分析基因篩選。建議選取關鍵基因打分高,差異倍數高,p值顯著,樣本fpkm表達高且有功能注釋的基因進行驗證和進一步分析。
理論上,關鍵基因篩選可以不依賴於關鍵詞(比如通路關鍵詞「MAPK」,基因名「IL6」,功能描述關鍵詞「Fatty acid」等)而得到,我們建議如果老師有較為關注的通路或者疾病相關關鍵詞,請務必提供精準和全面的英文關鍵詞。
結語
還在等什麼,快來試一試吧!
最後送上一首打油詩,以饗讀者。
客戶總把關鍵找,歐易為您除煩惱。
選指賦值設權重,科學合理可微調。
差異注釋都不少,挑選只需一張表。
熱圖點線網絡圖,一套流程就能搞。
有理有據有報告,關鍵詞語要選好。
看過讀過別錯過,試試才知其中妙。
實驗真實把關牢,數據客觀又可靠。
組學分析看歐易,內容全面更周到。
END