WGCNA(weighted gene co-expression network analysis,權重基因共表達網絡分析)能將多個樣本中的上萬個基因,根據它們的表達模式劃分到數個至數十個模塊當中,然後以模塊為單位進行分析。這不僅減少了我們的運算量,也提高了分析的準確性。在轉錄組數據分析裡,這種適合大樣本的分析方法真是越來越香了,大家也一直在詢問什麼時候能在線上做WGCNA。今天,Omicsmart WGCNA分析平臺正式上線啦!
一種分析,我們除了要知道能得到哪些結果,更需要了解其分析的意義,這樣才能知道如何利用結果去探索得到我們想要的信息。下面我們就一起來看下,究竟該如何利用WGCNA去找到那些與樣本及性狀最相關的基因,以及確定基因與基因之間的關聯關係。 WGCNA起手最關鍵的一步,就是要確定power值的大小。WGCNA會對基因間的相關性取β次冪進行冪函數處理。少量強相關性的關係不受影響或影響較少;相關性弱的關係取β次冪後,相關性下降明顯,那麼這個β值就是power值了。接著對相關關係進行無尺度化。無尺度網絡中大部分基因只和少數基因相關,少數的hub基因位於核心位置。通過這種無尺度化,更容易找到起到關鍵調控作用的基因。
![]()
在線分析的好處就是可以隨意調整參數,不用再糾結於power值到底怎麼定才好,可以先看結果再選擇。當然,Power值也不是越高越好,相關性太高,連通性同時也會降低,所以一般是選擇相關性(左圖縱坐標)剛達到平臺期的power值進行分析。首先要找到使數據整體符合無尺度分布的power值,構建基因聚類樹,並根據基因間的聚類關係進行基因模塊的劃分,再根據模塊特徵值的相似度對表達模式相近的模塊進行合併。模塊特徵值(module eigengene,ME)是模塊中的所有基因進行PCA分析後得到的主成分1(PC1)的值。PC1相當於模塊中所有基因表達量的加權,可代表該模塊內基因的整體表達模式。根據基因間的聚類關係進行基因模塊的劃分,是指對聚類樹的分支進行剪切區分,產生不同的模塊,每個顏色代表一個模塊,灰色表示無法歸入任何一個模塊的基因,表達模式相似的基因將被劃入同一個模塊。在進行初步的模塊劃分之後,獲得初步劃分的模塊結果Dynamic Tree Cut,每個模塊都用顏色來命名。由於有些模塊非常相似,所以需要根據模塊特徵值的相似度對表達模式相近的模塊再進行合併,獲得最終劃分的模塊Merged dynamic。能劃分到一個模塊的基因,就代表了這些基因的表達模式是相近的。所以後續我們才能以劃分好的模塊為單位,對基因進行分析。
![]()
劃模塊不是目的,看哪些模塊和樣本有關,找到最相關的那些基因才是我們的目標。而將基因、模塊、樣本三者關聯起來的方法,是依據各模塊內的基因在各樣本中的表達量來計算各模塊在各樣本中的模塊特徵值。
![]()
熱圖呈現了在各樣本中各基因的表達量,柱狀圖表示該模塊在各樣本中的模塊特徵值。熱圖以基因為單位,對表達量進行z-score歸一化的處理。在各樣本中,默認基因如果呈現紅色,說明表達量處於升高的水平,如果是綠色,說明處於降低的水平。而柱狀圖表示的模塊特徵值也與之相對應,正值表示模塊內大部分基因發生上調,負值說明大部分基因發生下調。 有了這個「組合拳」,一方面,我們能知道這個模塊和重點關注的樣本是呈正相關還是負相關;另一方面,我們還能具體了解到,到底是哪些基因佔到了主導的地位。掌握了這些信息,我們可以根據研究目的挑選出正相關或負相關的模塊,或者直接選擇高表達或低表達的基因用於後續分析。 WGCNA結果中還會輸出模塊-模塊關聯,模塊-基因關聯的分析結果。但在挑選目標模塊的時候,除了結合基因的表達量去看,另一個需要重點關注的是基因的功能。一般而言,劃分到一個模塊內的基因的表達模式是相近的,功能也可能是相近的。所以我們能以模塊為單位,對模塊內所有基因進行GO、KEGG富集分析,再去了解一下樣本中大部分基因上調或下調的模塊主要是有哪些功能。
![]()
除了找和重點關注的樣本最相關的模塊,WGCNA在文章中被應用的最多的,就是通過輸入性狀數據,找到和性狀最相關的模塊。性狀數據就是樣本的表型數據,比如身高、年齡或者性別。對於年齡這種有具體數值的數據,可以直接輸入數值進行分析;如果是性別,需要轉化為「0,1」數據再進行相關性計算。最終可獲得模塊與性狀、基因與性狀的相關係數。
這一步需要重點關注的數值有三個:MM,GS,K.in。
1. MM值
module membership,是計算基因的表達量和模塊特徵值之間的相關係數,相關性越高,說明基因和模塊的關聯性就越高;如果相關性都小於0.7,呈現弱相關,那麼說明這個基因不屬於任何一個模塊。
2. GS值
gene significance,每個基因與性狀的相關性。
3. K.in值
intramodular connectivity,通過計算基因在所屬模塊內鄰接值的總和,作為該基因在模塊內的連通性。如果GS值和MM值高度相關,則表明該基因是模塊內很重要的元素,並且和性狀顯著相關。同時,如果MM值和K.in值高度相關,則表明這個基因比給定的模塊來說,對於這個性狀的意義更大。綜合來講,核心(hub)基因通常是有高GS值,高MM值和高K.in值,它們與其他基因高度相關,通常位於調控網絡的中心,具有更重要的功能意義。我們的Omicsmart平臺,可以在線查看MM-GS相關性散點圖和K.in-GS相關性散點圖,覺得哪些基因重要,就圈哪裡,隨時隨地動態查看基因信息。
![]()
WGCNA構建了基因間的鄰接矩陣,分析了他們之間的關聯關係,並不是直接輸出了一個網絡圖出來。如果我們想要獲得文章中的那種網絡圖,則需要自行將數據導入到Cytoscape中進行繪製。而在畫網絡圖中,點和線是兩個基本要素,點是基因,線是基因和基因之間的關聯。 通過WGCNA我們能得到基因與所有基因的連通性(All.k.total)和該基因在模塊內的連通性(All.Kwithin),以及上面提到的GS值和MM值。根據這些信息,我們已經可以根據我們的需求,按各個值的大小去篩選出來一些基因進行圖形繪製了。能夠幫助我們篩選基因的工具有兩個,一個是富集分析,另一個是轉錄因子注釋信息。根據富集分析結果,我們可以挑選出重點關注的顯著富集通路內的基因去畫圖,而轉錄因子通常是調控網絡中的核心基因,如果有「明星基因」,那麼我們可以直接依據這個信息去繪圖。確定了畫圖的點後,如果把和這些點全部相關的基因都畫出來,那可能有上百條線,所以我們還需要進一步根據線的信息去過濾。基因和基因間除了直接地關聯,還能通過別的基因迂迴相關。給不同的相關程度賦予一個權重係數,最終可以得到兩個基因的相關性的權重值(weight)。Weight值越高,說明兩個基因越相關。之後我們可以依據Weight值挑選每個基因相關性較高的一些關係對去繪圖。Omicsmart平臺可以在線挑選基因和關係對,基於Cytoscape一鍵生成網絡圖,還可以調整節點和線的大小、顏色等等多種參數,調起來像閃耀的燈球……
自己做WGCNA分析還是比較複雜的,而Omicsmart的WGCNA分析平臺,能幫你實現用最簡潔的操作,找到最核心的基因!歡迎登錄Omicsmart試用帳戶體驗。
實用科研工具推薦
詳實生信軟體教程分享
前沿創新組學文章解讀
獨家生信視頻教程發布