原創 劉培源、陳昊 集智俱樂部
導語
關聯網絡(correlation network)常常被用於提取生物組學中的相互作用,但其連邊選擇通常基於統計顯著性,可能無法有效捕捉到生物學機制。
近日Nature communications上刊載了德國慕尼黑亥姆霍茲中心多位學者的論文「一種利用先驗知識選擇關係網絡截斷的策略」。文章指出,先驗知識可以有效地輔助關聯網絡重構。甚至當先驗知識粗糙、有缺失、有錯誤時,該方法仍然有效。
論文題目:
A strategy to incorporate prior knowledge into correlation network cutoff selection
論文地址:
https://www.nature.com/articles/s41467-020-18675-3
在網絡推斷(network inference)風潮下,利用大數據重構生物網絡,已經成為生命科學領域的研究熱點。例如從生物組學大數據中提取出生物分子之間的相互作用,進而預測未知的生物反應機制。
1.傳統方法與先驗知識輔助方法
典型的網絡推斷工作流程,首先是根據預處理的數據,估計變量之間的關係,形成相關矩陣。然後根據假設檢驗來判斷哪些相關關係是顯著的。最後把顯著的相關關係構建成網絡(network representation),其中節點是數據集中的變量,連邊代表相關關係。
圖1:網絡推斷工作流
傳統方法需要利用假設檢驗來確定哪些相關係數在統計上是顯著的,該檢驗會產生與每個相關係數相關的p值,並與給定的顯著性水平閾值進行對比。只有當相關係數統計顯著時,才認為其對應連邊存在。
這樣的網絡推斷過程雖然簡單,卻有明顯缺陷,以至於降低網絡推斷的魯棒性和可重複性。首先,樣本量的增大,會明顯影響統計結果,例如樣本量越大則網絡越稠密。其次,不同的檢驗方法有不同的基本假設,可能會得到完全不同的網絡。這些網絡儘管在統計學上沒問題,卻未必能有效表示潛在的生物機制。
圖2:基於先驗知識的網絡推斷工作流
為了更好地判斷相關係數的顯著條件,即產生連邊的閾值,從而提升網絡推斷質量,研究者引入了先驗知識。
研究者首先利用先驗知識,將已知的一定存在關聯的節點進行連接,構建了參考網絡(reference network)。然後,在對比不同閾值下的(推斷的)網絡與利用先驗知識構建的輔助(參考)網絡之間的重疊程度後,選擇重疊度最好的情況作為網絡推斷結果。
重疊度由真陽性(同時出現在關聯網絡與參考網絡)、假陽性(只在關聯網絡有)、真陰性、假陰性按 Fisher 精確檢驗方法計算。
從關聯網絡中,搜索出與參考網絡重疊程度最大的網絡,並截取該網絡,即為最優網絡(optimal network)。
圖3:兩種重構方法工作流與效果對比
2.在具體網絡中驗證
為了驗證這一方法的可靠性,研究者在多種生物數據集上進行了實驗。由於IgG糖組學已經被很好地描述,便於檢驗,所以研究者首先用它來測試網絡推斷方法的有效性。
圖4:免疫球蛋白G(IgG)聚糖結構的合成路徑
以往研究已經較為清楚IgG糖基化的路徑,如圖4所示,節點代表聚糖結構,有向連邊代表合成過程中的單個酶促反應。
圖5:IgG重構網絡與參考網絡重疊度的Fisher檢驗
利用該網絡作為先驗知識對具體網絡進行重構,結果如圖5。縱軸表示不同閾值下的Fisher檢驗的p值,該指標反映了被重構網絡與參考網絡的重疊程度。關聯網絡與生物學參考網絡產生最大重疊時,稱為最優截斷(optimal cutoff)。
實線的顏色代表了不同的相關係數確定方法。本文使用了三種相關性分析的方法,Pearson相關性(粉色),精確的部分相關性(partial correlation,稱為parcor,紫色)和基於GeneNet算法的部分相關性。
圖中的虛線則代表在原始數據矩陣上,利用GeneNet算法,以不同顯著性衡量標準給出的截斷(cutoff),即閾值。
顯然,Pearson與parcor方法的效果並不好,而使用參考網絡最優截斷得到的最優的GeneNet網絡非常接近GeneNet網絡最優的統計截斷點(虛線FDR=0.05)。
圖6:不同大小的樣本下的最優截斷
為了評估先驗知識方法獲得的最優網絡,是否取決於樣本大小,研究者對部分樣本的網絡進行優化。結果如圖所示,即使樣本量不足200,仍然可以獲得跟大樣本(669個)相同的最優網絡。
這意味著,無論樣本數據集是大還是小,基於先驗知識來得到的相關性的最優截斷,都可以推斷出相同的最優網絡。該方法受樣本量規模的影響遠遠小於傳統統計方法。
3.先驗知識質量不同,
網絡推斷結果依舊
現實生活中很難獲得準確且完備的先驗知識——因為很難徹底了解許多生物調控系統的分子網絡,所以仍要用有限的先驗知識去解決問題。研究者假設,只要已知足夠多正確的生物學知識,即使這些知識粗糙、不完整,或者有部分錯誤,該方法也能適用。
研究者進一步分析了在不同程度的連邊缺失、連邊出錯以及信息模糊情況下的該方法的重構效果。
圖7 先驗知識質量不佳時的重構結果
研究者從IgG糖基化途徑中,選擇一定比例(從10%到90%不等)的邊,隨機構建網絡;還虛構了不同數量的錯誤連邊,構建網絡。但如圖7a、7b所示,儘管先驗知識不足,或有部分錯誤,但最優截斷點卻幾乎不受影響。
研究者還將參考網絡進行不同程度的粗粒化,如圖7c所示,發現最優截斷點仍然很接近,截斷的網絡是相似的。
可以發現,在先驗知識質量較低時,該方法依然可以給出較為準確的截斷。
之後,研究者還進一步證明了該方法推廣到代謝組學和轉錄組學數據中,均有較好的結果。
4.前景
以往的網絡推斷方法都需要定義一個關鍵參數閾值p,由它決定哪些分子間相互作用應該包含在網絡中,哪些應該捨棄。關聯網絡的推斷常常依賴於p的取值。
這項研究則提出了一種利用先驗知識輔助確定關聯網絡閾值的截斷或取值的網絡推斷/網絡重構方法,並且證明其在生物領域具有廣泛的適用性。
圖8:先驗知識質量不佳,仍可以推斷出最優網絡
該方法在先驗知識不完整、錯誤或僅提供較模糊的節點分類的情況下都可以較好地推測最優網絡結構,未來可能成為一個有價值的工具,在難以實驗證實的情況下推斷潛在的生物相互作用。
作者:劉培源、陳昊
審校:王力飛
編輯:鄧一雪
複雜科學最新論文
集智斑圖收錄來自 Nature、Science 等頂刊及arXiv預印本網站的最新論文,包括複雜系統、網絡科學、計算社會科學等研究方向。每天持續更新,掃碼即可獲取:
推薦閱讀
集智俱樂部QQ群|877391004
原標題:《Nature通訊:基於先驗知識的網絡推斷》
閱讀原文