Nature通訊:基於先驗知識的網絡推斷

2021-01-10 澎湃新聞

原創 劉培源、陳昊 集智俱樂部

導語

關聯網絡(correlation network)常常被用於提取生物組學中的相互作用,但其連邊選擇通常基於統計顯著性,可能無法有效捕捉到生物學機制。

近日Nature communications上刊載了德國慕尼黑亥姆霍茲中心多位學者的論文「一種利用先驗知識選擇關係網絡截斷的策略」。文章指出,先驗知識可以有效地輔助關聯網絡重構。甚至當先驗知識粗糙、有缺失、有錯誤時,該方法仍然有效。

論文題目:

A strategy to incorporate prior knowledge into correlation network cutoff selection

論文地址:

https://www.nature.com/articles/s41467-020-18675-3

在網絡推斷(network inference)風潮下,利用大數據重構生物網絡,已經成為生命科學領域的研究熱點。例如從生物組學大數據中提取出生物分子之間的相互作用,進而預測未知的生物反應機制。

1.傳統方法與先驗知識輔助方法

典型的網絡推斷工作流程,首先是根據預處理的數據,估計變量之間的關係,形成相關矩陣。然後根據假設檢驗來判斷哪些相關關係是顯著的。最後把顯著的相關關係構建成網絡(network representation),其中節點是數據集中的變量,連邊代表相關關係。

圖1:網絡推斷工作流

傳統方法需要利用假設檢驗來確定哪些相關係數在統計上是顯著的,該檢驗會產生與每個相關係數相關的p值,並與給定的顯著性水平閾值進行對比。只有當相關係數統計顯著時,才認為其對應連邊存在。

這樣的網絡推斷過程雖然簡單,卻有明顯缺陷,以至於降低網絡推斷的魯棒性和可重複性。首先,樣本量的增大,會明顯影響統計結果,例如樣本量越大則網絡越稠密。其次,不同的檢驗方法有不同的基本假設,可能會得到完全不同的網絡。這些網絡儘管在統計學上沒問題,卻未必能有效表示潛在的生物機制。

圖2:基於先驗知識的網絡推斷工作流

為了更好地判斷相關係數的顯著條件,即產生連邊的閾值,從而提升網絡推斷質量,研究者引入了先驗知識。

研究者首先利用先驗知識,將已知的一定存在關聯的節點進行連接,構建了參考網絡(reference network)。然後,在對比不同閾值下的(推斷的)網絡與利用先驗知識構建的輔助(參考)網絡之間的重疊程度後,選擇重疊度最好的情況作為網絡推斷結果。

重疊度由真陽性(同時出現在關聯網絡與參考網絡)、假陽性(只在關聯網絡有)、真陰性、假陰性按 Fisher 精確檢驗方法計算。

從關聯網絡中,搜索出與參考網絡重疊程度最大的網絡,並截取該網絡,即為最優網絡(optimal network)。

圖3:兩種重構方法工作流與效果對比

2.在具體網絡中驗證

為了驗證這一方法的可靠性,研究者在多種生物數據集上進行了實驗。由於IgG糖組學已經被很好地描述,便於檢驗,所以研究者首先用它來測試網絡推斷方法的有效性。

圖4:免疫球蛋白G(IgG)聚糖結構的合成路徑

以往研究已經較為清楚IgG糖基化的路徑,如圖4所示,節點代表聚糖結構,有向連邊代表合成過程中的單個酶促反應。

圖5:IgG重構網絡與參考網絡重疊度的Fisher檢驗

利用該網絡作為先驗知識對具體網絡進行重構,結果如圖5。縱軸表示不同閾值下的Fisher檢驗的p值,該指標反映了被重構網絡與參考網絡的重疊程度。關聯網絡與生物學參考網絡產生最大重疊時,稱為最優截斷(optimal cutoff)。

實線的顏色代表了不同的相關係數確定方法。本文使用了三種相關性分析的方法,Pearson相關性(粉色),精確的部分相關性(partial correlation,稱為parcor,紫色)和基於GeneNet算法的部分相關性。

圖中的虛線則代表在原始數據矩陣上,利用GeneNet算法,以不同顯著性衡量標準給出的截斷(cutoff),即閾值。

顯然,Pearson與parcor方法的效果並不好,而使用參考網絡最優截斷得到的最優的GeneNet網絡非常接近GeneNet網絡最優的統計截斷點(虛線FDR=0.05)。

圖6:不同大小的樣本下的最優截斷

為了評估先驗知識方法獲得的最優網絡,是否取決於樣本大小,研究者對部分樣本的網絡進行優化。結果如圖所示,即使樣本量不足200,仍然可以獲得跟大樣本(669個)相同的最優網絡。

這意味著,無論樣本數據集是大還是小,基於先驗知識來得到的相關性的最優截斷,都可以推斷出相同的最優網絡。該方法受樣本量規模的影響遠遠小於傳統統計方法。

3.先驗知識質量不同,

網絡推斷結果依舊

現實生活中很難獲得準確且完備的先驗知識——因為很難徹底了解許多生物調控系統的分子網絡,所以仍要用有限的先驗知識去解決問題。研究者假設,只要已知足夠多正確的生物學知識,即使這些知識粗糙、不完整,或者有部分錯誤,該方法也能適用。

研究者進一步分析了在不同程度的連邊缺失、連邊出錯以及信息模糊情況下的該方法的重構效果。

圖7 先驗知識質量不佳時的重構結果

研究者從IgG糖基化途徑中,選擇一定比例(從10%到90%不等)的邊,隨機構建網絡;還虛構了不同數量的錯誤連邊,構建網絡。但如圖7a、7b所示,儘管先驗知識不足,或有部分錯誤,但最優截斷點卻幾乎不受影響。

研究者還將參考網絡進行不同程度的粗粒化,如圖7c所示,發現最優截斷點仍然很接近,截斷的網絡是相似的。

可以發現,在先驗知識質量較低時,該方法依然可以給出較為準確的截斷。

之後,研究者還進一步證明了該方法推廣到代謝組學和轉錄組學數據中,均有較好的結果。

4.前景

以往的網絡推斷方法都需要定義一個關鍵參數閾值p,由它決定哪些分子間相互作用應該包含在網絡中,哪些應該捨棄。關聯網絡的推斷常常依賴於p的取值。

這項研究則提出了一種利用先驗知識輔助確定關聯網絡閾值的截斷或取值的網絡推斷/網絡重構方法,並且證明其在生物領域具有廣泛的適用性。

圖8:先驗知識質量不佳,仍可以推斷出最優網絡

該方法在先驗知識不完整、錯誤或僅提供較模糊的節點分類的情況下都可以較好地推測最優網絡結構,未來可能成為一個有價值的工具,在難以實驗證實的情況下推斷潛在的生物相互作用。

作者:劉培源、陳昊

審校:王力飛

編輯:鄧一雪

複雜科學最新論文

集智斑圖收錄來自 Nature、Science 等頂刊及arXiv預印本網站的最新論文,包括複雜系統、網絡科學、計算社會科學等研究方向。每天持續更新,掃碼即可獲取:

推薦閱讀

集智俱樂部QQ群|877391004

原標題:《Nature通訊:基於先驗知識的網絡推斷》

閱讀原文

相關焦點

  • Nature子刊:反事實推斷幫模型識別罕見病,躋身專家水平
    論文地址:https://www.nature.com/articles基於模型的診斷算法要麼是判別式的,直接基於輸入特徵 ϵ 建模疾病 D 的條件分布 (1),要麼是生成式的,建模疾病和發現結果的先驗分布,使用貝葉斯規則估計後驗:
  • 自閉症的先驗知識、情景控制和心理理論:對社會認知的綜合解釋
    基於這一發現,假設自閉症者這個系統的破壞破壞了編碼、整合和鞏固用於社會和人際推理的情景性知識的能力。情景記憶系統和情景緩衝一起,在促進社會互動和社會理解方面起著關鍵作用。情景記憶是指在特定的時間、空間和情境中對個人經歷的記憶整合在一個單一的表徵中。對人類來說,它與自我意識、主觀時間和自我意識有關。情景記憶是對特定時間和地點的過去社會經歷的記憶來源。
  • 米塞斯: 先驗知識
    不能因為先驗知識是套套邏輯的,就廢除其認知意義。按照定義,一個套套邏輯一定是對先前已經說過的某種東西的同義反覆,即重新表述。如果我們把歐幾裡得幾何學看作為一個分層次的套套邏輯體系,那麼,我們就可以說:畢達哥拉斯定理是套套邏輯的,因為它表達的只是已經隱含在直角三角形定義中的東西。
  • 一文讀懂貝葉斯推理問題:MCMC方法和變分推斷
    統計推斷旨在根據可觀察到的事物來了解不可觀察到的事物。即,統計推斷是基於一個總體或一些樣本中的某些觀察變量(通常是影響)得出結論的過程,例如關於總體或樣本中某些潛在變量(通常是原因)的準時估計、置信區間或區間估計等。而貝葉斯推理則是從貝葉斯的角度產生統計推斷的過程。
  • 羅素:先驗的知識如何可能
    他經歷了七年戰爭和法國大革命,但是他在東普魯士哥尼斯堡講授哲學的事業卻一直沒有間斷過。他最出色的貢獻就是創造了他所自稱為「批判的」哲學,這種哲學首先肯定這樣一個事實,就是有各種各樣的知識,然後探討各類知識如何成為可能的問題。此外又根據探討所得的答案,演繹出許多有關宇宙性質的形上學的結論。這些結論是否全部有效當然可以懷疑。
  • 華東師大發布基於腦間活動同步性的最新研究成果
    有研究顯示,相比於網絡課程,在面對面的教學模式下,師生可以通過言語或非言語的方式傳遞和反饋信息,這種實時的師生互動有助於學生對新知識的理解和吸收。教學過程中學生通過與老師進行互動,能夠將已有的先驗知識和新知識點建立聯繫,以往研究表明,當教學內容基於學生的先驗知識時,能夠加快學生的學習進程,提升學習效率。
  • 先驗、後驗知識的故事
    一、什麼是先驗、後驗知識先驗知識(在事實發生之前)知識即人們常說的躺在扶手椅上就可以獲得的知識——通過神的啟示、內省、先天思想,或者通過邏輯和數學推導獲得的知識;後驗知識(在事實發生之後)知識即只有通過走入世界親身觀察才能獲得的知識。
  • 基於貝葉斯推斷的回歸模型(理論篇)| 機器學習你會遇到的「坑」
    在貝葉斯框架下,P(A)叫做先驗概率,P(B|A)叫做似然,P(B)是證據因子,P(A|B)叫做後驗概率。 樸素貝葉斯:基於貝葉斯定理的分類器,需要估計類先驗概率P(l)和屬性的類條件概率,為計算聯合概率,引入了屬性獨立性假設。
  • 非歐幾何對康德先驗哲學的超越丨及對康德先驗綜合判斷的再批判
    根據康德的理論,歐幾裡得的公理體系是先驗綜合判斷,故而是絕對正確的,可非歐幾何卻把康德的這一論斷無情否定了,公理不再是絕對的真理,那公理究竟是什麼樣的呢?數學的公理體系並非如康德所說是先驗自明的真理,即不是先驗綜合判斷。(並非全部是人類賦予客體世界的)而是對於經驗的理性抽象直觀。
  • 基於多源信息融合及貝葉斯網絡的 小子樣可靠性評估
    1.2 基於ML- Ⅱ加權平均多源信息融合方法由於受到試驗成本和條件的制約,小子樣問題普遍存在[4],選擇在某項試驗進行之前先通過專家經驗、歷史信息等途徑得到不同的先驗信息,可綜合運用各種信息,減少現場標準條件下的試驗次數,從而有效解決小子樣的問題。
  • 使用CNN生成圖像先驗,實現更廣泛場景的盲圖像去模糊
    為了解決這個問題,關於模糊核和圖像的額外約束和先驗知識都是必需的。圖 1: 一個去模糊的例子。本文提出了一個判別圖像先驗,它是從用於圖像去模糊的深度二分類網絡中學習得到的。最近的去模糊方法的成功主要來自於有效圖像先驗和邊緣檢測策略方面的研究進展。
  • 西北大學於遊課題組《自然·通訊》:基於正交可見光化學反應的多重聚合物網絡凝膠快速高效構築策略
    不過隨著研究的不斷深入,人們發現聚合物凝膠製備仍然需通過多步、長時間紫外光或熱引發方式來完成,多重網絡結構特點使得該類凝膠不能像傳統凝膠那樣快速製備和高精度結構化製造,複雜的使用環境也會明顯削弱凝膠的力學和韌性性能,限制了該類材料的廣泛應用。
  • 賽爾筆記|基於知識引入的情感分析
    筆者以為有如下幾點原因:1)一般的文本分類任務只提供句子或文檔級別的情感標籤,引入情感詞典等先驗情感知識可以給情感文本引入更細粒度監督信號,使得模型能學到更適合情感分析任務的特徵表示。3)短文本評論通常略去了大量的背景常識知識,從文本本身通常難以推斷真實情感傾向性。例如一條有關大選的推文內容是「I am so grateful for Joe Biden. Vote for #JoeBiden!!」,文本中並未涉及任何有關Trump的描述,要判斷它關於Trump的立場傾向性時,需要了解的背景知識是,二者是這次大選的競爭對手,支持一個人就意味著反對另一個人。
  • 先驗概率是怎麼來的
    先驗概率是怎麼來的?我們在前文中,一直強調貝葉斯公式中先驗概率的重要性。
  • 一種兼具神經網絡高效性和高斯過程靈活性的方法——神經過程
    在今年的ICML上,研究人員提出了不少有趣的工作,其中神經過程(NPs)引起了許多人的注意,它基於神經網絡概率模型,但又可以表示隨機過程的分布。這意味著NPs結合了兩個領域的元素: 深度學習:神經網絡是靈活的非線性函數,可以直接訓練 高斯過程:GP提供了一個概率框架,可用於學習非線性函數的分布 兩者都有各自的優點和缺點。
  • 如何理解康德的「先驗哲學」?
    一般稱康德這個哲學知識,為知識背後的知識。它是經驗性知識後面得出來的知識,即先驗的知識。就是說,康德這個先驗哲學,是不摻雜任何經驗性的知識的,他是對人類心性的認識能力做一個純粹的考察,他說的那個知識,是看不見摸不著的。我們只有在經驗性的知識上反轉來思考,才能體會到康德這個先驗的知識。所謂的「先驗」知識,就是在經驗之前的知識。然而,一切知識,都從經驗開始,沒有經驗,何來知識?
  • 張江:從圖網絡到因果推斷,複雜系統自動建模五部曲
    圖3:火焰方程模擬(上)以及RNN的預測(下) 階段2:基於圖網絡的模型 在這類模型中,它基於一個給定的圖結構,這被稱為基於關係的偏置先驗(inductive bias),學習一種網絡節點到連邊,連邊到節點的映射過程。由於模型將圖結構充分利用,能夠把握非常異質化的網絡起來,因此準確度可以大大高。 圖網絡特別適合對複雜系統進行自動建模,更多關於圖網絡的基礎信息,可以在圖神經網絡、網絡科學、系統科學綜合交叉入門一文詳細學習,這裡不再展開敘述。
  • [257]先驗概率、似然函數與後驗概率(1)
    談技術人員的優越感(4)[150]清高與小我:談技術人員的優越感(3)[149]清高與小我:談技術人員的優越感(2)[148]清高與小我:談技術人員的優越感(1)[112]扯點密碼學:可證明安全隨筆[250]機器學習成長筆記(1)[251]機器學習三要素:機器學習成長筆記(2)[253]為什麼需要機器學習:機器學習筆記
  • 康德努力證明,先驗綜合判斷是可能的,普遍必然性知識是可能的
    康德認為,知識就是判斷,但不是所有判斷都是知識。傳統判斷分為兩種:分析判斷和綜合判斷。分析判斷的賓詞闡明的只是主詞已包括的東西,如一切孕婦都是女性,因此它們不產生知識。綜合判斷的賓詞並不包含在主詞中,例如,物體都有重量。綜合判斷能擴充人類的知識,但缺乏普遍性和必然性,也不能構成知識。
  • 30分鐘了解貝葉斯定理――AI產品經理了解的數學知識系列
    我們從下雨中發現是陰天的便於觀測和統計的,我們通過觀察天氣是陰天,推斷下雨不下雨就是一個推論。所以,再利用貝葉斯公式的時候,注意區分哪個事件是現象,哪個事件是規律,通過規律下的現象是容易觀測統計的,在某一現象下推斷規律就是個推斷的概率。