Nature子刊:反事實推斷幫模型識別罕見病,躋身專家水平

2020-09-03 機器之心Pro

機器之心報導

編輯:魔王

如果說科學的本質是尋找變量之間的因果關係,那麼過去幾年機器學習的研究和努力依然沒有觸及問題的本質。正如圖靈獎獲得者、貝葉斯網絡之父 Judea Pearl 所言,機器學習不過是在擬合數據和概率分布曲線,而變量的內在因果關係並未得到足夠的重視。如果要真正解決科學問題,甚至開發真正意義上的智能機器,因果關係是必然要邁過的一道坎。最近發表在 Nature Communications 上的一項研究通過建立反事實因果診斷模型,提升了機器學習在醫療診斷領域的效果。

圖靈獎獲得者、貝葉斯網絡之父 Judea Pearl 轉發推薦這篇文章。

近年來,人工智慧和機器學習成為解決不同領域複雜問題的強大工具。在醫療診斷方面,機器學習輔助診斷有望通過大量病人數據提供精確、個性化的診斷,從而革新臨床決策和診斷。

然而,人類醫生的診斷流程與現有的機器學習診斷方法從原理上來說大相逕庭。

在醫療診斷中,醫生需要確定病因,進而向病人解釋症狀。然而,現有的機器學習診斷方法是完全基於相關性的,它可以識別出與病人症狀強相關的疾病。

最近,來自英國數字醫療公司 Babylon Health 的研究人員在《Nature Communications》上發表論文,表明無法將相關性與因果性解耦會導致次優甚至危險的診斷結果。為了克服這一點,該研究將診斷重新形式化為反事實推斷(counterfactual inference)任務,並得到反事實診斷算法。

研究人員將其反事實算法與標準關聯算法(associative algorithm)和 44 名醫生進行性能對比。結果表明,關聯算法的準確率在醫生團隊中能排到 top 48%,而反事實算法可以排到 top 25%,實現了專家級別的臨床準確率。

這一結果表明:因果推理是將機器學習應用到醫療診斷中的重要缺失元素。

論文地址:https://www.nature.com/articles/s41467-020-17419-7#MOESM1

這篇論文先介紹了當前算法診斷方法的底層基本原則和假設;然後詳述了這類方法由於因果混雜(causal confounding)而崩潰的場景,並提出了設計能夠克服這些缺陷的診斷算法的一組原則;最後,研究人員利用這些原則提出了兩種診斷算法,它們均基於必要且充分的因果關係。

關聯診斷

因其形式定義,基於模型的診斷等同於:給出發現結果 ϵ,使用模型 θ 估計 fault component D 的似然:

在醫療診斷中,D 表示疾病,發現結果 ϵ 包括症狀、檢測結果以及相關病史。在對多種可能疾病進行診斷時(如鑑別診斷),潛在疾病按照後驗進行排序。基於模型的診斷算法要麼是判別式的,直接基於輸入特徵 ϵ 建模疾病 D 的條件分布 (1),要麼是生成式的,建模疾病和發現結果的先驗分布,使用貝葉斯規則估計後驗:

判別式診斷模型包括神經網絡和深度學習模型,而生成式模型通常是貝葉斯網絡。

因果診斷

基於人類醫生的診斷流程,這項研究提出了「因果診斷」的定義:

基於病史,識別出最可能導致病人症狀的疾病。

儘管大量文獻將因果推理置於診斷的核心位置,但迄今為止尚未有基於模型的診斷方法使用現代因果分析技術。

利用後驗來識別因果關係在絕大多數因果場景中會導致謬誤的結論(最簡單的因果場景除外),這種現象叫做「因果混雜」(confounding)。

下圖 1 展示了疾病與症狀之間的 3 種不同的因果結構,圖 b 中的 R 即是 D 和 S 的混雜因素。

診斷推理三原則

關聯診斷方法的替代方案是推斷因果責任(或因果歸因)——目標原因 D 導致目標結果 S 的概率。這就需要一個診斷度量 M(D, ϵ),對存在證據 ϵ 的情況下,疾病 D 導致病人症狀的概率進行排序。為滿足這一診斷度量,研究人員提出了以下三個基本原則:

1. 疾病 D 導致病人症狀的可能性應與疾病的後驗似然成比例,

1(一致性);

2. 未導致病人症狀的疾病 D 不構成診斷,M(D, ϵ) = 0(因果性);

3. 能夠解釋更多病狀的疾病應具備更高的可能性(簡潔性)。

反事實診斷

為了量化疾病導致病狀的似然,該研究使用了反事實推斷。研究人員提出兩種反事實診斷度量,分別定義了「expected disablement」和「expected sufficiency」。定理 1 表明這兩種度量均滿足上述三原則。

expected disablement 定義

expected sufficiency 定義

定理 1

新型診斷模型:結構因果模型

該研究使用的疾病模型是貝葉斯網絡(BN),可建模數百種疾病、風險因子和症狀之間的關係。

BN 是一個有向無環圖(DAG),下圖 2a 即是 BN 的一個簡單示例。

BN 疾病模型歷史悠久,而在因果推斷領域中,BN 被更基礎的結構因果模型(SCM)取代。現有的疾病診斷 BN(如 BN2O 網絡)可被表示為 SCM。

Noisy-OR twin 診斷網絡

在構建疾病模型時,通常會在 DAG 結構以外做出一些額外的建模假設,最常用的就是 noisy-OR 模型,參見圖 2b。

這項研究使用 [64,71] 提出的計算反事實的 twin-network 方法,推導出這些模型 expected disablement 和 expected sufficiency 的表達式。該方法在一個 SCM 中表示真實和反事實的變量——即 twin network,基於此我們可以利用標準推斷技術計算反事實概率。相比於 abduction 而言,這一方法大幅分攤了計算反事實的推斷成本。

研究人員將這類診斷模型稱作「twin 診斷網絡」(twin diagnostic network)。

定理 2

實驗

診斷模型和數據集

該研究使用的測試集包含 1671 個臨床場景,這些場景由至少達到全科醫生級別的各組醫生生成。

實驗中所用的反事實算法和關聯算法均使用相同的疾病模型,以確保診斷準確率的差異可完全歸因於所用的 ranking query。

反事實算法 vs 關聯算法

研究人員首先使用後驗 (1)、expected disablement 和 expected sufficiency (5) 對比了排名靠前的疾病的診斷準確率。對比結果參見下圖 3:

從表 1 中可以看出,研究人員按照真實疾病的先驗發生率將臨床場景分類為 very common、common、uncommon、rare 和 very rare。在 common 和 rare 疾病中,反事實算法相比關聯算法有大幅提升,而在 rare 和 very-rare 疾病中,這一性能提升更加明顯,排名分別達到了 29.2% 和 32.9%。

這一提升非常重要,因為罕見病通常更難診斷,包含很多重症病例,而診斷誤差將對這些病例帶來嚴重後果。

與人類醫生進行對比

第二個實驗將反事實算法和關聯算法與 44 名醫生進行了對比。

實驗表明,反事實算法的診斷準確率遠遠高於關聯算法,尤其是對罕見病的診斷方面。關聯算法的性能與醫生的平均水平持平,而反事實算法則處於醫生水平的前 25%。

相關焦點

  • Nature子刊:HLH-11/TFAP4響應營養物質水平調控脂質代謝
    Nature子刊:HLH-11/TFAP4響應營養物質水平調控脂質代謝
  • Nature又上線2本新子刊!
    你的機會來了——2019年2月,Nature先後推出了兩本新子刊,分別是 Nature Food 和Nature Cancer。Nature雜誌的子刊達到了53本,其中20本為綜述期刊。2019年2月24日,Nature官網正式上線了一個新子刊:Nature Food。這是一本在線期刊,將於2020年1月正式啟動。
  • 菊紋,糞便識別測健康,斯坦福智能馬桶研究登上Nature子刊
    從目前流行的指紋識別、人臉識別到「菊紋(analprint)識別」,研究人員思路的進化讓人一時難以跟上。我們先來看一下這個馬桶長什麼樣子:智能馬桶整體結構。這個馬桶乍看上去和普通馬桶差不多,但仔細看就會發現裡面暗藏玄機,尤其是馬桶圈附近。
  • 登上Nature子刊封面:英特爾神經晶片實現在線學習
    這項研究發表在最新一期自然雜誌子刊上《Nature Machine Intelligence》上,並成為封面文章。論文地址:https://www.nature.com/articles/s42256-020-0159-4在該研究中,研究者展示了英特爾神經形態研究晶片 Loihi 在存在明顯噪聲和遮蓋的情況下學習和識別危險化學品的能力。
  • Nature子刊:趙方慶團隊提出環狀RNA定量和可變剪接體轉換識別的新...
    在pre-mRNA剪接的過程中,除典型的內含子剪接事件外,還可能會發生5』端到3』端的反向剪接事件,從而形成環狀RNA。因此,剪接產物中環狀RNA所佔比例是環狀RNA分析的重要指標之一,具有高成環比例的環狀RNA分子,可能具有更加重要的生物學功能。同時,同一基因內部也可能產生多種不同的環狀RNA,基因內對環狀RNA產生位點的使用偏好,也在一定程度上反應了轉錄過程對環狀RNA產生的調控。
  • 為ML帶來拓撲學基礎,Nature子刊提出拓撲數據分析方法
    機器之心報導參與:思、一鳴一位義大利數學家表示,現在我們可以使用一種新數學方法,讓機器學習系統能更高效、快速地學習識別複雜圖像。該數學家提出的理論已經被 Nature 子刊《Machine Intelligence》接收,該論文的作者表示,這種新方法可以稱為「拓撲數據分析(TDA)」。
  • 《Nature》子刊:屏狀核通過控制慢波而產生意識
    1,昨日,《Nature》子刊!在帕金森症模型大鼠上,該電極實現了DBS下全腦範圍內完整fMRI腦激活圖譜的掃描,發現了DBS治療帕金森症效果與不同腦區激活之間的關聯。相關研究成果發表在Nature Communications上。
  • 南大成果接連登上Science子刊、Nature子刊
    近日,南京大學物理學院繆峰團隊在類腦視覺傳感器方面取得重要進展,成果以"Gate tunable van der Waals heterostructure for reconfigurable neural network vision sensor"(基於柵極可調範德華異質結的可重構神經網絡視覺傳感器)為題於 2020年6月24日發表在《科學》雜誌子刊Science Advances
  • 【澎湃新聞】Nature子刊:同濟大學高紹榮團隊建立大幅降低基因編輯...
    【澎湃新聞】Nature子刊:同濟大學高紹榮團隊建立大幅降低基因編輯模式動物嵌合率的新方法 來源:澎湃新聞   時間:2020-09-21
  • Nature子刊:太陽能電池效率或大幅提升!
    論文連結:https://www.nature.com/articles/s41557-019-0297-7現代太陽能電池板採用工作原理基本一樣:一個光子產生一個激子,激子轉化為電流。(來源:材料科學與工程公眾號)推薦閱讀:Nature子刊:高效率有機太陽能電池獲進展【免費下載】5款科研學術必備軟體在看嗎👇
  • 幾位大牛Nature子刊同時發布:單原子Pt和單原子Au同臺競技!
    CO氧化反應是空氣汙染控制尤其是汽車尾氣控制和理論研究的重要反應之一,並且由於CO氧化反應相對具有代表性,常被用作模型反應來研究氧化催化劑的行為
  • 【Nature子刊】癌細胞「隱身」怎麼辦?英美科學家利用數學模型預測...
    對此,一個英美研究團隊建立了一個數學模型,可以確定免疫系統對癌細胞進化的影響。使用該模型獲得的信息能夠用來預測免疫療法是否對患者的癌症有效,從而有助於指導治療決策。當免疫細胞掃描人體時,它們會將這些有缺陷的分子識別為非自身分子,從而引發針對癌症的免疫反應。為了抵抗免疫系統的破壞,癌細胞通過發展「隱身」機制,從而躲避免疫細胞。由此,癌細胞可繼續在體內生長而不被發現。在該研究中,科學家開發了一種計算模型,以繪製腫瘤進化過程中癌細胞和免疫細胞之間的「軍備競賽」。
  • Nature子刊有多少、Nature系列期刊等級,一篇文章整明白!
    《Nature》子刊又雙叒叕增加了,現在共57本!系列期刊159本!!!《Nature》及這57本子刊的影響因子信息如下:可以看到,《Nature》子刊更專注於某一特定領域,並且大部分《Nature》子刊(即Nature research journals)的水平還是不錯的,影響因子都相對較高,也都是本領域權威期刊。
  • Nature子刊,今年首個IF就突破12分,明年或可衝18分
    來自WoS截圖今年是Nature Sustainability拿到的第1個IF,作為Nature子刊,首個IF就超12分,確實值得我們關注~期刊基本信息關於此刊的具體情況,大家可以看看:https://www.nature.com/natsustain/
  • 寶雞文理學院馮海濤博士在Nature子刊和JACS等國際期刊發表論文
    其中,研究論文「Tuning molecular emission of organic emitters from fluorescence to phosphorescence through push-pull electronic effects」發表在 Nature 子刊 Nature Communications(SCI一區Top期刊,影響因子12.18
  • 國內首發Nature子刊 Machine Intelligence論文:思想精妙,或對DNN...
    圖4:OWM實現漢字識別的小樣本連續學習 值得一提的是,算法具有優良的小樣本學習能力,以手寫體漢字識別為例,基於預訓練的特徵提取器,系統可以從僅僅數個正樣本中就能連續的學習新的漢字。 它包括兩個子模塊:1、編碼子模塊,其負責將情境信息編碼為適當的控制信號;2、「旋轉」子模塊,其利用編碼模塊的控制信號處理任務輸入(由於其功能上相當於將特徵向量在高維空間上進行了旋轉,故稱為「旋轉」子模塊)。 若將CDP模塊與OWM算法聯合使用,神經網絡只需要一個分類器,就可以連續學習40種不同的臉部特徵的識別任務。
  • Nature子刊:71位中外科學家聯手打造史上最強「AI兒科醫生」
    昨日,Nature子刊Medicine發布了一篇重磅文章——《使用人工智慧評估和準確診斷兒科疾病》,在業界引發了不小的反響。詞典構建我們通過閱讀訓練數據中的句子,並選擇臨床相關單詞以用於查詢-答案模型構建來生成詞典。詞典的關鍵詞由我們的醫生策劃,並使用中文醫學詞典生成。接下來,根據醫生的臨床知識和經驗,以及專家共識修訂詞典中的錯誤。迭代運行程序,直到找不到現有疾病和體檢的新的概念為止。
  • Nature子刊封面:哈佛等開發微型手術機器人
    Wood) 基於摺紙結構研發了一款超輕便,高精度的顯微外科手術機器人——mini-RCM,該項研究發表於nature旗下新子刊《nature machine intelligence(自然-機器智能)》,並登上該期刊8月份封面。
  • Nature子刊:重編程巨噬細胞,或助力癌症早期篩查
    將巨噬細胞變為「線人」具體來說,包括巨噬細胞在內的許多免疫細胞在準備執行免疫功能時,會在基因水平發生改變。當巨噬細胞與腫瘤環境接觸時,某些基因會啟動,幫助激活巨噬細胞的主要功能:吞噬功能失常或死亡的細胞。Gambhir正是利用了這一過程。每個基因都含有一種叫做啟動子的東西,啟動子是啟動基因激活的DNA序列。
  • 中國科學家實現直接的反事實量子通訊
    在不用傳輸任何粒子的情況下,中科大研究團隊實現了信息傳遞-反事實量子通訊。近幾年來,量子隱形傳態等量子通信技術不斷刷新人們對於奇妙量子世界的認知。然而,在量子通訊領域,最為奇妙而且最為有趣的形式還遠不止這些,在這些奇妙的量子通訊方式中,有一種稱為反事實量子通訊的絕對可以顛覆你的認知。