Brain:可解釋的深度學習阿爾茨海默病診斷框架的設計及檢驗

2021-01-14 brainnews

本文於2020年5月發表於Brain(IF:11.337)上。阿爾茨海默病(Alzheimer's Disease,AD)為痴呆症的常見形式。隨著人口老齡化,患病負擔不斷增加,在未來可能會超出社會的診斷和管理能力。當前診斷方法是通過結合患者病史,神經心理學測試和MRI等方式來識別可能病例,然而實際臨床應用仍然存在缺乏敏感性和特異性的問題。本研究報告了一種可解釋的深度學習疾病分類策略,該策略從MRI、年齡、性別和Mini-精神狀態檢查分數的多模態數據中勾勒出獨特的AD疾病特徵。研究框架與一個完整的卷積網絡相聯繫,該網絡可以構建從局部大腦結構到多層感知器的高解析度疾病概率圖,並在診斷過程中對AD風險進行精確,直觀的可視化顯示。該框架提供了一種研究方法,可使用常規可用的成像技術(例如MRI)生成細微的神經影像特徵來診斷阿爾茨海默病,以及將深度學習與人類疾病的病理生理過程聯繫起來的通用方法。

作者:Shangran Qiu, Prajakta S. Joshi, Matthew I. Miller, Chonghua Xue, Xiao Zhou et al.


文章的核心在於提出了一種可解釋的深度學習阿爾茨海默病分類框架,並使用大量的實驗來驗證。



2. 可以得到高解析度的個體化疾病概率圖:精確,直觀;



3. 分類準確率高(阿爾茨海默病 vs. 健康對照老年人);


*表1

實驗包括四個數據集,ADNI(採自南加州大學),AIBL(採自澳洲),FHS(1976年開始採集的三代人數據),NACC(採自美國的多中心數據)

表1中MMSE與APOE4的意義:

MMSE:Mini-Mental State Examination量表評分,滿分30分,27-30分為正常,小於27分為認知障礙(因為MMSE的評分只屬於AD診斷標準的一部分,所以痴呆可能也有28分,正常也會有25分。);

APOE4是一個基因,叫載脂蛋白E等位基因,它的突變是AD最大的遺傳風險因素之一,positive指的是發生突變的被試數量。


上述各數據集的T1影像的前處理包含兩步,分別是


此外,FHS資料庫裡的11個被試有大腦的屍檢研究(即有一些生理生化方面的指標),這11個被試的大腦用Freesurfer做皮層重建,分割出皮層和皮層下結構。



如圖1,本研究使用了深度卷積神經網絡作為分類器,模型採用全卷積網絡(與VGG/ResNet等在輸出部分採用全連接神經網絡不同)。網絡模型參數詳見表2。


在全卷積網絡的訓練階段,使用圖像塊對網絡模型進行訓練。所謂圖像塊,指的是從T1圖像中任意位置隨機cut出尺寸為47*47*47的圖像patch,每幅T1圖像上切出3000塊。


前四層卷積後面都有下採樣操作,因此圖像尺寸會逐漸減小。對於47×47×47的圖像塊,最後一層(即第六層)卷積層的輸出尺寸剛好是1×1×1。訓練階段示意圖如圖2所示。

訓練階段,使用圖像塊來訓練網絡模型,當模型收斂後,測試階段中,如果輸入原始尺寸的圖像(即不輸入隨機切出的圖像塊),也會一層層計算。根據上述表格,輸入圖像尺寸是47,一連串卷積和降採樣操作的輸出尺寸正好是1,但是對於原始圖像,輸入圖像尺寸為227×263×227,則相應地輸出尺寸為46×55×46,得到相應的probability map的尺寸(如果它想overlap到原始圖像上,就必須上採樣)。測試階段示意圖如圖3所示。



測試階段,輸入原始T1圖像,得到尺寸為46×55×46的輸出,文章中將該輸出稱為「probability map」,即概率圖。之所以稱為概率圖,原因在於:卷積網絡訓練得到的卷積核具有抽取特徵,每一層處理後,留下的就是該層卷積核處理後被強調的地方(或者說是提取出的特徵)。


根據前面基於圖像塊的訓練,最後一層卷積核提取的特徵就是直接與類別相關的特徵。因此這裡輸入全圖得到的輸出圖像,每個voxel的值就代表著該位置上對於類別的直接預測情況(經過soft-max處理,其數值介於0-1之間,數值越大意味著對AD類別判斷的「傾向性」越大),因此稱其為「概率圖」。


得到的概率圖可用於下一步的疾病分類,此處為保證思路的連貫性,將「疾病分類」方法部分放到後面(與原文敘述順序不同),此處略過。


*圖4

A圖展示了在同樣的位置,兩個AD(Alzheimer's disease)被試和兩個健康被試的disease probability map;B,C,D圖展示了一個AD被試的橫斷面、冠狀面和矢狀面的probability map的情況。根據前述提出的probability map的獲取方法,map上的數值更接近於1(在上圖中越紅),則提示該位置上AD造成的可能的結構改變較大。根據圖中顯示,AD偏紅的區域更多。


衡量probability map對病變區域的attention效果到底如何,最直接的證據就是,如果有病理研究證明就在這些attention腦區有神經纖維纏結、緻密的老年斑,tau蛋白沉積等等這些AD的病理標記,那麼說明深度學習模型得到的attention是正確的。(此數據很難尋找,但是本文進行了這方面的研究,因此講者認為這一點是這篇論文裡最直接的、最強有力的一個論證。)文章中這部分研究,使用的數據是FHS資料庫裡的11個屍檢分析的被試。這裡展示了一個被試的示意圖,如圖4所示。


*圖5

第一列是T1;第二列是前述提到的probability map,第三列是probability map用0.7作為閾值來勾勒邊界,也就是說選取attention的風險最高的一些區域;第四列的是freesurfer的分割結果,在分割結果上使用color coding表示發生不同程度病理改變的腦區。這個「病理改變」的定義是通過切片分析beta澱粉樣蛋白和tau蛋白的沉積情況(目前的主流研究認為這兩種蛋白的沉積是導致AD發病的一個重要原因)、此外還通過免疫化學反應來分析了神經纖維纏結等改變,綜合得到了第四列這樣一個color coding出的結果。注意:不是所有腦區都進行了生化研究,所以接下來的分析過程中有些數據是缺失的。第五列就是把第四列overlap在T1上。

圖5為結果的定性分析,可以從直觀上感受到probability map 強調的區域和生理生化研究得到的病變區域的結果是相近的。下面針對probability map 強調的區域和生理生化研究得到的病變區域結果之間的相關性,又進行了半定量分析:


*圖6

a)Biel:比爾索夫斯基銀染液;b)AT8:用來染磷酸化tau蛋白的染液;c)NFT:20倍鏡下神經纖維纏結的密度;d)NPL:100倍鏡下老年斑密度;DP:100倍鏡下彌散性斑塊的密度;e)CA1區:是一個海馬亞區,海馬體的頭部主要是CA1區,對缺氧等損傷非常敏感,因此也稱為易損區,通常是衡量病變的一個敏感性較高的區域;f)CA2區:也是海馬的一個亞區,CA2區主要和社交記憶相關,而社交記憶的受損是AD的一個重要的臨床指徵之一,因此CA2區對於研究AD也很重要。g)空白區域:數據缺失。每幅圖中縱坐標表示:11個被試在該腦區下的probability map上的灰度平均值(即表明深度學習判斷該腦區的AD風險大小)按從大到小排列。每個方塊的顏色,表明在橫坐標對應的當前指標下,生化研究所得到的AD風險評估(與圖5的color coding相同)。亦即,深顏色越集中在整個圖的上半部分,說明深度學習模型對不同被試的AD預測概率,和病理評估的結果的一致性越好。

根據FHS數據集中11個被試的分析結果,在海馬、額中回、顳葉、杏仁核這四個區域,深度學習模型對不同被試的AD預測概率,從直觀上看是和病理評估的結果是保持一致的,也就是說在這些腦區,病理評估的結果越傾向於嚴重的被試,模型對AD的預測概率也較大。文章也做了相應的統計分析,即計算了這些區域深度學習AD預測概率和病理評估評分的斯皮爾曼相關係數,結果見表3:

但是根據上表,只有4個腦區上是顯著的,可能與其數據量有關,因為僅有11個被試,還存在數據缺失的情況。


2)疾病預測準確率方面的結論

利用probability map的灰度信息,我們可以進一步得到一些疾病的分類結果。圖7展示了文章中研究的三種作為對比的分類方法:


*圖7

A表示直接使用影像信息(probability map)進行疾病分類;B表示只使用age+gender+MMSE(非影像信息)進行疾病分類;C表示融合了影像和非影像特徵進行疾病分類。上面三幅圖中的圓點,表示全連接神經網絡中的神經元,亦即該階段的疾病分類使用的是傳統全連接神經網絡模型。


針對probability map,從其上選了200個「置信度」最高的點,直接把灰度值應用到全連接神經網絡裡——這個「置信度」,用Matthews相關係數(MCC)來度量。Matthews相關係數,又叫phi係數,在機器學習中用作衡量二進位和多元分類質量的指標。它考慮了真假的正負,通常被認為是一種平衡的度量,即使不同類別的數量差異很大,也可以使用。這裡的Matthews相關係數計算的「相關」是指probability map上每個voxel的預測結果和被試的診斷標籤做相關。Matthews相關係數的計算公式如下:



Matthews相關係數在各個數據集上的計算結果如圖8:

*圖8

A圖中的T1非常有誤導性,讀者容易誤認為這個MCC圖是基於個體算出來(即個體化)的,但是一個被試不可能同時出現在四個不同站點的數據集中,實際上如果擺一個MNI152的圖上去我認為才比較合適;BCD則展示了三個視角下的各個截面MCC值的分布情況。MCC越高:相關性越高,是介於-1和+1之間的相關係數值。係數+1表示完全正相關,係數0表示無關,而係數-1表示負相關。


根據圖8,在probability map上選200個mcc最高的位置的點,probability map上這些點的灰度值作為全連接神經網絡的輸入,進行疾病分類。


本文的重要亮點之一為模型的分類準確率較高,如何衡量「準確率高」,本文採用的方法是與臨床醫生進行對比。本研究徵集了11個臨床醫生,給了他們T1影像和age/gender/MMSE,讓他們診斷來自ADNI的80個病人。深度學習模型的分類情況與臨床醫生的對比如圖9:


*圖9

包括SEN-SPE曲線(ROC曲線沿x=0.5翻轉,其目的是希望與PR曲線保持形狀一致)、PR曲線、Cohen’s kappa下三角矩陣。MRI:只使用影像特徵;NI:只使用age/gender/MMSE非影像特徵;Fus:影像+非影像融合特徵。紅色加號表示單個神經科醫生的表現,綠色加號及其上延伸出的誤差條表示所有醫生診斷表現的平均值和標準差。


根據圖9結果顯示,人工診斷基本落在機器診斷的曲線以內,說明深度學習分類模型的性能整體優於臨床專家。


臨床專家之間的診斷一致性通過右側的Cohen’s kappa下三角矩陣表示,Cohen’s kappa值域為[0, 1],其數值正比於兩個專家意見一致的次數,值域為[0-1],kappa=1代表兩個專家的評估完全一致,此圖相當於圖9左邊兩幅曲線圖中綠色

error bar,說明了不同專家之間的診斷一致性值得商榷。


本文也給出了在不同數據集上診斷的SEN-SPE曲線以及PR曲線,如圖10:


結合前面的ADNI test上的SEN-SPE圖,發現一個問題:僅使age/gender/mmse來分類,其分類精度已經達到較高程度,甚至在某些情況下,增加影像信息會導致模型精度下降。可能原因是ADNI等數據集中的臨床標籤標定較大程度地參考臨床量表,因此這部分結果會對最後的分類產生較大影響。


除上述曲線外,本文也報告了具體的分類精度,見表4:


重複了五次實驗,但不是五折交叉驗證,而是把訓練集/驗證集/測試集按一定比例隨機選取的這個過程重複了5次。


根據表中結果可見添加了影像特徵後,似乎分類器性能提升不大,甚至會出現降低的現象,可能原因如前述。


對於AD vs. NC分類任務,由於AD相比NC大腦結構會發生較為明顯的改變,因此目前各AD相關數據集上的AD vs. NC分類精度都比較高,因此,如果其他研究者使用本文方法後無法復現出較好結果,並非本文方法的問題,而是因為其他神經和精神疾病相比AD而言對大腦結構上的改變可能相對較小。本文主要是提供一種解決方法的整體思路,該方法和結論在其他類別疾病的分類任務上仍需通過進一步嚴謹設計的科學研究予以論證。


訓練測試過程中感受野的不匹配。實際情況下,感受野的差異會使深度學習模型性能產生大幅度下降,因此後面的probability map也許並非足夠可靠,雖然本文運用各種方法證明了attention區域是有意義的,但是至少講者認為,肯定有更好的probability attention方法。本文方法方面參考的文章,感受野是相同的,並沒有該研究中出現的patch-whole brain規模的感受野差異。


本文的這種attention方法,在計算機視覺領域並不是一種主流的模型可視化方法。


提供了一條完整的證據鏈,邏輯非常清楚,每一步都言之有理,每一步操作都有對應的分析,包括前面的算法部分,也做了一些實驗,放在參考材料中。


本文做了「人機大賽」,直接說明了深度學習模型的診斷效果比臨床醫生的診斷效果更優。


本文的數據有屍檢得到的生理生化指標,即得到了圖像以外更豐富的信息,個人認為這一方面的論證對文章的貢獻非常大。


文章語言簡練,寥寥數語就把問題說的非常清楚,類似的表達方式值得學習。


文中涵蓋了機器學習分類問題中的主流評價指標,且算法部分也相對比較常規,適合對機器學習、深度學習感興趣的讀者作為入門文章。


https://doi.org/10.1093/brain/awaa137

主講&翻譯:李青峰

編輯&排版:金書玉、李嘉琳

審校:PHI group

文字:PHI group


心理健康與腦影像研究組致力於神經影像數據科學和兒童青少年精神障礙的神經影像研究。研究方向為:   


(1) 神經影像數據科學:面向臨床應用,發展神經影像數據的統計和機器學習方法。目前研究項目涉及影像數據驅動的個體分類、利用自然刺激範式識別精神疾病、大規模神經影像資料庫的構建和數據挖掘。   


(2)兒童青少年精神障礙與腦發展異常:從腦發展異常角度研究兒童青少年精神障礙的腦異常、客觀診斷指標和幹預方法。目前研究項目涉及8-17歲兒童青少年焦慮障礙的腦影像隊列研究。    

        

    歡迎加盟與合作。

相關焦點

  • 一文探討可解釋深度學習技術在醫療圖像診斷中的應用
    然後,結合三篇文章具體分析了可解釋深度學習模型在醫療圖像分析中的應用。作為一種領先的人工智慧方法,深度學習應用於各種醫學診斷任務都是非常有效的,在某些方面甚至超過了人類專家。其中,一些計算機視覺方面的最新技術已經應用於醫學成像任務中,如阿爾茨海默病的分類、肺癌檢測、視網膜疾病檢測等。
  • 阿爾茨海默病的關鍵可能是一種蛋白質的缺乏
    原標題:阿爾茨海默病的關鍵可能是一種蛋白質的缺乏   休斯頓德克薩斯大學健康科學中心(UTHealth)的最新研究表明,大腦中缺乏一種能夠隨著年齡增長而保持組織健康的蛋白質與阿爾茨海默病有關
  • 「分子生物學、功能影像學對阿爾茨海默病早期精準診斷及療效監測...
    「分子生物學、功能影像學對阿爾茨海默病早期精準診斷及療效監測的關鍵技術」獲上海市科技進步一等獎 顯著提高早期診斷「老年性痴呆」精準性 來源:新聞中心   時間:2019-07-01  瀏覽:
  • 研究發現解決阿爾茨海默病血腦屏障損傷的通路
    原創 David Orenstein 阿爾茨海默病在阿爾茨海默病中,沿大腦血管系統沉積的澱粉樣蛋白會導致一種稱為腦澱粉樣血管病(CAA)的疾病,從而損害血腦屏障(BBB)功能並加速認知退化。
  • Science子刊:阿爾茨海默病其實是一種雙朊病毒疾病
    與之前可能需要數月才能揭示Aβ和/或tau朊病毒緩慢擴散的早期動物模型不同的是,這些基於細胞的測定方法在短短三天內就可測量傳染性朊病毒水平,這就使得這些研究人員首次能夠有效地定量確定tau和Aβ朊病毒在來自死後大腦樣本的加工提取物中的水平。在這項新的研究中,他們將這種技術應用於100多名死於阿爾茨海默病和其他神經退行性疾病的人的屍檢大腦組織中。
  • 以阿爾茲海默症為例:深度解析AI+慢病商業模式
    早期的診斷和診斷介入,可使患者顯著延後入住看護機構,平均每年可淨節省10000美元的費用。/這是一個巨大的市場,更是一個挑戰。臨床醫生面臨的一個關鍵挑戰是,大多數病人被明確診斷時疾病已處於晚期。研究人員希望新的人工智慧技術能夠通過提供早期預警系統來改變這種狀況。阿爾茨海默病是由粘稠的澱粉樣斑塊和tau蛋白聚積造成的,這些斑塊和tau蛋白阻止了神經元相互交流。
  • 宣武醫院賈建平團隊在阿爾茨海默病研究取得系列成果!
    5~7年預測阿爾茨海默病(Alzheimer’s disease, AD)的生物標誌物,準確率高達87%~89%,為AD的早期幹預打下基礎。brainnews白色世界編輯部對多篇論文進行了匯總,方便大家學習。
  • 阿爾茨海默病是一種雙朊病毒病
    在比較來自阿爾茨海默病患者和其他疾病死亡患者的樣本中,朊病毒活性與每種疾病中確定的獨特蛋白質病理學完全一致:在75種阿爾茨海默病腦中,A-β和tau朊病毒活性均升高;在來自腦澱粉樣血管病(CAA)患者的11個樣本中,僅見到A-β朊病毒;在10個tau連鎖的額顳葉變性(FTLD)樣本中,僅檢測到tau prions。
  • 研究人員發現一種蛋白質的缺乏可能是阿爾茨海默病的關鍵
    原創 UTHealth 阿爾茨海默病在大多數患有阿爾茨海默病的人中,症狀首先會出現在60多歲的年齡,而腦部疾病會慢慢破壞記憶和思維能力,最終破壞執行最簡單任務的能力。
  • Nature Neurosci: 神經科學的深度學習框架是什麼?
    那如果我們反過來思考,也許深度學習並沒有與神經科學背道而馳,而恰恰是觸及了當前神經科學還未開拓的領域呢?那麼我們是否可以,借鑑當前深度學習已有的規則和框架,來研究神經科學本身呢?今天分享一篇經典的文章。
  • 基因解讀阿爾茨海默病
    阿爾茨海默病發病隱蔽 早期診斷難  近年來,阿爾茨海默病(AD)越來越被公眾所熟知,當身邊有老年人出現忘事多、算數越來越差、生活慢慢不能自理時,就很可能需要篩查一下阿爾茨海默病了。  中山大學孫逸仙紀念醫院體檢中心、特診中心主任陳慶瑜教授介紹,阿爾茨海默病是一種神經變性疾病,表現為認知功能(記憶力、計算力、視空間等)下降,並伴有日常生活能力的逐漸喪失,晚期甚至會出現精神行為異常等。  《2015年世界阿爾茨海默病報告》指出,全球約有4680萬阿爾茲海默病患者,平均每3秒鐘就有1例新發患者,預計2050年全球患者將突破1億3150萬人。
  • 百年沉浮折戟再戰,抗阿爾茨海默病之路的下一個裡程碑在哪?
    在國際大藥廠 「越挫越勇」 不斷探索阿爾茨海默病藥物研發的同時,對於阿爾茨海默病診斷的研究也有了新進展。在正在進行的 2020 年阿爾茨海默病協會國際會議(AAIC 2020)上,瑞典隆德大學研究人員分享了一個具突破性的血液檢測標記物——P-tau217,或可提前 20 年診斷出阿爾茨海默病。
  • 通過光譜X射線技術了解阿爾茨海默病的進展
    原創 Medical Xpress 阿爾茨海默病阿爾茨海默病會破壞這些溝通渠道,導致功能喪失和細胞死亡。這些破壞通常首先發生在大腦中與記憶有關的區域,但隨著時間的流逝,它們還會影響控制語言、推理、溝通、活動能力和其他生活必需功能的區域。長期以來,科學家一直將大腦中蛋白質碎片(β-澱粉樣蛋白)的積累與阿爾茨海默病聯繫起來。
  • 無症狀期阿爾茨海默病的預後血液檢測
    , SCD)的人患阿爾茨海默病的風險。在研究開始時,所有參與者的血液樣本都被採集,並使用專利免疫紅外傳感器進行分析,該傳感器檢測β-澱粉樣蛋白(Aβ)肽的錯誤摺疊,這是阿爾茨海默病的生物標誌物。此外,受試者還接受了全面的阿爾茨海默病診斷測試,在研究開始時,沒有任何研究對象被診斷為阿爾茨海默病。另一方面,所有在研究開始時檢測到錯誤摺疊的Aβ肽的22名受試者在接下來的6年發展為臨床疾病。
  • 過度活化的星形膠質細胞解釋了阿爾茨海默病的不可預測性
    原創 Jacky 阿爾茨海默病儘管阿爾茨海默病是一種常見且致命的神經退行性腦疾病,但大多數阿爾茨海默病的治療似乎在揭開其病因之謎方面沒有取得太大進展。Justin LEE說:「這一發現表明,創傷性腦損傷、病毒感染和創傷後應激障礙等經歷可能會使健康的大腦由於過度的氧化應激而變得容易患上阿爾茨海默病。過度的氧化應激使身體無法對抗過量產生的含氧分子的有害影響,進而將溫和的反應性星形膠質細胞轉變為神經毒性的嚴重反應性星形膠質細胞,」Lee博士解釋說。
  • 自然醫學雜誌:運動可保護記憶力 防阿爾茨海默病
    原標題:自然醫學雜誌:運動可保護記憶力 防阿爾茨海默病   劇烈運動可以釋放大量的內啡肽,可以產生快感、改善情緒。近日,由哥倫比亞大學醫學院醫學博士、研究員Ottavio Arancio和Taub阿爾茨海默病與腦老化研究所共同牽頭的一項研究結果表明,運動還可以產生一種能夠改善記憶並預防阿爾茨海默病的激素。該項研究近日發表在《自然醫學》(Nature Medicine)雜誌上。
  • 利用幹細胞有望治療阿爾茨海默病
    這項研究中,研究者計劃招募大約40名研究對象,根據美國神經系統交流障礙及中風研究所、阿爾茲海默氏症及相關阿爾茨海默氏症協會的標準,這些研究對象在被招募前至少三個月被診斷為因阿爾茲海默氏症引發的輕度至中度痴呆症。
  • 兩種血液分子可預測阿爾茨海默病發展
    本報訊兩種血液分子的水平或能預測輕度認知損害患者未來的認知衰退和阿爾茨海默病的發展。這兩種分子分別是在蘇氨酸—181位上磷酸化的tau(P-tau181)和神經絲輕鏈(NfL)。該研究結果有助於開發出常規血液檢查方法,以追蹤高危群體的阿爾茨海默病進展。12月1日,相關論文刊登於《自然—衰老》。
  • L-絲氨酸可改善阿爾茨海默病的認知缺陷
    L-絲氨酸可改善阿爾茨海默病的認知缺陷 作者:小柯機器人 發布時間:2020/3/9 23:18:26 法國巴黎薩克萊大學Gilles Bonvento和法國國家健康與醫學研究院Aude Panatier小組合作在研究中取得進展
  • 人類腦細胞可以通過基因編輯,來降低罹患阿爾茨海默病的風險
    原創 Ryan Morrison 阿爾茨海默病一項新的研究表明,人類大腦中的細胞有一天可能被科學家編輯,以防止阿爾茨海默病的發展。英國《每日郵報》11月27日消息加拿大拉瓦爾大學(Laval University)的研究人員一直在研究一種基因變體,這種基因被認為可以降低人們罹患阿爾茨海默病的可能性,延長人們的壽命。90歲以上的人中有四分之一會患上阿爾茨海默病,這種病被認為是由腦細胞外一種叫做β-澱粉樣蛋白的蛋白質的積累引起的。