本文於2020年5月發表於Brain(IF:11.337)上。阿爾茨海默病(Alzheimer's Disease,AD)為痴呆症的常見形式。隨著人口老齡化,患病負擔不斷增加,在未來可能會超出社會的診斷和管理能力。當前診斷方法是通過結合患者病史,神經心理學測試和MRI等方式來識別可能病例,然而實際臨床應用仍然存在缺乏敏感性和特異性的問題。本研究報告了一種可解釋的深度學習疾病分類策略,該策略從MRI、年齡、性別和Mini-精神狀態檢查分數的多模態數據中勾勒出獨特的AD疾病特徵。研究框架與一個完整的卷積網絡相聯繫,該網絡可以構建從局部大腦結構到多層感知器的高解析度疾病概率圖,並在診斷過程中對AD風險進行精確,直觀的可視化顯示。該框架提供了一種研究方法,可使用常規可用的成像技術(例如MRI)生成細微的神經影像特徵來診斷阿爾茨海默病,以及將深度學習與人類疾病的病理生理過程聯繫起來的通用方法。
作者:Shangran Qiu, Prajakta S. Joshi, Matthew I. Miller, Chonghua Xue, Xiao Zhou et al.
文章的核心在於提出了一種可解釋的深度學習阿爾茨海默病分類框架,並使用大量的實驗來驗證。
2. 可以得到高解析度的個體化疾病概率圖:精確,直觀;
3. 分類準確率高(阿爾茨海默病 vs. 健康對照老年人);
*表1
實驗包括四個數據集,ADNI(採自南加州大學),AIBL(採自澳洲),FHS(1976年開始採集的三代人數據),NACC(採自美國的多中心數據)
表1中MMSE與APOE4的意義:
MMSE:Mini-Mental State Examination量表評分,滿分30分,27-30分為正常,小於27分為認知障礙(因為MMSE的評分只屬於AD診斷標準的一部分,所以痴呆可能也有28分,正常也會有25分。);
APOE4是一個基因,叫載脂蛋白E等位基因,它的突變是AD最大的遺傳風險因素之一,positive指的是發生突變的被試數量。
上述各數據集的T1影像的前處理包含兩步,分別是
此外,FHS資料庫裡的11個被試有大腦的屍檢研究(即有一些生理生化方面的指標),這11個被試的大腦用Freesurfer做皮層重建,分割出皮層和皮層下結構。
如圖1,本研究使用了深度卷積神經網絡作為分類器,模型採用全卷積網絡(與VGG/ResNet等在輸出部分採用全連接神經網絡不同)。網絡模型參數詳見表2。
在全卷積網絡的訓練階段,使用圖像塊對網絡模型進行訓練。所謂圖像塊,指的是從T1圖像中任意位置隨機cut出尺寸為47*47*47的圖像patch,每幅T1圖像上切出3000塊。
前四層卷積後面都有下採樣操作,因此圖像尺寸會逐漸減小。對於47×47×47的圖像塊,最後一層(即第六層)卷積層的輸出尺寸剛好是1×1×1。訓練階段示意圖如圖2所示。
訓練階段,使用圖像塊來訓練網絡模型,當模型收斂後,測試階段中,如果輸入原始尺寸的圖像(即不輸入隨機切出的圖像塊),也會一層層計算。根據上述表格,輸入圖像尺寸是47,一連串卷積和降採樣操作的輸出尺寸正好是1,但是對於原始圖像,輸入圖像尺寸為227×263×227,則相應地輸出尺寸為46×55×46,得到相應的probability map的尺寸(如果它想overlap到原始圖像上,就必須上採樣)。測試階段示意圖如圖3所示。
測試階段,輸入原始T1圖像,得到尺寸為46×55×46的輸出,文章中將該輸出稱為「probability map」,即概率圖。之所以稱為概率圖,原因在於:卷積網絡訓練得到的卷積核具有抽取特徵,每一層處理後,留下的就是該層卷積核處理後被強調的地方(或者說是提取出的特徵)。
根據前面基於圖像塊的訓練,最後一層卷積核提取的特徵就是直接與類別相關的特徵。因此這裡輸入全圖得到的輸出圖像,每個voxel的值就代表著該位置上對於類別的直接預測情況(經過soft-max處理,其數值介於0-1之間,數值越大意味著對AD類別判斷的「傾向性」越大),因此稱其為「概率圖」。
得到的概率圖可用於下一步的疾病分類,此處為保證思路的連貫性,將「疾病分類」方法部分放到後面(與原文敘述順序不同),此處略過。
*圖4
A圖展示了在同樣的位置,兩個AD(Alzheimer's disease)被試和兩個健康被試的disease probability map;B,C,D圖展示了一個AD被試的橫斷面、冠狀面和矢狀面的probability map的情況。根據前述提出的probability map的獲取方法,map上的數值更接近於1(在上圖中越紅),則提示該位置上AD造成的可能的結構改變較大。根據圖中顯示,AD偏紅的區域更多。
衡量probability map對病變區域的attention效果到底如何,最直接的證據就是,如果有病理研究證明就在這些attention腦區有神經纖維纏結、緻密的老年斑,tau蛋白沉積等等這些AD的病理標記,那麼說明深度學習模型得到的attention是正確的。(此數據很難尋找,但是本文進行了這方面的研究,因此講者認為這一點是這篇論文裡最直接的、最強有力的一個論證。)文章中這部分研究,使用的數據是FHS資料庫裡的11個屍檢分析的被試。這裡展示了一個被試的示意圖,如圖4所示。
*圖5
第一列是T1;第二列是前述提到的probability map,第三列是probability map用0.7作為閾值來勾勒邊界,也就是說選取attention的風險最高的一些區域;第四列的是freesurfer的分割結果,在分割結果上使用color coding表示發生不同程度病理改變的腦區。這個「病理改變」的定義是通過切片分析beta澱粉樣蛋白和tau蛋白的沉積情況(目前的主流研究認為這兩種蛋白的沉積是導致AD發病的一個重要原因)、此外還通過免疫化學反應來分析了神經纖維纏結等改變,綜合得到了第四列這樣一個color coding出的結果。注意:不是所有腦區都進行了生化研究,所以接下來的分析過程中有些數據是缺失的。第五列就是把第四列overlap在T1上。
圖5為結果的定性分析,可以從直觀上感受到probability map 強調的區域和生理生化研究得到的病變區域的結果是相近的。下面針對probability map 強調的區域和生理生化研究得到的病變區域結果之間的相關性,又進行了半定量分析:
*圖6
a)Biel:比爾索夫斯基銀染液;b)AT8:用來染磷酸化tau蛋白的染液;c)NFT:20倍鏡下神經纖維纏結的密度;d)NPL:100倍鏡下老年斑密度;DP:100倍鏡下彌散性斑塊的密度;e)CA1區:是一個海馬亞區,海馬體的頭部主要是CA1區,對缺氧等損傷非常敏感,因此也稱為易損區,通常是衡量病變的一個敏感性較高的區域;f)CA2區:也是海馬的一個亞區,CA2區主要和社交記憶相關,而社交記憶的受損是AD的一個重要的臨床指徵之一,因此CA2區對於研究AD也很重要。g)空白區域:數據缺失。每幅圖中縱坐標表示:11個被試在該腦區下的probability map上的灰度平均值(即表明深度學習判斷該腦區的AD風險大小)按從大到小排列。每個方塊的顏色,表明在橫坐標對應的當前指標下,生化研究所得到的AD風險評估(與圖5的color coding相同)。亦即,深顏色越集中在整個圖的上半部分,說明深度學習模型對不同被試的AD預測概率,和病理評估的結果的一致性越好。
根據FHS數據集中11個被試的分析結果,在海馬、額中回、顳葉、杏仁核這四個區域,深度學習模型對不同被試的AD預測概率,從直觀上看是和病理評估的結果是保持一致的,也就是說在這些腦區,病理評估的結果越傾向於嚴重的被試,模型對AD的預測概率也較大。文章也做了相應的統計分析,即計算了這些區域深度學習AD預測概率和病理評估評分的斯皮爾曼相關係數,結果見表3:
但是根據上表,只有4個腦區上是顯著的,可能與其數據量有關,因為僅有11個被試,還存在數據缺失的情況。
2)疾病預測準確率方面的結論
利用probability map的灰度信息,我們可以進一步得到一些疾病的分類結果。圖7展示了文章中研究的三種作為對比的分類方法:
*圖7
A表示直接使用影像信息(probability map)進行疾病分類;B表示只使用age+gender+MMSE(非影像信息)進行疾病分類;C表示融合了影像和非影像特徵進行疾病分類。上面三幅圖中的圓點,表示全連接神經網絡中的神經元,亦即該階段的疾病分類使用的是傳統全連接神經網絡模型。
針對probability map,從其上選了200個「置信度」最高的點,直接把灰度值應用到全連接神經網絡裡——這個「置信度」,用Matthews相關係數(MCC)來度量。Matthews相關係數,又叫phi係數,在機器學習中用作衡量二進位和多元分類質量的指標。它考慮了真假的正負,通常被認為是一種平衡的度量,即使不同類別的數量差異很大,也可以使用。這裡的Matthews相關係數計算的「相關」是指probability map上每個voxel的預測結果和被試的診斷標籤做相關。Matthews相關係數的計算公式如下:
Matthews相關係數在各個數據集上的計算結果如圖8:
*圖8
A圖中的T1非常有誤導性,讀者容易誤認為這個MCC圖是基於個體算出來(即個體化)的,但是一個被試不可能同時出現在四個不同站點的數據集中,實際上如果擺一個MNI152的圖上去我認為才比較合適;BCD則展示了三個視角下的各個截面MCC值的分布情況。MCC越高:相關性越高,是介於-1和+1之間的相關係數值。係數+1表示完全正相關,係數0表示無關,而係數-1表示負相關。
根據圖8,在probability map上選200個mcc最高的位置的點,probability map上這些點的灰度值作為全連接神經網絡的輸入,進行疾病分類。
本文的重要亮點之一為模型的分類準確率較高,如何衡量「準確率高」,本文採用的方法是與臨床醫生進行對比。本研究徵集了11個臨床醫生,給了他們T1影像和age/gender/MMSE,讓他們診斷來自ADNI的80個病人。深度學習模型的分類情況與臨床醫生的對比如圖9:
*圖9
包括SEN-SPE曲線(ROC曲線沿x=0.5翻轉,其目的是希望與PR曲線保持形狀一致)、PR曲線、Cohen’s kappa下三角矩陣。MRI:只使用影像特徵;NI:只使用age/gender/MMSE非影像特徵;Fus:影像+非影像融合特徵。紅色加號表示單個神經科醫生的表現,綠色加號及其上延伸出的誤差條表示所有醫生診斷表現的平均值和標準差。
根據圖9結果顯示,人工診斷基本落在機器診斷的曲線以內,說明深度學習分類模型的性能整體優於臨床專家。
臨床專家之間的診斷一致性通過右側的Cohen’s kappa下三角矩陣表示,Cohen’s kappa值域為[0, 1],其數值正比於兩個專家意見一致的次數,值域為[0-1],kappa=1代表兩個專家的評估完全一致,此圖相當於圖9左邊兩幅曲線圖中綠色
error bar,說明了不同專家之間的診斷一致性值得商榷。
本文也給出了在不同數據集上診斷的SEN-SPE曲線以及PR曲線,如圖10:
結合前面的ADNI test上的SEN-SPE圖,發現一個問題:僅使age/gender/mmse來分類,其分類精度已經達到較高程度,甚至在某些情況下,增加影像信息會導致模型精度下降。可能原因是ADNI等數據集中的臨床標籤標定較大程度地參考臨床量表,因此這部分結果會對最後的分類產生較大影響。
除上述曲線外,本文也報告了具體的分類精度,見表4:
重複了五次實驗,但不是五折交叉驗證,而是把訓練集/驗證集/測試集按一定比例隨機選取的這個過程重複了5次。
根據表中結果可見添加了影像特徵後,似乎分類器性能提升不大,甚至會出現降低的現象,可能原因如前述。
對於AD vs. NC分類任務,由於AD相比NC大腦結構會發生較為明顯的改變,因此目前各AD相關數據集上的AD vs. NC分類精度都比較高,因此,如果其他研究者使用本文方法後無法復現出較好結果,並非本文方法的問題,而是因為其他神經和精神疾病相比AD而言對大腦結構上的改變可能相對較小。本文主要是提供一種解決方法的整體思路,該方法和結論在其他類別疾病的分類任務上仍需通過進一步嚴謹設計的科學研究予以論證。
訓練測試過程中感受野的不匹配。實際情況下,感受野的差異會使深度學習模型性能產生大幅度下降,因此後面的probability map也許並非足夠可靠,雖然本文運用各種方法證明了attention區域是有意義的,但是至少講者認為,肯定有更好的probability attention方法。本文方法方面參考的文章,感受野是相同的,並沒有該研究中出現的patch-whole brain規模的感受野差異。
本文的這種attention方法,在計算機視覺領域並不是一種主流的模型可視化方法。
提供了一條完整的證據鏈,邏輯非常清楚,每一步都言之有理,每一步操作都有對應的分析,包括前面的算法部分,也做了一些實驗,放在參考材料中。
本文做了「人機大賽」,直接說明了深度學習模型的診斷效果比臨床醫生的診斷效果更優。
本文的數據有屍檢得到的生理生化指標,即得到了圖像以外更豐富的信息,個人認為這一方面的論證對文章的貢獻非常大。
文章語言簡練,寥寥數語就把問題說的非常清楚,類似的表達方式值得學習。
文中涵蓋了機器學習分類問題中的主流評價指標,且算法部分也相對比較常規,適合對機器學習、深度學習感興趣的讀者作為入門文章。
https://doi.org/10.1093/brain/awaa137
主講&翻譯:李青峰
編輯&排版:金書玉、李嘉琳
審校:PHI group
文字:PHI group
心理健康與腦影像研究組致力於神經影像數據科學和兒童青少年精神障礙的神經影像研究。研究方向為:
(1) 神經影像數據科學:面向臨床應用,發展神經影像數據的統計和機器學習方法。目前研究項目涉及影像數據驅動的個體分類、利用自然刺激範式識別精神疾病、大規模神經影像資料庫的構建和數據挖掘。
(2)兒童青少年精神障礙與腦發展異常:從腦發展異常角度研究兒童青少年精神障礙的腦異常、客觀診斷指標和幹預方法。目前研究項目涉及8-17歲兒童青少年焦慮障礙的腦影像隊列研究。
歡迎加盟與合作。