作者 | 溫淑
編輯 | 漠影
智東西12月3日消息,根據國家癌症中心2019年發布的最新全國癌症統計數據報告,胃癌已成為中國致死率排名第二的癌症,僅次於肺癌。而中國人民解放軍總醫院、中國醫學科學院腫瘤醫院、國家癌症中心、北京協和醫院等機構的研究人員8月27日刊發在國際權威學術期刊《Nature Communications》上的一項研究,介紹了全球首個可用於胃癌臨床病理診斷的AI模型,有望幫助降低胃癌的致死率。
根據名為《深度學習在胃癌診斷中的臨床應用(Clinically applicable histopathological diagnosis system for gastric cancer detection using deep learning)》的論文,該AI模型敏感性高達近100%、特異性可以達到平均80.6%,能幫助病理學家減少工作量、提升診斷準確性。
傳統上,胃癌的早期診斷一般依賴解剖病理學家對病患的全掃描組織病理學圖像(WSI)進行研判,即解剖病理學家利用顯微鏡對病人的玻璃病理切片進行觀察後得出診斷。而在全世界範圍內,具備豐富經驗的解剖病理學家十分稀缺。這不僅導致大量胃癌患者得不到早期幹預,病理學家的超負荷工作也容易導致誤診。
隨著病理學成像技術的進步,目前,越來越多的病理實驗室開始採用解析度更高的數位化病理切片來代替玻璃病理切片,這為胃癌的早期診斷提供了另外一種解法:引入AI輔助診斷系統,使其對病理切片給出初步診斷意見或對醫生診斷結果進行檢查。前者可以幫助醫生簡化診斷步驟,後者則是減少誤診情況的一道「保險」。
▲《深度學習在胃癌診斷中的臨床應用》
一、首個通過三項「考驗」的AI病理診斷模型
根據論文,深度學習模型被應用於臨床之前,應該通過三項「考驗」。
首先,在被投入臨床應用前,深度學習模型應該通過大量的測試,即在一段連續的時間內,對相當數量的、由各種品牌掃描儀所得出的數字病理切片進行「診斷」。在這一過程中,深度學習模型的敏感性應該接近100%,同時其特異性不能過度降低。
其次,AI系統應當能夠協助病理學家提升診斷準確性,同時不會拉低常規報告程序的效率。為了進一步提升病理學家對AI輔助系統的信任,人們應該對模型的預測結果進行研究,以確定模型的優缺點。
另外,在系統部署前進行多中心臨床試驗(multicentre test)也是十分重要的。多中心臨床試驗指的是由多位實驗者按照同一試驗方案在不同地點和單位同時進行臨床試驗,以保證模型在不同醫院裡都能表現出穩定的性能。
根據論文,目前已有許多研究驗證了AI工具在肺、胃、乳腺等各種器官系統中檢測腫瘤的有效性,但還未有一種模型能夠同時滿足以上三點要求。
本項研究中,中國人民解放軍總醫院的研究人員致力於使AI系統能夠通過這三項「考驗」。
二、訓練:用1500名病例的數字病理切片進行像素級癌症檢測
根據論文,研究人員選用DeepLab v3架構的卷積神經網絡(CNN)訓練AI診斷模型,用來自1500名胃癌患者的數字病理切片作為訓練樣本,共有12位病理學家參與試驗。在訓練過程中,研究人員對數字病理切片、12位病理學家的操作過程、模型運行過程均進行了精確的設計。
1、對數字病理切片進行40倍放大及染色
研究人員用數字掃描儀(型號:KFBio KF-PRO-005)對數字病理切片進行了40倍放大處理。
1500個數字病理切片中,958個是外科標本數字病理切片,其中包含908個惡性腫瘤病理切片;另有542個是活體組織數字病理切片,其中包含102個惡性腫瘤病理切片。所有數字病理切片均為2123像素級,並進行了H&E染色(蘇木精–伊紅染色,可將細胞核染成藍色、將細胞漿染成粉紅色)。
▲對數字病理切片進行放大、染色操作
2、12位病理學家按標準操作程序對切片進行標註
研究人員開發了一個基於iPad的標註系統,並向12位參與模型訓練的病理學家提供數據收集和標註的標準操作程序(SOP)。
具體來說,研究人員以第四版《消化系統腫瘤WHO分類》中的論述作為標準,訓練過程中,12位病理學家用Apple Pencil圈出數字病理切片中顯示為「惡性(malignant)」、「良性(benign)」、「圖像質量低(poor quality)」和「可忽略(ignore)」的區域,並對這些部位進行相應標註。
在之後的訓練過程中,被標註為「惡性」的區域將被認為是高度上皮瘤變和胃癌病灶,這兩種病變均需進行手術治療;被標註為「圖像質量低」和「可忽略」的區域將被認為是人體掃描質量低和難以診斷的部位。
3、模型採用語義分割方法,提供更豐富的預測細節
基於DeepLab v3架構的卷積神經網絡模型採用二進位圖像分割方法,以像素級精度進行癌症檢測。
模型訓練過程中,數字病理切片及相應的注釋以20倍的放大率被分割為320*320的像素塊,隨後被輸入到模型中。
據悉,像素塊被輸入模型時沒有特定的方向,模型會對輸入的病理切片進行90、180、270度的隨機旋轉和反轉,使其保持相同的方向。
為了提高模型在判斷來自不同醫院、不同掃描設備的數字病理切片時的穩健性,研究人員還對像素塊進行進一步處理:對像素塊進行高斯模糊、運動模糊、顏色值抖動(亮度由0.0調為0.2,飽和度由0.0調為0.25,對比度由0.0調為0.2,色度由0.0調為0.04)。
在模型「診斷」像素塊的過程中,像素級的預測結果是通過排序所有像素級預測的概率得到的。模型採用頻率最高的1000個預測結果,並用平均值表示對病理切片的預測。
根據論文,相比於常用的圖像塊分類(patch classification)和滑動窗口( sliding windows),模型採用的方法在像素級上提供了更多預測細節。
三、運行:敏感性達到0.996,平均特異性達到0.806
模型訓練完畢後,研究人員將其部署在中國人民解放軍總醫院中,進行為期3個月的試運行(2017年6月~8月)。訓練期間,模型共對來自1814名患者的3212個日常胃部病理切片進行診斷。
據了解,1814名患者中有1101名男性,平均年齡為54.12歲;有713名女性,平均年齡為54.66歲。3212個日常胃部病理切片中,有154個外科標本數字病理切片,1660個活體組織數字病理切片。
模型試運行過程中,胃部病理切片按照每兩周為一時間段分組,三個月內共有6個連續的時間段。為了測試模型對不同掃描儀處理的病理切片的處理性能,研究人員將獲得的病理切片在三個掃描儀上進行處理,得到一個數據集。
試運行結果顯示,模型的曲線下面積達到了0.986,其準確性達到0.873、敏感性達到0.996、特異性達到0.843,標準差為0.018。
在機器學習中,敏感性又稱真陽性率,即AI模型對疾病的敏感程度,敏感性越高,漏診概率越低;特異性又稱真陰性率,即AI模型判斷出良性患者或健康人的能力,特異性越高,確診概率越高。
▲模型在不同時間段的試運行結果
研究人員比較了模型對三臺不同掃描儀產生的病理切片的預測結果,結果顯示,模型對訓練時使用的KFBio KF-PRO-005掃描儀產生的病理切片預測結果最為準確,對另外兩臺數字掃描儀產生的病理切片的預測效果準確性略有下降。
具體來說,模型預測Ventana DP200掃描儀產生的數字病理切片時,曲線下面積為0.004;預測Hamamatsu NanoZoomer S360掃描儀產生的數字病理切片時,曲線下面積為0.013。
針對三臺不同掃描儀產生的共3212張病理切片,模型預測結果的敏感性達到0.996,平均特異性為0.806。
▲模型對不同來源數字病理切片的預測結果對比
四、AI模型幫助病理學家提升預測準確度
為了測試AI模型能否在真實情況下作出準確判斷,研究人員準備了100張數字病理切片,並對12名病理學家進行分組,以比較病理學家在藉助AI輔助系統、不藉助AI輔助系統下的診斷結果。
研究人員根據診斷難易程度,將數字病理切片分為四組,分別是:1、低倍鏡下容易診斷組(含有34張病理切片);2、易於診斷但需要高倍率放大組(含有39張病理切片);3、難以診斷但不需要藉助IHC組(含有23張病理切片);4、十分難以診斷,需藉助IHC組(含有4張病理切片)。IHC指免疫組織化學染色法,是一種利用免疫學反應,監測細胞或組織中是否存在目標抗原的方法。
12位病理學家被分為3組,其中A組使用傳統方式,用顯微鏡觀測玻璃病理切片;B組直接觀察數字病理切片;C組使用數字病理切片和AI輔助診斷系統。
測試進行兩次,其中一次不限制診斷時間,另一次把診斷時間限制在1小時內。
在不限制診斷時間的情況下(圖b),研究人員用ROC曲線比較病理學家的預測結果和AI模型的平均預測表現(模型的平均預測表現用圖中「★」表示,即敏感性為0.996、平均特異性為0.806)。結果顯示,AI模型和人類病理學家的表現相當。在一些情況下,AI模型的平均表現超過了人類病理學家。
準確性方面(圖c),使用AI輔助診斷的病理學家的準確性更高。
在不限制診斷時間的情況下,使用AI系統的C組病理學家平均診斷準確性相較使用顯微鏡觀察的A組、使用數字病理切片的B組分別提升了0.018、0.060;在限制診斷時間的情況下,使用AI系統的C組病理學家平均診斷準確性相較使用顯微鏡觀察的A組、使用數字病理切片的B組分別提升了0.013、0.008。
▲a-12位病理學家被分為三組;b-AI模型的平均表現相當或優於人類病理學家(★-模型平均表現);c-AI輔助診斷系統幫助人類病理學家達到更高的診斷準確性
結語:AI為醫療資源稀缺帶來解法
醫療從業者的稀缺和對醫療人才的依賴成為當今的醫療系統面臨的一個兩難問題。一方面,當今的醫療系統從診斷病情到確定治療方案都十分依賴醫生的個人經驗;另一方面,要等到醫療人才、醫療設施的存量增長到能滿足大多數人的醫療需求,勢必還需要很長時間。
這種背景下,近年來AI技術的跨越式發展為改善這一現狀提供了另外一種思路。除了類似於本文中直接切入診斷過程的AI系統,在醫院中引入基於AI的病例管理、分診系統等也可以幫助緩解醫療機構的就診壓力。
說不定在未來,或許AI將和人類醫生一樣,成為醫療系統中的中堅力量。