AI化身診斷胃癌小能手,模型敏感性高達近100%

2020-12-05 手機鳳凰網

作者 | 溫淑

編輯 | 漠影

智東西12月3日消息,根據國家癌症中心2019年發布的最新全國癌症統計數據報告,胃癌已成為中國致死率排名第二的癌症,僅次於肺癌。而中國人民解放軍總醫院、中國醫學科學院腫瘤醫院、國家癌症中心、北京協和醫院等機構的研究人員8月27日刊發在國際權威學術期刊《Nature Communications》上的一項研究,介紹了全球首個可用於胃癌臨床病理診斷的AI模型,有望幫助降低胃癌的致死率

根據名為《深度學習在胃癌診斷中的臨床應用(Clinically applicable histopathological diagnosis system for gastric cancer detection using deep learning)》的論文該AI模型敏感性高達近100%、特異性可以達到平均80.6%,能幫助病理學家減少工作量、提升診斷準確性。

傳統上,胃癌的早期診斷一般依賴解剖病理學家對病患的全掃描組織病理學圖像(WSI)進行研判,即解剖病理學家利用顯微鏡對病人的玻璃病理切片進行觀察後得出診斷。而在全世界範圍內,具備豐富經驗的解剖病理學家十分稀缺。這不僅導致大量胃癌患者得不到早期幹預,病理學家的超負荷工作也容易導致誤診。

隨著病理學成像技術的進步,目前,越來越多的病理實驗室開始採用解析度更高的數位化病理切片來代替玻璃病理切片,這為胃癌的早期診斷提供了另外一種解法:引入AI輔助診斷系統,使其對病理切片給出初步診斷意見或對醫生診斷結果進行檢查。前者可以幫助醫生簡化診斷步驟,後者則是減少誤診情況的一道「保險」。

▲《深度學習在胃癌診斷中的臨床應用》

一、首個通過三項考驗AI病理診斷模型

根據論文,深度學習模型被應用於臨床之前,應該通過三項「考驗」。

首先,在被投入臨床應用前,深度學習模型應該通過大量的測試,即在一段連續的時間內,對相當數量的、由各種品牌掃描儀所得出的數字病理切片進行診斷。在這一過程中,深度學習模型的敏感性應該接近100%,同時其特異性不能過度降低。

其次,AI系統應當能夠協助病理學家提升診斷準確性,同時不會拉低常規報告程序的效率。為了進一步提升病理學家對AI輔助系統的信任,人們應該對模型的預測結果進行研究,以確定模型的優缺點。

另外,在系統部署前進行多中心臨床試驗(multicentre test)也是十分重要的。多中心臨床試驗指的是由多位實驗者按照同一試驗方案在不同地點和單位同時進行臨床試驗,以保證模型在不同醫院裡都能表現出穩定的性能。

根據論文,目前已有許多研究驗證了AI工具在肺、胃、乳腺等各種器官系統中檢測腫瘤的有效性,但還未有一種模型能夠同時滿足以上三點要求。

本項研究中,中國人民解放軍總醫院的研究人員致力於使AI系統能夠通過這三項「考驗」。

二、訓練:用1500名病例的數字病理切片進行像素級癌症檢測

根據論文,研究人員選用DeepLab v3架構的卷積神經網絡(CNN)訓練AI診斷模型,用來自1500名胃癌患者的數字病理切片作為訓練樣本,共有12位病理學家參與試驗。在訓練過程中,研究人員對數字病理切片、12位病理學家的操作過程、模型運行過程均進行了精確的設計。

1、對數字病理切片進行40倍放大及染色

研究人員用數字掃描儀(型號:KFBio KF-PRO-005)對數字病理切片進行了40倍放大處理。

1500個數字病理切片中,958個是外科標本數字病理切片,其中包含908個惡性腫瘤病理切片;另有542個是活體組織數字病理切片,其中包含102個惡性腫瘤病理切片。所有數字病理切片均為2123像素級,並進行了H&E染色(蘇木精–伊紅染色,可將細胞核染成藍色、將細胞漿染成粉紅色)。

▲對數字病理切片進行放大、染色操作

212位病理學家按標準操作程序對切片進行標註

研究人員開發了一個基於iPad的標註系統,並向12位參與模型訓練的病理學家提供數據收集和標註的標準操作程序(SOP)。

具體來說,研究人員以第四版《消化系統腫瘤WHO分類》中的論述作為標準,訓練過程中,12位病理學家用Apple Pencil圈出數字病理切片中顯示為「惡性(malignant)」、「良性(benign)」、「圖像質量低(poor quality)」和「可忽略(ignore)」的區域,並對這些部位進行相應標註。

在之後的訓練過程中,被標註為「惡性」的區域將被認為是高度上皮瘤變和胃癌病灶,這兩種病變均需進行手術治療;被標註為「圖像質量低」和「可忽略」的區域將被認為是人體掃描質量低和難以診斷的部位。

3、模型採用語義分割方法,提供更豐富的預測細節

基於DeepLab v3架構的卷積神經網絡模型採用二進位圖像分割方法,以像素級精度進行癌症檢測。

模型訓練過程中,數字病理切片及相應的注釋以20倍的放大率被分割為320*320的像素塊,隨後被輸入到模型中。

據悉,像素塊被輸入模型時沒有特定的方向,模型會對輸入的病理切片進行90、180、270度的隨機旋轉和反轉,使其保持相同的方向。

為了提高模型在判斷來自不同醫院、不同掃描設備的數字病理切片時的穩健性,研究人員還對像素塊進行進一步處理:對像素塊進行高斯模糊、運動模糊、顏色值抖動(亮度由0.0調為0.2,飽和度由0.0調為0.25,對比度由0.0調為0.2,色度由0.0調為0.04)。

在模型「診斷」像素塊的過程中,像素級的預測結果是通過排序所有像素級預測的概率得到的。模型採用頻率最高的1000個預測結果,並用平均值表示對病理切片的預測。

根據論文,相比於常用的圖像塊分類(patch classification)和滑動窗口( sliding windows),模型採用的方法在像素級上提供了更多預測細節。

三、運行:敏感性達到0.996,平均特異性達到0.806

模型訓練完畢後,研究人員將其部署在中國人民解放軍總醫院中,進行為期3個月的試運行(2017年6月~8月)。訓練期間,模型共對來自1814名患者的3212個日常胃部病理切片進行診斷。

據了解,1814名患者中有1101名男性,平均年齡為54.12歲;有713名女性,平均年齡為54.66歲。3212個日常胃部病理切片中,有154個外科標本數字病理切片,1660個活體組織數字病理切片。

模型試運行過程中,胃部病理切片按照每兩周為一時間段分組,三個月內共有6個連續的時間段。為了測試模型對不同掃描儀處理的病理切片的處理性能,研究人員將獲得的病理切片在三個掃描儀上進行處理,得到一個數據集。

試運行結果顯示,模型的曲線下面積達到了0.986,其準確性達到0.873、敏感性達到0.996、特異性達到0.843,標準差為0.018。

在機器學習中,敏感性又稱真陽性率,即AI模型對疾病的敏感程度,敏感性越高,漏診概率越低;特異性又稱真陰性率,即AI模型判斷出良性患者或健康人的能力,特異性越高,確診概率越高。

▲模型在不同時間段的試運行結果

研究人員比較了模型對三臺不同掃描儀產生的病理切片的預測結果,結果顯示,模型對訓練時使用的KFBio KF-PRO-005掃描儀產生的病理切片預測結果最為準確,對另外兩臺數字掃描儀產生的病理切片的預測效果準確性略有下降。

具體來說,模型預測Ventana DP200掃描儀產生的數字病理切片時,曲線下面積為0.004;預測Hamamatsu NanoZoomer S360掃描儀產生的數字病理切片時,曲線下面積為0.013。

針對三臺不同掃描儀產生的共3212張病理切片,模型預測結果的敏感性達到0.996,平均特異性為0.806。

▲模型對不同來源數字病理切片的預測結果對比

四、AI模型幫助病理學家提升預測準確度

為了測試AI模型能否在真實情況下作出準確判斷,研究人員準備了100張數字病理切片,並對12名病理學家進行分組,以比較病理學家在藉助AI輔助系統、不藉助AI輔助系統下的診斷結果。

研究人員根據診斷難易程度,將數字病理切片分為四組,分別是:1、低倍鏡下容易診斷組(含有34張病理切片);2、易於診斷但需要高倍率放大組(含有39張病理切片);3、難以診斷但不需要藉助IHC組(含有23張病理切片);4、十分難以診斷,需藉助IHC組(含有4張病理切片)。IHC指免疫組織化學染色法,是一種利用免疫學反應,監測細胞或組織中是否存在目標抗原的方法。

12位病理學家被分為3組,其中A組使用傳統方式,用顯微鏡觀測玻璃病理切片;B組直接觀察數字病理切片;C組使用數字病理切片和AI輔助診斷系統。

測試進行兩次,其中一次不限制診斷時間,另一次把診斷時間限制在1小時內。

在不限制診斷時間的情況下(圖b),研究人員用ROC曲線比較病理學家的預測結果和AI模型的平均預測表現(模型的平均預測表現用圖中「★」表示,即敏感性為0.996、平均特異性為0.806)。結果顯示,AI模型和人類病理學家的表現相當。在一些情況下,AI模型的平均表現超過了人類病理學家。

準確性方面(圖c),使用AI輔助診斷的病理學家的準確性更高

在不限制診斷時間的情況下,使用AI系統的C組病理學家平均診斷準確性相較使用顯微鏡觀察的A組、使用數字病理切片的B組分別提升了0.018、0.060;在限制診斷時間的情況下,使用AI系統的C組病理學家平均診斷準確性相較使用顯微鏡觀察的A組、使用數字病理切片的B組分別提升了0.013、0.008。

▲a-12位病理學家被分為三組;b-AI模型的平均表現相當或優於人類病理學家(★-模型平均表現);c-AI輔助診斷系統幫助人類病理學家達到更高的診斷準確性

結語:AI為醫療資源稀缺帶來解法

醫療從業者的稀缺和對醫療人才的依賴成為當今的醫療系統面臨的一個兩難問題。一方面,當今的醫療系統從診斷病情到確定治療方案都十分依賴醫生的個人經驗;另一方面,要等到醫療人才、醫療設施的存量增長到能滿足大多數人的醫療需求,勢必還需要很長時間。

這種背景下,近年來AI技術的跨越式發展為改善這一現狀提供了另外一種思路。除了類似於本文中直接切入診斷過程的AI系統,在醫院中引入基於AI的病例管理、分診系統等也可以幫助緩解醫療機構的就診壓力。

說不定在未來,或許AI將和人類醫生一樣,成為醫療系統中的中堅力量。

相關焦點

  • .| 6家醫院合作的上消化道腫瘤內鏡AI輔助診斷系統問世,敏感性...
    儘管人工智慧在上消化道癌症診斷中的應用已發表了令人鼓舞的初步結果,但由於研究設計有待改進(如單中心研究、小樣本和回顧性分析),它們的臨床價值比較小。雷鋒網了解到,團隊的這款AI診斷平臺名叫GRAIDS,經臨床實踐數據驗證,對上消化道腫瘤的診斷敏感性高達90%以上,優於非專家級別內鏡醫師。2019年10月,相關研究成果《人工智慧實時輔助內鏡早期診斷上消化道腫瘤:一項多中心、病例對照、診斷性研究》正式在線發表於全球頂尖學術期刊《柳葉刀·腫瘤學》上。
  • 驗尿能查胃癌?GC-MS助胃癌實現無創化診斷
    上海瑞金醫院7日披露,瑞金醫院上海消化外科研究所朱正綱、於穎彥教授領銜的研究團隊發現尿液中可以檢測到胃癌標誌物。  這預示著今後通過尿液就可以篩查胃癌。該成果對於實現胃癌的「無創化」診斷、提高胃癌早期發現、早期治療有著積極的意義。
  • 從胃癌分型、臨床診斷及治療出發,看胃癌綜合診治的重要性
    1.2 組織分型 世界衛生組織(WHO)在2000年將胃癌組織類型分為腺癌( 腸型和瀰漫型) 、乳頭狀腺癌、管狀腺癌、黏液腺癌、印戒細胞癌、腺鱗癌、鱗狀細胞癌、小細胞癌、未分化癌、其他,胃癌絕大部分為腺癌。
  • 【Science子刊】中科院聯合香港城市大學開發胃癌檢測微流控晶片
    carcinoma)是最常見的癌症之一,全球每年新增病例超過100萬例,死亡人數近80萬。難以早期診斷腹膜轉移是胃癌預後不良的主要原因。近日,中科院聯合香港城市大學開發了一種微流控技術,對胃癌細胞進行無標記的分離和表徵,有助於胃癌的早期診斷。 癌細胞的分離和表徵對於腹膜轉移的早期診斷至關重要。
  • 自動化所等在胃癌隱匿性腹膜轉移智能診斷研究中獲進展
    自動化所等在胃癌隱匿性腹膜轉移智能診斷研究中獲進展 2019-03-28 自動化研究所 【字體:大 中 小】 因此,早期診斷胃癌隱匿性的腹膜轉移具有重大的臨床價值。  針對這一挑戰性的臨床問題,中科院分子影像重點實驗室通過多項技術創新,將影像組學應用於胃癌隱匿性腹膜轉移的預測研究中,該研究基於胃癌原發灶和鄰近腹膜的定量CT影像組學特徵,並結合術前的Lauren分型,有效預測了胃癌患者的隱匿性腹膜轉移。
  • 患上乳腺癌後開發AI診斷模型,MIT女學者獲「AI諾貝爾獎」
    明年2月,AAAI將正式為她頒發這一獎項——AAAI Squirrel AI 獎,獎金高達100萬美元。她創建了早期乳腺癌診斷和風險評估的算法模型,該項目已經在全球多家醫院,包括瑞典、波士頓、中國臺灣地區等地方落地。
  • 海綿城市LID設施模型參數敏感性研究
    北極星水處理網訊:導讀:隨著各地海綿城市建設的推進,模型評估在海綿城市低影響開發設計中得到廣泛運用,準確的LID設施模型參數確定是其應用可靠的關鍵性問題。以廈門海綿城市試點建設為契機,採用Morris分析方法,對SWMM模型中的幾類LID設施模型參數進行敏感性分析。
  • 診斷實驗敏感性和特異性比較(R語言)
    預測模型在腫瘤學中的應用越來越多,如何比較診斷模型中的敏感性和特異性呢?小編,今天用R語言帶大家一起來解鎖。
  • 比常規診斷提前四年發現癌症 復旦科研團隊證實ctDNA甲基化篩查技術
    研究發現,對於結直腸癌、食管癌、肝癌、肺癌和胃癌等5種常見惡性腫瘤,在達到現有臨床確診金標準之前,甚至在病人出現自覺症狀前,早期的癌症信號——微量腫瘤甲基化就存在於血液循環之中,並可以被無創檢測。截至目前,已有近20萬社區人群參加該項研究。研究團隊通過系統的隊列隨訪,長期跟蹤隊列人群各種重大慢性病的發生情況,並且在無症狀人群中於多個時間節點跟蹤採集了150餘萬份各類生物樣本長期保存。
  • 高達模型種類有哪些 高達模型的各個類型的區別
    PG版  PG(Prefact Grade)顧名思義完美模型,萬代公司於1998年開始發售本級別的高達模型.被廣大玩家認做是最夢寐以求的高達模型.本系列只有一種比例為1:60大小.做出的成品一般在33釐米高左右.
  • 重慶舉行首屆青少年科技航模小能手競賽 小學生手工作品引圍觀
    在今(9)日舉行的重慶市首屆青少年科技航模小能手競賽現場,珊瑚康恆小學四年級三班的譚博文正拉著路過的家長展示自己的作品《飛碟》。  譚博文帶來了兩個作品,一個是《飛碟》,一個是《一吹即滅燈》,這些都是他在每周的生活大課堂上做的。雖然材料都是外邊買來的,但因為涉及到電路知識,譚博文坦言組裝時還是遇到了很多困難,「還要專門去學一些電路的知識才行,不然很容易裝錯。」
  • 千億規模的病理市場 能否成為AI初創企業的新出口?
    以胃癌為例,每年有超過2000萬人次不得不多次前往病理科進行胃鏡活檢。初略估計,這一市場規模高達百億人民幣。除此以外,病理切片還有更深層次的信息有待挖掘,新藥研發、基因甚至還有新的第三方服務模式都在改變著現有的病理科室。但這些病理人工智慧企業的發展速度無法與影像AI企業相比。雖然每年醫院會生產大量病理數據,但這些數據的質量參差不齊,結構與維度上都存在較大的差異。
  • 胃癌篩查的中國經驗
    近幾十年來,隨著人們生活條件的改善、良好飲食習慣的形成、幽門螺桿菌(Helicobacter pylori,Hp)的根除等因素,胃癌發病率總體有所下降,但仍位居消化道腫瘤的首位。據我國2015年惡性腫瘤發病、死亡數據顯示,胃癌發病率在男性和女性分列第二、第三位,而死亡率則均列第二位,我國胃癌新發病例和死亡病例約佔全球42.6%和45.0%。
  • 「AI肺病診斷」玩家眾多,假陽性率高企受行業質疑
    因此,早期檢測、早期診斷、早期治療是提高癌症治癒率的重要途徑。人工智慧助力肺癌早篩準確篩查出肺結節,是癌症早期診斷的第一步。然而由於肺結節尺寸小、對比度低、形狀異質化高等特點,普通X線胸片的診斷正確率僅有50%。
  • 新冠檢測新方法:用咳嗽聲診斷無症狀感染者,準確率達100%
    該AI算法已通過迄今為止最大的咳嗽數據集測試,無症狀感染者的診斷準確率可達到100%。AI模型和數據集是決定疾病診斷準確率的兩項關鍵指標。在模型方面,採用的仍然是阿爾茨海默氏症AI模型,並且同樣以聲帶強度、情緒、肺和呼吸四項生物特徵作為診斷COVID-19感染患者的標準。
  • Google新AI計劃助力腦電波診斷抑鬱症
    導讀幾天前,Alphabet公司的Google X實驗室詳細介紹琥珀計劃(ProjectAmber),旨在讓腦電技術像血糖一樣易於被解讀,其目標是利用腦電和人工智慧技術開發可用於抑鬱症和焦慮症的診斷與治療方法。
  • AI版「滴血測癌」!Nature:檢測血液中微生物DNA,癌症早診斷
    當Gregory Poore還是一名大一新生時,他原本健康的祖母被診斷患有晚期胰腺癌,12月下旬確診,次年1月就去世了。這讓他感到震驚,「因為她幾乎沒有任何徵兆或症狀,為什麼她的癌症沒有更早被發現,為什麼治療方法無效?」這些問題驅使著Poore不斷地去尋找答案。
  • 新冠檢測新方法:MIT用咳嗽聲診斷無症狀感染者,準確率達100%
    該AI算法已通過迄今為止最大的咳嗽數據集測試,無症狀感染者的診斷準確率可達到100%。目前,MIT研究團隊已經與一家企業展開合作,計劃將該AI算法整合到手機應用程式中。後來,Subirana在COVID-19咳嗽數據集上訓練了阿爾茨海默氏病AI模型,結果取得了驚人的發現。該AI模型不僅可以高精度識別出新冠感染患者,而且無症狀感染者的準確率更高。無症狀感染者識別率100%AI模型和數據集是決定疾病診斷準確率的兩項關鍵指標。
  • 加速癌症診斷:新AI系統可助病理醫生排除75%的組織樣本
    7月15日,《自然·醫學》雜誌報導了一種能夠區分癌症與健康組織的人工智慧系統,該系統可以幫助病理科醫生排除75%的無關組織樣本,並保持100%的敏感性。研究人員認為,這項研究有助於簡化病理科醫生的工作流程,使他們集中精力檢查含有腫瘤的組織切片。
  • 「胃癌關愛日」為什麼胃癌會被稱為「中國式癌症」?預防胃癌請您...
    在中國,胃癌是發病率較高的惡性腫瘤之一,佔全球42.5%,患者人數佔全部腫瘤人數的1/4,被稱之為「中國式癌症」,平均每2~3分鐘就有1人死於胃癌,發病情勢堪憂,胃癌至今依然是嚴重威脅我國人民健康的重大疾病,是我國公共衛生不容忽視的重要問題。