上消化道癌症(包括食道癌和胃癌)是世界範圍內最常見的惡性腫瘤。
據國家癌症中心統計數據顯示,全球約50%的上消化道癌(包括食管癌、胃癌等)發生在中國,其中超過85%的患者在確診時已為中晚期,每年因此導致的死亡病例超過40萬,但如果能早期發現,5年生存率可以超過90%。
為了克服這一挑戰,許多國家已經制定並實施了上消化道內鏡指南和技術,如窄帶成像和共焦雷射內窺鏡,從而提高了早期上消化道腫瘤的檢出率。但是在內鏡檢查中,可疑上消化道癌症被漏診的風險在病人數量少的醫院、欠發達地區或偏遠地區,甚至在經常進行內鏡檢查的國家可能仍然很高。
人工智慧在醫學的各個領域展示出了非常大的潛力,臨床上,內窺鏡人工智慧最重要的用途是幫助區分腫瘤性病變和非腫瘤性病變。儘管人工智慧在上消化道癌症診斷中的應用已發表了令人鼓舞的初步結果,但由於研究設計有待改進(如單中心研究、小樣本和回顧性分析),它們的臨床價值比較小。
因此,中山大學腫瘤防治中心主任、院長、所長,華南腫瘤學國家重點實驗室主任徐瑞華教授帶領由數十位專家組成的團隊開展了多學科聯合攻關,成功自主研發出了一套上消化道癌內鏡AI輔助診斷系統,利用來自6家醫院的真實內鏡成像數據來檢測上消化道腫瘤。
雷鋒網了解到,團隊的這款AI診斷平臺名叫GRAIDS,經臨床實踐數據驗證,對上消化道腫瘤的診斷敏感性高達90%以上,優於非專家級別內鏡醫師。
2019年10月,相關研究成果《人工智慧實時輔助內鏡早期診斷上消化道腫瘤:一項多中心、病例對照、診斷性研究》正式在線發表於全球頂尖學術期刊《柳葉刀·腫瘤學》上。
這項多中心、病例對照、診斷性研究在中國六家醫院進行,回顧性地從國立中山大學腫瘤中心(廣州)的影像資料庫中獲得內鏡圖像,用於GRAIDS的開發和驗證。此外,團隊還開發了一個CAD系統,實時識別上消化道癌性病變,用於常規內鏡檢查。安裝CAD系統的計算機直接連接到內窺鏡裝置上,從而允許在內窺鏡檢查期間提供全自動輔助診斷。
從2018年7月21日起,GRAIDS在線發布,並在sysucc(中山大學腫瘤防治中心)的內窺鏡實踐中得到了應用。
以下為論文詳細內容,由雷鋒網(公眾號:雷鋒網)AI掘金志學術組編譯和編輯。關注AI掘金志公眾號,在對話框回復關鍵詞「中山大學」,即可獲取原文PDF。
介紹這項多中心、病例對照、診斷性研究在中國的6家不同級別的醫院(中山大學腫瘤防治中心、粵北人民醫院、梧州紅十字醫院、江西腫瘤醫院、普寧人民醫院、揭陽人民醫院)進行。從所有參與醫院檢索到18歲或18歲以上未進行過內鏡檢查、可持續參加研究患者的圖像。所有經組織學證實為惡性腫瘤的上消化道腫瘤患者(包括食管癌和胃癌)均符合本研究的要求。只有帶有標準白光的圖像才被認為是合格的。
我們將中山大學腫瘤中心的圖像隨機(8:1:1)分配到graids開發的訓練和內部驗證數據集,內部驗證數據集用來評估GRAIDS性能。採用中山大學腫瘤中心(國立醫院)的內部和前瞻性驗證集和5家基層醫院的額外補充驗證集對其診斷性能進行評估。
GRAIDS的診斷能力也與具有三個不同專業級別的內窺鏡醫師進行了比較:專家醫師、主管醫師和實習醫師。GRAIDS和內窺鏡對癌性病變的診斷準確度、敏感性、特異性、陽性預測值和陰性預測值,採用 Clopper-Pearson方法計算95% CIs。
發現我們用來自84424人的1036496張內鏡圖像進行GRAIDS的訓練和驗證。
上消化道腫瘤的診斷準確率在內部驗證集中為0.955(95%ci 0.952-0.957),在前瞻性驗證集中為0.927(0.925-0.929),在5個外部驗證集中為0.915(0.913-0.917)到0.977(0.977-0.978)。GRAIDS的診斷敏感度與內窺鏡檢查專家相似,與內窺鏡普通醫師和實習醫生相比,graids具有更高的敏感性。
GRAIDS的陽性預測值為0.814(95%ci 0.788-0.838),內窺鏡專家為0.932(0.913-0.948),內窺鏡普通醫師為0.974(0.960-0.984),實習內窺鏡師為0.824(0.795-0.850)。GRAIDS陰性預測值為0.978(95%ci 0.971-0.984),內窺鏡專家陰性預測值為0.980(0.974-0.985),內窺鏡普通醫師陰性預測值為0.951(0.942-0.959),內窺鏡實習醫生陰性預測值為0.904(0.893-0.916)
方法內鏡和圖像質量控制所有圖像均以高解析度拍攝,但使用不同的內窺鏡和視頻系統。所有上消化道內鏡圖像均以jpeg格式存儲在6家醫院的影像資料庫中。只有帶有標準白光的圖像才被認為是合格的。不包括染色圖像、窄帶圖像、因停頓、模糊、散焦、粘液和空氣吹掃不良而產生的低質量圖像以及非內窺鏡圖像。
來自Sysucc的8位經驗豐富的內窺鏡醫師對所有圖像的質量進行了評估,每人至少有5年的經驗,並進行了3000多次檢查。所有上消化道腫瘤病灶均由同一組內鏡醫師手工標記。他們仔細地標記每個癌灶的邊界。那些在解剖位置上與病理報告不符的內鏡圖像被丟棄。
我們將來自6家醫院的相同數量的圖像分配給4組經驗豐富的內窺鏡醫師(每組2名內窺鏡醫師)進行質量控制、標記和勾畫。同一組的兩位內窺鏡醫師在標記和勾畫方面進行了合作。勾畫過程中,一名內窺鏡醫師在另一名內窺鏡醫師的監督下進行勾畫。只有當來自同一組的兩位內窺鏡醫師達成共識時,圖像選擇、標記和勾畫才最終確定。
GRAIDS算法開發
將來自sysucc的圖像(8:1:1)隨機分配給用於GRAIDS開發的訓練和內部驗證數據集,以及用於GRAIDS性能評估的內部驗證數據集。GRAIDS的算法基於DeepLab’s V3+ 的概念,並包含一個編碼器和解碼器模塊。模型有一個輸入和兩個輸出,模型輸入上消化道內鏡圖像。
第一個輸出是一個標準的兩分類任務,用於確定輸入圖片是否包含腫瘤。第二個輸出實現了一個分割任務,該任務標出輸入圖像的腫瘤區域。採用四個內窺鏡組(每個組由兩個內窺鏡醫師組成)的標記和勾畫數據作為訓練樣本的金標準。學習曲線用來表示圖像分類效果,交叉聯合(IOU)代表模型的圖像分割性能。
GRAIDS算法驗證
我們首先使用內部驗證數據集和來自sysucc的前瞻性驗證數據集驗證GRAIDS在識別患者上消化道腫瘤方面的性能。然後我們使用來自五家參與醫院的外部驗證數據集評估GRAIDS的穩健性,每一家醫院都有少量的上消化道癌症患者。
為了進一步的性能評估,我們從前瞻性驗證集中隨機選擇了組織學確診的上消化道腫瘤患者的圖像子集。三位不同專業程度的內窺鏡醫師(專家、主管和實習醫師)被要求獨立完成相同的測試圖像檢測,並將其結果與GRAIDS的結果進行比較,患者的人群信息和最終組織病理學結果對他們不可見。
這三位內窺鏡醫師都沒有參與圖像的選擇和標記,在內窺鏡檢查人員進行評估之前,這些圖像也被打亂和去除標記。內窺鏡專家是一位在內窺鏡檢查方面有10多年經驗的教授。內窺鏡普通醫師是一名主治醫生,具有5年以上的經驗,完成了臨床和特定的內窺鏡培訓。內窺鏡實習醫師是一名有兩年內窺鏡經驗的住院醫師。
統計學分析
採用 Clopper-Pearson方法計算95% CIs,評價graids對癌性病變鑑別診斷的準確性、敏感性、特異性、陽性預測值(ppv)和陰性預測值(npv)。我們使用ROC曲線來顯示深度學習算法在鑑別上消化道癌症患者與正常人的診斷能力。通過改變預測概率閾值,繪製真陽性病例比例(敏感性)與假陽性病例比例(1-特異性)的ROC曲線。ROC曲線下面積越大,診斷效果越好。所有統計檢驗均為雙側,顯著性水平為0.05。用3.5.1版r軟體進行統計分析。
結果
2009年1月12日至2017年9月30日期間,從Sysucc的上消化道內窺鏡成像資料庫獲得了來自20352名參與者的314 726張圖像(圖1)。因病理診斷不明確,病理報告不清,排除1587例(7.8%)。在質量控制評估後,178282張圖像中有21075張(11.8%)被丟棄,因為它們是質量差的非內窺鏡圖像,或者在解剖位置上與病理報告不一致。對於癌症患者,僅包括癌症病變的圖像(n=39462)被納入研究。對於沒有癌症的參與者,117745張圖片被用作對照組(圖1)。對於前瞻性驗證數據集,在2018年7月21日至2018年11月20日期間,在Sysucc前瞻性收集並標記4317張癌症圖像和62433張對照圖像。
在其他五個參與醫院,在2018年7月21日和2018年11月20日之間,從粵北人民醫院獲得了2439張癌症和73015張對照圖像,從梧州紅十字醫院獲得5244張癌症和197588張對照圖像,從江西腫瘤醫院獲得9712張癌症和112185張對照圖像,從普寧市人民醫院獲得7095張癌症和286095張對照圖像,從揭陽市人民醫院獲得4173張癌症和114993張對照圖像。
總體而言,來自84424個人的1036496張內窺鏡圖像被用來開發和測試GRAIDS。
上消化道腫瘤的患病率在訓練組為50.2%(15040名患者中7557名),在內部驗證組為51.0%(1839名患者中938名),在內部驗證組為50.8%(1886名患者中959名),在前瞻性驗證組為32.0%(1794名患者中574名)。江西腫瘤醫院外部驗證組9.2%(8634例中794例),粵北人民醫院9.5%(4109患者中390例 ),梧州紅十字醫院4.8%(17239患者中830例),普寧市人民醫院3.8%(26143患者中993例),揭陽市人民醫院7.2%(7686名患者中有552名)(表1)。上消化道腫瘤的詳細分期信息僅在前瞻性驗證集可見。
在176個epochs(整個訓練集的迭代)之後,由於兩個任務的準確性和交叉熵損失以及第二個任務中IOU都沒有進一步的提高,訓練過程結束。GRAIDS對上消化道癌病變的預測區域與內窺鏡醫師的標記區域有高度一致性。在內部驗證集中,IOU中位數為0.737(IQR 0.579–0.848)。
GRAIDS在7個全部驗證集中都準確地識別了上消化道腫瘤患者(表2)。在內部sysucc驗證數據集中診斷準確度為0.955(95%ci 0.952-0.957),在前瞻性sysucc驗證數據集中0.927(0.925-0.929,)。外部驗證集中準確率分別為:江西腫瘤醫院0.915(95% CI 0.913-0.917),粵北人民醫院0.949(0.947-0.951),梧州市紅十字會醫院0.977(0.977-0.978),普寧市人民醫院0.970(0.969-0.971),揭陽市人民醫院0.947(0.946-0.948)。在各驗證集中graids的敏感性、特異性和npv均高於0.90。ppv的變化範圍為從粵北人民醫院的0.384(95%ci 0.372-0.396)到sysucc的0.889(0.878-0.899)(表2),但在所有驗證數據集中,假陽性的比例不到10%。在Sysucc的內部驗證隊列和前瞻性隊列中,最常見的假陽性原因是正常的解剖結構(賁門、幽門和角落)以及蠕動期間胃壁的抬高。
同樣,在五個外部驗證數據集中AUC值也較高(範圍從0.966 [0.965–0.967]到0.990 [0.990–0.991];圖2)。
Graids和內窺鏡醫師從前瞻性驗證集中區分4532張圖像子集(1102張[24.3%]癌症圖像和3430張[75.7%]對照圖像)的測試結果如表3所示。GRAIDS對上消化道腫瘤的診斷準確率為0.928(95%ci 0.919-0.937)。內窺鏡檢查中,專家級內窺鏡檢查的準確度在0.967(95%ci 0.961-0.973;p<0.0001)顯著高於graids,而內窺鏡普通醫師的準確度為0.956(0.949-0.963;p<0.0001),內窺鏡實習醫師的準確度為0.886(0.875-0.897;p<0.0001)。三類不同級別醫師和GRAIDS的特異性均大於0.90。
相比之下,不同級別內窺鏡醫師的靈敏度差異很大,GRAIDS的靈敏度與內窺鏡專家相似(0.942 [95%ci 0.924-0.957]vs 0.945 [0.927-0.959];p=0.692),明顯高於內窺鏡普通醫師的靈敏度(0.858 [0.832-0.880];p<0.0001)和實習醫師(0.722 [0.691-0.752];p<0.0001)。
GRAIDS的ppv為0.814(95%ci 0.788-0.838),顯著低於內鏡專家(0.932 [0.913–0.948]; p<0.0001) 以及內鏡普通醫師(0.974 [0.960–0.984]; p<0.0001)。但與實習內窺鏡醫師相似(0.824 [0.795–0.850];p=0.580)。與GRAIDS聯合應用時,專家、普通和實習內鏡醫師的ppvs均顯著下降(0.793 [95%ci 0.768-0.818]、0.812 [0.786-0.835]、0.747 [0.720-0.772],所有p<0.0001)。NPV均較高,分別為:GRAIDS 0.978 [95%ci 0.971-0.984]),內窺鏡專家0.980 [0.974-0.985], 內窺鏡普通醫師0.951 [0.942-0.959],內窺鏡實習醫師0.904 [0.893-0.916])及其組合(表3)。
然而,GRAIDS能夠識別大多數被內窺鏡醫師錯誤分類的癌症圖像(內窺鏡專家醫師61張中43張[70.5%]、內窺鏡普通醫師157張中133張[84.7%]、內窺鏡實習醫師306張中266張[86.9%];圖3)。當與GRAIDS結合使用時,專家的靈敏度明顯在數值上有所提高(0.984 [95% ci 0.973–0.991],p<0.0001)。內窺鏡普通醫師和內窺鏡實習醫師的敏感度明顯提高,升至與專家相似的水平(內窺鏡普通醫師0.978 [0.966-0.987],P<0.0001;內窺鏡實習醫師0.964 [0.949-0.975],P<0.0001)。
我們開發的GRAIDS算法能夠每秒分析多達118幅圖像(每張圖像8毫秒),並在進行實時視頻分析時每秒處理至少25幅圖像,延遲小於40毫秒。
此外,我們開發了一個計算機輔助檢測(CAD)系統,試圖實時識別上消化道癌性病變,用於常規內鏡檢查。安裝CAD系統的計算機直接連接到內窺鏡裝置上,從而允許在內窺鏡檢查期間提供全自動診斷協助。
圖S5B和視頻1-4展示了在內鏡檢查期間實時識別癌變的CAD系統示例。如圖所示,當GRAIDS識別出一個惡性病變時,CAD系統會分割病變的邊界,如藍色所示,並在屏幕右上角警告內窺鏡醫師有可能出現惡性病變。當病變從屏幕上消失時,分割和警告信號同時停止。
我們為需要上消化道內窺鏡檢查的患者構建了一個基於雲的多機構人工智慧平臺。該平臺提供了兩個關鍵的臨床應用:第一,在內鏡手術過程中實時檢測上消化道腫瘤,以幫助加速圖像檢測,並幫助提高惡性病變識別的準確性。第二,存儲靜態圖像,以便在檢查後對可疑病例進行重新評估,從而有助於降低誤診和漏診的惡性腫瘤的風險。
此外,我們還提供了一個網站,免費訪問GRAIDS。臨床醫生和患者可以上傳內窺鏡圖像,GRAIDS進行二次審查。網站上還提供了一個開放存取的內窺鏡圖像資料庫,這將是內窺鏡醫師進行培訓以及內窺鏡-人工智慧輔助醫學成像領域研究人員的有用資源。
討論在這項研究中,我們使用一個深度學習語義分割模型來構建一個基於人工智慧的上消化道腫瘤診斷系統。該系統通過來自84424個人的1036496張內鏡圖像進行訓練和驗證。六家醫院中有不同數量的上消化道腫瘤患者接受內鏡診斷。Graids在歷史存儲圖像和前瞻性圖像檢測上消化道腫瘤過程中均具有較高的的準確性、敏感性和特異性。
上消化道腫瘤的內鏡診斷是主觀性的,很大程度上依賴於醫生的技能和經驗。窄帶成像、共焦雷射內窺鏡檢查和藍色雷射成像在鑑別癌性和非癌性病變之間具有潛力,但是由於光學圖像判讀所需的大量培訓和專業知識,其臨床應用受到了限制。
與此相反,GRAIDS不需要額外的培訓,而且可以提高內窺鏡非專家級別醫師的能力(普通醫師從0.858到0.978,實習生從0.722到0.964),使其提高到接近專家水平(0.967)。因此,對於中國或資源有限的發展中國家,在城鄉醫療資源分布不平衡的情況下,GRAIDS可以幫助彌補國家級醫院和初級保健醫院之間的癌症診斷水平的差距。
GRAIDS的ppv低於專家和普通內窺鏡醫師,GRAIDS與三種不同級別的內窺鏡醫師結合可以降低ppv。在當前的實時內鏡檢查中,GRAIDS將檢測沒有由內鏡專家醫師勾畫輪廓的可疑癌症病變,這可能會進一步增加假陽性的風險。然而,GRAIDS假陽性的主要原因是幽門、胃角、粘液等正常結構或成分,以及蠕動時胃壁的抬高的誤診。由於這些正常的結構或改變很容易被內窺鏡檢查者識別,因此在實踐中可以避免誤診。
因此,我們推測在實時內窺鏡檢查中,內窺鏡醫師使用GRAIDS進行檢查時,假陽性病例的比例將低於計算值。此外,因GRAIDS的敏感度高,可以降低漏診癌症病變的風險,從而可以早期診斷癌症,並且它還可以降低治療上消化道癌症的高支出。
現有的上消化道內鏡研究由於回顧性、小樣本量、單病種調查和同等級醫院的單一機構研究等缺點而停滯不前。通過比較,GRAID是一個使用百萬以上的圖像隊列進行開發和驗證的,數據來自不同級別醫院,在六個回顧性驗證集中顯示了檢測上消化道腫瘤的高準確性(0.915–0.977)。這有力地表明了該系統在真實場景下的通用性。此外,小於40毫秒的成像延遲也使得它比現有的模型在圖像檢測方面更為有效(每秒118圖像vs 41×425和每秒48×926圖像)。
基於GRAIDS檢測上消化道腫瘤的準確性和有效性,我們構建了一個基於雲的多機構人工智慧平臺,在內鏡手術和術後成像檢測中提供快速準確的實時幫助。
我們還建立了一個用戶友好型網站,為患者和臨床醫生提供免費的遠程醫療幫助,以加速內窺鏡圖像的檢測。截至2017年7月19日,中國南方腫瘤聯盟(ccsca)成立,旨在消除國家級醫院與基層醫院在腫瘤管理方面的差距。
目前,GRAIDS正在sysucc及其篩查中心的內鏡臨床工作流程中常規使用,並進行實時評估,ccsca的其他合作醫院很快將實施GRAIDS,為人工智慧輔助上消化道腫瘤篩查和診斷提供免費通道。
儘管取得了這些顯著的成果,GRAIDS還有一些局限性值得強調。
首先,這項研究只使用白光圖像,因為這類圖像用於常規檢查和資源有限的地區。
其次,對訓練集和外部驗證集進行回顧性標註,這可能會導致一定程度的選擇偏差,但前瞻性驗證集表明,這種限制可能並不突出。
第三,我們沒有使用特定的方法來處理來自同一視頻序列的不同位置的圖像,這可能會產生一些偏差。儘管如此,GRAIDS在參與醫院中顯示出令人滿意的準確性,從而證明了該系統的普遍適用性。
第四,訓練集和驗證集中只採用高質量內窺鏡圖像來研究GRAIDS的診斷效果。
第五,在臨床應用中,GRAIDS通過一個大型中國隊列進行訓練和驗證,但在其他人群中的療效尚待調查。
總之,我們開發了一個基於人工智慧的系統,該系統使用了來自不同層次醫院的多種內鏡圖像,能夠對上消化道癌症進行高準確度的診斷,其靈敏度接近內鏡專家醫師,優於內鏡普通醫師。GRAIDS可以輔助內鏡非專家醫師,將其診斷準確度提高到與專家接近的水平。此外,GRAIDS可以改進上消化道腫瘤診斷與篩查的有效性。雷鋒網
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。