全球首個AI雙盲隨機對照試驗發布,Wision AI的成功經驗在哪?

2020-12-03 動脈網

在醫療AI領域，全球發布的隨機對照臨床試驗（RCT）目前有且僅有5個，這其中的第一個，也是規模最大的一個，是來自四川省人民醫院和哈佛醫學院於2019年2月發表在國際前沿期刊《GUT》【IF=17.06】上的一篇關於中國內窺鏡影像輔助診斷企業Wision A.I.的計算機輔助結腸鏡檢出息肉和腺瘤的隨機對照研究論文。

作為醫療AI全領域的第一個隨機對照試驗，該論文獲得了《GUT》期刊優秀論文第三名、全網論文發布排行榜Top1%的史上最佳以及Top1%的本刊最佳和Top1%同期最佳的殊榮。

時隔一年，Wision A.I.又為醫療AI領域創下了另一個NO.1。2020年1月在《柳葉刀》消化子刊【IF=12.26】上刊出了四川省人民醫院和哈佛醫學院的關於Wision A.I.腸道癌前病變檢測產品EndoScreener的雙盲隨機對照試驗，這成為了醫療AI界的全球首個雙盲RCT，在業界引發強烈反響。

美國醫學院院士、著名「世紀醫生」Eric Topol博士在其個人Twitter上轉發《柳葉刀》該篇論文，宣布這是全球醫療AI領域的第一個雙盲隨機對照試驗，不是來自放射、病理、皮膚科或眼科，而是來自消化內鏡領域。這也是第一個經受住了雙盲隨機對照考驗的AI技術。

Eric Topol博士2月5日在個人Twitter上

Wision A.I.成功使用雙盲RCT來測試AI系統，這無疑是臨床驗證級別的又一個巨大提升，並為全球其他AI輔助診斷領域的臨床驗證方法提供了雙盲設計的參考。此前，AI技術首次被納入歐洲消化內鏡臨床指南作為初步推薦時，其主要依據也是Wision A.I.進行的臨床試驗。

醫療AI雙盲試驗的臨床價值

雙盲——Double Blind，顧名思義是要將研究對象和研究者都「盲掉（Blind）」，讓雙方都不了解試驗的分組情況，而由研究設計者來安排和控制全部試驗。這種實驗設計能夠消除可能出現在實驗者和參與者意識當中的主觀偏差和個人偏好。雙盲試驗屬於最高科學標準的試驗之一，在臨床新藥研發中應用非常廣泛，但是醫療AI領域卻一直由於雙盲設計困難等諸多原因缺乏雙盲RCT。

在醫療AI的臨床試驗上，大多數研究都是將AI對於醫生診斷出的疾病的識別率等數據作為AI性能的臨床證據。但這種研究的結果嚴謹地來說，只能證明AI輔助診斷系統（CAD）能夠自主檢出相關疾病，對於該系統對醫生實際的幫助和影響並未進行嚴格的科學論證，以至於醫生是否受益於CAD也有待商榷，所以業界曾有媒體詬病美國FDA在批准AI產品時不夠慎重。

最直觀的表現在於，當內鏡醫師知曉有AI輔助參與醫學診斷時，可能出現因競爭精神而更專注，或因依賴AI系統而放鬆等非正常診斷時的狀態，這部分變量存在的可能性也就導致了非盲法臨床試驗並非最嚴謹的驗證方法。

如何摒除參與者（醫生）意識當中的主觀偏差和個人偏好呢？參照新藥研發中臨床雙盲試驗的安慰劑對照組，Wision A.I.與國內外的專家一起設計了一套「盲法」來測試AI輔助診斷系統的效用。

如何設計醫療AI的雙盲試驗？「偽裝AI系統」+「引入第二觀察者」雙管齊下

要進行醫療AI的雙盲實驗，其關鍵在於如何成功地把AI輔助的醫生「盲掉（Blind）」？這是Wision A.I.對醫學AI界的一個貢獻——該公司設計了一套有偽裝AI系統參與的雙盲試驗方法，這套方法亦可以推廣到全醫學領域的輔助診斷軟體CADe或者CADx軟體中。

讓醫生進行臨床診斷時不清楚自己是否有AI輔助，這是雙盲試驗的一個核心。既不能讓醫生猜測到使用的系統是什麼，也不能讓醫生的心態受AI系統參與的影響。這在全球範圍內沒有先例可以參考，四川省人民醫院和哈佛醫學院的數位專家經過長時間的討論，最終確定了Wision A.I.腸道癌前病變檢測產品EndoScreener的雙盲測試雛形。

動脈網採訪了Wision A.I.的創始人劉敬家，嘗試從他的口中還原雙盲試驗設計的始末。「『盲法』試驗的核心在於：

其一，引入偽裝的AI系統，與真AI系統一併隨機化提供給受試者；其二，設置忠於系統的中間人角色（第二觀察者），按照試驗原則，把真AI或偽AI的實時識別結果通過雷射筆或提前設計的語法提示給操作醫師。」劉敬家向記者介紹道。

與非雙盲RCT相比，Wision A.I.的雙盲試驗加入了兩個核心要素「偽裝的AI系統」和「第二觀察者」，如何理解？

Wision A.I.在臨床實驗開始之前，就設計了一套偽裝的AI系統，該系統不會提示真實的癌前病變，並且保證和真的AI系統擁有相同超低的誤報率，以此來防止內鏡醫師主觀判別出真假系統。

在四川省人民醫院草堂分院的內鏡中心，Wision A.I.招募了1046名年齡在18歲至75歲之間的病人進行結腸鏡診斷和篩查，並在排除患有炎症性腸病、結直腸癌、結直腸手術史或有活檢禁忌等無效樣本的病人後，將剩餘的有效樣本隨機分為兩組，最終真AI系統組有484例病人、偽AI系統組有478例病人納入分析。

真AI系統組與偽AI系統組的病人不知道自己所處的分配組別，四名高級內鏡醫師在對這些患者樣本進行常規的白光結腸鏡檢查時，如果宣布找到了息肉，那麼真AI系統與偽AI系統都會沉默；但如果內鏡醫師視野範圍內出現了息肉，並且在息肉將要移出視野範圍時還未宣布發現此息肉，那麼真AI系統就會發出提示，偽AI系統保持沉默。

這裡值得一提的是，為了防止內鏡醫師直接使用真/偽AI系統從而觀察出AI系統的不同，Wision A.I.引入了第二觀察者的角色。第二觀察者最直接的作用是能夠在專門的顯示屏上看到真AI系統或偽AI系統的每一次輸出結果（內鏡醫師不可見），並將其傳達給內鏡醫師；當內鏡醫師即將遠離有系統提示的區域的視野範圍時，第二觀察者會使用雷射筆提示內鏡醫師系統檢測到的區域以便其觀察。

保證近似且一定低頻的誤報率，能夠讓醫生在得到第二觀察者雷射筆提示後，無法區分出提示系統的真偽，獲得提示的醫生會再次觀測被提示區域，如果該區域醫生觀察後發現依舊沒有息肉則繼續退鏡，如果醫生觀測後發現了息肉則計入統計。

這裡值得一提的是，如何保證偽AI系統輸出的每一個結果都不是真實的癌前病變？這其實也是系統設計的一大難點，劉敬家介紹了Wision A.I.創新的一種雙模型強弱相減的方法，就保證偽AI系統只會對息肉樣非息肉結構（例如氣泡、糞便、未消化的殘渣和皺縮的黏膜）提示。

「簡單的理解，就是偽AI系統輸出的結果的概率是將真AI系統識別的概率圖與一個事先研發的弱AI系統（敏感度特異度都遠低於真AI系統）的概率圖相減而來，同時通過調整閾值保證了偽AI系統的特異度更接近真AI系統。」劉敬家解釋道。

AI輔助結腸鏡檢查雙盲試驗結果：腺瘤檢出率（ADR）和息肉檢出率（PDR）顯著提升

在結腸鏡檢查中，發現和切除腺瘤性息肉是降低結直腸癌發病率和死亡率的最有效方法，而結直腸癌是導致死亡的主要癌症之一。根據《新英格蘭醫學期刊》中相關論文顯示，每提升1%的腺瘤檢出率（ADR），就會降低3%的間期結直腸癌患病風險。

ADR的提升能夠有效預防結直腸癌，這也成為了結腸鏡檢查的主要質量標準。高ADR的內鏡醫師更能幫助患者，人們也通過嘗試改進內鏡硬體技術、腸道準備方法和觀察方法以此來提升提高結腸鏡檢查中的ADR值。

然而，由於各種原因，即使在美國、日本等發達國家，目前臨床上仍有多達27%的腺瘤性息肉被漏診。

在Wision A.I.此次進行的雙盲隨機對照試驗中，結果顯示在腸道癌前病變檢測產品EndoScreener的幫助下，真AI系統組的ADR明顯高於偽AI系統組：在CAD系統實驗組（真AI系統組）的484例病人中，有165例病人（34％）檢測到有一個或多個腺瘤；而在使用假提示系統對照組（偽AI系統組）的478例病人中，有132例病人（28％）檢測到有一個或多個腺瘤。

Wision A.I.雙盲RCT試驗檢測結果

在息肉檢出率（PDR）方面，CAD系統實驗組的PDR明顯高於假提示系統對照組，在假提示系統對照組的478名病人中，有176名（佔37％）檢測出了息肉；在CAD系統實驗組的484名病人中，有252名（佔52％）檢測出了息肉。

在結腸鏡檢查中，假提示系統對照組平均每次發現0.38個腺瘤、0.64個息肉，CAD系統實驗組平均每次發現0.58個和1.04個息肉，無論從ADR值還是從PDR值上看，Wision A.I.的腸道癌前病變檢測產品EndoScreener參與的結腸鏡檢查能夠顯著提升內鏡醫生的檢出率。

試驗數據結果中還有值得提示的一點，在真AI系統輔助下有159個病例被內鏡醫生漏掉，而這部分病例通過讓經驗豐富的內鏡醫生（未參與臨床試驗）再次回顧性測試後，發現醫生們的敏感度和特異度依舊不高，表明容易漏掉息肉的問題不能簡單地由額外的人類觀察者來解決，這也證明了在實際的臨床環境中CAD系統可能在輔助內鏡醫師方面發揮更好的作用。

真實嚴謹的臨床實驗，是支持相關AI產品落地的第一步。Wision A.I.始終堅持臨床循證醫學的路線，此次試驗所用的EndoScreener系統已經經受了數個臨床試驗的檢驗，但該系統訓練樣本僅僅是5000多張的內鏡圖片，其中約一半是陰性樣本，在目前醫學圖像識別領域裡，高成本數據獲取、複雜數據標註的背景下，小樣本量深度學習的優勢愈加明顯。

全球首個AI雙盲隨機對照試驗發布,Wision AI的成功經驗在哪?

相關焦點

...兒童反覆呼吸道感染 (RRI) 的隨機、雙盲、安慰劑對照臨床試驗

全球醫療AI界首個雙盲RCT試驗成功,AI醫學臨床價值突破顯現

專家:瑞德西韋隨機雙盲對照試驗按2:1進行

隨機雙盲對照實驗

為什麼要用「雙盲試驗」檢驗中醫藥

中國首個瑞德西韋雙盲試驗結果出爐:無效!和美國結果截然相反

隨機雙盲實驗:讓騙子現形

...針對藥物瑞德西韋的隨機雙盲對照試驗,湖北省醫療救治組專家...

...成功行PCI的心絞痛患者中的應用:一項隨機、雙盲、安慰劑對照試驗

雙盲試驗,假科學之名的一塊遮羞布

【深度】雙盲試驗啟示錄

隨機對照試驗(Randomised control trial)為何會成為臨床研究的...

資料:什麼是大樣本隨機雙盲試驗

隨機雙盲實驗：中醫的終結者？

為何要對新冠肺炎特效藥開展隨機雙盲對照實驗

全球首個利用西羅莫司塗層球囊來治療膝蓋以下外周動脈疾病的隨機...

中國大陸2型糖尿病隨機對照臨床試驗:回顧與啟示

成都創新「高度」發射全球首顆AI衛星這家公司為你「直播地球」

《柳葉刀》:中國隨機雙盲新冠重症試驗提前終止,瑞德西韋結果如何...

從數據到臨床實踐|姚麗教授:隨機對照試驗在腎科研究中的應用

全球首個AI雙盲隨機對照試驗發布,Wision AI的成功經驗在哪?

相關焦點

...兒童反覆呼吸道感染 (RRI) 的隨機、雙盲、安慰劑對照臨床試驗

全球醫療AI界首個雙盲RCT試驗成功,AI醫學臨床價值突破顯現

專家:瑞德西韋隨機雙盲對照試驗按2:1進行

隨機雙盲對照實驗

為什麼要用「雙盲試驗」檢驗中醫藥

中國首個瑞德西韋雙盲試驗結果出爐:無效!和美國結果截然相反

隨機雙盲實驗:讓騙子現形

...針對藥物瑞德西韋的隨機雙盲對照試驗,湖北省醫療救治組專家...

...成功行PCI的心絞痛患者中的應用:一項隨機、雙盲、安慰劑對照試驗

雙盲試驗,假科學之名的一塊遮羞布

【深度】雙盲試驗啟示錄

隨機對照試驗(Randomised control trial)為何會成為臨床研究的...

資料:什麼是大樣本隨機雙盲試驗

隨機雙盲實驗：中醫的終結者？

為何要對新冠肺炎特效藥開展隨機雙盲對照實驗

全球首個利用西羅莫司塗層球囊來治療膝蓋以下外周動脈疾病的隨機...

中國大陸2型糖尿病隨機對照臨床試驗:回顧與啟示

成都創新「高度」 發射全球首顆AI衛星 這家公司為你「直播地球」

《柳葉刀》:中國隨機雙盲新冠重症試驗提前終止,瑞德西韋結果如何...

從數據到臨床實踐|姚麗教授:隨機對照試驗在腎科研究中的應用

成都創新「高度」發射全球首顆AI衛星這家公司為你「直播地球」