全球首個AI雙盲隨機對照試驗發布,Wision AI的成功經驗在哪?

2020-12-03 動脈網

在醫療AI領域,全球發布的隨機對照臨床試驗(RCT)目前有且僅有5個,這其中的第一個,也是規模最大的一個,是來自四川省人民醫院和哈佛醫學院於2019年2月發表在國際前沿期刊《GUT》【IF=17.06】上的一篇關於中國內窺鏡影像輔助診斷企業Wision A.I.的計算機輔助結腸鏡檢出息肉和腺瘤的隨機對照研究論文。

作為醫療AI全領域的第一個隨機對照試驗,該論文獲得了《GUT》期刊優秀論文第三名、全網論文發布排行榜Top1%的史上最佳以及Top1%的本刊最佳和Top1%同期最佳的殊榮。

時隔一年,Wision A.I.又為醫療AI領域創下了另一個NO.1。2020年1月在《柳葉刀》消化子刊【IF=12.26】上刊出了四川省人民醫院和哈佛醫學院的關於Wision A.I.腸道癌前病變檢測產品EndoScreener的雙盲隨機對照試驗,這成為了醫療AI界的全球首個雙盲RCT,在業界引發強烈反響。

美國醫學院院士、著名「世紀醫生」Eric Topol博士在其個人Twitter上轉發《柳葉刀》該篇論文,宣布這是全球醫療AI領域的第一個雙盲隨機對照試驗,不是來自放射、病理、皮膚科或眼科,而是來自消化內鏡領域。這也是第一個經受住了雙盲隨機對照考驗的AI技術。

Eric Topol博士2月5日在個人Twitter上

Wision A.I.成功使用雙盲RCT來測試AI系統,這無疑是臨床驗證級別的又一個巨大提升,並為全球其他AI輔助診斷領域的臨床驗證方法提供了雙盲設計的參考。此前,AI技術首次被納入歐洲消化內鏡臨床指南作為初步推薦時,其主要依據也是Wision A.I.進行的臨床試驗。

醫療AI雙盲試驗的臨床價值

雙盲——Double Blind,顧名思義是要將研究對象和研究者都「盲掉(Blind)」,讓雙方都不了解試驗的分組情況,而由研究設計者來安排和控制全部試驗。這種實驗設計能夠消除可能出現在實驗者和參與者意識當中的主觀偏差和個人偏好。雙盲試驗屬於最高科學標準的試驗之一,在臨床新藥研發中應用非常廣泛,但是醫療AI領域卻一直由於雙盲設計困難等諸多原因缺乏雙盲RCT。

在醫療AI的臨床試驗上,大多數研究都是將AI對於醫生診斷出的疾病的識別率等數據作為AI性能的臨床證據。但這種研究的結果嚴謹地來說,只能證明AI輔助診斷系統(CAD)能夠自主檢出相關疾病,對於該系統對醫生實際的幫助和影響並未進行嚴格的科學論證,以至於醫生是否受益於CAD也有待商榷,所以業界曾有媒體詬病美國FDA在批准AI產品時不夠慎重。

最直觀的表現在於,當內鏡醫師知曉有AI輔助參與醫學診斷時,可能出現因競爭精神而更專注,或因依賴AI系統而放鬆等非正常診斷時的狀態,這部分變量存在的可能性也就導致了非盲法臨床試驗並非最嚴謹的驗證方法。

如何摒除參與者(醫生)意識當中的主觀偏差和個人偏好呢?參照新藥研發中臨床雙盲試驗的安慰劑對照組,Wision A.I.與國內外的專家一起設計了一套「盲法」來測試AI輔助診斷系統的效用。

如何設計醫療AI的雙盲試驗?「偽裝AI系統」+「引入第二觀察者」雙管齊下

要進行醫療AI的雙盲實驗,其關鍵在於如何成功地把AI輔助的醫生「盲掉(Blind)」?這是Wision A.I.對醫學AI界的一個貢獻——該公司設計了一套有偽裝AI系統參與的雙盲試驗方法,這套方法亦可以推廣到全醫學領域的輔助診斷軟體CADe或者CADx軟體中。

讓醫生進行臨床診斷時不清楚自己是否有AI輔助,這是雙盲試驗的一個核心。既不能讓醫生猜測到使用的系統是什麼,也不能讓醫生的心態受AI系統參與的影響。這在全球範圍內沒有先例可以參考,四川省人民醫院和哈佛醫學院的數位專家經過長時間的討論,最終確定了Wision A.I.腸道癌前病變檢測產品EndoScreener的雙盲測試雛形。

動脈網採訪了Wision A.I.的創始人劉敬家,嘗試從他的口中還原雙盲試驗設計的始末。「『盲法』試驗的核心在於:

其一,引入偽裝的AI系統,與真AI系統一併隨機化提供給受試者;其二,設置忠於系統的中間人角色(第二觀察者),按照試驗原則,把真AI或偽AI的實時識別結果通過雷射筆或提前設計的語法提示給操作醫師。」劉敬家向記者介紹道。

與非雙盲RCT相比,Wision A.I.的雙盲試驗加入了兩個核心要素「偽裝的AI系統」和「第二觀察者」,如何理解?

Wision A.I.在臨床實驗開始之前,就設計了一套偽裝的AI系統,該系統不會提示真實的癌前病變,並且保證和真的AI系統擁有相同超低的誤報率,以此來防止內鏡醫師主觀判別出真假系統。

在四川省人民醫院草堂分院的內鏡中心,Wision A.I.招募了1046名年齡在18歲至75歲之間的病人進行結腸鏡診斷和篩查,並在排除患有炎症性腸病、結直腸癌、結直腸手術史或有活檢禁忌等無效樣本的病人後,將剩餘的有效樣本隨機分為兩組,最終真AI系統組有484例病人、偽AI系統組有478例病人納入分析。

真AI系統組與偽AI系統組的病人不知道自己所處的分配組別,四名高級內鏡醫師在對這些患者樣本進行常規的白光結腸鏡檢查時,如果宣布找到了息肉,那麼真AI系統與偽AI系統都會沉默;但如果內鏡醫師視野範圍內出現了息肉,並且在息肉將要移出視野範圍時還未宣布發現此息肉,那麼真AI系統就會發出提示,偽AI系統保持沉默。

這裡值得一提的是,為了防止內鏡醫師直接使用真/偽AI系統從而觀察出AI系統的不同,Wision A.I.引入了第二觀察者的角色。第二觀察者最直接的作用是能夠在專門的顯示屏上看到真AI系統或偽AI系統的每一次輸出結果(內鏡醫師不可見),並將其傳達給內鏡醫師;當內鏡醫師即將遠離有系統提示的區域的視野範圍時,第二觀察者會使用雷射筆提示內鏡醫師系統檢測到的區域以便其觀察。

保證近似且一定低頻的誤報率,能夠讓醫生在得到第二觀察者雷射筆提示後,無法區分出提示系統的真偽,獲得提示的醫生會再次觀測被提示區域,如果該區域醫生觀察後發現依舊沒有息肉則繼續退鏡,如果醫生觀測後發現了息肉則計入統計。

這裡值得一提的是,如何保證偽AI系統輸出的每一個結果都不是真實的癌前病變?這其實也是系統設計的一大難點,劉敬家介紹了Wision A.I.創新的一種雙模型強弱相減的方法,就保證偽AI系統只會對息肉樣非息肉結構(例如氣泡、糞便、未消化的殘渣和皺縮的黏膜)提示。

「簡單的理解,就是偽AI系統輸出的結果的概率是將真AI系統識別的概率圖與一個事先研發的弱AI系統(敏感度特異度都遠低於真AI系統)的概率圖相減而來,同時通過調整閾值保證了偽AI系統的特異度更接近真AI系統。」劉敬家解釋道。

AI輔助結腸鏡檢查雙盲試驗結果:腺瘤檢出率(ADR)和息肉檢出率(PDR)顯著提升

在結腸鏡檢查中,發現和切除腺瘤性息肉是降低結直腸癌發病率和死亡率的最有效方法,而結直腸癌是導致死亡的主要癌症之一。根據《新英格蘭醫學期刊》中相關論文顯示,每提升1%的腺瘤檢出率(ADR),就會降低3%的間期結直腸癌患病風險。

ADR的提升能夠有效預防結直腸癌,這也成為了結腸鏡檢查的主要質量標準。高ADR的內鏡醫師更能幫助患者,人們也通過嘗試改進內鏡硬體技術、腸道準備方法和觀察方法以此來提升提高結腸鏡檢查中的ADR值。

然而,由於各種原因,即使在美國、日本等發達國家,目前臨床上仍有多達27%的腺瘤性息肉被漏診。

在Wision A.I.此次進行的雙盲隨機對照試驗中,結果顯示在腸道癌前病變檢測產品EndoScreener的幫助下,真AI系統組的ADR明顯高於偽AI系統組:在CAD系統實驗組(真AI系統組)的484例病人中,有165例病人(34%)檢測到有一個或多個腺瘤;而在使用假提示系統對照組(偽AI系統組)的478例病人中,有132例病人(28%)檢測到有一個或多個腺瘤。

Wision A.I.雙盲RCT試驗檢測結果

在息肉檢出率(PDR)方面,CAD系統實驗組的PDR明顯高於假提示系統對照組,在假提示系統對照組的478名病人中,有176名(佔37%)檢測出了息肉;在CAD系統實驗組的484名病人中,有252名(佔52%)檢測出了息肉。

在結腸鏡檢查中,假提示系統對照組平均每次發現0.38個腺瘤、0.64個息肉,CAD系統實驗組平均每次發現0.58個和1.04個息肉,無論從ADR值還是從PDR值上看,Wision A.I.的腸道癌前病變檢測產品EndoScreener參與的結腸鏡檢查能夠顯著提升內鏡醫生的檢出率。

試驗數據結果中還有值得提示的一點,在真AI系統輔助下有159個病例被內鏡醫生漏掉,而這部分病例通過讓經驗豐富的內鏡醫生(未參與臨床試驗)再次回顧性測試後,發現醫生們的敏感度和特異度依舊不高,表明容易漏掉息肉的問題不能簡單地由額外的人類觀察者來解決,這也證明了在實際的臨床環境中CAD系統可能在輔助內鏡醫師方面發揮更好的作用。

真實嚴謹的臨床實驗,是支持相關AI產品落地的第一步。Wision A.I.始終堅持臨床循證醫學的路線,此次試驗所用的EndoScreener系統已經經受了數個臨床試驗的檢驗,但該系統訓練樣本僅僅是5000多張的內鏡圖片,其中約一半是陰性樣本,在目前醫學圖像識別領域裡,高成本數據獲取、複雜數據標註的背景下,小樣本量深度學習的優勢愈加明顯。

相關焦點

  • ...兒童反覆呼吸道感染 (RRI) 的隨機、雙盲、安慰劑對照臨床試驗
    受試者招募| 匹多莫德用於兒童反覆呼吸道感染 (RRI) 的隨機、雙盲、安慰劑對照臨床試驗 2020-10-23 19:56 來源:澎湃新聞·澎湃號·政務
  • 全球醫療AI界首個雙盲RCT試驗成功,AI醫學臨床價值突破顯現
    在醫療AI領域,全球發布的隨機對照臨床試驗(RCT)目前有且僅有5個,這其中的第一個,也是規模最大的一個,是來自四川省人民醫院和哈佛醫學院於2019年2月發表在國際前沿期刊《GUT》【IF=17.06】上的一篇關於中國內窺鏡影像輔助診斷企業Wision A.I.的計算機輔助結腸鏡檢出息肉和腺瘤的隨機對照研究論文
  • 專家:瑞德西韋隨機雙盲對照試驗按2:1進行
    新華社武漢2月8日電(記者喻珮 梁建強)抗病毒藥物瑞德西韋(remdesivir)的臨床試驗近日廣受關注。湖北省醫療救治組專家、華中科技大學同濟醫院呼吸與危重症醫學科主任趙建平7日在湖北新型冠狀病毒感染的肺炎疫情防控工作例行新聞發布會上說,正在進行中的瑞德西韋隨機雙盲對照試驗按2:1進行,約有66%的臨床試驗患者有機會用上瑞德西韋,同時其他標準治療也在推進。  趙建平說,瑞德西韋是目前體外抗病毒活性最強的藥物,但是沒有人體試驗證據,雖然充滿期待,但要用科學的態度來檢測療效和安全性。
  • 隨機雙盲對照實驗
    隨機雙盲對照實驗被公認為是評估藥物療效的黃金標準。為了更好理解其基本原理,我們在此設想一個具體的案例。假設為評估某種藥物的療效,研究者安排一組患者(亦稱處理組)服藥,然後再考察他們在服藥後的病情變化。現在的問題是,若處理組在服藥後從整體上看病情有所好轉,則是否一定歸因於藥物的療效呢?
  • 為什麼要用「雙盲試驗」檢驗中醫藥
    事實上在《中國孕婦的保胎荒唐劇》批評了「中藥保胎」後,就有不少網友這樣詰問。然而有時候看似「毋庸置疑」的東西,也許真的該被質疑一下。(曾經發生過連續三次在妊娠頭三個月內流產的婦女,再次妊娠仍有65%的機會不會流產)…[詳細]所以大家明白了吧,我們隨口編出的一個方子,都會讓那些以個人經驗論成敗的孕婦中的大多數當成妙藥,可能還會把我們這些騙子當成神醫,對我們感激涕零呢。那麼誰能保證,黃體酮不會是另一個「童子尿」呢?
  • 中國首個瑞德西韋雙盲試驗結果出爐:無效!和美國結果截然相反
    前不久,因為WHO無意間洩露,中國中斷全球首個瑞德西韋雙盲對照試驗的消息不脛而走,雖然官方宣稱是樣本量不足,但當時就有許多人就懷疑,應該是試驗效果不顯著所致。因為如果有效,試驗通常還是會繼續推進的。4月29日,相關實驗結果終於以Remdesivir in adults with severe COVID-19: a randomised, double-blind, placebo-controlled, multicentre trial(瑞德西韋在成人重症新冠肺炎患者中的表現:一項隨機、雙盲、安慰劑對照、多中心試驗)為題發表在了國際權威醫學雜誌《柳葉刀》上,結果也確如之前所猜測
  • 隨機雙盲實驗:讓騙子現形
    世界上最著名的無神論者、英國皇家科學院院士、牛津大學教授道金斯認為,最能提高每個人認知能力的科學概念就是「雙盲對照試驗」。歐盟《傳統植物藥指令》規定,從11年5月1日起全面實施,未經註冊的中藥將不得在歐盟市場上作為藥品銷售和使用。同年英國藥品管理局繼發布中藥毒性警告。2013年11月,英國藥物管理局頒布了中成藥禁售令,該法令將於2014年4月底開始實施。
  • ...針對藥物瑞德西韋的隨機雙盲對照試驗,湖北省醫療救治組專家...
    文 / 十門2020-02-07 22:03:33來源:FX168 【湖北披露瑞德西韋雙盲試驗詳情:向重症傾斜】據中新網,針對藥物瑞德西韋的隨機雙盲對照試驗,湖北省醫療救治組專家、華中科技大學同濟醫院呼吸與危重症醫學科主任趙建平
  • ...成功行PCI的心絞痛患者中的應用:一項隨機、雙盲、安慰劑對照試驗
    根據2020年8月30日在ESC 2020大會的熱線研究專場上公布的ATPCI試驗結果顯示,在成功進行經皮冠狀動脈介入治療(PCI)後使用曲美他嗪並不能改善慢性或急性冠脈症候群
  • 雙盲試驗,假科學之名的一塊遮羞布
    雙盲試驗只是西醫跳大神用的一塊遮羞布。本文將分技術和發展兩個部分,來說明這個結論:一、雙盲試驗,並不科學。二、西醫還只處在經驗探索階段。要說清楚它的不科學,我們就先來認識下什麼是雙盲試驗雙盲試驗,是指在試驗過程中,測驗者與被測驗者都不知道被測者所屬的組別(試驗組或對照組)。通常在試驗對象為人類時使用,目的是避免試驗的對象或進行試驗的人員的主觀偏向影響試驗的結果。
  • 【深度】雙盲試驗啟示錄
    一 雙盲試驗的來歷 一種新藥能不能用於臨床投入市場,有一套完整的試驗方法,叫做「大樣本隨機雙盲分組對照試驗」,這是現代醫學判斷療效的「金標準」。那麼這種方法是誰發明的?又是怎麼來的? 分組對照試驗雙盲試驗最初源自航海中的壞血病,這種病從牙齦出血直到全身潰爛而死。
  • 隨機對照試驗(Randomised control trial)為何會成為臨床研究的...
    達到這些目的的方法就是在人體進行試驗,也就是我們所稱的"臨床試驗"。每一天都有數百名志願者被邀請參與各種各樣的新型療法的臨床試驗中。臨床試驗總共分為四個階段,從第I期開始(在小範圍內對療法的安全性進行評估),到第III、IV期結束(在更大規模患者群體中檢驗療法的有效性)。每一期都需要患者或志願者的參與。
  • 資料:什麼是大樣本隨機雙盲試驗
    舉個例子,公雞叫了,太陽升起。這兩個事件同樣是相繼發生,但是公雞叫並不是太陽升起的原因。休謨提出,一切因果關係都應該重新審視。 1789年,在法國的巴黎學派,以Pierre Louis為代表的醫生掀起一次醫學革命。他們主張治療不能依據傳統古典理論和盲從權威,而是要觀察事實做出推理和決策。
  • 隨機雙盲實驗:中醫的終結者?
    畢竟在不知道空氣阻力存在的時代,羽毛可以飄在空中,也就是說,從過往的經驗上來看, 輕的物體是不容易落地的。可當人家在全球特級大師賽上細節力爭完美,避免每一個失誤,最終奪冠的時候,大家又相信這是實力了。19世紀法國生理學家克勞德·伯納德提出想要明確一種治療方法有效性,就需要將同一病症的患者隨機分為三個組。
  • 為何要對新冠肺炎特效藥開展隨機雙盲對照實驗
    隨機雙盲對照實驗,被公認為是評估諸如藥物療效等處理效應的黃金標準。根據相關媒體報導,目前已有幾例新冠肺炎備選藥物正在開展這一類型的實驗。最終這些藥物是否靠譜,必須要等待實驗的結果。為幫助讀者更好理解這類實驗的關鍵點、優勢和可能存在的問題,本文以案例形式,對其基本原理進行一個直覺性介紹。
  • 全球首個利用西羅莫司塗層球囊來治療膝蓋以下外周動脈疾病的隨機...
    新加坡2020年8月28日 /美通社/ -- 專注於血管介入給藥設備的Concept Medical Inc.宣布,該公司的FUTURE BTK(首個關於在治療膝蓋以下動脈疾病上面將西羅莫司塗層球囊與標準球囊血管成形術進行對比的隨機對照試驗)計劃招募到首位患者。
  • 中國大陸2型糖尿病隨機對照臨床試驗:回顧與啟示
    然而,由於缺乏高質量的來自中國人群的2型糖尿病隨機對照臨床試驗證據,中國成人2型糖尿病臨床診療指南大多參考歐洲和北美等地的指南共識。面對持續上升的糖尿病患病率,亟需開展設計嚴謹和規範操作的隨機對照臨床試驗,以期為中國2型糖尿病患者制定合理的治療和預防策略。
  • 成都創新「高度」 發射全球首顆AI衛星 這家公司為你「直播地球」
    鏡頭在6月8日舉行的2020中國數字經濟投融資「雲路演」上,成都國星宇航科技有限公司董事長陸川在現場介紹,公司由原衛星及應用領域高校、科研院所、行業應用及部隊領軍人才創辦,已成功研製發射全球首顆AI衛星。
  • 《柳葉刀》:中國隨機雙盲新冠重症試驗提前終止,瑞德西韋結果如何...
    這篇文章將詳細介紹中日友好醫院的曹彬教授和北京協和醫學院王辰教授率領的研究團隊,在著名醫學期刊《柳葉刀》(The Lancet)上公布的瑞德西韋治療重症COVID-19患者的隨機雙盲,含對照組的臨床試驗的中期分析結果。
  • 從數據到臨床實踐|姚麗教授:隨機對照試驗在腎科研究中的應用
    對照對照是指在試驗中,比較兩種或幾種幹預措施的效果。對照是準確評估治療作用大小的基礎,類型也很多,包括空白對照、安慰劑對照、標準對照、相互對照、自身對照和實驗對照等,姚教授詳細闡述了不同類型對照試驗之間的區別及利弊。2. 隨機隨機也是很常用的方法,是指採用隨機的方式,使每個受試對象均有同等的機會被抽取或分配到實驗組和對照組之中。