昨日,傳來醫療AI界萬眾翹首期盼的消息。
「人工智慧類醫療器械註冊申報公益培訓」悄然在北京開幕,整個會議僅持續一下午,卻隱含了醫療AI領域所共同關注的三類器械審批信息,裡程碑式的勝利就此展開?
在本次會上,藥監局細緻入微的分析了影響醫療人工智慧器械審批的每一個過程,細化到對每個指標進行了詳盡的講解,這是一場名副其實的「AI醫療註冊申報培訓」。
同時,會上介紹,截至2018年11月底,藥監局收到創新特別審批申請1054項,192項同意按照特別程序審批。51項創新醫療器械已通過特別程序獲準上市。遺憾的是,會上並未透露AI相關產品過審的信息。
據相關人士透露,國家藥品監督管理局已經理清了AI審批全流程的思路,審批通道已於12月中旬開放,然而,高標準下,還無一企業進行AI三類器械產品申報。不過,標準出臺後,一切只是時間問題。
在此,動脈網記者對整個會議的內容進行了梳理,嘗試幫助醫療AI的從業人員理清藥監局審批的思路與要點,其內容包括主要包括以下四個方面:
一、審批流程;
二、審批要點解讀;
三、肺結節、糖網病變的臨床試驗設計及問題思考;
四、申報材料等其他信息。
第一部分:審批總體思維、原則及流程
醫療器械註冊是一項行政許可制度,是食品藥品監督管理部門根據醫療器械註冊申請人的申請,依照法定程序,對其擬上市醫療器械的安全性、有效性研究及其結果進行系統評價,以決定是否統一其申請的過程。
從總體思維上看,醫療器械申報以分類管理為基礎,以風險高低為依據,確定醫療器械註冊與備案的具體要求,其具體的申報流程如下圖所示:
國家藥品監督管理局醫療器械審批流程圖
第二部分:審批要點解讀
審批要點解讀是本次會議的核心,本次會議系統性的講解了醫療AI產品在審批過程中所面臨資料庫、數據安全、軟體更新、產品適用、雲計算服務等問題,涵蓋了人工智慧的產品的每一個要素,研究人員甚至可以根據這一套指標設立明確的評分。
1.適用範圍
按照適用範圍,AI產品可通過下屬三個因素進行分類:
深度學習輔助決策醫療器械軟體:
包括醫療器械數據、深度學習、輔助決策、醫療器械軟體。
軟體類型:
可分為AI獨立軟體(本身即為醫療器械的AI軟體)
AI軟體組件(醫療器械內含的AI軟體)。
軟體用途:
輔助決策;
輔助篩查、識別、診斷、治療等-非輔助決策;
前處理、流程優化、常規後處理。
2.風險考量
風險考量即是對AI產品在使用過程中的風險進行評價,以達到抑制風險,提高AI產品可靠性的目的。主要包括以下兩大類因素的考量。
1臨床使用風險
假陽性:誤診,過度醫療風險。
假陰性:漏診,快速進展疾病風險。
進口軟體:中外差異(人種、流行病學、臨床診療準則)。
2風險管理活動
要素: 預期用途(目標疾病、臨床用途、重要程度、緊迫程度)、使用場景(患者人群目標用戶、使用場所、臨床流程)、核心功能(處理對象、功能類型)。
措施: 設計、防護、警示。
要求: 貫 穿於軟體全生命周期過程。
3.需求分析
需求分析以臨床需求與使用風險為導向,結合預期用途、使用場景和核心功能,綜合考慮法規、標準、用戶、產品、數據、功能、性能、接口、用戶界面、網絡安全等需求。在此情況下,企業需重點關注:
1數據收集:目標疾病流行病學特徵,如疾病構成(分型、分級、分期)、人群分布(健康狀態、性別、年齡)、統計指標(患病率、治癒率)、併發症與類似疾病等。
2算法性能:假陽性與假陰性指標、重複性與再現性、魯棒性/健壯性。
3臨床使用限制:臨床禁用、慎用等場景
4.軟體確認
軟體確認即以提供客觀證據認定軟體滿足用戶需求和預期目的,包括軟體確認測試(用戶測試)、臨床評價(若適用)、評審等系列活動。
臨床評價是此類軟體進行確認的主要方式,主要包括兩個原則。
1.軟體指導原則:基於臨床試驗的臨床評價資料,即軟體的臨床試驗資料或與軟體核心算法具有實質等同性的同品種產品臨床試驗資料。
2.進口軟體:評估中外差異, 若存在顯著差異應在中國開展臨床試驗 ;而使用境外臨床試驗數據應當滿足相應指導原則要求。
5.臨床試驗
臨床試驗需基於軟體的預期用途、使用場景和核心功能,按照診斷試驗進行臨床試驗設計,其核心要點包括以下四項:
1試驗設計:建議優先選擇同品種產品或臨床參考標佳進行非劣效對照設計,次之可選擇用戶結合軟體聯合決策與用戶單獨決策進行優效對照設計;非劣效或優效界值的確定應有充分臨床依據。
2觀察指標:以敏感性、特異性、ROC/AUC為主要指標 ,亦可選擇時間效率等指標作為評價指標
3入排標準:基於目標疾病的流行病學特徵
4來源機構:異於訓練數據主要來源機構,地域分布儘可能廣泛,機構數量需儘可能多。
6.回顧性研究
為鼓勵創新並降低臨床試驗成本, 臨床試驗可使用回顧性數據 ,但應在設計時考慮並嚴格控制偏倚問題,原則上應當包含多個不同地域臨床機構(非訓練數據主要來源機構)的同期數據。
使用原則(基於風險),軟體安全性級別判定詳見軟體指導原則:
對於高風險軟體:臨床預試驗或臨床試驗補充。
對於中風險次件:臨床預試驗或替代臨床試驗。
7.軟體更新基本原則
軟體更新應當考慮對軟體安全性和有效性的影響(正面和負面), 注意軟體更新是導致軟體召回的主要原因之一。
監管部門將對以下程度的更新進行監管:
重大軟體更新:許可事項變更。
輕微軟體更新:質量體系控制,無需申請註冊變更。
軟體版本命名規則:
明確並區分重大軟體更新和輕微軟體更新,其中重大軟體更新應當列舉全部典型情況,應涵蓋算法驅動型、數據驅動型軟體更新。
8.重大軟體更新要點
常見更新類型包括算法驅動型更新與數據驅動型更新,算法驅動型更新包括軟體所用算法、算法結構、算法流程、所用框架、輸入與輸出等發生改變;數據驅動型指僅由訓練數據量增加加而促使軟體更新
對於重大軟體更新,判定需遵循以下原則:
1算法驅動型軟體更新通常屬於重大軟體更新。
2數據驅動型軟體更新若導致算法評估結果發生顯著性改變(與前次註冊相比)則屬於重大軟體更新。
3其他類型重大軟體更新的判定準則詳見軟體指導原則、網絡安全指導原則
9.驗證與確認
無論何種軟體更新,均應按照質量管理體系要求,開展與軟體更新類型、內容和程度相適宜的驗證與確認活動。而算法驅動型和數據驅動型軟體更新均應開展算法性能再評估、臨床再評價。
其中,臨床再評價(基於風險)包括:
高風險軟體:適用範圍變更應當開展臨床試驗,其他情況原則上可使用回顧性研究。
中低風險軟體:可使用回顧性研究。
10.適用範圍擴展
根據要求,全部AI軟體功能均應開展需求分析、數據收集(若適用)、算法設計、 軟體確認;每項AI軟體功能應獨立開展需求分析、 數據收集(若適用)、算法設計、軟體確認。
對於深度學習非輔助決策軟體則需遵循以下步驟:
1前處理:算法性能評估、臨床評價。
2流程優化:算法性能評估。
3 常規後處理:算法性能評估,必要時臨床評價。
11.第三方資料庫
第三方資料庫視為回顧性研究一種特殊形式,可用於算法性能評估,但未必能夠完全滿足軟體確認的要求。
第三方資料庫類型包括測評資料庫與非測評資料庫。評測資料庫可用於軟體確認,非測評資料庫(如公開資料庫)不可用於軟體確認 。
12.評測資料庫
測評資料庫需滿足網絡與數據安全、可擴展性等因素。具體要求如下:
權威性:數據標註應由相應權威臨床機構負責。
科學性:樣本量、樣本分布應符合統計學要求。
規範性:數據治理應建立質控程序並可追溯。
多樣性:數據應來源於多個臨床機構。
封閉性:應封閉管理,且樣本總量遠大於單次測試量。
動態性:應定期更換一定比例數據。
13.網絡與數據安全過程控制
無論企業上市前還是上市後,除考慮軟體自身網絡安全能力建設外,企業還應當在軟體全生命周期過程中考慮網絡與數據安全過程控制要求,
基本考量指標包括: 脫敏數據轉移、封閉與開放網絡環境、數據接口兼容性、數據備份與恢復。
14.雲計算服務與移動計算終端
雲計算服務應明確服務模式、部署模式、核心功能、數據接口、網絡安全能力和服務(質量)協議。
移動計算終端需結合終端的類型、特點和使用風險明確性能指標要求。詳見移動器械指導原則、網絡安全指導原則
15.適用範圍
AI獨立軟體的適用範圍包括以下場景:
1明確預期用途、使用場景和核心功能。
2包括但不限於處理對象、目標疾病、臨床用途、患者人群、目標用戶、使用場所、數據採集設備要求(若適用)、臨床使用限制(若適用)。
AI軟體組件的適用範圍可參照Al獨立軟體要求,並在產品適用範圍中予以體現。
16.研究資料
研究資料包括軟體描述文檔、網絡安全描述文檔、軟體版本命名規則.
軟體描述文檔要求核心算法部分應當結合本審評要點提供相應算法研究資料,以及測試集、公開資料庫、測評資料庫、回顧性研究、臨床試驗的算法性能評估結果比較分析資料。
研究資料其他資料應當提供網絡與數據安全過程控制研究資料、第三方資料庫(測評、公開)的基本信息(如名稱、創建者、數據量、數據分布)和使用情況(如使用量、數據分布、比重、資質)。
17.說明書
輔助決策軟體應明確軟體的適用範圍、臨床使用限制、注意事項、用戶培訓、數據採集設備要求、數據採集操作規範、輸入與輸出、算法性能評估總結(測試集基本信息、評估指標與結果)、臨床評價總結(臨床數據基本信息、評價指標與結果)等信息
深度學習輔助決策軟體除上述內容外還應當補充算法訓練總結信息(訓練集基本信息、訓練指標售與結果)。
第三部分(上):肺結節臨床試驗設計及問題思考
「肺結節的臨床試驗設計與問題思考」這一議題的內容由四川大學華西醫院劉倫旭主任製作。肺結節一直在醫療人工智慧領域處於核心研究方向,其審批標準的探討已經持續了接近一年之久。然而人工智慧的審批本就是一個極其複雜且極其嚴謹的問題。劉倫旭主任在會上總結肺病外科診治臨床問題,嘗試構架完善的研究設計。
基於胸外科領域目前存在的若干實際臨床問題,研究人員應從手術指徵判斷、手術方式選擇和術後預後預測模型三方面構建胸外科肺癌診治智能化系統。
手術指徵判定包括:
1. 肺結節智能定位和定性識別;
2. 縱隔窗淋巴結智能定位與定性識別;
3. GGO圖像特徵提取與腺癌形成各時期相關性分析;
4. 多原發癌和肺內轉移影像譜特徵鑑定和鑑別。
手術方式選擇:
1. 基於圖像分割和三維重建的肺段可視化及小結節定位手術方式選擇
2. 基於神經網絡的淋巴結轉移精準預測
3. 基於胸部影像譜頂測小結節STAS和微乳頭成分
術後預後預測:
1. 基幹神經網絡的術後併發症預測模型構建
2. 基於多種數據類型的肺癌術後復發轉移模式、預後預測模型構建
3. 基於影像類數據驅動基因突變和免疫檢查變化
4. 未知(因PPT缺失)
基於神經網絡的術後並發定預測模型構建,官方調研了8465例接受了手術治療的肺癌患者,其中1453例發生術後併發症。
在這其中隨機選取250例術後發生併發症患者,並選取250例未發生患者作為測試集;剩餘7965例數據作為訓練集, 在訓練集上訓練神經網絡模型。
經過數據整理,模型的動態識別模型效能為88.0%,識別率為81.2%,查全率為73.2%,查準率為87.14%。這是現階段人工智慧產品在臨床中實現的理想數據。
第三部分(下):糖尿病視網膜病變AI輔助診斷臨床試驗設計中的問題及思考
「糖尿病視網膜病變AI輔助診斷臨床試驗設計中的問題及思考」由四川大學華西醫院劉倫旭主任講解。會上總共提到了三種糖網AI臨床試驗的方法,這裡收錄了其中兩種:
1. 以產品有效性為參考,在實際中,AI產品應滿足「AI>醫生」,若強調AI對醫生的輔助作用,則滿足「醫生+AI>醫生」。
從理論上這是一個很好的臨床評價方法,但實際評價結果與醫生水平有很大關係。在目前臨床試驗下,公司多選取三甲醫院來做,這導致AI輔助作用被弱化。而基層醫院的醫生水平參差不齊,很難設一個統的標準,所以Al主要的應用場景是在基層醫院/體檢中心的輔助篩查和輔助診斷。
2. 以單組目標值作為參考,主要觀察AI產品性能與其聲稱的性能是否一致;是否FDA已經批准的IDX-DR產品採用的臨床試驗方法。與有效性相比,這種方法受人為因素的幹擾較小,具有比較好的客觀性。
在這一類AI產品中,企業必須嚴格進行數據控制,同時考慮諸多不同的場景,如考慮輔助篩查、輔助診斷、隨診分析的流程差異;三甲醫院、基層醫院、體檢中心等場景差異;不同場景和機型下的圖片質量差異;是否需輔助轉診:需要不需要轉診等。
第四部分:受理前諮詢、申報材料等其他信息
受理前諮詢全稱為醫療器械註冊受理前技術問題諮詢,其範圍主要包括醫療器械註冊申報前的相關問題,不包含技術審評過程中的相關問題。
受理前諮詢申請每周五下午1:00至4:00,地點為北京市西城區宣武門西大街大成廣場行政受理服務大廳。
境內申請人攜帶:申請人出具的涵蓋相關委託內容的委託書、個人有效身份證件、醫療器械技術審評中心諮詢登記表。
境外申請人攜帶:境外申請人指定境內企業法人作為代理人的委託書、境內代理人出具的涵蓋相關委託內容的委託書、個人有效身份證件、醫療器械技術審評中心諮詢登記表。
申請人(與申請表蓋章單位一致)對委託辦事人員及所辦事項的委託書(見關於辦理受理和領取批件等行政許可事項的公告(第169號)(附件D),辦事人員需攜帶身份證明原件、複印件及註冊申報資料。
總結
關於AI類醫療器械創新申請目前還沒有太多的審查經驗。會上藥監局提到了以下幾點建議:
1. 規範的醫療器械產品名稱;
2. 有明確的軟體預期用途、使用場景、核心功能、運行環境;
3. 使用的數據應來自臨床機構。且說明來源機構及採集要求;
4. 提供算法設計的相關資料。包括算法選擇及訓練;
5. 提供真實臨床數據的軟體驗證資料;
6. 能夠支持產品具有顯著臨床應用價值的數據資料。
由於審批條件較多,對於當前的許多人工智慧企業而言,其中的部分條款可能相對較為苛刻,企業仍在準備相關材料,據幾家人工智慧頭部企業透露,本次申請過程存在細節多、標準高的特點,他們正在提交資料申請備案,但由於沒有先例,對後續結果沒法進行其他判斷。
當然,嚴格的把關凸顯了我國發展AI的決心,這樣落地的產品必然是能經得起醫院、醫生、患者考量的產品。同時,有了審批標準化的指引,企業也有了為之奮鬥的明確目標,剩下的,不過只是時間問題。
文 | 趙泓維
聲明:動脈網所刊載內容之智慧財產權為動脈網及相關權利人專屬所有或持有。文中出現的採訪數據均由受訪者提供並確認。未經許可,禁止進行轉載、摘編 、複製及建立鏡像等任何使用。