雷鋒網按:本文譯自Stanford ML Group,作者為Nicholas Bien,Pranav Rajpurkar,Robyn L. Ball,Matthew P. Lungren和Andrew Y. Ng等。文章主要介紹了深度學習模型MRNet在膝關節磁共振成像異常檢測上的應用,研究發現,該模型顯著降低了健康患者被誤診為前十字韌帶撕裂的概率。原文連結:stanfordmlgroup.github.io/projects/mrnet/。
在膝關節疾病診斷中,膝關節磁共振(MR)成像是通用的標準方法,而且,相比身體的其他任何部位,膝關節肌肉骨骼的MR檢查頻率更高,檢查結果也要求更加精確。
我們在《PLOS》發表了一項新研究,該研究開發了一種深度學習模型,用來檢測膝關節MRI檢測中的整體性異常和精確性診斷(前十字韌帶(ACL)撕裂和半月板撕裂),我們還評估了向臨床醫生提供該模型預測的臨床價值。
考慮下這個膝蓋磁共振檢查,這裡有三個系列(頂行)——你能發現異常嗎?深度學習算法能,它夠識別ACL撕裂(在矢狀序列上看的最清楚)並使用熱圖來定位異常(底行),異常存在證據越多的地方熱圖顏色強度就會越大。
預測系統最主要組成部分是MRNet:它是一個能將三維MRI序列映射到概率的卷積神經網絡(CNN)。
MRNet的輸入尺寸為s×3×256×256,其中s是MRI序列中的圖像數量,3是彩色通道數量。首先,每個二維MRI圖像切片會通過一個特徵提取器,得到包含每個切片特徵的s×256×7×7張量。然後利用池化將這些特徵減少到s×256。再然後,我們利用最大池化通過切片獲得一個256維的向量,最後,該向量被傳遞到完全連接層並獲得預測概率。
因為MRNet會為矢狀位T2、冠狀位T1和軸向PD序列都生成預測,所以我們訓練Logistic回歸來對3組預測進行加權,並為每次檢測都生成一個輸出。
隨後,我們測量了普通放射科醫生和外科醫生有無模型輔助下的表現情況。
我們選取了史丹福大學醫學中心(3至29年從業經驗,平均12年)的7名執業註冊放射科醫生和2名執業骨科醫生。
整個實驗分為兩次,每次試驗裡9名醫生都需要觀察120張圖片,並對圖片作出診斷。不同的是,一次有模型輔助,一次沒有,每次實驗後的間隔期至少10天。對於有模型輔助的讀片,模型預測會產生3個標籤,每一個都表示陽性診斷的預測概率,比如,有98%的概率是前十字韌帶撕裂,70%的概率是半月板撕裂,99%的是膝關節異常。
我們發現,模型輔助顯著降低了健康患者被誤診為前十字韌帶撕裂的概率。
模型輔助導致ACL特異性平均增加了0.048(4.8%):每100名健康患者中,大約5名被免於進行不必要的手術。
雖然模型輔助也顯著提高了臨床專家檢測前十字韌帶撕裂和半月板撕裂的準確性,但在通過控制錯誤發現率進行多次比較和調整後,實驗結果反而不再顯著。
就其異常檢測,前十字異常撕裂檢測和半月板撕裂檢測這三種檢測而言,該模型本身的AUC為0.937(95%CI 0.895,0.980),0.965(95%CI 0.938,0.994)和0.847(95%CI 0.780,0.914)。
值得注意的是,該模型在檢測內部驗證集上的前十字異常撕裂時具有高度特異性,這表明如果在臨床工作流程中使用這樣的模型,則可能有效地發現前十字異常撕裂。
我們還將模型的表現與普通放射科醫師(無輔助)進行了比較:在異常檢測方面,模型和放射科醫生的表現並無顯著差異,在前十字韌帶撕裂檢測方面,普通放射科醫師比模型的靈敏度更高,而在半月板撕裂檢測中模型有更高的特異性。
另外,我們在來自不同機構的數據集上對MRNet進行了驗證,發現該模型對ACL具有較高的識別能力。
我們從從克羅埃西亞裡耶卡臨床醫院中心獲得了917例檢查的公共數據集,它們都帶有矢狀位T1加權序列和ACL損傷標籤。在183例檢查的外部驗證集上,在斯坦福矢狀位T2加權序列上訓練的MRNet在沒有額外訓練的情況下,在ACL損傷檢測中實現了0.824(95%CI 0.757,0.892)的AUC;在外部數據集其餘部分上訓練的MRNet實現了0.911(95% CI 0.864,0.958)的AUC。
最後,我們很高興能有更多志同道合的人來一起共事並進一步驗證人工智慧醫學成像技術。
異常自動預測和定位可以幫助普通放射科醫生甚至是非放射科臨床醫生(如骨科醫生)為患者解釋醫學成像,而不是等著專門的放射科醫生解釋,這有助於提高解釋效率,減少錯誤,並且有助於診斷質量的標準化,尤其是當專門的放射科醫生資源稀缺的時候。
我們需要更多的研究來評估該模型和其他深度學習模型在臨床環境中的最優組合,也希望能與醫療健康服務提供者合作,一起來研究和驗證醫學成像中的自動人工智慧模型。雷鋒網雷鋒網(公眾號:雷鋒網)雷鋒網
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。