選自 Nature Digital Medicine
機器之心編譯
參與:路雪、王淑婷
重症監護病房 ICU 是病人和醫生爭取生命的戰場,在美國每年約有 1% 的 GDP 被花費在 ICU 病房裡。患者移動可大大降低 ICU 後症候群和長期功能障礙的風險,但相關的具體研究還很匱乏。近日,Serena Yeung、李飛飛等人的論文被自然子刊《Nature Digital Medicine》收錄,該研究利用算法估計 ICU 病人移動活動的類型、頻率和持續時間,有助於了解移動性幹預對重症病人的具體作用,從而有可能降低 ICU 後症候群的風險。
這篇論文的海報
摘要
早期頻繁的患者移動大大降低了 ICU 後症候群(post-intensive care syndrome)和長期功能障礙的風險。來自史丹福大學的研究者開發和測試了計算機視覺算法來檢測成人 ICU 病房中的患者移動活動。移動活動被定義為將患者移上或移下床、移上椅子或移下椅子。研究者從 Intermountain LDS 醫院的 ICU 病房中收集了一組具備隱私安全性的深度視頻圖像,包含 563 個移動活動實例和 98,801 幀視頻數據,這些數據來自 7 個安裝在病房牆上的深度傳感器。總的來說,67% 的移動活動實例用於訓練算法來檢測移動活動的發生時間和持續時長以及參與每次移動的醫護人員數量。剩下的 33% 實例用來評估算法性能。檢測移動活動的算法在四種活動中達到了 89.2% 的平均特異性(specificity)、87.2% 的敏感度(sensitivity)。量化移動活動中醫護人員數量的算法達到了 68.8% 的平均準確率。
引言
長期高強度護理的倖存者經常患有 ICU 後症候群,其特徵是長期的認知和身體障礙,導致功能狀態顯著下降。移動重症患者可以縮短脫離呼吸機的時間、減少精神錯亂、防止肌肉萎縮和身體功能障礙(ICU 獲得性虛弱)。這一點很重要,因為這些都是可以預防的傷害,會影響病人整體的生存、獨立展開生活的能力以及和健康相關的生活質量。雖然早期研究表明,移動性幹預有利於特定的患者群體,但還需要更詳細的研究來確定移動性活動的類型、頻率和持續時間的變化對不同患者群體的影響。然而,目前此類研究的範圍很有限,因為早期移動協議的實施需要克服大量組織和文化障礙,而且其成功歷來難以衡量。
當前監測病人移動性的做法包括直接觀察和挖掘電子健康記錄(EHR),來記錄移動性事件。這些方法費時費力,且容易導致不準確的記錄,並且在病人護理和報告之間存在明顯的時間差。計算機視覺技術(CVT)提供了一個替代方法:從臨床環境中被動地捕捉數據,然後應用機器學習算法來自動檢測和量化病人與醫護人員的活動。事實上,人們對在醫院中使用 CVT 進行活動識別和改善病人護理越來越感興趣。例如,計算機視覺已被用來在醫院走廊自動識別醫護人員的手部衛生活動和急診科的復甦事件。CVT 還被用在手術室中,算法識別病人護理任務(如將病人移至手術臺)、手術過程中的步驟和工具,甚至外科醫生的手術水平。最後,也是與本文研究最相關的是,Ma 等人使用 CVT 來確定單個 ICU 病房中患者的數字移動水平。基於這項研究,本文使用基於深度傳感器的 CVT 收集了來自 7 個成人 ICU 病房的數據,開發了機器學習算法來檢測病人的床邊活動時間和參與的醫護人員數量。
結果
檢測移動性活動的算法性能
研究者對算法在視頻數據單個幀上的預測結果(幀級別預測)進行了評估,發現檢測移動性活動發生的算法在四種活動上達到了 87.2% 的平均敏感度和 89.2% 的平均特異性,平均曲線下面積(AUC)為 0.938。每種活動的 ROC 曲線如圖所示。幀級別預測被合併,用於確定算法檢測到的移動性活動的持續時長。算法預測的所有移動性活動的平均持續時長為 7.6s(標準差為 12.6s,最小值為 0.4s,最大值為 146.5s,每種活動的持續時長參見補充數據 1)。為方便對比,基於人工審核的標註數據(真值)得出的所有活動平均持續時長為 0.9s(標準差為 12.9s,最小值為 0.5s,最大值為 123.9s,關於算法預測持續時長和真值持續時長的對比請參見補充表 1)。活動分類正確且預測持續時長在真實值標準持續時長+ /− 15% 範圍內的移動性活動佔 58.1%;預測持續時長在真實值標準持續時長+ /− 25% 範圍內的活動佔 68.7%;預測持續時長在真實值標準持續時長+ /− 50% 範圍內的活動佔 82.0%。
圖 1:檢測移動事件發生的算法性能。(a):在每一幀上評估的每個類別的特異性和敏感度。(b)每個類別的 ROC 曲線。ROC 曲線表示敏感度(真正率)和 1-特異性(假正率)之間的權衡。
補充表 1:活動持續時長真值和預測值對比。
檢測醫護人員數量的算法性能
用於量化每個移動事件中醫護人員數量的算法達到了 68.8% 的平均準確率。圖 2 是真值 vs. 預測人數的混淆矩陣。該矩陣表明,當病人單獨行動時,算法準確檢測到 0 名醫護人員的概率為 75%,當 1 名醫護人員出現時,算法準確檢測到 1 名醫護人員的概率為 74%。對 2 或 3 名醫護人員檢測的準確率分別為 62% 和 60%。在 78% 的時間裡,算法可以正確檢測 2 個或更多的醫護人員。
圖 2:量化移動事件中醫護人員人數的算法性能。該混淆矩陣展示了移動事件實例中醫護人員的真正數量(0–3)和算法檢測到的數量的對比。當病人自己移動時,算法檢測到的醫護人員數量為 0。當病人在一名醫護人員的幫助下移動時,算法檢測到的結果為 1,依此類推。
圖 3 展示了算法輸出的定性示例。圖中顯示了兩個(壓縮)時段的採樣深度圖像幀。此外,下圖中的時間線還顯示了檢測到的活動類型、發生時間、持續時長,以及涉及的醫護人員數量。為方便對比,下圖還顯示了真值數據。
圖 3:移動事件發生和醫護人員出現的時間線。上圖展示了兩個時間線,每個時間線中展示了該時段內的採樣深度圖像幀。人物檢測的空間邊界框是重疊的(為方便觀看,僅在中間幀上顯示)。每個移動事件中的時間範圍和醫護人員數量(pers)都顯示在時間線上。為方便對比,時間線上還顯示了人類標註的真值數據。
方法
該研究在鹽湖城 Intermountain LDS Hospital 的成人 ICU 病房展開,開展時間為 2017 年 8 月-10 月。研究參與者為進入 ICU 病房的病人和醫院職工,病房裝有計算機視覺深度傳感器。
該研究依靠深度傳感器來收集數據。深度傳感器基於人和物體與傳感器的距離來捕捉其 3D 圖像,從而既提供了視覺信息又能保護隱私。傳感器安裝在七個單獨的病房內,安裝位置正對病床,在研究開展的兩個月內 24 小時不間斷收集數據。
病房布局和傳感器安裝布局如下圖所示:
關於數據標註,研究者請訓練有素的研究助理對收集到的數據進行手動評估和標註,將這些活動分為四類移動事件:病人離開病床、病人移到病床、病人離開椅子、病人移到椅子。
訓練和測試數據集
最終數據集中包含 563 個移動事件標註類別,其中 154 個屬於病人離開病床、182 個屬於病人移到病床、112 個屬於病人離開椅子、115 個屬於病人移到椅子上。最終數據集涵蓋 98,801 個數據幀,時長 5.7 小時。研究者隨機選取數據集中 67% 的移動活動實例和幀作為訓練數據,另外 33% 作為測試數據。因此,有 379 種病人移動活動實例被用於訓練,其餘 184 種實例用於測試。測試數據集中病人離開病床的實例有 48 個,病人移到病床的實例有 64 個,病人離開椅子的實例有 32 個,病人移到椅子上的實例有 40 個。
訓練數據增強
研究過程中還使用了數據增強技術。為了提升算法性能,研究者使用對目標移動事件的數據模擬來增強訓練數據集。下圖展示了如何將模擬數據融入訓練數據集。需要注意的是,模擬數據僅用於改善模型訓練,而不用於算法準確率的評估,使算法準確率評估仍基於病人數據。
下圖展示了算法在訓練數據有/無模擬數據時的性能數據。我們可以看到這種增強數據方法有效地提升了模型性能,且時間效率很高,它將模型在評估數據集上的平均敏感度和特異性分別從 82.93% 和 84.44% 提高到了 87.20% 和 89.20%。
移動事件類型及持續時長的檢測模型
移動事件類型及持續時長的時間檢測算法是一個多標籤循環卷積神經網絡模型。研究者在大規模ImageNet數據集上對 18 層的ResNet進行預訓練,然後再在該研究的數據集上對模型進行精調,以便模型能從每一個數據幀中提取有信息的視覺特徵。之後,研究者使用兩層的雙向LSTM網絡在這些特徵的連續 64 幀序列中對時間結構進行推理。該研究集成了 6 個此類模型,來生成最終檢測輸出。
醫護人員檢測模型
該研究中用於量化每個移動事件中醫護人員人數的算法是基於YOLOv2卷積神經網絡構建的。研究者使用 YOLOv2 預測每個數據幀中人員的空間位置。在研究所用的數據集中,有 7% 的移動事件沒有醫護人員,51% 的移動事件中有 1 名醫護人員,32% 的移動事件中有 2 名醫護人員,10% 的移動事件中有 3 名醫護人員。
算法的性能評估
該算法的準確率評估方法是:對比真值結果和算法的預測結果。使用 Python 3.6 執行敏感度、特異性和 ROC 計算。
本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。
------------------------------------------------