斯坦福AI實驗室:如何打造基於計算機視覺的智能醫院

2020-12-13 雷鋒網

雷鋒網(公眾號:雷鋒網)按:本文譯自The Stanford AI Lab Blog,作者為Albert Haque和Michelle Guo。文章主要介紹了斯坦福AI實驗室如何通過計算機視覺技術監測醫院內的手部清潔工作來改善醫院衛生條件。

每年死於院內感染的人數比車禍死亡人數還多,這意味著你被送進醫院的時候,有三十分之一的概率健康狀況會變得更加糟糕,這很值得警惕。

好在醫院可以通過改善衛生條件來扭轉這一局面。無論在醫院、機場還是餐館之類的公共場合,手部衛生都是預防傳染病傳播的第一道防線,這是一個簡單的常識。問題的關鍵不在於人們無知,而在於缺乏警惕心,他們需要自動檢測技術來檢查手部清潔情況。實際上,很多技術都可以解決這個問題,最簡單也最常用的就是用計算機視覺技術來檢測人們有沒有洗手。

斯坦福PAC(The Stanford Partnership in AI-Assisted Care)中心和眾多來自世界各地的合作夥伴多年來一直在開發這項技術,雖然還有很多工作要做,但是我們希望這項技術能幫助醫院降低感染率並改善病人的健康。

為什麼選擇計算機視覺技術?

醫院們會通過醫學院課程、布告欄海報和員工周會等方式來加強手部衛生教育。世界衛生組織甚至提出「手部衛生五大時刻」,明確規定了醫療衛生工作者的洗手時間。為了核查手部衛生落實情況,醫院使用RFID卡或員工徽章來跟蹤手部衛生工作。在某種程度上,這些工具真的有用,但是也會碰到工作流程中斷的情況,比如當員工進入新房間時,肥皂盒會刷到RFID卡。這其實是技術問題:一般的RFID技術覆蓋距離短,而較長距離的「主動型」RFID也受到定向天線的限制,而且需要電池。很明顯,需要一種沒有RFID技術缺陷的新解決方案。

計算機視覺和醫院

我們在史丹福大學與Lucile Packard兒童醫院合作,開發了一種全新的先進方案來追蹤手部衛生工作:它使用前沿的計算機視覺技術,不需要臨床醫生來幹預日常工作。雖然計算機視覺已被用到醫學成像領域,但在醫院的物理空間中還沒有太多用武之地。幸運的是,計算機視覺已經用到了物理空間的另一個問題裡:自動駕駛汽車,自動駕駛汽車使用大量傳感器來了解環境,以此類推,我們能在醫院內使用這些傳感器來更好地了解醫療環境嗎?

深度傳感器

深度傳感器(比如Xbox Kinect)類似常見的相機,不過它不記錄顏色,而是記錄距離。在正常的彩色圖像中,每一個像素表示一個顏色;在深度圖像中,每一個像素表示真實世界中該像素到傳感器之間的「距離」,它通常是一個浮點數,比如1.337米。

(左)醫院的彩色照片,用手機拍攝。(右)天花板上傳感器拍攝的深度圖像。顏色越暗,物體越接近深度傳感器。

在上面的深度圖像中,你雖然看不到人們的臉,仍然可以知道他們在做什麼。這保護了我們用戶的隱私,這在醫院裡很重要。為了證明和發展我們的計算機視覺技術,我們在兩家醫院的天花板上安裝了深度傳感器,一個是兒童心血管病房,另一個是成人重症監護室(ICU)。

我們的深度傳感器安裝在一家兒童醫院的天花板上。

通過兩個不同的醫院裡安裝的深度傳感器,我們可以使用3D計算機視覺工具自動監測手部衛生工作。這涉及三個步驟:

1.監測醫護人員。

2.追蹤在病房周圍走動的員工。

3.分類員工的手部衛生行為。

行人監測

 

繼續自動駕駛汽車的類比:為了了解環境,首先要做的就是檢測人。現在有很多物體檢測方法,但是大多數都是面向彩色RGB圖像開發的。相反,我們選擇使用一個更古老的方法,該方法可以通過解決兩個方面的問題而在任何類型的圖像上運行:通常,人們在給定的一個房間的圖像中只佔據少量的空間;而且,在深度圖像中,人們通常看起來像「水滴」,和地板背景差別明顯。

詞典的條目。每個詞典條目都包含一個合成圖像,反應一個人站在某個位置時的樣子。

檢測人的一種方法是確定一個地面上的佔用網格圖,該佔用網格圖是二進位矩陣,用來表示一個人是否佔用地面上的某個特定位置。通過將地面(比如,房間的地板)轉換為離散網格,我們就可以通過網格內的每一個與人大致等高的水滴「想像」出處於該位置的人。我們可以在地面上的每個點上都創建一個包含水滴的詞典(記住:因為我們人工合成了這些水滴,我們知道它們準確的2D和3D位置)。對於多人情景,我們可以在場景中渲染出多個水滴。在測試期間,我們需要的是一個「水滴」圖像,這可以用任何前景/背景減法或物體分割算法來完成。現在,給出測試時的水滴圖像,我們就可以在這個詞典中執行K-nearest搜索來查找每個水滴的位置。

跨病房追蹤

為了建立一個真正的智能醫院,我們需要使用遍布整個醫院病房的傳感器。因為不是所有的事情都發生在一個傳感器前面,所以我們也需要算法來追蹤不同傳感器前面的人。這不僅可以提供手部衛生落實情況的細節,它也可以被用來改善工作流程和空間分析。一般的,我們希望找到一系列軌跡集合X,其中x∈X中的每條軌跡x都代表一個檢測序列集合,L_x=(l_x^{(1)},...,l_x^{(n)}),代表檢測到的行人坐標。該問題可以歸為最大後驗(MAP)估計問題。

接下來,我們假設一個馬爾可夫鏈模型,它將軌跡X中的每個中間檢測l_x^{(i)}與後續檢測l_x^{(i+1)}以給出的概率P(l_x^{(i+1)}|l_x^{i})連接。現在我們可以通過尋找能最小化成本C的流量f來將MAP任務作為一個線性整數規劃來解決:

其中,f_i是表明相應檢測是否為真的流量變量,f_ij表示相應檢測是否連結到了一起。變量β_ij表示logP(l_i|l_j)為檢測l_i,l_j∈L而給出的轉移成本。局部成本α_i是一個中間檢測為真的對數概率。為了簡單起見,我們假設所有的檢測都具有相同的概率。這相當於流程優化問題,可以用k-shortest路徑實時求解。

手部衛行為分類

到現在為止,我們已經確定了病房裡所有行人的軌跡(比如,在全球醫院病房地面上的位置)。最後一步是檢測手部衛生行為並將其連結到一個特定的軌道上。當一個人使用洗手液時,手衛生行為被定義為正,然後我們再將每個行人的軌跡標記為乾淨或不乾淨。

在實際環境中,部署傳感器往往容易受到安裝約束。無論是有意還是無意,施工和維護的技術人員安裝的傳感器角度和位置都各不相同,這意味著我們的模型必須對這些變化具有魯棒性,以便它可以與任何傳感器視角一起工作。由於傳統的卷積神經網絡(CNN)一般都不是視角不變的,所以我們使用空間變換網絡(STN)代替。

(左)一個人體分割的數據擴張階段.(右)手部衛生行為分類:一個空間變換再加上一個密集的卷積神經網絡。

STN的輸入是一個隨機圖像,輸出是一個扭曲的圖像。為了幫助我們的模型更快地學習,我們還提供了一個人體分割比如,體膜)到STN。這個體膜可以使用經典的前景-背景技術或深度學習方法來提取。STN將圖像扭曲成學習的「視角不變」形式。從這個扭曲的圖像看,我們使用一個標準的CNN(比如,DenseNet)來執行是否有人使用洗手液的二進位分類。

時間和空間的匹配

在這一點上,我們仍然需要將我們的軌跡集合和單獨的手部衛生檢測集合結合起來,這就引入了兩個新變量:空間和時間。對於每一個手部衛生分類器檢測(比如,洗手液正在被使用),我們就必須匹配它到一個單一的軌道上。當軌道T滿足兩個條件時,分類器和追蹤器之間就會發生匹配:

1.在一定的容忍水平裡,軌跡T包含了(x,y),點P和手部衛生檢測事件E同時發生。

2.至少有一個點p∈P物理上接近負責檢測事件E的傳感器,這個閾值定義在病房門口附近。

如果存在多條軌跡滿足這些要求,則通過選擇與門最近的(x,y)位置來中斷聯繫。我們模型的最終輸出是一個軌跡的列表T,其中每一條軌跡由(t,x,y,a)元數組的一個有序列表組成,其中t表示時間標記,x,y表示2D地面平面坐標,a表示最新的動作或事件標籤。通過T,我們可以計算達標率或用金標準的評價指標來進行比較。

人類審計師與RFID的比較

現在,許多醫院通過「神秘訪客」來衡量手部衛生的落實情況,訓練有素的個人在醫院病房四處走動,觀察工作人員私下是否在洗手。這種「神秘訪客」可以是護士,醫生,甚至是一個參觀者。我們稱之為秘密觀察,不同於為審計而進行的公開觀察。隱性觀察的目的是最小化Hawthorne效應(比如,因為有人在看你,你改變了你的行為)。就像上文所討論的一樣,我們將計算機視覺,駐留在病房固定位置的多個審計員,在病房周圍走動的單個審計員和RFID標籤的使用進行了比較。

結果

對比結果顯示,RFID產生了大量的誤報,它只在18%的時間裡正確預測了乾淨或骯髒軌跡。

人類審計師的效果要好得多,準確率為63%,三個人的效果則更好,準確率可以達到72%。然而,我們的算法甚至超過了人類審計員,具有75%的準確度。這並不讓人吃驚,因為審計師正在與具有「全球視野」的計算機視覺系統競爭。既然真實標籤是人類標註的,為何人類觀察員比算法表現更差呢?原因是我們的真實標籤只是被遠程標記,而不是實時標記。遠程標註者可以訪問所有的傳感器,並且可以及時向前向後地播放視頻以確保它們的注釋是正確的。現場的審計員則無法「訪問」所有傳感器,他們不能及時地回放事件。

不同時段的手部衛生檢測圖像。藍色方塊表示有人在使用洗手液。深藍色表示有更多同時發生的事件。底部顯示了真實標籤。一般來說,空白越多,結果越差。

除了數字之外,一個更有趣的結果是視覺效果。上面的圖片顯示了現場審計員很少檢測手部衛生行為。注意到所有的空白部分了嗎?如果你查看真實標籤那一行,通常是沒有空白的。這意味著觀察員錯過了大量的手部衛生事件。這通常是因為觀察員分心了:他們可能在打瞌睡,在病房的其他地方看無關的活動,或者只是沒有看到手部衛生事件的發生。

ICU內人員走動的時空熱圖,黃色/紅色意味著更多的人在那裡站/走。

最後,我們用一個動畫來做結論。上面的動畫展示了醫院病房的俯視視角。因為我們可以追蹤在整個醫院的人,所以我們一直了解他們的特定的(x,y,z)位置。我們繪製了每個點並創造了隨時間變化的熱圖。這種類型的空間分析對識別交通模式和跟蹤潛在的疾病傳播都很有效。這些總是黃色/紅色的區域表示擁擠的空間。這些空間通常在走廊的交叉口或者就在病人的病房外。如果你仔細看,你會發現靜止的審計師被標紅了。

未來方向

我們展示了如何使用計算機視覺和深度學習來自動監控醫院的手部衛生工作。在斯坦福PAC,手部衛生僅僅是一個計算機視覺在醫療行業中的應用案例。我們還在開發計算機視覺系統來監測患者的移動情況,分析外科手術的質量,以及檢查老年人的異常情況等內容。

我們希望這項工作能夠激發醫療人工智慧的潛力並擴大它的影響。

參考文獻

Viewpoint Invariant Convolutional Networks for Identifying Risky Hand Hygiene Scenarios. M. Guo, A. Haque, S. Yeung, J. Jopling, L. Downing, A. Alahi, B. Campbell, K. Deru, W. Beninati, A. Milstein, L. Fei-Fei.  Workshop on Machine Learning for Health (ML4H), Neural Information Processing Systems (NIPS), Long Beach, CA, December 2017.

Towards Vision-Based Smart Hospitals: A System for Tracking and Monitoring Hand Hygiene Compliance. A. Haque, M. Guo, A. Alahi, S. Yeung, Z. Luo, A. Rege, A. Singh, J. Jopling, L. Downing, W. Beninati, T. Platchek, A. Milstein, L. Fei-Fei.  Machine Learning in Healthcare Conference (MLHC), Boston, MA, USA, August 2017.

Vision-Based Hand Hygiene Monitoring in Hospitals.  S. Yeung, A. Alahi, Z. Luo, B. Peng, A. Haque, A. Singh, T. Platchek, A. Milstein, L. Fei-Fei.  American Medical Informatics Association (AMIA) Annual Symposium, Washington, DC, USA, November 2016.雷鋒網鋒網

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 李飛飛卸任斯坦福AI實驗室負責人,NLP領軍人物Manning接任
    根據斯坦福人工智慧實驗室官方Twitter消息,深度學習自然語言處理領軍人、斯坦福教授Chris Manning將接替李飛飛,成為該實驗室最新一任負責人。李飛飛教授將繼續擔任斯坦福視覺與學習實驗室(SVL)負責人,並在她的新崗位——斯坦福以人為本人工智慧研究院共同院長上發揮重要功能。
  • 騰訊與復旦大學附屬腫瘤醫院成立實驗室 智能問答、精準預約AI幫大忙
    2月27日,復旦大學附屬腫瘤醫院與騰訊公司成立腫瘤專科「AI大數據聯合實驗室」,以計算機人工智慧和大數據技術為核心,瞄準大數據平臺與自然語言處理、精準醫療、計算機視覺、腫瘤知識庫、AI智能助手等五大領域,共同探索醫療人工智慧和大數據的新技術、新場景、新應用,全面助力提升醫院智能化水準,為患者提供更優質的醫療服務,為臨床科研提供更強大的科研平臺
  • 斯坦福 HAI 出品:細數全球 18 件 AI 大事記
    而正式上線的官網日前也更新了兩條博文,一篇是詳盡介紹 HAI 的文章;另一篇則是今天要給大家介紹的斯坦福 HAI 版人工智慧簡史圖,圖中涵蓋的信息包括:人工智慧大事記、全球人工智慧初創公司布局、人工智慧的普及度進展、人工智慧的研究和教育進展以及斯坦福的人工智慧突破性成果和人工智慧課程。而之所以給此圖加上「斯坦福 HAI 版」的前綴,則是因為本圖籠罩著滿滿的「斯坦福」光環。
  • 李飛飛又有新動向,斯坦福 AI 實驗室由 Christopher Manning 接棒
    日,斯坦福人工智慧實驗室發推文稱,Christopher Manning 成為實驗室新負責人,而前負責人李飛飛則將工作陣地轉移到「以人為中心的 AI 計劃」這一新項目中,擔任其聯合負責人。對於中國讀者,也許 Christopher Manning 在中國的「刷臉率」遠不如李飛飛,但是他在自然語言處理領域的領軍者地位,足以讓關注計算機領域的讀者對他有所了解,另外其主講的斯坦福 CS224n 這門經典自然語言處理課程,與李飛飛的斯坦福 CS231n 同為自然語言處理和計算機視覺領域的「必修課」。
  • 為非專業人員量身打造,斯坦福教授一頁紙定義AI核心概念
    剛剛,史丹福大學教授、人工智慧實驗室(SAIL)負責人、HAI 副主任 Christopher Manning 用一頁紙的篇幅定義了 AI 領域的核心術語。他表示希望這些定義能夠幫助非專業人員理解 AI。
  • 計算機視覺新手指南
    通過機器的眼睛去探索如果我們想讓機器學會思考,就需要教他們學會如何用視覺去看周圍環境。—— 史丹福大學AI實驗室和斯坦福視覺實驗室主任李飛飛使計算機或手機等機器看到周圍環境的現象稱為計算機視覺。機器仿生人眼的研究工作可以追溯到50年代,從那時起,我們已經走了很長一段路。
  • 華人計算機視覺鼻祖黃煦濤逝世,多位弟子開創國內AI企業
    1973年起任普渡大學電機系教授、信息處理實驗室主任。1980年起擔任伊利諾伊大學厄巴納-香檳分校傑出講座教授、Beckman研究院圖象實驗室主任。黃煦濤的研究領域主要在信息和信號處理方面,發明了預測差分量化(PDQ)的兩維傳真(文檔)壓縮方法,該方法已發展為國際G3/G4FAX壓縮標準。
  • 國內外有名的計算機視覺團隊和大牛匯總
    阿姆斯特丹大學智能系統實驗室MIT 計算機科學與人工智慧實驗室MIT 機器視覺實驗室MIT 生物與機器學習實驗室MIT 媒體實驗室MIT 認知科學實驗室林雪平大學機器視覺實驗室格拉茨技術大學計算機圖形與視覺實驗室喬治亞理工學院機器人技術與智能機器實驗室
  • 計算機視覺領域的王者與榮耀丨CCF-GAIR 2018
    當計算機視覺研究與落地大潮湧動之際,第三屆CCF-GAIR全球人工智慧與機器人峰會「計算機視覺專場」,眾多科技巨頭首席技術官、獨角獸首席科學家、國際學術頂會主席、世界名校AI實驗室主任將會公開分享最前沿的計算機視覺技術研究與商用成果。
  • AI 在安全、可靠性方面到底取得了哪些進展?斯坦福 AI 實驗室進行...
    這需要我們人為對這些系統進行保障,其中包括可驗證性、可靠性、魯棒性、可審計性、可解釋性和無偏性,對此,斯坦福 AI 實驗室對近年來關於 AI 安全、可靠性的研究進展進行了總結,並以文章的形式發布在博客上,雷鋒網 AI 科技評論編譯如下。
  • 好未來成立腦科學實驗室,與史丹福大學合作研究「AI+教育」
    雷鋒網消息,近日,好未來宣布成立腦科學實驗室,並與史丹福大學達成人工智慧戰略合作,未來將通過人工智慧與腦科學,推動「AI+教育」的學術研究和產品落地。雷鋒網了解到,好未來在去年就在籌備腦科學實驗室。除此之外,好未來將在全球範圍成立6所聯合實驗室。「教育與AI的結合是一次教育資源的產能革命,教育的本質是對大腦的培育,在人工智慧時代,知識傳輸將被AI替代,培養學生的學習力和思考力將更加重要。如何用技術服務於人,運用科技實現教育方式的變革,將始終是好未來努力探索的命題。」
  • 華為方舟實驗室計算機視覺CTO田奇:大算力大數據時代六大前沿CV探索
    在剛結束的2019國際智能科技峰會上,華為諾亞方舟實驗室計算機視覺首席科學家田奇教授發表了以《大算力大數據時代的計算機視覺前沿探索》為主題的演講,並且在隨後的媒體溝通環節發表了自己對於AI算法、數據、算力等方面的觀點。
  • Drive.ai 王弢:自動駕駛的賽道上,如何與時間賽跑 | 2018 全球智能...
    ,蘇州高鐵新城管理委員會、雷鋒網(公眾號:雷鋒網)新智駕和數域承辦,邀請到來自主機廠、科技公司、資本機構和產業研究機構等領域的多位專家,共同打造了一場智能汽車和自動駕駛領域的頂級峰會。具體來看,初始團隊來自史丹福大學人工智慧實驗室,屬於將深度學習應用於自動駕駛的先行者。技術團隊構成上,公司的大部分成員大都來自美國一流大學,包括斯坦福、伯克利、麻省理工等,其中計算機專業在團隊中佔到多數,可以解決算法和軟體上的難題。當然還有許多來自其他領域的人才,包括電子電器、汽車工程等。
  • 計算機視覺(及卷積神經網絡)簡史
    世界範圍內的計算機方面的科學家在過去的六十年一直嘗試尋找使得機器能夠在視覺數據中提取出含義,計算機視覺的歷史是非常令人著迷的,這個方面是大多數人所不了解的。在這篇文章中,我將會嘗試介紹現代計算機視覺系統是如何通過卷積神經網絡驅動的。我將會從一個二十世紀五十年代出現的,和軟體工程毫不相關的作品開始。
  • AI每日精選:北京地鐵研究刷臉安檢;LG電子波士頓開設機器人實驗室
    雙方將共同探索如何通過基於 FPGA、ACAP 晶片平臺的 AI 技術推動智能駕駛發展,在全球範圍內加速車規級安全、可靠的超星未來智能駕駛感控平臺解決方案在主機廠(OEM)及一級供應商(Tier 1)中的應用落地。
  • 李飛飛計算機視覺成名作:斯坦福CS231n作業詳解第二彈!
    大數據文摘作品學習斯坦福CS231n公開課的同學看過來,Assignment 2 的Q1-Q5詳解來啦!本期作業詳解幫你搞定基於神經網絡的圖片識別、卷積神經網絡和深度學習框架Tensorflow,快來和文摘菌一起寫作業吧!
  • 報名| 匯集海外知名AI博士生,上海紐約大學下周有場研討會
    會議委員會由頂尖青年學者組成,與會者經委員會精心挑選邀請,大部分是兩年內即將畢業的博士在讀學生,就讀院校均為世界頂尖高校,如卡內基梅隆大學、史丹福大學、麻省理工學院、加州大學伯克利分校、劍橋大學、紐約大學、華盛頓大學等。
  • 從軟銀本田聯手打造智能汽車說開,看看AI如何造福汽車行業
    近日,在美國IHS公司發布的關於「人工智慧」的調研報告中,分析師預期到2025年,車內人工智慧系統的數量將從2015年的700萬臺增加至1億2200萬臺;同時基於AI技術打造的相關系統(絕大部分以語音識別功能為主)的新車配售率會從2015年的8%增加至2025年的109%;此外,IHS指出,未來很多汽車上都會安裝具有不同功用的人工智慧系統。
  • 保險業智能創新聯合實驗室(Insur AI lab)正式揭牌成立
    實驗室保險產品條款智能解析引擎(PPE)正式發布。該引擎可以對版式文檔(PDF)進行智能解析,通過結構化提取和通過版面理解、自然語言處理技術,以及文本分析、機器學習與計算機視覺等核心技術,實現全自動、高精準度的保險產品條款的智能解析,且已申報相關發明專利4項。
  • 【重磅】Facebook 如何為計算機視覺技術尋求出路
    計算機視覺隸屬於人工智慧(AI),可協助機器理解圖像。計算機視覺不需要手工輸入關鍵詞或描述語等元數據,而是將圖像分解並在逐個像素的基礎上處理圖像。照片,視頻以及一般圖像都是Facebook的重要素材,而計算機識別圖像中的對象的能力非常利於縮放圖像的內容分類。對於一段視頻或一張圖片,人眼可以輕易確定其中有3個人、1個冰箱和6罐啤酒,但對機器來說,建立自己的意志並不簡單。