基於深度學習的咳嗽識別模型有助於實時檢測咳嗽聲音的位置

2021-01-09 人工智慧研究院

KAIST中心宣布,他們的咳嗽檢測攝像機可以識別咳嗽的發生地點,並可視化位置。最終的咳嗽識別攝像機可以實時跟蹤和記錄有關咳嗽者,其位置以及咳嗽次數的信息。

機械工程系教授開發了一種基於深度學習的咳嗽識別模型,以對咳嗽聲進行實時分類。咳嗽事件分類模型與聲像攝像機相結合,可以可視化它們在公共場所的位置。研究小組表示,他們達到了87.4%的最佳測試準確度。

基於CNN的咳嗽識別模型的架構。

在學校,辦公室和飯店等公共場所流行時,這將是有用的醫療設備,並在醫院病房中不斷監測患者的病情。

發燒和咳嗽是最相關的呼吸道疾病症狀,其中發燒可以通過熱像儀遠程識別。預計這項新技術對於以非接觸方式檢測流行病傳播非常有用。咳嗽事件分類模型與聲像相機相結合,可以可視化咳嗽事件並指示視頻圖像中的位置。

為了建立咳嗽識別模型,使用卷積神經網絡(CNN)進行了監督學習。該模型通過輸入一秒鐘聲音輪廓特徵來執行二進位分類,生成的輸出要麼是咳嗽事件,要麼是其他東西。

在培訓和評估中,從Audioset,DEMAND,ETSI和TIMIT收集了各種數據集。從Audioset中提取咳嗽聲和其他聲音,並將其餘數據集用作背景噪聲進行數據增強,以便可以將該模型推廣到公共場所的各種背景噪聲。

通過將咳嗽聲和其他來自Audioset的聲音與背景噪聲混合,以0.15至0.75的比例來增強數據集,然後將總音量調整為0.25至1.0倍,以針對各種距離對模型進行泛化。

通過將擴充數據集除以9:1來構建訓練和評估數據集,並在真實的辦公環境中分別記錄測試數據集。

在網絡模型的優化過程中,使用七個優化器對包括頻譜圖,梅爾縮放頻譜圖和梅爾頻率倒譜係數在內的五個聲學特徵進行了各種組合訓練。將每種組合的性能與測試數據集進行比較。使用梅爾刻度頻譜圖作為聲學功能,使用ASGD作為優化器,可以達到87.4%的最佳測試精度。

用於訓練咳嗽識別模型的聲音功能示例
咳嗽檢測攝像機及其信號處理框圖

訓練有素的咳嗽識別模型與聲像機結合使用。攝像頭由麥克風陣列和攝像頭模塊組成。將波束成形過程應用於聲學數據集,以找出傳入聲源的方向。集成的咳嗽識別模型確定聲音是否為咳嗽。如果是,則將咳嗽的位置可視化為輪廓圖像,並在視頻圖像中咳嗽聲源的位置帶有「咳嗽」標籤。

在辦公室環境中對咳嗽識別攝像頭進行的一項先導測試表明,即使在嘈雜的環境中,它也能成功地區分咳嗽事件和其他事件。此外,它可以跟蹤咳嗽者的位置並實時計算咳嗽次數。通過從其他實際環境(例如醫院和教室)獲得的其他培訓數據,可以進一步提高性能。

咳嗽檢測攝像頭可以幫助預防和及早發現公共場所的流行病。特別是當應用於醫院時,可以跟蹤患者的病情一天24小時不間斷,支持更準確的診斷,同時減少了醫務人員的工作量。

相關焦點

  • 「科技戰疫」智能咳嗽聲監控系統
    那麼,針對新冠肺炎乾咳症狀是否也能進行自動檢測和識別呢?其高科技的工程師們基於在聲源定位領域的長期耕耘,開發出針對咳嗽聲的定位識別技術。咳嗽聲定位通過下面這個小視頻,我們看看在典型場景中的咳嗽聲定位效果。可以看出,咳嗽聲的音頻特徵非常明顯,即便是戴上口罩在有幹擾的環境中,也可以精準定位到。
  • 基於深度學習的人臉識別技術全解
    目前的人臉檢測方法可分為三類,分別是基於膚色模型的檢測、基於邊緣特徵的檢測、基於統計理論方法,下面將對其進行簡單的介紹: 1、基於膚色模型的檢測:膚色用於人臉檢測時,可採用不同的建模方法,主要有高斯模型、高斯混合模型,以及非參數估計等。利用高斯模型和高斯混合模型可以在不同顏色空間中建立膚色模型來進行人臉檢測。
  • 一種基於腦電圖情感識別的新型深度學習模型
    其中一部分機器學習技術中是通過分析腦電圖(EEG)信號來工作的,這些信號本質上是對從一個人的頭皮上收集的腦電活動的記錄。過去十多年來,大多數基於腦電圖的情緒分類方法都採用了傳統的機器學習方法,例如支持向量機(SVM)模型,因為這些方法需要的訓練樣本較少。事實上之所以使用需要訓練樣本量少的方法是因為過去缺乏大規模的EEG數據集。
  • 基於深度學習的圖像識別進展
    前面所述深度學習的三大優勢,在最近圖像識別的進展中體現得淋漓精緻:1)模型結構越來越複雜, 訓練數據規模也不斷增加;2)各種關於數據結構的先驗知識被體現到新的模型結構中;3)端到端學習讓我們越來越摒棄基於人工規則的中間步驟。
  • 新冠病毒還能用語音識別?AI模型「聽」咳嗽聲判斷是否感染
    智東西4月29日消息,近日,麻省理工學院Auto-ID Labs研究小組研發了一個基於語音的新冠肺炎AI檢測工具——Sigma。Sigma可以「聽」出健康人和新冠肺炎患者咳嗽聲的差別,從而區分出用戶是否感染了COVID-19。
  • 人工智慧可以從你的咳嗽聲中檢測到新冠肺炎
    但根據一項新的研究,一種新開發的人工智慧,具有敏銳的算法耳朵,能夠從人們的咳嗽聲中檢測出無症狀病例。麻省理工學院的一組研究人員最近開發了一種人工智慧模型,可以通過監聽健康人和感染者咳嗽的細微差異來檢測無症狀的新冠肺炎病例。研究人員現在正在臨床試驗中測試他們的人工智慧,並已經開始尋求食品和藥物管理局(FDA)的批准,將其用作篩查工具。
  • 基於深度學習的目標檢測算法綜述
    一、從Rcnn到Faster-Rcnn從Rcnn開始Girshick大神將深度學習引入目標檢測領域,後來連續發力,最終將目標檢測的所有步驟都統一在了深度學習框架之下,這就意味著所有的計算過程都可以在GPU內進行,從而計算精度和計算速度都有了很大提升。
  • 基於多特徵地圖和深度學習的實時交通場景分割
    摘要:基於視覺的交通場景語義分割在智能車輛中起著重要作用。在這篇論文中,我們提出了一種新的實時深度完全卷積神經網絡( FCNN ),用於具有六個通道輸入的像素分割。近年來,隨著計算機硬體特別是圖形處理單元(GPU)的快速發展,大規模標記數據的出現,深度卷積神經網絡(CNNs)在圖像分類和目標檢測中的應用迅速發展,並已成為當前主流的圖像分割方法。最近,大多數研究都致力於通過使網絡更深更廣來提高語義分割的準確性。然而,增加參數往往以犧牲計算機的內存為代價,並導致網絡速度較慢。因此,如何在保證實時功能的前提下提高準確性是深度學習中最重要的任務之一。
  • 曠視科技 CSG 算法負責人姚聰:深度學習時代的文字檢測與識別技術...
    作為計算機視覺中一個重要的研究課題,場景文字檢測和識別也無法避免地被這股浪潮席捲,一起進入了深度學習的時代。近年來,這個問題的研究者們都共同見證了思維、方法和性能方面的巨大變化,本次公開課的嘉賓將與大家分享相關內容。
  • 超詳綜述 | 基於深度學習的命名實體識別
    基於規則的NER方法9. 基於無監督學習的NER方法10. 基於特徵的有監督學習NER方法(傳統機器學習)11.基於深度學習的NER方法11.1 深度學習在NER任務上的優勢11.2 分布式表示11.3 上下文編碼11.3.1 CNN11.3.2 循環神經網絡 RNN11.3.3 遞歸神經網絡11.3.4 Transformer11.3.5 神經語言模型13.1 面臨的挑戰
  • 深度學習與圖像識別
    例如語音識別採用高斯混合模型和隱馬爾可夫模型,物體識別採用SIFT特徵,人臉識別採用LBP特徵,行人檢測採用HOG特徵。2006年,Geoffrey  Hinton提出了深度學習。之後深度學習在諸多領域取得了巨大成功,受到廣泛關注。神經網絡能夠重新煥發青春的原因有幾個方面。首先是大數據的出現在很大程度上緩解了訓練過擬合的問題。例如ImageNet[2]訓練集擁有上百萬有標註的圖像。
  • 用OpenCV和深度學習進行年齡識別
    在本教程中,您將學習如何使用OpenCV,深度學習和Python執行年齡的自動識別/預測。學完本教程後,您將能夠以相當高的精確度去自動預測靜態圖像文件和實時視頻中的人物年齡。要了解如何使用OpenCV和深度學習進行年齡識別,請繼續閱讀!
  • 搜狗「知音」推實時翻譯 實現語音識別與機器翻譯融合
    據介紹,搜狗語音實時翻譯技術是搜狗自研的機器同聲傳譯技術。基於大數據和深度學習,該技術涵蓋了搜狗自主研發的語音識別、機器翻譯兩項重要技術,其準確率能夠達到97%,支持最快400字每秒的高速聽寫,語音輸入日頻次可高達1.9億次。
  • 美國麻省理工學院開發新冠檢測AI:聽咳嗽聲識別無症狀感染者
    為了檢測出這一部分人群,麻省理工學院(MIT)的研究人員開發了一款人工智慧(AI)工具,可通過咳嗽聲的細微差別發現無症狀感染者。目前,研究者正對這一AI工具進行臨床測試,並向美國食品和藥物監督管理局(FDA)提出申請,希望能用來篩查無症狀感染者。
  • 讀書總結|深度學習圖像識別技術
    深度學習圖像識別技術——基於TenseorFlow Object Detection API和Open VINO工具套件
  • 人工智慧聽咳嗽聲可分辨新冠無症狀感染
    此前,該團隊曾使用此聽覺模型用於檢測肺炎、哮喘,包括阿爾茨海默病——這種疾病可導致身體器官功能退化,可導致聲帶和呼吸功能減弱。本次檢測新冠肺炎使用的正是阿爾茨海默病模型。麻省理工學院自動識別實驗室Brian Subirana介紹,每個人說話和咳嗽的聲音會受到聲帶和周圍器官的影響,我們可以從流利的語音中獲得信息,咳嗽時也帶有一定的特徵性,人工智慧甚至可以從咳嗽中辨別性別、母語、情緒狀態。他們建立了一個網站,健康人和新冠肺炎患者都可以通過手機和電腦記錄咳嗽聲音;他們還填寫了一份問卷,調查診斷結果和當前的症狀。
  • 谷歌開源基於 ML 的手部跟蹤算法:手機端實時檢測,多個手勢同時捕捉
    圖 2 手部感知模型整體架構 BlazePalm:實時手部/手掌檢測 為了檢測手的初始位置,我們使用了一個名為 BlazePalm 的單鏡頭檢測器模型(https該模型可用於移動實時檢測,其方式類似於 BlazeFace(https://arxiv.org/abs/1907.05047),這個模型也可以在 MediaPipe 中使用。 手部檢測是一項非常複雜的任務:我們的模型必須要適應不同的手部尺寸,因此它具有相對於圖像幀更大的範圍 (~20x),並且它能夠檢測被遮擋以及自遮擋的手部狀態。
  • 新冠檢測新方法:MIT用咳嗽聲診斷無症狀感染者,準確率達100%!
    在醫學領域,AI識別「咳嗽聲」已用於多項疾病檢測任務。比AI檢測肺炎,哮喘或者神經肌肉疾病等。 如Subirana所說,「說話和咳嗽的聲音都受到聲帶和周圍器官的影響。 這也意味著,我們可以從聲音中獲取有關體內器官的信息,而AI恰好可以做到這一點。」
  • 新冠檢測新方法:MIT用咳嗽聲診斷無症狀感染者,準確率達100%
    據悉,該項研究成果也同步提交到了FDA和其他監管機構,如獲得批准,COVID-19咳嗽應用程式將免費用於大規模人群篩查。利用「咳嗽聲」診斷疾病人耳能夠分辨出五到十種不同的咳嗽特徵,但通過機器學習和信號處理,AI能夠識別300多種。在醫學領域,AI識別「咳嗽聲」已用於多項疾病檢測任務。比AI檢測肺炎,哮喘或者神經肌肉疾病等。
  • 基於深度學習的人臉識別算法
    基於深度學習的人臉識別算法,如何讓神經網絡從訓練數據中學習到有效、魯棒的生物特徵是至關重要的。