KAIST中心宣布,他們的咳嗽檢測攝像機可以識別咳嗽的發生地點,並可視化位置。最終的咳嗽識別攝像機可以實時跟蹤和記錄有關咳嗽者,其位置以及咳嗽次數的信息。
機械工程系教授開發了一種基於深度學習的咳嗽識別模型,以對咳嗽聲進行實時分類。咳嗽事件分類模型與聲像攝像機相結合,可以可視化它們在公共場所的位置。研究小組表示,他們達到了87.4%的最佳測試準確度。
在學校,辦公室和飯店等公共場所流行時,這將是有用的醫療設備,並在醫院病房中不斷監測患者的病情。
發燒和咳嗽是最相關的呼吸道疾病症狀,其中發燒可以通過熱像儀遠程識別。預計這項新技術對於以非接觸方式檢測流行病傳播非常有用。咳嗽事件分類模型與聲像相機相結合,可以可視化咳嗽事件並指示視頻圖像中的位置。
為了建立咳嗽識別模型,使用卷積神經網絡(CNN)進行了監督學習。該模型通過輸入一秒鐘聲音輪廓特徵來執行二進位分類,生成的輸出要麼是咳嗽事件,要麼是其他東西。
在培訓和評估中,從Audioset,DEMAND,ETSI和TIMIT收集了各種數據集。從Audioset中提取咳嗽聲和其他聲音,並將其餘數據集用作背景噪聲進行數據增強,以便可以將該模型推廣到公共場所的各種背景噪聲。
通過將咳嗽聲和其他來自Audioset的聲音與背景噪聲混合,以0.15至0.75的比例來增強數據集,然後將總音量調整為0.25至1.0倍,以針對各種距離對模型進行泛化。
通過將擴充數據集除以9:1來構建訓練和評估數據集,並在真實的辦公環境中分別記錄測試數據集。
在網絡模型的優化過程中,使用七個優化器對包括頻譜圖,梅爾縮放頻譜圖和梅爾頻率倒譜係數在內的五個聲學特徵進行了各種組合訓練。將每種組合的性能與測試數據集進行比較。使用梅爾刻度頻譜圖作為聲學功能,使用ASGD作為優化器,可以達到87.4%的最佳測試精度。
訓練有素的咳嗽識別模型與聲像機結合使用。攝像頭由麥克風陣列和攝像頭模塊組成。將波束成形過程應用於聲學數據集,以找出傳入聲源的方向。集成的咳嗽識別模型確定聲音是否為咳嗽。如果是,則將咳嗽的位置可視化為輪廓圖像,並在視頻圖像中咳嗽聲源的位置帶有「咳嗽」標籤。
在辦公室環境中對咳嗽識別攝像頭進行的一項先導測試表明,即使在嘈雜的環境中,它也能成功地區分咳嗽事件和其他事件。此外,它可以跟蹤咳嗽者的位置並實時計算咳嗽次數。通過從其他實際環境(例如醫院和教室)獲得的其他培訓數據,可以進一步提高性能。
咳嗽檢測攝像頭可以幫助預防和及早發現公共場所的流行病。特別是當應用於醫院時,可以跟蹤患者的病情一天24小時不間斷,支持更準確的診斷,同時減少了醫務人員的工作量。