基於傳感器的人類行為識別DL方法難在哪?這篇綜述列了11項挑戰

2020-12-23 澎湃新聞

原創 Synced 機器之心

機器之心發布

作者:KAIXUAN CHEN、DALIN ZHANG等

傳感器設備和物聯網的廣泛應用使得基於傳感器的人類行為識別成為可能。然而,這個領域仍然存在一些重大挑戰(challenge),可能會影響行為識別系統在實際應用場景中的性能。在這篇論文中,來自新南威爾斯大學、西北工業大學、密西根州立大學的研究人員綜述了近期被用於解決具體行為識別挑戰的深度學習方法,並提出了一種基於挑戰的分類體系。

除此之外,他們還總結了可用於評估不同挑戰任務的公共數據集並討論了尚待解決的問題,同時為未來的方向提供了一些見解。

原文連結:https://arxiv.org/abs/2001.07416

本文提出的分類體系可分為以下 11 個方面:

1. 特徵提取(Feature Extraction)

特徵提取是人類行為識別的關鍵步驟之一,也是得到高識別率的挑戰之一。這在一定程度上是由於人類活動的範圍很廣,而且某一特定行為的表現方式千差萬別。本文將特徵提取的方法分為三類:時間特徵提取(Temporal Feature Extraction)、多模態特徵提取(Multimodal Feature Extraction)和統計特徵提取(Statistical Feature Extraction)。

圖1. 幾種多模態特徵提取的方法。

2. 注釋的稀缺性(Annotation Scarcity)

深度學習依賴大量的標記數據,然而,如此大量的可靠標記數據並不總是可獲得的,原因有二:1. 注釋過程是昂貴、耗時且非常繁瑣的;2. 標註過程容易受到各種噪聲源的影響,如傳感器噪聲、分割問題以及不同人之間活動的差異,這使得標註過程容易出錯。本文將解決注釋稀缺性的方法分為兩類:無監督學習(Unsupervised Learning)和半監督學習(Semi-supervised Learning)。其中,在沒有任何標記數據給定真值的情況下,無監督學習至今仍然無法獨立完成行為識別。因此,半監督學習的人類行為識別方法是最近的趨勢。

本文列舉了三種常用於行為識別系統的半監督學習方法,分別是:協同訓練(Co-training)、主動學習(Active Learning)和數據增強(Data augmentation)。

3. 類不平衡性(Class Imbalance)

類不平衡性是由於一些特定活動的傳感器數據很難獲取,比如老年人摔倒等等。此外,在不受限制的條件中記錄的原始數據天然地是類不平衡的。當使用不平衡的數據集時,傳統的模型傾向於預測訓練樣本數量較多的類別而忽略訓練樣本數量較少的類別。因此,類別失衡問題的解決迫在眉睫。

4. 數據的異質性(Heterogeneity)

許多最新的人類行為識別方法都假設訓練數據和試驗數據是獨立同分布的。然而,這是不切實際的。這是由於行為識別的傳感器數據是異質的。傳感器數據的異質性可以分為三類。

首先是用戶的異質性(Heterogeneity with Users)。由於生物和環境因素,同樣的行為由不同的人實施可以有不同的表現。例如,有些人走得很慢,有些人走得很快。第二個異質性與時間有關(Heterogeneity with Time)。在動態流環境中,行為的數據分布隨著時間變化(Concept Drift),新的行為也可能出現(Concept Evolution/Open-Set)。第三類異質性與傳感器有關(Heterogeneity with Sensors)。用於人類活動識別的傳感器通常是敏感的。一個小變化會對傳感器數據造成很大的幹擾。可能導致傳感器異質性的因素包括傳感器實例(Sensor Instances)、類型(Sensor Types)、位置(Sensor Positions)和布局(Sensor Layouts)。

考慮到以上三種類型產生的數據異質性,且在現實場景中識別系統常常在無約束的情況下布置傳感裝置,我們可以觀察到訓練數據和測試數據兩者之間的分布差異,因此,無縫的深度學習模型對於行為識別是必要的。

圖 2. 三種隨時間變化的異質性的分布情況。

5. 複合行為(Composite Activities)

大多數人類行為識別任務是基於簡單的活動,比如走路和坐著。然而,記錄人類日常活動更有意義的方式是由一系列簡單行為組成的複合行為。例如,「洗手」可以表示為 {打開水龍頭,皂洗,搓手,關掉水龍頭}。由於複合行為不僅僅需要識別人體活動,還需要識別周遭環境的信息,因此比識別簡單行為更有挑戰性。

6. 數據分割(Data Segmentation)

由於原始傳感器數據由連續流信號表示,因此固定大小的窗口通常被用於將原始傳感器數據序列分割成段,作為模型的輸入。這對於克服單一時間步長樣本的限制是至關重要的。理想情況下,一個分區數據段只有一個行為,因此一個模型對於單一窗口內的所有樣本只預測一個標籤。但是,一個窗口中的樣本不一定總是共享相同的標籤,尤其是在行為轉換的過程中。因此,一個好的分割方法是提高行為識別精度的關鍵。

7. 並行行為(Concurrent Activity)

在真實的場景中,除了按順序逐個執行每個行為之外,一個人可以同時進行多個行為,這被稱為並行行為。例如,一個人可以在看電視時打電話。從傳感器的角度來看,一段數據可能對應多個行為。因此,並行行為識別可以抽象為一個多標籤任務(multi-label task)。

8. 多人行為(Multi-occupant Activity)

生活和工作空間通常由多個人居住,因此,設計解決多人行為問題的方案具有重要的現實意義。主要有兩種類型的多人行為:1. 平行行為(Parallel Activity),比如一個人在吃飯,另一個人在看電視。2. 合作行為(Collaborative Activity),多個居住者合作執行相同的活動,如兩個受試者打桌球。對於平行行為的識別,當只有可穿戴傳感器時,可將其劃分為多個單人行為識別任務,並採取傳統的解決方案;當使用環境或對象傳感器時,數據關聯映射到多人的感知信號是主要挑戰,並且隨著空間中人數的增加而變得更加困難。合作行為通常包括人與人之間的交互並使用各種器械,因此,上下文和對象使用信息在設計識別解決方案中起著至關重要的作用。

9. 運算成本(Computation Cost)

雖然深度學習模型在基於傳感器的人類行為識別中顯示出了主導作用,它們通常是資源密集型的。例如早期的 DCNN 架構,AlexNet,它有 5 個 CNN 層和 3 個全連接層,處理 61M 參數(249MB 內存),執行 1.5B 高精度操作進行預測。對於不可移植的應用程式,我們通常使用圖形處理單元(GPU)加速計算。然而,GPU 是非常昂貴和耗電的,所以不適合用於行動裝置上的實時應用程式。目前的研究已經證明了通過引入額外的層和節點來加深神經網絡是一種關鍵的提高模型性能的方法,但是這樣不可避免地增加了計算複雜度。因此,如何解決計算量大的問題實現實時性是一個非常重要和具有挑戰性的課題。

10. 隱私性(Privacy)

人類行為識別的主要應用是對人類行為的監測,因此傳感器需要不斷地捕捉用戶的活動。由於執行行為的方式因用戶而異,所以對手可以通過時間序列傳感器數據推斷用戶的敏感信息,如年齡。具體來說,對於深度學習技術而言,其黑箱特性可能會在無意中暴露出用戶的鑑別特徵。研究表明,即使 CNN 只接受針對行為分類的交叉熵損失訓練,所獲得的 CNN 特徵仍然具有很強的用戶識別能力。因此,解決深度學習模型的隱私洩露問題至關重要。

11. 深度學習對於傳感器數據的可解釋性(Interpretability of Deep Learning Models in Sensory Data)

人類行為的傳感器數據是不可讀的。一個數據樣本可能包括在一個時間窗口內從多個位置(如手腕、腳踝)得到的不同數據(如加速度、角速度)。但是,只有少數從具體位置採集的數據有助於確定某些活動。不相關的數據會引入噪聲,影響識別性能。此外,數據的重要性隨時間而變化。例如,在帕金森病檢測系統中,異常只出現在短時間內的步態中,而不是整個時間窗口中。直觀地說,當身體的某個部分在積極地運動時,相關的數據才有更大的意義。本文將用於人類行為識別的可解釋的深度學習方法分為三類:傳統方法,軟注意力方法(Soft Attention)和硬注意力方法(Hard Attention)。

表 1. 常用的公共數據集。

本文為機器之心發布,轉載請聯繫本公眾號獲得授權。

✄------------------------------------------------

加入機器之心(全職記者 / 實習生):hr@jiqizhixin.com

投稿或尋求報導:content@jiqizhixin.com

廣告 & 商務合作:bd@jiqizhixin.com

原標題:《基於傳感器的人類行為識別DL方法難在哪?這篇綜述列了11項挑戰》

閱讀原文

相關焦點

  • Yu 團隊最新綜述!社區發現的深度學習方法:進展、挑戰...
    Yu等人的這篇綜述貢獻有:(1)分析了將深度學習方法用於社區發現的優勢;(2)從技術的視角,總結了目前最先進的研究,並對其進行分類;(3)討論了仍然存在的挑戰,並指出了具有前景的未來工作的機遇。據AI科技評論所知,這篇綜述也是首次全面回顧深度學習在社區發現中的應用,對研究人員和技術專家理解深度學習和社交網絡領域的發展趨勢有著巨大幫助。
  • 用AI技術超越傳感器融合,機器學習如何讓雷達更智能
    在確定性框架內使用基於AI模塊的方法可以分而治之:明確通用規則和策略控制車輛的總體行為;基於AI的算法幫助我們解決最複雜的邊角案例。 用AI理解人類行為 美國交通部說過:「人類的選擇與94%的嚴重車禍有關。」因為交通中最危險的是駕駛者。
  • 「譯文分享」人類行為模式改變的研究論證
    人類行為模式的改變為什麼這麼困難,怎樣才能更好的改變行為模式。前言我們對「改變、變化」這一詞並不陌生,比如在日常生活中臨時有事會取消之前約定好的聚會或者重新規劃商務會議的時間。既然改變對於我們來說這麼容易,那麼為什麼改變我們的行為、習慣或者運動模式卻這麼難呢?
  • 基於3D攝像頭的AI人體行為模式識別系統SmartSp:進軍行為模式識別...
    文|蔡曉純 編輯|江倩君 2020年「創客中國」廣東省中小企業創新創業大賽暨第四屆「創客廣東」大賽省複賽完賽,盧大偉團隊的「基於3D攝像頭的AI人體行為模式識別系統SmartSp」創新項目,拿下新一代信息技術領域創客組別複賽最高分。
  • 基於慣性導航、RFID 及圖像識別的 AGV 融合導航系統
    目前主要的研究方法為歐拉法、方向餘弦法和四元數法[4]。歐拉法求解姿態角時,求解速度緩慢,姿態求解方程中會出現「奇點」,而且不能進行全姿態解算。方向餘弦法在求解過程中計算量過大,不能快速得到計算結果,很難實現實際工作中的目標。四元數法不僅求解方程無奇性,而且線性程度高,方程解算時間大大減少,因此,本文姿態測量系統中選用四元數法作為姿態更新算法[5]。
  • ...綜述深度解讀!開發自身免疫性疾病療法所面臨的挑戰、進展及展望!
    ,來自牛津大學等機構的科學家們通過研究論述了目前研究人員開發治療自身免疫性疾病療法所面臨的挑戰、進展及未來的展望。同時,個體化的藥物與能與新型診斷方法相輔相成,從而幫助研究人員更好地解析自身免疫性疾病的發病機制,同時研究人員還需要進行更多以患者為中心的相關臨床試驗;對自身免疫性疾病的預防也應該成為早期幹預的一部分,這篇文章中,研究人員解讀了當前不同類型的療法,比如合成性藥物、細胞療法、靶向代謝通路和微生物組的策略等,同時也強調了利用基礎性研究、新技術和臨床試驗來動態結合,從而幫助了解更多自身免疫性疾病的發病機制並開發新型療法
  • 合刃科技提出非視距物體識別技術
    要是有個外掛可以識別盲區該多好啊……然而,使用外掛是違規的,不過這項黑科技在現實中已經存在了。作為計算機視覺領域的頂級會議,今年的CVPR收錄了一篇於非視距物體識別技術的亮點論文,作者來自合刃科技,讓這個場景可能成為現實。這篇論文介紹了基於相干光的散斑特性來實現非視距物體識別的技術。
  • UT Austin博士生沈彥堯:基於深度主動學習的命名實體識別 | 分享總結
    分享主題:主動學習在深度學習中的應用與思考分享提綱主動學習的背景介紹及研究意義主動學習相關理論主動學習在深度學習中的前沿研究及方法主動學習在深度學習中的挑戰分享內容:本次分享基於本人去年在亞馬遜的實習項目「基於深度主動學習的命名實體識別 Deep Active Learning for Named Entity Recognition
  • 蘇州大學研發基於柔性多孔彈性介電材料的三維接觸力傳感器
    發展新一代的柔性電子器件對力學傳感提出了更高的要求,即不僅可以檢測到傳感器表面的法向力/壓力,還需要同時感測切向載荷。許多研究已提出將具有各種多孔結構的彈性材料應用於柔性壓力傳感技術中,以提升器件性能。然而,在該領域中,空間任意方向力感測與多孔材料變形以及電學特性變化之間的基本相關性仍然未知,如何對複雜力-電耦合問題的精確高效解耦仍然是一個巨大的挑戰。
  • Solar RRL:綜述:基於清潔太陽能的二維材料水處理應用
    【能源人都在看,點擊右上角加'關注'】北極星水處理網訊:能源和水資源危機是21世紀最令人擔憂的全球挑戰。基於豐富而清潔的太陽能的水淨化技術,在解決水資源危機的同時,不會受限於能源短缺問題。深圳大學張晗教授團隊和深圳技術大學胡俊青教授團隊合作,系統介紹了基於二維納米材料的太陽能水淨化技術的最新進展。基於太陽能的水淨化技術大有可為,主要包括光熱水蒸發,光催化抗菌和光催化降解有機物等領域。對於不同的二維材料,分別從材料自身和系統整體角度概括了提高光熱水蒸發,光催化抗菌和光催化降解有機物的設計策略。
  • 人臉識別成AI發展核心,人工智慧嗅覺去哪了?
    人臉識別成AI發展核心,人工智慧嗅覺去哪了?氣味信息僅由少數幾層神經網絡進行分析,沒有過多層級與複雜的神經網絡結構,可說是嗅覺識別系統的優勢。 2009年,英國斯科塞斯大學的Thomas Nowotny搭建了一種基於昆蟲的嗅覺的模型,用來識彆氣味,也可以識別手寫的數字。即使去除了大部分神經元,也不會過度影響模型性能。但此技術僅停留在實驗室內,並未落地成為產品。
  • 深度學習資訊|用於人體動作識別的26層卷積神經網絡
    諸如卷積神經網絡(CNN)之類的深度學習算法已在各種任務上取得了顯著成果,包括那些涉及識別圖像中特定人物或物體的任務。基於視覺的人類動作識別(HAR)是計算機科學家經常嘗試使用深度學習解決的任務,它特別需要識別圖像或視頻中捕獲的人類動作。
  • 機器人與觸覺傳感技術的碰撞,一文初探人類與機器人的觸覺傳感
    我們在這篇文章中重點關注人類和機器人的觸覺傳感問題。首先,我們討論人類 "觸覺" 的生理和編碼方式,及其在傳遞觸覺數據等任務中的重要性。然後,在分析人類觸覺的基礎上探討機器人 「觸覺傳感」 系統的構建,特別是觸摸感知(Tactile Perception)的方法和應用。最後,具體分析兩篇關注在具體應用場景中向機器人引入觸覺傳感技術的文章。
  • 華為視覺研究路線圖:三大挑戰,六項計劃
    在資訊時代,做計算機視覺其實面臨一個尷尬的事情,即網際網路上存在著海量的視覺數據,甚至已經遠遠超過了人類處理的極限;標註數據,無論規模多大,都只是視覺大數據中的「滄海一粟」。如何從海量數據中挖掘出有效的信息,依舊是一個很大的挑戰。華為在這方面提出了兩個典型的場景,一是如何利用生成數據訓練模型;二是如何對齊多模態數據。
  • 基於惠斯頓電橋的壓力傳感器的解決方案
    設計工具,這個過程面臨的很多挑戰都能夠迎刃而解。因此,本文將討論基於惠斯頓電橋壓力傳感器的基本工作原理,以及用於轉換這種橋傳感器輸出的處理電路,包括偏移和增益校準。  基於惠斯頓電橋的壓力傳感器  許多壓力傳感器使用微機電系統(MEMS)技術,它們由4個採用惠斯頓電橋結構連接的壓敏電阻組成。當這些傳感器上沒有壓力時,橋中的所有電阻值都是相等的。
  • 這款突破性傳感器模仿人類視網膜,有望帶來 AI...
    視覺、聽覺、嗅覺、味覺、觸覺是人類最基本的五種感覺,其中視覺極為關鍵,畢竟隨著物種進化,眼睛作為人類最為精細、複雜的器官,感知能力無與倫比。曾有神經科學、認知心理學研究表明,80% 以上的外界信息都是通過視覺進入了我們的大腦。
  • 深度學習行人重識別綜述與展望,TPAMI 2021 最新文章
    這裡先總結該綜述的幾個主要貢獻點:綜述:全面調研了近年來深度學習在 Re-ID 領域的進展,囊括了近幾年三大視覺頂會上的大部分文章(如有遺漏,請諒解)。主要包括 Closed-world Re-ID 與 Open-world Re-ID 的研究進展,常用數據集和評價指標的概述,並分析了現有方法的不足和改進點。
  • 7 Papers|谷歌等用神經網絡給照片打光,沈向洋等神經語言處理綜述
    當然,僅僅依靠光提供的信息是不夠的,這項被稱為「時域成像」(temporal imaging)的新技術還藉助機器學習方法,從噪聲中挖掘模式。這項研究採取了一種不同的方法,通過基於包含目標檢索圖像類型的數據集的先驗知識提供額外信息,並且為這一目標訓練了一種監督式機器學習算法。基於單點時間分辨傳感器的 3D 成像。
  • 綜述:基於二維材料光電子學信息功能器件的新發展
    近日,電子科技大學姚佰承教授和深圳大學張晗教授團隊合作,在Advanced Science發表文章,綜述了基於二維材料光電子學信息功能器件的新發展。 這一過程使得光生載流子濃度迅速增加,並填滿價帶和導帶的邊緣能態,根據不相容原理,光吸收過程就會被阻斷,從而呈現出飽和狀態。 圖6是第一臺石墨烯光纖雷射器,目前基於二維材料的超快雷射已在可見光到中紅外波段實現fs脈寬、波長可調諧的雷射器,在產業化領域具有潛在的應用價值。