諸如卷積神經網絡(CNN)之類的深度學習算法已在各種任務上取得了顯著成果,包括那些涉及識別圖像中特定人物或物體的任務。基於視覺的人類動作識別(HAR)是計算機科學家經常嘗試使用深度學習解決的任務,它特別需要識別圖像或視頻中捕獲的人類動作。
研究人員提出了基於26層CNN和PDaUM方法的人體動作識別架構
研究人員最近開發了一種新的CNN,用於識別視頻中的人類行為。該CNN在Springer Link的一篇論文中進行了介紹,經過培訓可以區分幾種不同的人類動作,包括拳擊,拍手,揮舞,慢跑,跑步和散步。
研究人員提道:「我們設計了一種新的26層卷積神經網絡(CNN)架構,用於精確的複雜動作識別。」 ,這些特徵是從全局平均池化層和完全連接(FC)層中提取的,並通過建議的基於高熵的方法進行融合。
當試圖識別人類在圖像或視頻中的動作時,CNN通常會將其分析重點放在許多潛在的相關特徵上。但是,某些人類動作(例如慢跑和步行)可能非常相似,這使得這些算法很難區分它們,特別是如果它們專注於相似性核心的特徵時。為了克服這一挑戰,研究人員使用了一種方法,該方法將稱為Poisson分布的特徵選擇方法與單變量測量(PDaUM)合併在一起。
研究人員觀察到,CNN所基於的分析功能有時可能不相關或多餘,這導致它們做出錯誤的預測。為了降低發生這種情況的風險,他們的PDaUM方法僅選擇最強大的功能來識別特定的人類行為,並確保CNN基於這些功能做出最終預測。
研究人員在HMDB51,UFC Sports,KH和Weizmann數據集這四個數據集上訓練和評估了兩個截然不同的CNN,一個極端機器學習(EML)和一個Softmax分類器。這些數據集包含幾個人類執行不同類型動作的視頻。
然後,研究人員比較了兩個CNN的性能,這兩個CNN均使用其特徵選擇方法進行了增強。在他們的評估中,ELM分類器的性能明顯優於Softmax算法,可以從視頻中識別出人類動作,其在HMDB51數據集上的準確性為81.4%,在UCF Sports數據集上的準確性為99.2%,在KTH數據集上的準確性為98.3%,在KTH數據集上的準確性為98.7%。魏茨曼數據集。
值得注意的是,PDaUM增強的ELM分類器在準確性和預測時間方面也優於研究人員將其與之相比的所有現有深度學習技術。因此,這些結果凸顯了研究人員介紹的特徵選擇方法在提高CNN在HAR任務上的性能方面的潛力。
將來,本文介紹的ELM分類器和PDaUM方法可以開發更有效的工具,以自動區分人類在錄製和實況錄像中正在做什麼。這些工具可以通過幾種不同的方式證明其價值,例如,幫助執法人員監視視頻上嫌疑犯的行為,或者幫助研究人員快速分析大量的視頻。