深度學習資訊|用於人體動作識別的26層卷積神經網絡

2020-12-04 人工智慧研究院

諸如卷積神經網絡(CNN)之類的深度學習算法已在各種任務上取得了顯著成果,包括那些涉及識別圖像中特定人物或物體的任務。基於視覺的人類動作識別(HAR)是計算機科學家經常嘗試使用深度學習解決的任務,它特別需要識別圖像或視頻中捕獲的人類動作。

研究人員提出了基於26層CNN和PDaUM方法的人體動作識別架構

研究人員最近開發了一種新的CNN,用於識別視頻中的人類行為。該CNN在Springer Link的一篇論文中進行了介紹,經過培訓可以區分幾種不同的人類動作,包括拳擊,拍手,揮舞,慢跑,跑步和散步。

研究人員提道:「我們設計了一種新的26層卷積神經網絡(CNN)架構,用於精確的複雜動作識別。」 ,這些特徵是從全局平均池化層和完全連接(FC)層中提取的,並通過建議的基於高熵的方法進行融合。

當試圖識別人類在圖像或視頻中的動作時,CNN通常會將其分析重點放在許多潛在的相關特徵上。但是,某些人類動作(例如慢跑和步行)可能非常相似,這使得這些算法很難區分它們,特別是如果它們專注於相似性核心的特徵時。為了克服這一挑戰,研究人員使用了一種方法,該方法將稱為Poisson分布的特徵選擇方法與單變量測量(PDaUM)合併在一起。

研究人員觀察到,CNN所基於的分析功能有時可能不相關或多餘,這導致它們做出錯誤的預測。為了降低發生這種情況的風險,他們的PDaUM方法僅選擇最強大的功能來識別特定的人類行為,並確保CNN基於這些功能做出最終預測。

研究人員在HMDB51,UFC Sports,KH和Weizmann數據集這四個數據集上訓練和評估了兩個截然不同的CNN,一個極端機器學習(EML)和一個Softmax分類器。這些數據集包含幾個人類執行不同類型動作的視頻。

然後,研究人員比較了兩個CNN的性能,這兩個CNN均使用其特徵選擇方法進行了增強。在他們的評估中,ELM分類器的性能明顯優於Softmax算法,可以從視頻中識別出人類動作,其在HMDB51數據集上的準確性為81.4%,在UCF Sports數據集上的準確性為99.2%,在KTH數據集上的準確性為98.3%,在KTH數據集上的準確性為98.7%。魏茨曼數據集。

值得注意的是,PDaUM增強的ELM分類器在準確性和預測時間方面也優於研究人員將其與之相比的所有現有深度學習技術。因此,這些結果凸顯了研究人員介紹的特徵選擇方法在提高CNN在HAR任務上的性能方面的潛力。

將來,本文介紹的ELM分類器和PDaUM方法可以開發更有效的工具,以自動區分人類在錄製和實況錄像中正在做什麼。這些工具可以通過幾種不同的方式證明其價值,例如,幫助執法人員監視視頻上嫌疑犯的行為,或者幫助研究人員快速分析大量的視頻。

相關焦點

  • 深度學習入門:淺析卷積神經網絡
    至今已有數種深度學習方法,如卷積神經網絡(CNN)、自編碼神經網絡(包括Auto encoder和Sparse Coding)和深度置信網絡(DBN),並在各個領域中取得了極好的效果。由於它的數據量小、識別任務簡單而成為圖像識別入門的第一課。但是由於其計算量小,識別難度較低(很多深度學習算法在這個測試集上的準確率已經達到99.6%),能在該數據集上有較好表現的模型並不一定能用在更複雜的圖片識別中。深度學習框架Keras的創建者François Chollet在Twitter上說道:「在MNIST上看似有效的想法沒法遷移到真正的機器視覺問題上。」
  • MSRA視頻理解新突破,實現199層三維卷積神經網絡
    (Pseudo-3D Convolution)的深度神經網絡的設計思路,並實現了迄今為止最深的 199 層三維卷積神經網絡。通然而目前視頻識別的相關研究多數使用的是基於圖像的卷積神經網絡(如微軟研究院在 2015 提出的殘差神經網絡 ResNet)來學習視頻特徵,這種方法僅僅是對單幀圖像的 CNN 特徵進行融合,因此往往忽略了相鄰的連續視頻幀間的聯繫以及視頻中的動作信息。目前,視頻專用的深度神經網絡還很缺乏。
  • 神奇GIF動畫讓你秒懂各種深度學習卷積神經網絡操作原理
    打開APP 神奇GIF動畫讓你秒懂各種深度學習卷積神經網絡操作原理 深度學習思考者 發表於 2017-11-15 18:58:34
  • 應用豐富的「卷積神經網絡」技術,怎樣實現了圖像識別?
    本文將使用卷積神經網絡來介紹「圖像識別」的概念、應用和技術方法。什麼是「圖像識別」?它的作用是什麼?從「機器視覺」的角度來說,「圖像識別」就是軟體識別圖像中出現的人物、地理位置、物體、動作和文字的能力。計算機可以使用「機器視覺技術」,並結合人工智慧軟體和一個攝像頭,完成圖像識別。
  • 卷積神經網絡算法結構分析及其工作效率的影響因素
    2012年可謂人工智慧圖像識別發展的一個重要裡程碑。之前人們為追求圖像識別算法的準確性做出了不懈的努力,但是其錯誤率卻一直居高不下,保持在26%左右,這一水平導致圖像識別技術無法有效走出實驗室。作為深度學習領域的常用算法,卷積神經網絡屬於常用算法,其發展基於人體視覺系統工作模式提出,其經典的模型包括卷及神經層、Rectified Linear Units層、Pooling層以及規範化層總共四個層級。想要切實對卷積神經網絡的算法實現優化和改進,首先需要從基礎的角度加強認識。
  • 大話卷積神經網絡CNN,小白也能看懂的深度學習算法教程,全程乾貨...
    這個定義太大了,反而讓人有點不懂,簡答來說,深度學習就是通過多層神經網絡上運用各種機器學習算法學習樣本數據的內在規律和表示層次,從而實現各種任務的算法集合。各種任務都是啥,有:數據挖掘,計算機視覺,語音識別,自然語言處理等。可能有人會問那麼深度學習,機器學習還有人工智慧的關係是怎麼樣的呢?
  • 深度學習與圖像識別 圖像檢測
    CNN等為什麼對圖像領域更加有效,因為其不但關注了全局特徵,更是利用了圖像識別領域非常重要的局部特徵,應該是將局部特徵抽取的算法融入到了神經網絡中。圖像本身的局部數據存在關聯性,而這種局部關聯性的特徵是其他算法無法提取的。深度學習很重要的是對全局和局部特徵的綜合把握(2)深度學習不是一個黑箱系統。
  • 基於PVANet卷積神經網絡模型的交通標誌識別算法
    作者:周蘇,支雪磊,劉懂,寧皓,蔣連新,石繁槐 PVANet(performance vs accuracy network)卷積神經網絡用於小目標檢測的檢測能力較弱。針對這一瓶頸問題, 採用對PVANet網絡的淺層特徵提取層、深層特徵提取層和HyperNet層(多層特徵信息融合層)進行改進的措施, 提出了一種適用於小目標物體檢測的改進PVANet卷積神經網絡模型, 並在TT100K(Tsinghua-Tencent 100K)數據集上進行了交通標誌檢測算法驗證實驗。
  • 入門| 獻給新手的深度學習綜述
    對於人工神經網絡(ANN),深度學習(DL)(也稱為分層學習(Hierarchical Learning))是指在多個計算階段中精確地分配信用,以轉換網絡中的聚合激活。為了學習複雜的功能,深度架構被用於多個抽象層次,即非線性操作;例如 ANNs,具有許多隱藏層。
  • 基於深度學習的物候學識別
    點擊藍色字免費訂閱,每天收到這樣的好資訊
  • 卷積神經網絡(CNN)介紹與實踐
    - 來源:http://cs231n.github.io/classification/為了「教會」一種算法如何識別圖像中的對象,我們使用特定類型的人工神經網絡:卷積神經網絡(CNN)。他們的名字源於網絡中最重要的一個操作:卷積。卷積神經網絡受到大腦的啟發。
  • 卷積神經網絡在圖像領域中的發展及存在問題
    深度學習(Deep Learning, DL),從狹義上理解,就是一種具有一定的結構和訓練方法且含有多個隱含層的神經網絡;從廣義上理解,可以把具有任何層次結構的機器學習方法稱為深度學習。在深度學習過程中,從輸入圖像,經過無監督的逐層訓練和學習圖像特徵,通過有監督的訓練更新整個網絡參數,最小化損失函數,在輸出層實現正確的分類。
  • 卷積神經網絡中的參數共享/權重複制
    參數共享或權重複制是深度學習中經常被忽略的領域。但是了解這個簡單的概念有助於更廣泛地理解卷積神經網絡的內部。卷積神經網絡(cnn)能夠使那些通過網絡饋送的圖像在進行仿射變換時具有不變性。 這個特點提供了識別偏移圖案、識別傾斜或輕微扭曲的圖像的能力。仿射不變性的這些特徵是由於CNN架構的三個主要屬性而引入的。
  • 深度| 2017 CV 技術報告之圖像分割、超解析度和動作識別
    然而在此之外,ENet[56](這是一種用於實時語義分割的深度神經網絡架構)卻並不屬於這一類別。它也展示出了可以降低計算成本的經濟適用價值,可以更好地用於行動裝置。我們希望儘可能地將這些前沿技術與已有的實際應用聯繫起來。
  • 圖像識別技術——卷積神經網絡CNN詳解
    神經網絡與卷積神經網絡神經網絡對於各種各樣的數據都具有一個很強的非線性擬合能力,但是在語音、圖像這類「raw data」數據處理上,我們遲遲得不到突破。這些數據屬於人類一出生就能接受到的信息,在這方面數據,我們很難用機器學習的方法去驅動產出很好的效果。
  • 人工智慧深度學習的未來展望
    這些方法在許多方面都帶來了顯著的改善,包括較先進的語音識別、視覺對象識別、對象檢測和許多其它領域,例如藥物發現和基因組學等。深度學習能夠發現大數據中的複雜結構。它是利用BP算法來完成這個發現過程的。BP算法能夠指導機器如何從前一層獲取誤差而改變本層的內部參數,這些內部參數可以用於計算表示。
  • 卷積神經網絡超詳細總結
    深度學習的提出:2006年,Hinton提出了深度學習,兩個主要的觀點是:多隱層的人工神經網絡具有優異的特徵學習能力,學習到的數據更能反映數據的本質特徵有利於可視化或分類深度神經網絡在訓練上的難度,可以通過逐層無監督訓練有效克服,
  • 解析卷積神經網絡的應用
    只有當使用圖像數據集對計算機進行訓練後,其方可識別對象 不過,情況正發生變化。近年來,一個稱之為「深度學習」的領域大幅提升了計算機理解所見事物的能力。深度學習,尤其是卷積神經網絡的使用,並沒有依賴傳統的圖像處理技術,而是賦予計算機理解世界的能力,且這方面已取得重大進展。
  • 利用深卷積神經網絡對葉片病害進行圖片識別
    點擊藍色字免費訂閱,每天收到這樣的好資訊
  • 用於深度強化學習的結構化控制網絡(ICML 論文講解)
    許多控制應用程式使用通用多層感知器(MLP),用於策略網絡的非視覺部分。在本工作中,我們為策略網絡表示提出了一種新的神經網絡架構,該架構簡單而有效。所提出的結構化控制網(Structured Control Net ,SCN)將通用多層感知器MLP分成兩個獨立的子模塊:非線性控制模塊和線性控制模塊。直觀地,非線性控制用於前視角和全局控制,而線性控制圍繞全局控制以外的局部動態變量的穩定。