深度學習資訊|用於人體動作識別的26層卷積神經網絡

2020-12-23 人工智慧研究院

諸如卷積神經網絡(CNN)之類的深度學習算法已在各種任務上取得了顯著成果,包括那些涉及識別圖像中特定人物或物體的任務。基於視覺的人類動作識別(HAR)是計算機科學家經常嘗試使用深度學習解決的任務,它特別需要識別圖像或視頻中捕獲的人類動作。

研究人員提出了基於26層CNN和PDaUM方法的人體動作識別架構

研究人員最近開發了一種新的CNN,用於識別視頻中的人類行為。該CNN在Springer Link的一篇論文中進行了介紹,經過培訓可以區分幾種不同的人類動作,包括拳擊,拍手,揮舞,慢跑,跑步和散步。

研究人員提道:「我們設計了一種新的26層卷積神經網絡(CNN)架構,用於精確的複雜動作識別。」 ,這些特徵是從全局平均池化層和完全連接(FC)層中提取的,並通過建議的基於高熵的方法進行融合。

當試圖識別人類在圖像或視頻中的動作時,CNN通常會將其分析重點放在許多潛在的相關特徵上。但是,某些人類動作(例如慢跑和步行)可能非常相似,這使得這些算法很難區分它們,特別是如果它們專注於相似性核心的特徵時。為了克服這一挑戰,研究人員使用了一種方法,該方法將稱為Poisson分布的特徵選擇方法與單變量測量(PDaUM)合併在一起。

研究人員觀察到,CNN所基於的分析功能有時可能不相關或多餘,這導致它們做出錯誤的預測。為了降低發生這種情況的風險,他們的PDaUM方法僅選擇最強大的功能來識別特定的人類行為,並確保CNN基於這些功能做出最終預測。

研究人員在HMDB51,UFC Sports,KH和Weizmann數據集這四個數據集上訓練和評估了兩個截然不同的CNN,一個極端機器學習(EML)和一個Softmax分類器。這些數據集包含幾個人類執行不同類型動作的視頻。

然後,研究人員比較了兩個CNN的性能,這兩個CNN均使用其特徵選擇方法進行了增強。在他們的評估中,ELM分類器的性能明顯優於Softmax算法,可以從視頻中識別出人類動作,其在HMDB51數據集上的準確性為81.4%,在UCF Sports數據集上的準確性為99.2%,在KTH數據集上的準確性為98.3%,在KTH數據集上的準確性為98.7%。魏茨曼數據集。

值得注意的是,PDaUM增強的ELM分類器在準確性和預測時間方面也優於研究人員將其與之相比的所有現有深度學習技術。因此,這些結果凸顯了研究人員介紹的特徵選擇方法在提高CNN在HAR任務上的性能方面的潛力。

將來,本文介紹的ELM分類器和PDaUM方法可以開發更有效的工具,以自動區分人類在錄製和實況錄像中正在做什麼。這些工具可以通過幾種不同的方式證明其價值,例如,幫助執法人員監視視頻上嫌疑犯的行為,或者幫助研究人員快速分析大量的視頻。

相關焦點

  • 乾貨|語音識別框架最新進展——深度全序列卷積神經網絡登場
    科大訊飛在今年提出了一種全新的語音識別框架——深度全序列卷積神經網絡(DFCNN,Deep Fully Convolutional NeuralNetwork),更適合工業應用。本文是對科大訊飛使用DFCNN應用於語音轉寫技術的詳細解讀,其外還包含了語音轉寫中口語化和篇章級語言模型處理、噪聲和遠場識別和文本處理實時糾錯以及文字後處理等技術的分析。
  • 大話卷積神經網絡CNN,小白也能看懂的深度學習算法教程,全程乾貨...
    這個定義太大了,反而讓人有點不懂,簡答來說,深度學習就是通過多層神經網絡上運用各種機器學習算法學習樣本數據的內在規律和表示層次,從而實現各種任務的算法集合。各種任務都是啥,有:數據挖掘,計算機視覺,語音識別,自然語言處理等。可能有人會問那麼深度學習,機器學習還有人工智慧的關係是怎麼樣的呢?
  • 圖像識別技術——卷積神經網絡CNN詳解
    神經網絡與卷積神經網絡神經網絡對於各種各樣的數據都具有一個很強的非線性擬合能力,但是在語音、圖像這類「raw data」數據處理上,我們遲遲得不到突破。這些數據屬於人類一出生就能接受到的信息,在這方面數據,我們很難用機器學習的方法去驅動產出很好的效果。
  • 深蘭科技動作識別-人體骨架時空圖卷積網絡的可學習邊與權
    動作識別是基於計算機視覺識別的技術,可以實時對檢測區域內人員動作進行識別。作為深蘭科技計算機視覺技術的核心產品之一,搭載自動駕駛功能的「熊貓智能公交車」已獲得廣州、上海、武漢、長沙、深圳等多地的自動駕駛測試牌照,並且在武漢取得了全球首個自動駕駛客車的商用牌照。而其行人行為預測和車內異常行為識別(摔倒、偷竊等)兩大功能,便是動作識別最直接的體現。
  • 9大主題卷積神經網絡(CNN)的PyTorch實現
    上文聚焦於源碼和論文,對於各種卷積神經網絡模型的實現,本文將介紹它們的 PyTorch 實現,非常有用!語義分割網絡5. 實例分割網絡6. 人臉檢測和識別網絡7. 人體姿態識別網絡8. 注意力機制網絡9. 人像分割網絡下面具體來看一下:1.
  • 深度學習架構
    最近二十年來,深度學習架構開始出現,這種架構極大地拓展了神經網絡能夠解決的問題的數量和類型。本文介紹了五種最熱門的深度學習架構,包括循環神經網絡 (RNN)、長短期記憶 (LSTM)/門控循環單元 (GRU)、卷積神經網絡 (CNN)、深度信念網絡 (DBN) 和深度堆棧網絡 (DSN),本文還探討了深度學習的開源軟體選項。
  • Yann LeCun引爆AI社區:1993年文本識別卷積網絡演示視頻,獲上千人...
    提到卷積神經網絡大家可能並不陌生。它是深度學習(Deep Learning)的經典算法之一,自20世紀90年代以來,其在計算機視覺、自然語言處理領域不斷取得驚人的結果。卷積神經網絡(Convolutional Neural Networks,CNN)首次被用於文本識別演示是在1993年的貝爾實驗室(AT&T Bell Laboratories),其的演示者是有「CNN之父」之稱的Yann LeCun。今天,LeCun在當年的演示視頻再次被網友們挖出,並迅速登上了Reddit熱搜,收穫了近千人點讚。
  • 人工智慧TensorFlow(十三)讀懂CNN卷積神經網絡
    TensorFlow神經網絡  那什麼是卷積神經網絡呢,這就要我們追溯一下人類識別圖像的原理  人類的視覺原理如下:從原始信號攝入開始(瞳孔攝入像素 Pixels),接著做初步處理(大腦皮層某些細胞發現邊緣和方向
  • 深度學習模型那麼多,科學研究選哪個?
    從2006年到2020年,這15年內,深度學習經歷了發展期、爆發期,期間誕生了許多算法原理,眾多神經網絡也在多項人類任務上都表現優異。例如,2012年,Hinton課題組為了證明深度學習的潛力,首次參加ImageNet圖像識別比賽,其通過構建的CNN網絡AlexNet一舉奪得冠軍,且碾壓第二名(SVM方法)的分類性能。
  • 卷積神經網絡與Transformer結合,東南大學提出視頻幀合成新架構
    Transformer 首度結合用於視頻幀合成。深度卷積神經網絡(CNN)是功能非常強大的模型,在一些困難的計算機視覺任務上性能也很卓越。儘管卷積神經網絡只要有大量已標記的訓練樣本就能夠執行,但是由於物體的變形與移動、場景照明變化以及視頻序列中攝像頭位置的變化,卷積神經網絡在視頻幀合成方面的表現並不出色。
  • 盤點金融領域裡常用的深度學習模型
    要解決這個問題,如果我們考慮到深度學習在圖像識別、語音識別或情感分析方面所做的研究,我們就會看到這些模型能夠從大規模未標記數據中學習,形成非線性關係的遞歸結構,可以輕鬆予以調整以避免發生過度擬合。如果金融生態圈能夠使用這些網絡進行建模,應用領域就會深遠而廣泛。這些模型可用於定價、投資組合構建、風險管理甚至高頻交易等領域,讓我們來解決這些問題。
  • 「幾何深度學習」受愛因斯坦啟示:讓AI擺脫平面看到更高的維度
    人工智慧的革命很大程度上源於一種特殊類型的人工神經網絡的力量,其設計靈感來自哺乳動物視覺皮層中神經元的連接層。事實證明,這些「卷積神經網絡」(CNN)擅長於學習二維數據中的模式,尤其是在計算機視覺任務中得到了廣泛應用。
  • 金融中的三種深度學習用例及這些模型優劣的證據
    要解決這個問題,如果我們考慮到深度學習在圖像識別、語音識別或情感分析方面所做的研究,我們就會看到這些模型能夠從大規模未標記數據中學習,形成非線性關係的遞歸結構,可以輕鬆予以調整以避免發生過度擬合。卷積神經網絡由一個或多個卷積層和頂端的全連通層(對應經典的神經網絡)組成,同時也包括關聯權重和池化層(pooling layer)。這一結構使得卷積神經網絡能夠利用輸入數據的二維結構。與其他深度學習結構相比,卷積神經網絡在圖像和語音識別方面能夠給出更好的結果。這一模型也可以使用反向傳播算法進行訓練。
  • 卷積神經網絡預測模型:提前24個月預測ENSO
    「『阿爾法狗』為什麼厲害」,它的背後是專家利用神經網絡算法,將圍棋高手的比賽記錄輸入計算機,並讓計算機自己與自己進行比賽,在這個過程中不斷學習訓練。既然『阿爾法狗』能夠擊敗世界圍棋冠軍,說明它具有很強的優越性,那麼我們的ENSO預測能否也引入機器學習呢?」羅京佳表示,「『阿爾法狗』用的深度神經網絡與傳統的神經網絡不一樣,它有很強大的自我學習能力。」
  • 卷積神經網絡的卷積到底是什麼
    打開APP 卷積神經網絡的卷積到底是什麼 人工智慧遇見磐創 發表於 2020-05-05 08:40:00 卷積神經網絡是一種特殊的神經網絡結構,是自動駕駛汽車、人臉識別系統等計算機視覺應用的基礎,其中基本的矩陣乘法運算被卷積運算取代。
  • 三種卷積神經網絡模型:Light-CNN,雙分支CNN和預先訓練的CNN
    > 上海電力大學的兩位研究人員最近開發並評估了野生人臉表情識別(FER)的新神經網絡模型。「基於深度卷積神經網絡(CNN)的現有自然面部表情識別方法存在一些問題,包括過擬合,高計算複雜度,單一特徵和有限樣本。」 儘管許多研究人員已經開發了用於FER的CNN方法,但到目前為止,他們中很少有人試圖確定哪種類型的網絡最適合這一特定任務。意識到文獻中的這種差距,永勝和他的同事邵傑為FER開發了三種不同的CNN,並進行了一系列的評估,以確定他們的優勢和劣勢。
  • 騰訊優圖8篇論文入選,涵蓋目標跟蹤、行人重識別、人臉識別等領域
    在競爭越來越激烈的情況下,本次ECCV 騰訊優圖實驗室共入選8篇論文,涵蓋目標跟蹤、行人重識別、人臉識別、人體姿態估計、動作識別、物體檢測等熱門及前沿領域,再次展示了騰訊在計算機視覺領域的科研及創新實力。
  • 深度學習之後會是啥?
    遷移學習,意味著只能從複雜到簡單,而不是從一個邏輯系統到另一個邏輯系統。我相信我們可以列一個更長的清單。正是在解決這些主要的缺點方面,我們已經陷入了困境。是什麼阻止了我們在深度神經網絡中,目前的傳統觀點是,只要我們不斷地推動,不斷地投資,那麼這些不足就會被克服。例如,從80年代到00年代,我們知道如何讓深度神經網絡工作,只是我們沒有硬體。
  • 華為開發者學院|卷積神經網絡與圖像處理,聽這一節課就夠了
    華為開發者學院特邀國內首本TensorFlow知名書籍作者鄭澤宇老師,帶您了解卷積神經網絡基本原理和基本的卷積神經網絡結構,介紹圖像分類和圖像識別的核心思路和基本算法,在直播間中,您可將當前在學習中遇到的難點和困惑與大咖講師鄭澤宇交流,通過大咖的解讀,帶給你學習的方法與捷徑。
  • AI不再黑箱:利用可解釋的膠囊網絡算法識別細胞亞型
    從膠囊網絡到單細胞膠囊網絡 深度學習已經廣泛地應用到圖像識別,自然語言處理中,極大地推動了這些領域的發展。同時,隨著生物學數據的積累,不同的深度學習構架也被用來處理不同類型的生物學數據。但深度學習模型的運行缺乏透明度,可解釋性不高,限制了這種方法的應用範圍。