新技術:球面卷積神經網絡CNNs識別三維空間物體

2020-12-06 千家智客

  深度學習中的技術進展幫助機器能像人類一樣「看」世界,這是人工智慧研究中最具吸引力的部分之一。目前,一種突破性技術將讓機器能夠通過被稱為球面卷積神經網絡(spherical Convolutional Neural Networks,縮寫CNNs)的處理,去看到並識別三維空間中的物體。

  近日,在全球頂尖AI實驗室提交的約1,000篇投稿中,Qualcomm Technologies荷蘭研究人員TacoCohen和MaxWelling及其合作夥伴,通過與阿姆斯特丹大學聯合撰寫的《球面CNNs》論文榮獲「國際學習表徵大會(ICLR:International Conference for Learning Representations)2018年度最佳論文獎」。

  該球面CNN論文引入了構建CNNs的新型數學架構,可魯棒地分析球面圖像,並不會受到曲面失真的影響。這是因為:球面CNN具有針對旋轉的「等變」特性,它意味著該網絡學習到的內部表徵會與輸入信息同步旋轉。從實驗的結果來看,球面CNNs在兩項截然不同的任務上可實現出色的預測精度:球面圖像3D模型識別和原子化能量預測(一項重要的化學問題)。

  球面CNNs為什麼重要

  為了理解球面CNNs的重要性,我們介紹一些背景:過去幾年,深度學習——尤其是CNNs——已徹底變革了AI,語音識別、視覺對象識別、自然語言處理及其他領域均出現突破性成果。

  CNNs很擅長分析線性信號,例如音頻或文本、圖像、或視頻,因其具備可識別模式的內在能力,而不管其空間或時間位置如何。這能支持CNNs學習並識別如視覺對象,無論它在圖像中位於什麼位置,並無需在深度學習模型訓練階段觀看同一對象的多個移動版本。

  但在最近受到關注的多個應用中,我們都希望學習的信號留存在球體上,如汽車、無人機和其他機器人拍攝其整個周邊環境的球面圖像所使用的全向攝像頭。在科學應用中也存在大量球面信號,從地球科學到天體物理學都有相關案例。

  分析此類球面信號的一個方法是把信號投影到平面上,並藉助CNN來分析結果。但根據製圖學,任何此類「地圖投影」都會導致扭曲失真,讓部分區域看起來比實際尺寸更大或更小。這會使CNN變得無效,因為隨著對象在球體上移動,它們看上去不僅只是在地圖上移動,而且還會顯得縮小和拉伸。

  如何使用球面CNNs

  可以這樣說,球面CNNs在物聯網(IoT)、機器人、自動駕駛汽車、增強現實(AR)和虛擬實境(VR)領域都有諸多應用。

  如今,自動駕駛無人機已向消費者出售,或許有一天它將能在幾分鐘內把包裹送到你的家門口,這就是球面CNNs可改善物體偵測與識別,以及視覺運動分析的一個自然應用。在AR方面,一整組攝像頭所拍攝的360度房間全景可融入至單球面圖像中,藉助球面CNN的高效分析,精確覆蓋虛擬物體。

  Qualcomm對此項工作可能帶來的上述應用和其他轉換應用倍感興奮,而我們也正在積極推動此項研究及其他數據高效學習研究。

相關焦點

  • 深度卷積神經網絡CNNs的多GPU並行框架 及其在圖像識別的應用
    將深度卷積神經網絡(Convolutional Neural Networks, 簡稱CNNs)用於圖像識別在研究領域吸引著越來越多目光。由於卷積神經網絡結構非常適合模型並行的訓練,因此以模型並行+數據並行的方式來加速Deep CNNs訓練,可預期取得較大收穫。
  • 用Hinton的膠囊神經網絡來識別空間關係 Part1: CNNs及其缺點
    這篇文章是膠囊神經網絡系列教程的一部分。作為第一篇文章,將介紹常規(卷積)神經網絡以及它的一些問題。神經網絡可能是當下機器學習領域最熱的部分。 近幾年,神經網絡得到眾多開發者不斷的改善,也更方便使用。但是,這些改進通常都是一些簡單的修改, 例如增加一些層,或者簡單的改進激活函數,但是並沒有引進全新的架構或思路。
  • 深度學習技術和卷積神經網絡(CNN)讓機器視覺識別更智能
    隨著人工智慧技術的進步,深度學習技術(DL)和卷積神經網絡技術(CNN)領域的人工智慧(AI)被引入到機器視覺圖像處理系統的應用中來,從而幫助機器學習和機器檢測缺陷更加高效,使機器視覺識別的過程更加精確。也讓使用這些技術的企業可以從智能化中獲得更高的生產經營效益。
  • 深度卷積神經網絡CNNs的多GPU並行框架及其應用
    7.3.效果展示圖9為圖像標籤識別的示例,通過對兩千多類物體的圖像進行訓練,可實現對常見物體的自動識別。 8.結論與展望本文描述了深度卷積神經網絡Deep CNNs的多GPU模型並行和數據並行框架,通過多個Worker Group實現了數據並行
  • MSRA視頻理解新突破,實現199層三維卷積神經網絡
    基於三維卷積神經網絡的視頻特徵提取為了使用深度神經網絡來提取視頻中時間和空間維度上的信息,一種直接的思路就是將用於圖像特徵學習的二維卷積拓展為三維卷積(3D Convolution),同時在時間和空間維度上進行卷積操作。如此一來,由三維卷積操作構成的三維卷積神經網絡可以在獲取每一幀視覺特徵的同時,也能表達相鄰幀隨時間推移的關聯與變化,如下圖所示。
  • 了解CNN這一篇就夠了:卷積神經網絡技術及發展
    在不同類型的神經網絡當中,卷積神經網絡是得到最深入研究的。早期由於缺乏訓練數據和計算能力,要在不產生過擬合的情況下訓練高性能卷積神經網絡是很困難的。標記數據和近來GPU的發展,使得卷積神經網絡研究湧現並取得一流結果。本文中,我們將縱覽卷積神經網絡近來發展,同時介紹卷積神經網絡在視覺識別方面的一些應用。
  • 萬字長文|如何直觀解釋卷積神經網絡的工作原理?
    卷積神經網絡做畫面識別 局部連接 空間共享 輸出空間表達 Depth維的處理 Zero padding 形狀、概念抓取 多filters 非線性 輸出尺寸控制 矩陣乘法執行卷積
  • PyTorch可視化理解卷積神經網絡
    如今,機器已經能夠在理解、識別圖像中的特徵和對象等領域實現99%級別的準確率。生活中,我們每天都會運用到這一點,比如,智慧型手機拍照的時候能夠識別臉部、在類似於谷歌搜圖中搜索特定照片、從條形碼掃描文本或掃描書籍等。造就機器能夠獲得在這些視覺方面取得優異性能可能是源於一種特定類型的神經網絡——卷積神經網絡(CNN)。
  • AI入門:卷積神經網絡
    假設我們要做圖像識別,把一張圖片丟到機器,機器能理解的就是每個像素點的值,如下圖:我們在搭建好神經網絡模型之後,需要做的就是用數據訓練,最終需要確定的是每一個神經元參數w和b,這樣我們就可以確定模型了。
  • 人工智慧之卷積神經網絡(CNN)
    1980年,K.Fukushima提出的新識別機是卷積神經網絡的第一個實現網絡。隨後,更多的科研工作者對該網絡進行了改進。其中,具有代表性的研究成果是Alexander和Taylor提出的「改進認知機」,該方法綜合了各種改進方法的優點並避免了耗時的誤差反向傳播。
  • 孫啟超:卷積神經網絡在人臉識別技術中的應用 | AI研習社第51期猿...
    隨著 iPhone X 的發布,Face ID 人臉識別技術開始進入人們的日常生活中,當我們拿起手機並看著它的時候就可以實現手機解鎖的功能。而人臉識別中的關鍵技術就是卷積神經網絡。近日,在雷鋒網 AI 研習社公開課上,法國蒙彼利埃大學孫啟超就講述了卷積神經網絡的基本原理以及人臉識別技術是如何運行的。
  • 如何從信號分析角度理解卷積神經網絡的複雜機制?
    機器之心原創作者:Qintong Wu參與:Jane W隨著複雜和高效的神經網絡架構的出現,卷積神經網絡(CNN)的性能已經優於傳統的數字圖像處理方法,如 SIFT 和 SURF。在計算機視覺領域,學者們開始將研究重點轉移到 CNN,並相信 CNN 是這一領域的未來趨勢。但是,人們對成效卓著的 CNN 背後的機理卻缺乏了解。
  • 要想了解卷積神經網絡,首先需要了解三種基本架構
    卷積網絡是研究關於圖像(紋理,圖像尺度等)的抽象層面的一種網絡,跟傳統網絡不同的是,它不僅可以根據一個固定尺寸圖像生成物體識別數據,還可以對圖像其他部分進行其他操作。卷積可以有多個,它的作用是「放大」和「增強」圖像的抽象空間。那麼卷積可以用於哪些場景呢?
  • 應用豐富的「卷積神經網絡」技術,怎樣實現了圖像識別?
    本文將使用卷積神經網絡來介紹「圖像識別」的概念、應用和技術方法。什麼是「圖像識別」?它的作用是什麼?從「機器視覺」的角度來說,「圖像識別」就是軟體識別圖像中出現的人物、地理位置、物體、動作和文字的能力。計算機可以使用「機器視覺技術」,並結合人工智慧軟體和一個攝像頭,完成圖像識別。
  • 環信人工智慧專家李理:詳解卷積神經網絡
    CNN簡介 在之前的章節我們使用了神經網絡來解決手寫數字識別(MNIST)的問題。我們使用了全連接的神經網絡,也就是前一層的每一個神經元都會連接到後一層的每一個神經元,如果前一層有m個節點,後一層有n個,那麼總共有m*n條邊(連接)。連接方式如下圖所示:
  • 深度卷積神經網絡演化歷史及結構改進脈絡-40頁長文全面解讀
    自2012年AlexNet網絡出現之後,最近6年以來,卷積神經網絡得到了急速發展,在很多問題上取得了當前最好的結果,是各種深度學習技術中用途最廣泛的一種。在本文中將為大家回顧和總結卷積神經網絡的整個發展過程。
  • 從基本組件到結構創新,67頁論文解讀深度卷積神經網絡架構
    機器視覺(MV)任務具有挑戰性促使產生了一類特殊的神經網絡(NN),即卷積神經網絡(CNN)[7]。CNN被認為是學習圖像內容的最佳技術之一,並且在圖像識別、分割、檢測和檢索相關任務方面顯示了最佳的成果[8],[9]。CNN的成功所引起的關注已超出學術界。
  • 神經網絡技術解析:手寫數字識別項目解讀
    打開APP 神經網絡技術解析:手寫數字識別項目解讀 澤南 張倩 發表於 2021-01-13 15:50:11 手寫數字識別是很多人入門神經網絡時用來練手的一個項目
  • 深入理解卷積網絡的卷積
    卷積神經網絡是一種特殊的神經網絡結構,是自動駕駛汽車、人臉識別系統等計算機視覺應用的基礎,其中基本的矩陣乘法運算被卷積運算取代。它們專門處理具有網格狀拓撲結構的數據。例如,時間序列數據和圖像數據可以看作是一個二維像素網格。
  • 知識普及:卷積神經網絡模型是怎樣工作的?可以做些什麼?
    知識普及:卷積神經網絡模型是怎樣工作的?可以做些什麼?而這就要歸功於計算機視覺領域最新的技術革新。 眾所周知,在過去的幾年裡,卷積神經網絡(CNN或ConvNet)在深度學習領域取得了許多重大突破,但對於大多數人而言,這個描述是相當不直觀的。因此,要了解模型取得了怎樣大的突破,我們應該先了解卷積神經網絡是怎樣工作的。 卷積神經網絡可以做些什麼? 卷積神經網絡用於在圖像中尋找特徵。