移動端實時3D目標檢測,谷歌開源出品,安卓下載就能用

2020-12-21 機器之心Pro

選自Google AI Blog

作者:Adel Ahmadyan、Tingbo Hou

機器之心編譯

機器之心編輯部

常規目標檢測,已經不能滿足移動端了,谷歌開源的 3D 實時目標檢測了解一下?

目標檢測是一個得到廣泛研究的計算機視覺問題,但大多數研究側重於 2D 目標檢測。值的注意的是,2D 預測僅能提供 2D 邊界框。所以,如果擴展至 3D 預測,人們可以捕捉到目標的大小、位置與方向,從而在機器人、無人駕駛、圖像檢索和 AR 等領域得到更廣泛的應用。

儘管 2D 目標檢測已經相當成熟,並在工業界廣泛應用,但由於數據缺乏以及同類別下目標形狀和外觀的多樣性,從 2D 轉向 3D 目標檢測依然會面臨較大的挑戰。

今日,谷歌宣布推出 MediaPipe Objectron,這是一種適用於日常物體的移動端實時 3D 目標檢測 pipeline,它能夠檢測 2D 圖像中的目標,並通過新創建 3D 數據集上訓練的機器學習模型來估計這些目標的姿態和大小。

具體而言,MediaPipe 是一個用於構建 pipeline 進而處理不同模態感知數據的跨平臺開源框架,Objectron 則在 MediaPipe 中實現,其能夠在行動裝置上實時計算目標的定向 3D 邊界框。

從單個圖像進行 3D 目標檢測。MediaPipe 可以在移動端上實時確認目標對象的位置、方向以及大小。整個模型非常精簡,速度也非常快,研究者將整套方案都開源了出來。

框架地址:https://github.com/google/mediapipe/項目地址:https://github.com/google/mediapipe/blob/master/mediapipe/docs/objectron_mobile_gpu.mdMediaPipe 是谷歌去年 7 月份發布的一個多媒體框架,它在安卓、IOS 網頁等各種平臺上都能應用機器學習媒體模型。昨日 MediaPipe 發布 0.7 版,並加入了移動端試試 3D 檢測模型。目前 MediaPipe 包含人臉檢測、手部檢測、頭髮分割和視頻自動橫豎屏轉換等功能。

獲取真實的 3D 訓練數據

隨著依賴於 3D 傳感器(如 LIDAR)的自動駕駛行業發展普及,現在已有大量街道場景的 3D 數據,但對於日常生活中擁有更細顆粒度的目標來說,有標註的 3D 數據集就非常有限了。所以,為了解決此問題,谷歌團隊使用了 AR 會話(Session)數據開發了一種全新的數據 Pipeline。

此外,隨著 ARCore 以及 ARkit 的出現,數億體量的智慧型手機擁有了 AR 功能,並且能夠通過 AR 會話取獲取更多的信息,包括相機姿態、稀疏 3D 點雲、光照估計以及平面區域估計。

為了標記真實數據,團隊構建了一個全新的標註工具,並且與 AR 會話數據一起使用,該標註工具使標註者得以快速標記目標的 3D 邊界框。

該工具使用了分屏視圖來顯示 2D 的視頻幀,同時在其左側疊加 3D 邊界框,並在右側顯示 3D 點雲,攝像機方位以及所檢測到的水平面。標註器在 3D 視圖中繪製 3D 邊界框,並通過查看 2D 視頻幀中的投影來驗證其位置。

左:帶標註的 3D 邊界框所形成的投影展示在邊界框頂部,更易於驗證標註;右:通過檢測到的目標表面以及稀疏點雲數據,可以為不同的相機姿態標註真實世界中的 3D 邊界框。

AR 合成數據

之前常用的方法會根據合成數據補充真實數據,以提高預測的準確性。然而這樣的做法通常會導致質量低下、不真實的數據,且如果要執行圖像的真實感渲染,又需要更多的計算力。

研究者採用了另一種稱之為 AR 合成數據(AR Synthetic Data Generation)的方法,只要將對象放到 AR 系統的工作場景中,我們就能利用相機姿態估計、水平面檢測、光照估計生成物理上可能存在的位置及場景。這種方法能生成高質量合成數據,並無縫匹配實際背景。通過結合真實數據與 AR 合成數據,研究者能將模型的準確性提高約 10%。

AR 合成數據的生成示例,在藍色書籍旁邊,虛擬的白色盒子可以渲染到真實場景中。

3D 目標檢測的流程是什麼樣的

對於 3D 目標檢測,研究者先構建了一個單階段模型 MobilePose,以預測單張 RGB 圖像中某個目標的姿態和物理大小。該模型的主幹是一個編碼器-解碼器架構,其構建在 MobileNet V2 的基礎上。研究者應用了多任務學習方法,來從檢測與回歸的角度聯合預測目標的形狀,且在預測形狀的過程中,其只依賴於標註的分割圖像。

MobilePose-Shape 網絡在中間層會帶有形狀預測模塊。

在模型的訓練中,如果數據沒有標註形狀,那也是可行的。只不過藉助檢測邊界框,研究者可以預測形狀中心與分布。

為了獲得邊界框的最終 3D 坐標,研究者利用了一種完善的姿態估計算法(EPnP),它可以恢復對象的 3D 邊界框,而無需知道對象維度這一先驗知識。給定 3D 邊界框,我們可以輕鬆計算對象的姿態和大小。

下圖顯示了網絡架構和後處理過程,該模型輕巧到可以在行動裝置上實時運行(在 Adreno 650 mobile GPU 上以 26 FPS 的速度運行)。

3D 目標檢測的神經網絡架構與後處理過程。

模型的示例結果,其中左圖為估計邊界框的原始 2D 圖像,中間為帶高斯分布的目標檢測,最右邊為預測的分割 Mask。

在 MediaPipe 中進行檢測和追蹤

當模型對行動裝置獲得的每一幀圖像進行計算的時候,它可能會遇到晃動的情況,這是因為每一幀對目標邊界框預測本身的模糊性造成的。為了緩解這個問題,研究者採用了檢測+追蹤的框架,這一框架近期被用於 2D 檢測和追蹤中。這個框架減少了需要在每一幀上運行網絡的要求,因此可以讓模型的檢測更為精確,同時保證在移動端上的實時性。它同時還能保持識別幀與幀之間的目標,確保預測的連貫性,減少晃動。

為了進一步提升這一 pipeline 的效率,研究者設置模型在每幾幀後再進行一次模型推理。之後,他們使用名為快速動作追蹤(instant motion tracking)和 Motion Stills 技術進行預測和追蹤。當模型提出一個新的預測時,他們會根據重疊區域對檢測結果進行合併。

為了鼓勵研究者和開發者基於這一 pipeline 進行試驗,谷歌目前已經將研究成果開源到了 MediaPipe 項目中,包括端到端的行動裝置應用 demo,以及在鞋、椅子兩個分類中訓練好的模型。研究者希望這一解決方案能夠更好地幫助到社區,並產生新的方法、應用和研究成果。團隊也希望能夠擴大模型到更多類別中,進一步提升在移動端設備的性能表現。

室內和戶外 3D 目標檢測示例。

原文連結:https://ai.googleblog.com/2020/03/real-time-3d-object-detection-on-mobile.html

相關焦點

  • LOL手遊安卓版谷歌商店google play官方下載地址入口
    首頁 > 部落 > 關鍵詞 > lol最新資訊 > 正文 LOL手遊安卓版谷歌商店google play官方下載地址入口
  • 谷歌 AI 開源 Deepfake 檢測數據集,3000+ 真人...
    雷鋒網 AI 開發者按:在不久前,Facebook 發起了 Deepfakes 檢測挑戰賽;而近日,谷歌 AI 就跟著強勢推出了 Deepfake 視頻檢測數據集,勢將一同與假視頻死磕到底。(Deepfakes 檢測挑戰賽詳情:https://www.leiphone.com/news/201909/2T95wJf5RRTycmkT.html?
  • 谷歌正式公布開源Fuchsia系統,號召開發者參與,鴻蒙要輸了?
    谷歌公布了開源Fuchsia作業系統?可能絕大部分人看到這裡,會在風中凌亂:這是什麼作業系統?還是由谷歌發布的?等到這次谷歌正式公開開源Fuchsia作業系統,號召所有開發者做貢獻的時候,沉寂了多年的它又浮出了水面。基於很多用戶不了解它,韓博士就先給大家介紹一波。什麼是開源Fuchsia作業系統?
  • ...MediaPipe Holistic,實現移動端同時進行人臉、手部和人體關鍵...
    MediaPipe Holistic為突破性的 540 多個關鍵點(33 個姿勢、21 個手和468 個人臉關鍵點)提供了統一的拓撲結構,並在行動裝置上實現了近乎實時的性能。 在行動裝置上對人體姿勢、人臉關鍵點和手部追蹤的實時同步感知,可以實現各種有趣的應用,如健身和運動分析、手勢控制和手語識別、增強現實效果等。 谷歌之前發布的MediaPipe就是一個專門為GPU或CPU而設計的開源框架,已經為這些單個任務提供了快速、準確而又獨立的解決方案。
  • 微軟將推出移動端殺毒軟體 安卓iOS設備免費試用
    而現在,微軟則計劃推出屬於自己的移動端殺毒軟體「Defender Advanced Threat Protection」。據最新消息,微軟於2月20日宣布,將在今年晚些時候為運行谷歌Android和蘋果iOS行動作業系統的手機和其他設備提供自有殺毒軟體Defender。據國外媒體報導,該產品是微軟向使用其他公司行動作業系統的消費者銷售產品的最新舉措。
  • 基於FPGA的移動目標實時定位跟蹤系統
    1所示,交通攝像頭對公路上移動的汽車進行實時的定位,隨著小汽車的移動,紅色框也跟隨小汽車移動,實時將小汽車框起來。 基於實時物體移動的靜態圖像背景中移動目標檢測是計算機視覺領域的研究熱點,在安防、監控、智能交通、機器智慧、以及軍事領域等社會生活和軍事防禦等諸多領域都有較大的實用價值。移動目標檢測的實質是從實時圖像序列中將圖像的變化區域從整體圖像中分割提取出來。
  • 給菜單拍張照,谷歌Lens告訴你什麼最好吃,兩百塊安卓手機就能實現 | 谷歌I/O又有黑科技
    再也不必邊翻炒邊用帶油的手指狂翻菜譜,或者來回戳屏幕滴鼻,谷歌希望,通過Google Lens,未來的電子雜誌可以真的自己動起來,「手把手」教你做菜👇有了谷歌鏡頭,實時翻譯一切她能看到的文字,無論是菜市場的價格表還是再ATM機器取錢,她終於獨立完成這些事情。更棒的是,谷歌成功的把實現這一功能的炫酷技術縮小到僅佔100KB,即使只有35美元(人民幣230元)的低檔安卓手機也可以使用!
  • 淘寶直播「一猜到底」——移動端實時語音識別技術方案及應用
    目前行業比較成熟的是服務端的語音識別方案,完全照搬服務端方案到移動端也不現實,需要創建一套適合移動端運行的語音識別方案。阿里達摩院語音實驗室早在2015年就研發出了第一代移動端離線語音識別方案,近來結合PAI模型壓縮、MNN高性能推理引擎,實現了移動端離線和流式端到端語音識別方案,滿足語音指令、語音識別、實時翻譯等場景需求
  • 天堂2M遊戲安卓版下載_天堂2M手遊安卓版下載_18183手機遊戲下載
    天堂2M安卓版下載是一款讓人越玩越上癮的遊戲。 《天堂2M》顧名思義,是一款依據《天堂M》IP打造的移動端遊戲,遊戲由NCsoft操刀,秉承《天堂2》世界觀。
  • 星露谷MOD安卓端教程:手機也想玩星露谷還要裝MOD?只看這篇文章就夠了!
    想順利遊玩安卓版星露谷物語,所需要用到的工具有:如果要跟PC端一樣安裝MOD和啟用漢化,還需要下載三種工具:本篇先講安裝原版星露谷物語的方法。再次提醒此種方法僅能遊玩原始星露谷,需要安裝MOD和中文翻譯的話還要下載上文提到的三個工具。Step1.
  • 數據科學工具包:手把手用YOLO做目標檢測
    其中,目標檢測是計算機視覺領域常見的問題之一,如何平衡檢測的質量和算法的速度很重要。對於這個問題,計算機視覺工程師、VirtusLab 創始人 Piotr Skalski 發表了自己的心得,分享了關於他最喜歡的計算機視覺算法 YOLO 的實踐資料。以下便是他的全文。
  • 綠幕通通扔掉 ੧ᐛ੭ | 谷歌AI實時「摳」背景
    為了讓影視製作簡單點,谷歌研發出了可以在手機端就實時摳背景的工具(暫時沒名兒)。這個實時摳背景的工具目前只出到Beta版,只在YouTube移動端上有。這個神經網絡框架,專為移動端設計。所以,在構建和訓練的過程中,谷歌給自己定了一些原則:這個摳背景的模型,幀數的處理得很講究。幀數不能太多,不然費算力,也無法及時出圖;但也不能太少,否則看起來卡頓。數據集為了訓練這個模型,谷歌標註了成千上萬個圖像。前景標出頭髮、眉毛、皮膚、眼鏡、鼻孔、嘴唇等。
  • 化身阿凡達,國外小哥開源 AI 實時變臉工具 Avatarify
    國外一位開發小哥覺得這樣開會太無聊,於是基於 first-order-model 開發了一個能夠把別人的照片套在自己臉上的「變臉」軟體 Avatarify,並將其開源。看過電影阿凡達(Avatar)的朋友應該對這款軟體的立意並不陌生,簡單理解就是把別人的臉套在自己的表情上實時驅動。
  • 谷歌的安卓系統在中國免費使用,那它是怎麼賺錢的?
    谷歌早期推出的安卓系統並不具備優勢,所以採用了開源的模式,也就是說你可以使用我的系統,但是需要保證其核心的框架不能改變。因此,像是華為、小米、OV等智慧型手機廠商都在使用安卓系統,一方面其成本低,一方面系統的性能表現也不錯。而在國內,谷歌的軟體系統都是無法使用的,因此安卓的系統可以免費使用。
  • 百度開源進行時
    在電影《反託拉斯運動》中,主人公在片尾大聲喊出的話,多年以後成了開源世界的「終極理想」。AI 接棒移動網際網路席捲著滔天巨浪而來,開源也從起初少數人關注的活動邊緣變成了硝煙瀰漫的中心戰場,開源變成了網際網路支撐技術的同時也不斷滲透到我們的生活,開放的開源技術讓價值回歸到開發者個人,也為我們日常使用的電腦、行動裝置,及其所連接的網絡提供了源源不斷的「動力」。
  • 華為的災難揭示了谷歌對安卓系統的鐵腕控制
    谷歌的安卓系統被認為是一個開放的,免費的,除了iPhone以外的任何人都可以使用的系統。國內手機軟體也都是採用安卓系統。然而,為了遵守美國政府最近的一項命令,谷歌撤銷了中國科技公司和智慧型手機製造商華為(Huawei)的許可,允許其使用安卓系統上的谷歌專有軟體。在這樣做的過程中,谷歌悄悄地暴露了它對其所謂開放的手機生態系統的強大控制力。
  • 谷歌用來殺死安卓的Fuchsia OS現在咋樣了
    安卓是谷歌作業系統的大兒子,由於各種原因,5年前谷歌老父想用Fuchsia OS取代安卓,而如今大哥Android 11和鄰家iOS 14都已亮相,Fuchsia夠否成功「弒兄登基」,今天就來聊聊這事兒。
  • 谷歌地圖重大升級,用深度學習實時更新街景
    ,谷歌地圖都為成千上百萬的人們提供方位指示,實時路況信息以及商業信息。街景車每天收集數百萬張圖片,如果用人工分析每天超過800億張高清晰圖片來找出其中的新變化或者更新地圖信息,顯然是不可能的。因此,谷歌地面實況團隊(Ground Truth team)的目標之一,就是從地理位置圖像自動提取信息來升級谷歌地圖。
  • 谷歌禁用GMS後的華為,未來將何去何從?
    安卓系統和安卓服務是兩碼事再探討谷歌GMS服務會對華為有什麼影響之前,我們應該先了解一下谷歌與安卓之間到底有哪些瓜葛。首先,我們平時經常說的安卓系統指的是「Android開放原始碼項目」(簡稱AOSP),初代系統由Andy Rubin開發,並在2005年8月有Google收購注資。