谷歌用MediaPipe實現手機高效實時3D對象檢測

2020-12-23 砍柴網

來源:映維網 作者 廣州客

對象檢測是一個廣泛研究的計算機視覺問題,但大多數研究都集中在2D對象預測方面。2D預測僅提供2D邊界框,但通過將預測擴展到3D,我們可以捕獲對象的現實世界大小,位置和方向,從而在機器人技術,自動駕駛汽車,圖像檢索和增強現實等領域實現一系列的用例。儘管2D對象檢測相對成熟並已在行業中廣泛應用,但由於缺乏數據,以及對象外觀和形狀的多樣性,基於2D圖像的3D對象檢測依然是一個十分具有挑戰性的課題。

針對這個問題,谷歌日前發布了用於日常對象的實時3D對象檢測管道MediaPipe Objectron。所述工具可以檢測2D圖像中的對象,並利用由新建3D數據集進行訓練的機器學習模型來估計其姿態和大小。MediaPipe是一個開原始碼跨平臺框架,主要用於構建用於處理不同形式的感知數據的管道,而Objectron在MediaPipe中實現,並能夠在行動裝置中實時計算面向對象的3D邊界框。

根據單張圖像進行3D對象檢測。MediaPipe Objectron可以支持確定行動裝置實時確定日常對象的位置,方向和大小。

1. 獲取真實世界3D訓練數據

由於依賴於3D傳感器(如LIDAR)的自動駕駛汽車研究日益普及,業界存在用於街景的大量3D數據,但包含面向日常對象的ground truth 3D注釋的數據集依然非常有限。為了克服這個問題,谷歌團隊利用移動增強現實會話數據開發了一種全新的數據管道。隨著ARCore和ARKit的到來,數億智慧型手機現在已經具有AR功能,並且能夠在AR會話中捕獲更多信息,包括camera姿態,稀疏3D點雲,估計照明和平面。

為了標記ground truth數據,團隊構建了一個新穎的注釋工具以搭配AR會話數據,從而允許Annotator可以快速標記對象的3D邊界框。工具利用分屏視圖來顯示2D視頻幀,在左側疊加3D邊界框,並在右側顯示3D點雲,camera位置和檢測平面。Annotator在3D視圖中繪製3D邊界框,並通過查看2D視頻幀中的投影來驗證其位置。對於靜態對象,我們只需要在單幀中注釋對象,並使用來自AR會話數據的ground truth camera姿態信息將位置傳播到所有幀。這可以大大提高過程的效率。

用於3D對象檢測的真實數據注釋。右:在3D世界中檢測表面和點雲標註3D邊界框。左:帶注釋3D邊界框的投影疊加於視頻幀,從而便以驗證注釋。

2. 增強現實合成數據生成

為提高預測的精度,一種流行的方法是用合成數據補充現實世界的數據。但這種方式做通常會帶來糟糕的,不真實的數據,或者在圖像真實感渲染時需要大量的精力和計算量。所以谷歌提出了一種名為AR Synthetic Data Generation(增強現實合成數據生成)的新穎方法。它可以將虛擬對象放置到具有AR會話數據的場景中,允許你利用camera姿態,檢測平面和估計照明來生成物理可能的位置,以及具有與場景匹配的照明。這種方法可生成高質量的合成數據,其包含的渲染對象能夠尊重場景的幾何形狀並無縫地適配實際背景。通過結合現實世界數據和增強現實合成數據,谷歌表示精度提高了約10%。

增強現實合成數據生成的一個示例:虛擬白褐色穀物盒渲染到真實場景中,緊鄰真實藍皮書。

3. 用於3D對象檢測的機器學習管道

為了從單個RGB圖像預測對象的姿態和物理尺寸,谷歌構建了一個單階段模型。所述模型主幹具有基於MobileNetv2構建的編碼器-解碼器架構。團隊採用多任務學習方法,通過檢測和回歸來共同預測對象的形狀。形狀任務根據可用的ground truth注釋來預測對象形狀信號。這屬於可選選項,可用於訓練數據中缺乏形狀注釋的情況。對於檢測任務,團隊使用帶注釋的邊界框並將高斯擬合到框,中心位於框質心,標準偏差與框大小成正比。回歸任務估計八個邊界框頂點的2D投影。為了獲得邊界框的最終3D坐標,團隊利用了完善的姿態估計算法(EPnP)。它可以恢復對象的3D邊界框,無需事先知曉對象的尺寸。給定3D邊界框,團隊可以輕鬆計算對象的姿態和大小。下圖是具體的網絡架構和後處理。所述模型非常輕巧,可以支持行動裝置實時運行(在Adreno 650移動GPU為26 FPS)。

用於3D對象檢測的網絡架構和後處理。

網絡的樣本結果:左邊是帶有估計邊界框的原始2D圖像;中間是高斯分布的對象檢測;右邊是預測的分割蒙版。

4. MediaPipe中的檢測和跟蹤

當將模型應用於行動裝置捕獲的每個幀時,由於每幀中估計的3D邊界框的歧義性,模型可能會遭受抖動影響。為了緩解這種情況,谷歌採用了最近發布在2D object detection and tracking(2D對象檢測和跟蹤)解決方案中的檢測+跟蹤框架。所述框架能夠減輕在每幀運行網絡的需求,從而支持計算量更大但因而更為準確的模型,同時在行動裝置保持管道實時進行。它同時可以跨幀保留對象身份,並確保預測在時間方面維持一致,從而減少抖動。

為了進一步提高移動管道的效率,團隊只是每隔幾幀運行一次模型推斷。接下來,谷歌利用以前介紹過的方法進行預測並隨時間進行跟蹤。當做出新的預測時,他們將根據重疊區域把檢測結果與跟蹤結果合併。

鼓勵開發者和研究人員根據其管道進行實驗和原型設計,谷歌將在MediaPipe中發布所述的機器學習管道,包括端到端的移動演示應用,以及針對鞋子和椅子這兩個類別的訓練模型。谷歌表示:「我們希望通過與廣泛的研究和開發社區共享我們的解決方案,這將能夠刺激新的用例,新的應用和新的研究工作。我們計劃在未來將模型擴展到更多類別,並進一步提高設備性能。」

原文連結:https://yivian.com/news/72732.html

相關焦點

  • 谷歌開發手部識別系統,適配跨平臺框架MediaPipe,手機可用!
    不需要高性能的GPU、TPU,在手機上就能用!什麼是手部追蹤呢?來看一下下面這張動圖就知道了。通過MediaPipe在手機上實現實時3D手部只要把你的手往鏡頭前一伸,該系統就可以通過使用機器學習(ML)從單個視頻幀推斷出手部的21個骨骼關鍵點(每根手指4個,手掌1個)的位置
  • 谷歌繼續開源新AI框架,可實現手機高效實時3D目標檢測
    3月12日,谷歌AI在其官方博客上發布了一款名為MediaPipe Objectron的算法框架,利用這個算法框架,只要一部手機,就能實時從2D視頻裡識別3D物品的位置、大小和方向。這一技術可以幫助機器人,自動駕駛汽車,圖像檢索和增強現實等領域實現一系列的應用。
  • 谷歌發布 MediaPipe Holistic,實現移動端同時進行人臉、手部和...
    MediaPipe Holistic為突破性的 540 多個關鍵點(33 個姿勢、21 個手和468 個人臉關鍵點)提供了統一的拓撲結構,並在行動裝置上實現了近乎實時的性能。 在行動裝置上對人體姿勢、人臉關鍵點和手部追蹤的實時同步感知,可以實現各種有趣的應用,如健身和運動分析、手勢控制和手語識別、增強現實效果等。 谷歌之前發布的MediaPipe就是一個專門為GPU或CPU而設計的開源框架,已經為這些單個任務提供了快速、準確而又獨立的解決方案。
  • 你們還在做2D的物體檢測嗎?谷歌已經開始玩轉 3D 了
    在當前條件下,如何基於現有的 2D 圖像數據來做3D 檢測呢?日前,谷歌發布了一個針對日常物體的移動實時 3D 物體檢測管道——MediaPipe Objectron。該管道可以檢測2D圖像中的物體,然後通過機器學習模型估計物體的姿勢和大小,再在谷歌最新開發的3D數據集上對模型進行訓練。
  • MediaPipe 集成人臉識別,人體姿態評估,人手檢測模型|image|數據流...
    一款多媒體機器學習應用的成敗除了依賴於模型本身的好壞,還取決於設備資源的有效調配、多個輸入流之間的高效同步、跨平臺部署上的便捷程度、以及應用搭建的快速與否。  基於這些需求,谷歌開發並開源了MediaPipe項目。
  • 谷歌開源基於 ML 的手部跟蹤算法:手機端實時檢測,多個手勢同時捕捉
    利用上述技術,我們實現了對手掌的平均檢測精度為 95.7%;而使用常規的交叉熵損失並且在沒有解碼器的情況下,檢測精度基準僅為 86.22%。 手部標誌模型 在對整個圖像進行手掌檢測後,我們隨後的手部標誌模型通過回歸對檢測到的手部區域內的 21 個 3D 手關節坐標進行精確的關鍵點定位,即直接對坐標進行預測。
  • 谷歌發布MediaPipe Holistic,優化人體姿態、面部和手部
    原標題:谷歌發布MediaPipe Holistic,優化人體姿態、面部和手部(映維網 2020年12月11日)支持行動裝置實時、同步地感知人體姿態和面部特徵並進行手部追蹤,這可以實現多種有影響力的應用,如健身和運動分析、手勢控制和手語識別、以及增強現實效果等等。
  • 4米以內實現遠程手勢控制!谷歌AI新研究讓你拋掉鍵鼠操控屏幕
    在行動裝置上實時、同步地感知人體姿勢、臉部標記和手勢跟蹤等可以實現各種有趣的應用,例如健身和運動分析、姿態控制和手語識別、擴增實境效果等等。谷歌的MediaPipe 是一個開源框架,專門為複雜的感知管道設計,利用加速推理(例如 GPU 或 CPU) 等已經為這些任務提供了快速、準確、獨立的解決方案。
  • 在手機上實現實時的單目3D重建
    在手機上實現實時的單眼3D重建  這是一篇由浙江大學和商湯合作完成,在ISMAR2020 上獲得BestPaper的研究。    本文展示了在手機上實現實時單眼3D重建的系統,稱為Mobile3DRecon。該系統使用嵌入式單眼相機,在後端提供了在線網格生成功能,並在前端提供了實時6DoF姿勢跟蹤,以供用戶在手機上實現具有真實感的AR效果。
  • 谷歌黑科技實現視頻背景實時「摳像」
    為此,谷歌開發了一種新技術,可實時刪除視頻中人物的複雜背景。   根據谷歌的說法,將人從背景中分離出來使用了「卷積神經網絡(CNN)」技術,它常被用於機器學習。從演示圖像能夠看出,人物的真實背景被刪除,換上了一些虛擬的背景,並且也沒有特別假的感覺。
  • Wider Challenge結果爆出,實時3D對象探測技術發布
    新的方法毋庸置疑會推動並構建有效的系統,使得人們在人臉檢測和物體檢測方向中解決一些更為嚴峻的問題。原文:https://arxiv.org/abs/1902.06919v1PIXOR:來自點雲的實時3D對象探測新研究發現了一個新的單階段檢測器模型——PIXOR,可以從像素神經網絡預測解碼,從而輸出實時的、基於3D
  • 中國AI同傳遭質疑之時,谷歌實時翻譯也被吐槽了
    谷歌實現了文本-文本的精準翻譯,但由於環境噪聲和特定口音、俗語、習語數據缺乏,導致語音實時翻譯並不精準。谷歌去年推出了無線耳機Pixel Buds,此前該公司曾大肆宣傳過這款產品,稱其是一款革命性的工具,支持實時翻譯功能。只要輕敲Pixel Buds,說「幫我說」,它就會打開你手機上的谷歌翻譯應用。現在,Pixel手機也同樣支持這個功能。接著,你可以說出句子,谷歌翻譯會在手機上將其翻譯成目標語言,並進行轉錄,然後讀出來。理論上,谷歌的新技術甚至會讓口譯翻譯們擔心丟掉工作。
  • Google為Pixel智能機推出谷歌地球/實時趨勢動態手機殼
    (原標題:Google為Pixel智能機推出谷歌地球/實時趨勢動態手機殼)
  • 谷歌用AI模型實現「實時」天氣預報
    本周,谷歌在自己的官方博客上發表了最新一項研究,該研究利用谷歌自己訓練的人工智慧(AI)模型,能夠大大增強「實時」天氣預報的能力。谷歌稱,這項工作尚處早期階段,目前也未商業化,但研究結果令人滿意。在這篇尚未經過同行審議通過的論文中,谷歌研究員介紹了他們如何利用人工智慧模型,僅耗時數分鐘時間,提前6小時實現了一公裡範圍內準確的降雨預測。僅用數分鐘的計算時間能提前6小時實現降雨預測,這與目前的天氣預報水平相比,有了巨大的提升。谷歌研究人員表示,快速的預測有著極大的現實意義,這將有效適應氣候變化,特別是極端天氣狀況下,快速預測會是一個非常重要的工具。
  • 深度學習資訊,MediaPipe Iris實時虹膜跟蹤和深度估計!
    基於我們在MediaPipe Face Mesh上的工作,該模型能夠使用單個RGB攝像機實時跟蹤涉及虹膜,瞳孔和眼睛輪廓的界標,而無需專用硬體。通過使用虹膜界標,該模型還能夠在不使用深度傳感器的情況下確定相對誤差小於10%的對象和相機之間的度量距離。請注意,虹膜跟蹤不會推斷人們正在看的位置,也不能提供任何形式的身份識別。
  • 谷歌展示谷歌助手新功能:實時翻譯和語境理解
    目前尚不清楚,谷歌將於何時推出谷歌助手的這些更新。業內人士猜測,這可能會是在Pixel 2手機發布期間。 (原標題:谷歌展示谷歌助手多項新功能:實時翻譯和語境理解)
  • 谷歌翻譯將升級:可實現實時聽譯和拍照翻譯
    據《紐約時報》報導,谷歌計劃針對旗下翻譯應用進行全新升級,支持將語音翻譯成所需語言的文本。目前,谷歌翻譯(Google Translate)支持90種語言的翻譯。此前,微軟旗下視頻通話服務Skype已推出語音翻譯功能,而谷歌也將對其翻譯應用進行類似升級。
  • 外媒:谷歌Gboard翻譯模式增加了實時語音轉錄功能
    【手機中國新聞】據外媒AndroidPolice消息,谷歌的鍵盤應用程式通過9.7 beta版進行了另一項重大升級。谷歌現在已經推出了新的實時語音轉錄和翻譯功能。轉錄和翻譯文本對於Gboard來說並不是新功能,但現在已經合為一體。
  • 3d建模軟體手機版有哪些?這3款好用的手機3d建模軟體你一定要有
    3d建模軟體手機版有哪些?對於一些三維設計師來說,能夠在手機上隨時隨地進行三維建模是一件很方便的事。本期,模型云為您整理了這3款好用的手機3d建模軟體介紹,快來和我們一起看看吧!3款好用的手機3d建模軟體3d建模軟體手機版一:MeshMixerMeshMixer是一款操作簡單的手機3d建模工具,其主要功能包括3D列印改進、製造切片工具、拖放及把原本組合在一起的多個不同的幾何體分成單獨的對象等,且支持PLY二進位格式、3Dconnexion
  • 谷歌如何通過機器學習實現逼真AR實時自拍效果
    為了實現這一切,谷歌採用機器學習來推斷近似的3D表面幾何形狀,只利用一個攝像頭輸入而無需專用的深度傳感器。利用面向移動CPU界面的TensorFlow Lite或可用的全新移動GPU功能,這種方法帶來了實時速度的AR效果。