通過引入 ML,谷歌 ARCore 實時自拍 AR 的逼真效果更進一步

2021-01-10 雷鋒網

雷鋒網 AI 科技評論按:ARCore 是谷歌於去年 2 月份正式推出的 增強現實(AR)軟體開發工具包,給開發者提供了一個開發 AR APP 的平臺。不到一個月前,谷歌正式推出 ARCore 1.7 版本,為其添加了前置攝像頭 AR 自拍能力以及動畫效果支持;而日前,谷歌又為其引入了機器學習技術,使其實時自拍 AR 的逼真效果更進一步,該技術相關的文章發布在谷歌 AI 的官方博客上,雷鋒網(公眾號:雷鋒網) AI 科技評論編譯如下。

增強現實(AR)通過將數字內容與信息疊加到物質世界的真實場景中,來讓人類實現超越現實的感官體驗。例如,谷歌地圖的 AR 功能,能夠在現實場景中疊加方向信息來為你指路。藉助於 Pixel 相機中的 Playground 模式,你可以使用 AR 從不同的視角看世界。並且通過藉助於最新發布的「YouTube Stories」以及 ARCore 全新的面部增強(Augmented Faces)API,你可以在自拍上添加動畫面具、眼鏡、帽子、皮膚等特效。

實現這種 AR 功能的關鍵挑戰之一,就是以合適的方式將虛擬內容錨定到現實世界:這一過程需要一套能夠追蹤到每一次微笑、皺眉或假笑的高動態表面幾何結構的獨特的感知技術。

ARCore 的 3D 網格以及它能實現的一些特效

為此,我們引入了機器學習(ML)技術來推斷近似的 3D 表面幾何結構,並且僅需要用到一個單攝像頭輸入而無需使用專用的深度傳感器。這種方法利用面向移動 CPU 界面推斷或其可用的全新移動 GPU 功能的 TensorFlow Lite,實現了逼真的實時 AR 效果。與「 YouTube Stories」 全新的創作者特效所利用的技術一樣,這項技術已通過最新的 ARCore SDK 和 ML Kit Face Contour Detection API 向廣泛的開發者社區開放。

用於自拍 AR 的機器學習工作流

我們的機器學習工作流由兩個協同工作的實時深度神經網絡模型組成:一個是探測器,它在整張圖像上運行並計算出面部位置;另一個是通用的 3D 網格模型,它在探測器計算出來的面部位置上運行,並通過回歸預測近似的表面幾何結構。精確地裁剪面部能夠極大地減少對一般的數據增強的要求,例如由旋轉、平移和比例變換組成的仿射變換(affine transformations)等,同時讓網絡將大部分性能投入於預測坐標來提高其準確性——這對於錨定合適的虛擬內容至關重要。

裁剪完所關注的位置後,該網格網絡一次僅應用於一個單幀,並利用加窗平滑(windowed smoothing)來減少面部處於靜態時的噪音,同時避免在大幅移動期間出現的延遲。

活動中的 3D 網格

針對 3D 網格,我們採用了遷移學習,並訓練了一個具有多個目標的網絡:該網絡能夠同時地基於合成、渲染的數據預測 3D 網格坐標以及基於類似於 MLKit 所提供的帶有注釋的、現實世界的數據預測 2D 語義輪廓。最終的網絡為我們提供了基於合成數據乃至現實世界數據的合理的 3D 網格預測。所有模型都在源自於地理學多樣化的數據集的數據上進行訓練,並接著在平衡、多樣化的測試集上進行定性和定量性能的測試。

3D 網格網絡接收經裁剪的視頻幀作為輸入。由於它不依賴於額外的深度輸入,因而也可以應用於預先錄製的視頻。該模型不僅輸出 3D 點的位置,還輸出在輸入中存在併合理對齊的面部概率。一種常見的替代方法就是為每個地標預測出 2D 熱圖,但這種方法並不適用於深度預測,並且對於如此多的數據點來說,使用這種方法耗費的計算成本非常高。

通過迭代自展和精煉預測,我們進一步提高了模型的準確性和魯棒性,同時也將數據集發展成為愈加具有挑戰性的實例,如鬼臉,拍攝角度傾斜以及面部遮擋等。此外,數據集增強技術也擴展了可用的 ground truth 數據,並開發出了對攝像頭瑕疵等人工產品問題或極端光照條件具有彈力的模型。

數據集擴展和改善路徑

專為硬體定製的界面

我們使用 TensorFlow Lite 進行設備內置的神經網絡推理。新推出的 GPU 後端加速能夠有效提升性能,並顯著降低功耗。此外,我們還設計了具有不同性能和效率特性的一系列模型架構,來覆蓋到更加廣泛的消費級硬體。較簡單網絡之間的最重要的區別就在於殘差塊(Residual Block)設計和可接受的輸入解析度(最簡單模型中的輸入解析度為 128×128 像素,而最複雜模型中的輸入解析度為 256×256)。同時,我們還改變了層數以及子採樣率(輸入解析度隨網絡深度的減少而減少的速度)。

每一幀的推斷時間: CPU vs. GPU

這一系列的優化的結果就是:使用更簡單的模型帶來了實質性的加速,同時也將 AR 特效質量的降低幅度最小化。

最複雜模型(左)和最簡單模型(右)的比較:在簡單模型上,時序一致性以及對嘴唇、眼睛的追蹤稍微降低。

這些成果最終則能夠通過以下方式,讓用戶在 YouTube、ARCore 以及其他客戶端體驗到更加逼真的自拍 AR 效果:

另外,我們還通過以下方式實現了逼真的妝容效果:

對應用到嘴唇上的鏡面反射進行建模;

利用亮度感知材料來實現面部著色。

案例對比: 5 個目標在不同光線下的真實化妝效果以及 AR 化妝效果

我們很高興將這項新技術分享給創作者、用戶以及開發者。感興趣的讀者可以通過下載最新的 ARCore SDK (下載地址:https://developers.googleblog.com/2019/02/new-ui-tools-and-richer-creative-canvas.html)來將這項技術用起來。未來,我們還計劃將這項技術廣泛應用到更多的谷歌產品線中。

via:https://ai.googleblog.com/2019/03/real-time-ar-self-expression-with.html 雷鋒網

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 2020谷歌開發者大會:AR軟體工程總監介紹ARCore最新動態
    Google 開發者大會 (Google Developer Summit) 是谷歌面向開發者展示最新產品和平臺的年度盛會。2020 Google 開發者大會於 11 月 16 日 至 21 日舉行,這是谷歌首次以全線上大會的形式與中國開發者相聚。
  • 2020 Google 多項 ARCore 更新帶來AR開發全新可能!
    基於 ARCore 技術,滴滴構建了一個實景導航解決方案,實時識別用戶和環境之間的定位關係,AR 實景導航引導信息逼真地和實景環境相結合,用戶只需要跟著 AR 路標走,直接跳過轉換 2D 地圖信息的步驟。在這個過程中,ARCore 的環境理解和運動跟蹤功能,確保手機始終識別用戶方位,給出正確的路標指導。
  • GUCCI APP引入腕錶AR技術
    Gucci App於去年率先引入AR (增強現實) 技術,可使用戶以虛擬方式對產品進行「雲試穿/試戴」。該技術最初應用於Ace運動鞋,如今也可用於Gucci腕錶。該項舉措見證了Gucci創作總監亞力山卓·米開理 (Alessandro Michele) 融合傳統與現代、復古與科技、真實與虛擬的超群能力。
  • 2020 Google 開發者大會:多項 ARCore 更新帶來AR開發全新可能!
    基於 ARCore 技術,滴滴構建了一個實景導航解決方案,實時識別用戶和環境之間的定位關係,AR 實景導航引導信息逼真地和實景環境相結合,用戶只需要跟著 AR 路標走,直接跳過轉換 2D 地圖信息的步驟。在這個過程中,ARCore 的環境理解和運動跟蹤功能,確保手機始終識別用戶方位,給出正確的路標指導。
  • iPhone X「劉海」裡的黑科技,將顛覆自拍P圖和AR相機
    但和上面的萌寵 AR 效果簡單地把一些元素添加到用戶頭像上(兩個耳朵的位置明顯有些歪)不同,iPhone X 上臉譜和人臉實現了立體的融合,而且貼合很好,追蹤也相當迅速,以至於用戶眨眼的瞬間臉譜都可以實時地進行反應,見視頻中第 2 秒開始處。
  • NMT 引入行動裝置,Google Translate 離線翻譯更逼真
    谷歌 12 日在官網宣布已將神經機器翻譯(Neural Machine Translation,NMT)技術應用到行動裝置 Android 和 iOS 上,使得 Google Translate
  • 谷歌地圖測試速度更快的AR實時視圖
    上個月谷歌為了慶祝谷歌地圖成立15周年,為谷歌地圖推出了新的圖標,並且重新設計了行動應用程式。谷歌還預覽了一些即將推出的功能,現在正在測試地圖導航之外更快的實時視圖(Live View)訪問。谷歌之前在2018年I/O大會上展示了使用增強現實技術獲得路線指引的功能,該功能去年在Android和iOS上廣泛推廣。
  • 谷歌優化Live View AR實時定位功能準確性
    近期據外媒報導,谷歌更新地圖應用的AR實時視圖(Live View)功能,旨在提升基於視覺識別的AR定位準確性。通常,當你打開Live View模式後,可通過掃描周圍建築、路標等目標來進行定位,幫助谷歌地圖識別你前面的方向。
  • 谷歌「升維打擊」:還原任意角度光照立體效果,2D變「4D」
    上面的結果,同樣是用幾張2D照片作為輸入,但有實時光影效果的生成結果,更加逼真生動,讓人有些「鬥轉星移」的錯覺。研究人員引入神經能見度場參數來彌補這一點,它允許有效查詢模擬光傳輸所需的光線和像素點之間的能見度。具體來說,NeRV網絡還原4D效果有3步,分別對應著3D場景生成、光影效果模擬、渲染。神經反射場NeRF並沒有將入射光線的效果與表面的材料屬性分開。
  • 谷歌地圖成立15周年 正在測試速度更快的AR實時視圖
    上個月谷歌為了慶祝谷歌地圖成立15周年,為谷歌地圖推出了新的圖標,並且重新設計了行動應用程式。谷 歌還預覽了一些即將推出的功能,現在正在測試地圖導航之外更快的實時視圖(Live View)訪問。谷歌之前在2018年I/O大會上展示了使用增強現實技術獲得路線指引的功能,該功能去年在Android和iOS上廣泛推廣。當前,您可以通過執行相同的步驟來啟動步行路線,然後點擊「實時顯示」以打開基於攝像頭的UI來訪問它。雖然過程很熟悉,但它很隱蔽,很容易遺漏。Google現在使實時視圖(Live View)在應用程式中更加突出。
  • 谷歌更新地圖應用AR實時視圖功能 提升基於視覺識別的AR定位準確性
    近期據外媒報導,谷歌更新地圖應用的AR實時視圖(Live View)功能,旨在提升基於視覺識別的AR定位準確性。  通常,當你打開Live View模式後,可通過掃描周圍建築、路標等目標來進行定位,幫助谷歌地圖識別你前面的方向。
  • Chrome瀏覽器增添AR效果,谷歌詳解Web AR實現技術
    谷歌一直很重視Web端的VR/AR體驗,依靠Daydream VR平臺,谷歌在Chrome瀏覽器上支持VR效果現在,經過一段時間的開發和探索,谷歌開始正式展示Chrome上的AR效果。   谷歌在其博客上表示:「在接下來幾個月,會有上億的設備安卓和iOS設備支持AR體驗,也就是說,通過手機,你可以把虛擬物體放置在現實世界中。為了使儘可能多的人能夠體驗這個產品,我們一直在探索如何在網頁端實現虛擬實境效果,此後所有人通過瀏覽器就能獲得神奇的AR體驗。」
  • 《精靈寶可夢Go》將支持AR實時遮擋 3D地圖掃描也將上線
    近期,繼《Ingress》之後,Niantic又宣布將在《精靈寶可夢Go》中結合3D掃描玩法,旨在通過收集部分玩家的3D空間數據來優化遊戲地圖和AR的體驗感。除了3D掃描外,《精靈寶可夢Go》還將支持AR實時遮擋(Reality Blending),也就是說虛擬小精靈將與物理環境自然融合和交互,遵循物理空間的遮擋規律。
  • 用戶還可以從谷歌地圖的公交標籤中訪問實時取景
    Google Maps在其增強現實「實時查看」導航模式中引入了一項新功能。這項新功能將顯示附近的地標,因此您可以根據周圍環境輕鬆確定自己的位置。通過更新,實時取景將向您顯示某些地標的距離以及到達該地所需的行駛方向。舉例來說,如果您要前往紐約的帝國大廈,就會看到增強現實中的大頭針。如果您正在度假並且不熟悉周圍的環境,則查看附近的地標是快速找出您所在位置的好方法。
  • Chrome瀏覽器增添AR效果 谷歌詳解Web AR實現技術
    谷歌一直很重視Web端的VR/AR體驗,依靠Daydream VR平臺,谷歌在Chrome瀏覽器上支持VR效果。
  • 這10張圖片只能通過谷歌衛星地圖才能看到,哭泣的猴子如此逼真
    谷歌地圖的衛星圖像給人們提供了一個不出門遍覽天下奇觀的捷徑,通過谷歌地圖,人們不僅可以到那些平生可能無法到達的景點遊覽,更可以看到很多即使到了目的地,也無法欣賞到的自然和人文奇觀。圖一,這是位於英國某地的一個巨大的指紋。
  • 2020 Google開發者大會:AR技術大神講解ARCore深度API運作方式
    之前Google大中華區ar/vr負責人熊子青也曾講述,ARCore是Google為安卓平臺製作的AR開發平臺,目前在全球支持超過5億臺設備。其核心能力是運動追蹤、環境理解和光估測。現在已經有很多APP使用ARCore製作出各種各樣的豐富體驗。
  • Facebook用「SLAM+實時光流」實現AR真實遮擋效果
    所以,大多數AR效果都是純粹的疊加層,無法實現真實的對象遮擋效果。針對這種情況,Facebook提出了一種新穎算法,其可以將稀疏深度實時傳播至每個像素。生成的深度圖在時間空間方面十分平滑,但在深度邊緣顯示出明顯的不連續性。這使得AR效果可以與真實場景完全交互並被其遮擋。
  • 哪裡可以找到谷歌超清實時衛星地圖?
    哪裡可以找到谷歌超清實時衛星地圖?針對這個問題,這篇文章將告訴你答案,並教你怎麼下載谷歌超清衛星地圖…… 本文概要 谷歌有實時衛星地圖嗎? 怎麼下載谷歌超清衛星地圖?
  • 谷歌AutoML鼻祖新作AutoML-Zero:從零開始構建機器學習算法
    【新智元導讀】市面上的自動機器學習算法多如牛毛,但並沒有得到很好的普及,因為這些算法限制了搜索的空間,很多研究者還是需要自己設計機器學習模型的結構,而谷歌此次發布的AutoML-Zero搜索空間完全沒有限制,可以從最基礎的數學公式開始。「新智元急聘主筆、編輯、運營經理、客戶經理,添加HR微信(Dr-wly)了解詳情。」