概述谷歌Pixel 4深度傳感uDepth工作原理和底層算法

2020-12-11 騰訊網

來源:映維網 作者 黃顏

確定場景三維信息的能力稱為深度感測,這對開發者和用戶都是一項十分有價值的工具。深度傳感是一個非常活躍的計算視覺領域,近年來的創新包括人像模式和AR等應用,以及諸如透明對象檢測等基礎感測創新。基於RGB的常見立體深度傳感技術需要十分高昂的計算,而且在低紋理區域會受到影響,並且在極低光照條件下會完全失效。

因為Pixel 4的人臉解鎖功能必須以高速執行並支持黑暗環境,所以它需要一種不同的解決放哪。Pixel 4的前端包含實時紅外有源立體深度傳感器uDepth。這項技術是Pixel 4的一項關鍵計算機視覺功能,有助於身份驗證系統識別用戶,同時能夠防止欺騙攻擊。另外,它支持一系列的新功能,如事後照片潤色、基於深度的場景分割、背景模糊、人像效果和3D照片等。

谷歌最近以Camera2 API的方式來提供了uDepth的訪問權限,允許使用Pixel Neural Core、兩個紅外攝像頭和一個紅外模式投影儀並以30Hz提供時間同步的深度幀。Google Camera App使用這個API為Pixel 4用戶的自拍帶來優化的深度功能。在這篇博文中,谷歌將向大家概要解釋uDepth的工作原理和底層算法,並用Piexl 4的示例結果對用例進行討論。下面是映維網的具體整理:

1. 立體深度感測的綜述

所有立體攝像頭系統都會採用視差重建深度。對於這種效果,你可以注視一個對象,閉合左眼,然後張開左眼並閉合右眼。你會發現對象的位置會出現移動,而越靠近的對象移動得越快。uDepth是Dense Local Stereo匹配技術家族的一員,其主要是通過計算來估計每個像素的視差。所述技術會在一個攝像頭形成的圖像中評估由每個像素包圍的區域,並嘗試在第二個攝像頭的相應圖像中尋找相似的區域。正確校準後,生成的重構屬於可度量,這意味著它們表示實際的物理距離。

為了處理無紋理區域和處理弱光條件,團隊使用了「有源立體」設置,將紅外圖案投影到由立體紅外攝頭機檢測到的場景中。所述方法提高了低紋理區域的可識別性,從而優化了識別效果並降低了系統的計算量。

2. uDepth與眾不同的地方

立體感測系統的運算量非常大。對於以30Hz頻率運行的感測器,其在保持高質量的前提下必須是低功耗。uDepth利用了眾多關鍵的見解來實現這一點。

其中之一是,給定一對彼此相似的區域,而大多數對應的子集同樣相似。例如,給定兩個相似的8×8像素塊,兩者左上的4×4子區域同樣可能相似。這將告知uDepth管道的初始化過程,後者通過比較每個圖像中的非重疊像素塊並選擇最相似的像素塊來構建深度建議金字塔。這個過程從1×1像素塊開始,並按層累積支持,直到生成初始低解析度深度映射。

在初始化之後,團隊應用一種全新的神經深度細化技術來支持Pixel 4的規則網格圖案照明器。典型的有源立體系統投射一個偽隨機網格圖案來幫助消除場景中的匹配歧義,但uDepth能夠支持重複的網格模式。重複結構產生的區域在立體對中看起來十分相似,並可能導致不正確的匹配。針對這個問題,團隊採用了輕量級卷積架構,通過紅外亮度和鄰近信息來調整不正確的匹配,而每幀耗時不到1.5ms。

神經深度細化架構

在神經深度細化之後,合適的深度估計將從相鄰的像素塊迭代傳播。這個和後續的管道步驟利用了uDepth成功的另一個關鍵洞察:自然場景通常是局部平面,只有很小的非平面偏差。這使得團隊能夠找到覆蓋場景的平面像素塊,然後只為一個像素塊中的每個像素細化單個深度,從而大大減少計算負載。

最後,從相鄰平面假設中選擇最佳匹配。

綠色組件由GPU運行,黃色組件由CPU運行,藍色組件則由Pixel Neural Core運行

當手機出現跌落情況時,這可能會導致立體攝像頭的出廠校準偏離實際位置。為了在實際使用中確保高質量的結果,uDepth系統支持自校準。計分程序評估每個深度圖像是否存在誤校準的跡象,並建立對設備狀態的信心。如果檢測到校準錯誤,則從當前場景重新生成校準參數。

左邊是未校準的立體深度;右邊是經過自校準後的立體深度

更多的信息請參閱Slanted O(1) Stereo。

3. 用於計算攝影的深度

uDepth傳感器的原始數據需要是精確和可度量,這是人臉解鎖的基本要求。諸如人像模式和三維照片等計算攝影應用有著非常不同的需求。在所述用例中,實現視頻幀速率並不重要,但深度應該是平滑的,邊緣對齊的,並且在彩色攝像頭的整個視場中都是完整的。

從左到右:原始深度感測結果,預測深度,3D照片

為了實現這一目標,團隊訓練了一個端到端的深度學習架構。它增強了原始uDepth數據,並推斷出一個完整、密集的3D深度映射。谷歌採用了RGB圖像、人像分割和原始深度的組合。

用於計算攝影深度的架構

為了獲得Ground Truth,團隊利用了一個體三維捕捉系統。這是一個配備有331個自定義彩色LED燈、一組高解析度色攝像頭和一組自定義高解析度深度傳感器的測地線球體,能夠生成接近照片真實感的人像模型。谷歌在設置中添加了Pixel4智慧型手機,並將它們與其他硬體(燈光和攝像頭)同步。生成的訓練數據包括Pixel 4視點真實圖像和合成渲染的組合。

數據獲取綜述

4. 將一切整合起來

當所有一切就位後,uDepth將能夠以30Hz產生深度數據流,並生成平滑的後處理深度映射。系統生成的平滑、密集、每像素深度支持啟用Social Media Depth功能的所有Pixel 4自拍照片,並且可用於社交媒體的散焦和3D照片等後期捕獲效果。

谷歌最後提供了一個演示應用,這樣你就可以利用uDepth提供的實時點雲可視化工具進行體驗。請點擊這裡下載(注,這個應用僅用於演示和研究目的,不用於商業用途;谷歌不會提供任何支持或更新)。這個演示應用會從你的Pixel 4可視化三維點雲。由於深度映射屬於時間同步,並且與RGB圖像位於同一坐標系中,所以可以顯示3D場景的紋理映射,如下面示例:

利用uDepth獲取的單幀RGB點雲示例

相關焦點

  • 從iPhone和Pixel 博弈,聊聊手機計算攝影的發展史
    Marc 和他的團隊在背後工作了 2 年多才完成 HDR+的產品化。 2017 Google Pixel 2 / XL 過了一年時,Pixel2 頂著皇冠問世。這一代,谷歌為了深度測算,拋棄了畫質更好的 IMX378,而換上了擁有雙像素的 IMX362 。
  • 谷歌Pixel 4配置全曝光!這外觀估計90%以上的人受不了
    早些時候,一份關於Pixel 4的規格配置意外流出,和先前坊間所預測的一樣,這份規格表提到:Pixel 4個Pixel 4L兩款機型將會搭載驍龍855處理器,並擁有6GB的RAM和90Hz的屏幕刷新率;兩款機型的不同主要體現在尺寸(分別為6.3吋和5.7吋)和電池容量(分別為3700mAh和2800mAh);在快閃記憶體規格上,兩款機型都會提供6GB和12GB的快閃記憶體容量選擇。
  • Google提出間接卷積算法,未來可會有突破?
    本文介紹的內容主要聚焦Google 的一項最新工作:改變基於 GEMM 實現的 CNN底層算法提出的新方法。通用矩陣乘法(General Matrix Multiply, GEMM)是廣泛用於線性代數、機器學習、統計學等各個領域的常見底層算法,其實現了基本的矩陣與矩陣相乘的功能,因此算法效率直接決定了所有上層模型性能,目前主流的卷積算法都是基於GEMM來實現的。
  • 深度學習算法 | LSTM算法原理簡介及Tutorial
    LSTM(Long Short-Term Memory)算法作為深度學習方法的一種,在介紹LSTM算法之前,有必要介紹一下深度學習(Deep Learning)的一些基本背景。目前在機器學習領域,最大的熱點毫無疑問是深度學習,從谷歌大腦(Google Brain)的貓臉識別,到ImageNet比賽中深度卷積神經網絡的獲勝,再到Alphago大勝李世石,深度學習受到媒體、學者以及相關研究人員越來越多的熱捧。這背後的原因無非是深度學習方法的效果確實超越了傳統機器學習方法許多。從2012年Geoffrey E.
  • 圖解- 立體視覺BM算法原理
    注意幾點:BM和SGBM算法對參數敏感,一定要耐心調節參數攝像頭一定要標定這些立體算法對光照敏感BM算法實現原理這種算法實現起來的優點就是快,缺點是深度圖的效果不是很好。BM算法只能對8為灰度圖像計算視差。
  • 雙攝像頭浪潮 榮耀V8雙攝像頭原理起底
    而黑白 sensor 的 pixel size(單像素尺寸) 是彩色sensor的 3~4 倍,原因是在彩色sensor中,每一個彩色pixel又會被分為四份,分別用於抓取R、G、B三種原色,而黑白sensor的每個pixel要麼是黑、要麼是白,即單個pixel只有黑或白一個選擇。從顏色的pixel size上看,黑白sensor的單個色彩感光面積是彩色sensor的3到4倍。
  • 谷歌Pixel 4a DXOMARK相機得分公布:111分
    DXOMARK官方公布了谷歌Pixel 4a的攝像頭測試成績:總體得分111分。DXOMARK官方評論稱,谷歌Pixel 4a照片屬性下大多數項目的成績都非常出色,其中,色彩和自動對焦最為優秀,在錄製視頻的時候表現也不錯。
  • 在計算攝影領域,蘋果直到iPhone 12才追上了谷歌Pixel
    iPhone 12 PM的鏡頭和傳感器之外,iPhone 12 大幅更新了 DeepFusion算法,終於在大部分日常用例下幾乎追平了谷歌Pixel。Marc和他的團隊在背後工作了2年多才完成HDR+的產品化。2017 Google Pixel 2 / XL過了一年時,Pixel 2頂著皇冠問世。這一代,谷歌為了深度測算,拋棄了畫質更好的IMX378,而換上了擁有雙像素的IMX362  。
  • 谷歌人工智慧算法RankBrain運行原理解析
    近日,新聞爆料說谷歌正在使用一個機器學習人工智慧系統「RankBrain」來對搜索結果排序。想知道它的工作原理以及如何在谷歌排序系統上運行嗎?以下是我們對RankBrain的全部了解。那麼RankBrain是谷歌Ranks搜索結果的新方式嗎?不,RankBrain只是谷歌眾多搜索算法的一部分,它是一套電腦程式,能把知識庫中上十億個頁面進行排序,然後找到與特定查詢最相關的結果。谷歌搜索算法的名字是什麼?
  • 振動傳感告警電路的工作原理
    打開APP 振動傳感告警電路的工作原理 工程師吳畏 發表於 2018-09-21 11:11:00 在振動傳感告警電路中,只要將電源開關S1撥到「接通」位置,電源指示燈LED1就立刻發光。
  • 從FPS到RTS,一文概述遊戲人工智慧中的深度學習算法
    深度學習概述本節我們概述了應用於電子遊戲中的深度學習方法,及多種方法結合起來的混合方法。A. 監督學習在人工神經網絡(ANN)的監督訓練中,智能體通過樣本進行學習 [56], [86]。在棋類遊戲中有重大意義的混合方法是 AlphaGo [97],該方法依賴深度神經網絡和樹搜索方法,打敗了圍棋領域的世界冠軍。3. 遊戲類型和研究平臺本節概述流行的遊戲類型和研究平臺(與深度學習相關)。我們簡略地概述了這些遊戲的特點和算法在玩遊戲時遇到的挑戰。
  • 陀螺儀工作原理
    導讀:本文主要介紹的是陀螺儀的工作原理,感興趣的童鞋們快來學習一下吧~~很漲姿勢的哦~~本文引用地址:http://www.eepw.com.cn/article/284585.htm
  • 射頻導納液位計的概述和測量原理
    射頻導納的液位計概述與測量原理:  射頻導納是一種從電容式發展起來的、防掛料、更可靠、更準確、適用性更廣的新型物位控制技術,是電容式物位技術的升級。所謂射頻導納,導納的含義為電學中阻抗的倒數,它由電阻性成分、電容性成分、感性成分綜合而成,而射頻即高頻無線電波譜,所以射頻導納可以理解為用高頻無線電波測量導納。
  • BAIR最新RL算法超越谷歌Dreamer,性能提升2.8倍
    具體來說,深度 Q 網絡(DQN)(Mnih et al., 2015)將異策略算法 Q-Learning 與卷積神經網絡作為函數逼近器相結合,將原始像素映射到動作價值函數裡。除此之外,價值分布強化學習(Bellemare et al., 2017)提出了一種通過 C51 算法預測可能值函數 bin 上的分布技術。
  • FACEBOOK/谷歌/微美全息等AI深度學習+AR技術助力交互顯示擴展應用...
    而AR(增強現實)則是真真假假,將真實的環境和虛擬的物體實時地疊加到同一個畫面或空間同時存在。有數據顯示,到2020年的時候整個AR和VR的整個市場將會達到1500億,但是在整個市場裡面AR,增強現實的市場是有1200億,VR的市場是300億,AR市場將是VR市場的4倍。
  • 【微分享】化糞池的概述、原理及分類
    化糞池化糞池是處理糞便並加以過濾沉澱的設備。2、在化糞池厭氧腐化的工作環境中,殺滅蚊蠅蟲卵。3、臨時性儲存汙泥,有機汙泥進行厭氧腐化,熟化的有機汙泥可作為農用肥料。4、生活汙水的預處理(一級處理),沉澱雜質,並使大分子有機物水解,成為酸、醇等小分子有機物,改善後續的汙水處理。
  • 熱招職位-算法類
    智能圖像/視頻處理算法工程師工作職責1. 新算法預研、開發、測試、實施。2. 現有產品線相關算法升級維護。3. 對特定算法模塊進行研究、仿真、開發和測試,並根據測試結果對算法模塊進行優化和改進。4. 根據開發計劃和設計分工,制定所負責研發內容的詳細設計說明書。5.
  • 無線傳感網絡中的自適應入侵檢測算法
    無線傳感網絡中的自適應入侵檢測算法[J]. 導航定位學報, 2020, 8(4): 106-110.(SU Ming.Adaptive intrusiondetection in wireless sensor networks[J].
  • Pixel 4完整配置曝光:谷歌想透露、不想透露的,都在這裡了!
    據接觸過早期產品的人說,後蓋玻璃和外錶帶都有紋理啞光處理,可以抵抗指紋和汗水。值得注意的是:因為洩露的照片和視頻都是Pixel 4 XL的,所以Pixel 4可能在某些方面看起來不一樣。但是Pixel 3、Pixel 3 XL和Pixel 3A的設計還是非常相似的。配色已知信息:Pixel 4的配色包括黑色和橙色。
  • 《機器學習-原理、算法與應用》出版了
    機器學習和深度學習最近幾年發展很快,新方法和理論層出不窮。若非頻繁的更新,經典的教材要跟上時代的步伐絕非易事。另外,由於作者自己的知識面和偏好,能夠全面覆蓋機器學習和深度學習主要算法的書屈指可數。當然,是否要在一本書裡同時講機器學習和深度學習也是有爭議的。2.表述是否淺顯易懂而又不失深度。在這方面,PRML堪稱優秀代表,作者語言樸實易懂,將各種算法和理論闡述的非常清晰。