不僅僅是大量傳感器和攝像頭,谷歌Starline 3D視頻方案解析

2021-12-24 青亭網

Esther｜編輯

在今年Google I/O大會上，谷歌展示了一款3D顯示、實時視頻壓縮、空間音頻、計算機視覺、機器學習等技術的3D光場顯示方案：Project Starline。該方案的特點是，可顯示具有體積和深度的立體視覺，讓視頻通話體驗看起來更加生動，沉浸感更強。

近期，谷歌實驗室公布了該項目背後的技術細節，包括採用的攝像頭、紅外傳感器等硬體，以及如何在測試過程中，通過精準的視覺模擬來欺騙用戶的觀感。

簡單來講，Starline可以看做是一種專為面對面會議設計的雙向3D電話亭，它可以實時掃描使用者的3D形象，然後在另一端的光場顯示器上實時呈現立體的視頻圖像，這種立體視頻裸眼可觀看，無需額外的頭顯。此外，聲音也以3D空間音頻形式呈現，通話者的注視點也會實時追蹤和更新，看起來足夠真實。

因此，使用兩個Starline方案，便可以實現多人遠程3D通話。由於Starline本身也是一個光場顯示屏，因此你可以從多個角度查看視頻中的通話者，仿佛那個人就在一片玻璃後面那樣，你們甚至可以實現對視。

據青亭網了解，Starline包含三組立體雙攝像頭（每組包含一顆1600x1200 RGB攝像頭，以及一對1280x1024單色近紅外3D攝像頭），分別位於屏幕的下方和上方（左右兩側），此外還配備四個紅外投影儀模組，兩個紅外聚光燈，另外還有四個定位攝像頭（實時追蹤眼鏡、耳朵和嘴），四個RGB攝像頭（屏幕下方的一個RGB攝像頭對準脖子、面部和下巴，上方的攝像頭捕捉手勢、頭部和軀幹）。其中，Starline使用兩組立體攝像頭來捕捉使用者的面部和上半身形象，並實時生成3D模型。

配備如此多的傳感器硬體，Starline的成本也很高，因此目前僅在谷歌內部使用。從5月以來，該方案在谷歌辦公室的使用規模越來越廣泛，累計測試時間長達數千小時，應用場景包括入職談話、面試、介紹新同事、探討業務、一對一協作等等。同時體驗者們也給出了積極反饋，尤其看好用Starline實現線上眼神交流的能力，並認為3D通話可以增強參與感，拉近任何人之間的距離。

初步測試表明，與傳統視頻通話相比，Starline改善了遠程通話的許多關鍵部分，比如注意力、記憶力和臨場感。一位體驗者認為，使用Starline來通話有點像是在咖啡廳聊天，可模擬逼真的面對面交流，通話的時候更容易靠近並關注對方。

3D視頻支持更多非語言交互

經過對比2D視頻通話與Starline的效果，谷歌得到以下發現：

谷歌測量了數百名員工使用Starline的體驗，發現與傳統視頻通話相比，3D通話的感覺更像是兩人在一個空間。其他發現：

通話者使用更多非語言交流方式，比如手勢使用率提升40%，點頭頻率提升25%，眉毛做表情次數提升50%；

使用Starline通話後，體驗者回憶談話細節和回憶內容時，記憶力提升近30%；

在眼球追蹤實驗中，谷歌發現通話者對於說話人的注意力提升15%，也就是說3D通話有助於提升視覺注意力。

關於系統設計

谷歌透露，Starline的設計目標是：

除了複雜的傳感器設計外，Starline還採用了一種基於圖像的全新幾何融合算法，以及聲源定位系統、空間去混響技術。

谷歌表示：隨著遠程通訊技術發展，遠程通話變得更加保真、同步。目前，人們使用Zoom、Skype、FaceTime等應用進行視頻通話，但這種2D形式的視頻缺少臨場感。未來，具有臨場感的通話技術有望拉近人與人之間的關係，為跨國企業、社會團體帶來更好的遠程通訊體驗。不過，具有臨場感的通話技術面臨三大挑戰，即：

捕捉並渲染遠程用戶的3D視聽圖像，營造真假難辨的體驗感；

在具有視網膜解析度、高視場角、立體視覺和運動時差的顯示屏中，實時運行3D視聽內容；

營造臨場感，給遠程通話者一種在同一空間面對面說話、靠近、互動、對視的感覺。

Starline還有效解決了3D視頻可能存在的偽影等視覺問題。谷歌表示：就現有技術而言，一方面2D視頻已經可以足夠清晰，而3D視頻通常會出現偽影、視覺輻輳調節衝突等問題，而且解析度較低、追蹤延遲較高，因此3D通話體驗難以超越2D視頻。

而Starline則通過進行涉及的物理布局、照明、3D捕捉、色彩與深度視頻壓縮、渲染、顯示和音頻子系統，來營造一種具有臨場感的3D通話效果，消除通話者之間的距離感。

此外，Starline首次採用基於頭部追蹤的串音消除技術，給人一種聲音反覆來自於遠程通話者嘴部的感覺。也就是說，聲音來源可以根據講話者的位置而移動。顯示方面，Starline利用基於圖像的幾何融合算法，將多種深度和色彩融合渲染。在3D人臉掃描部分，則是採用3D面部特徵追蹤系統，結合2D面部關鍵點預測、3D散焦測量以及雙層指數濾波，來準確預測3D面部信息，採樣率可達120Hz。

更多細節

在3D視頻通話設計上，谷歌從多方面進行考量，他們認為相比於站立交流，坐著談話更舒適。而且，真人與虛擬圖像之間的距離大約1.25米，正好在標準的個人空間和社交距離之間，因此可以適用於各類社交或會議場景。

谷歌還表示：沒有選擇用AR/VR來實現3D通話，部分原因是因為現有的頭顯技術還存在重量、舒適性等局限，因此決定採用基於屏幕的系統，裸眼就能觀看3D。此外，市面上大多數VR頭顯的角解析度小於20像素/度，而AR頭顯的視場角也不夠大，所以AR/VR頭顯無法在保證視場角同時顯示高解析度。

於是，谷歌採用了一種支持頭部追蹤的，65英寸8K裸眼3D屏幕，其特點是包含3310萬顆RGB像素，刷新率可達60Hz。這個8K顯示屏可滿足對於顯示面積，以及解析度的要求。另外，其角解析度越大45像素/度（人眼與像素距離1.25米時）。

計算單元採用兩個帶有PCle的聯想P920 PC，採用4個NVIDIA顯卡（2個Quadro RTX 6000和兩個Titan RTX）。視頻刷新率達60Hz，面部追蹤和近紅外立體結構捕捉系統的刷新率則分別為120Hz和180Hz。面部追蹤可識別34個面部節點，追蹤延遲約33毫秒。

儘管如此，谷歌認為Starline在顯示和捕捉半透明、輕薄幾何形狀（頭髮、眼鏡），或是深度凹陷、快速運動等效果時，可能會在重建深度圖中存在錯誤或漏洞，導致幾何圖形和紋理渲染錯誤。未來，還將在這些問題上進一步優化。此外，未來3D視頻壓縮程度也將進一步提升，降低整體帶寬利用。

接下來，谷歌希望進一步開發Starline技術，並探索它對於遠程通話帶來的影響。也許，未來這項技術有望大幅優化遠程辦公場景，並在企業推廣。

參考：

https://storage.googleapis.com/pub-tools-public-publication-data/pdf/424ee26722e5863f1ce17890d9499ba9a964d84f.pdf

（ END）

每天五分鐘，輕鬆了解前沿科技。
—— 青亭網

相關焦點

走近3D ToF攝像頭,揭秘ToF傳感器工作原理

飛行時間原理和框圖本文將以pmdtechnologies（以下簡稱pmd）與英飛凌合作的3D攝像頭開發套件「pico flexx」為例，重點介紹ToF傳感器背後的技術Pico flexx為英飛凌和pmd共同開發的ToF圖像傳感器REAL3構建的。
谷歌3D混合地圖

3d地圖是一款非常實用的谷歌3d地圖瀏覽工具。谷歌3d地圖為用戶提供非常豐富的谷歌地圖資源，實現用戶查看衛星圖片、剖面圖、歷史圖像等功能，是非常適合用戶在學術研究、工程測繪等領域使用。谷歌3d地圖功能介紹：一、全球衛星圖像下載1.1支持行政區域、框選矩形、多邊形區域範圍高清衛片下載，支持沿路線高清衛片下載。所有下載衛片1.2高清、準確、無水印，讓你嘆為觀止。
谷歌是如何靠著模塊化重新定義手機的?

PC機足夠經典，但也有USB 接口，顯示器、滑鼠、鍵盤、移動硬碟，藍牙等大量設備可插拔，汽車，飛機及其它很多工業領域用的總線如CAN、I2C就更不用說了。其實主處理器和其它很多設備（如大量的傳感器)完全可以以優雅的方式連到總線上，每個設備即是一個獨立的器件，相互之間也可以協調工作。主處理器只是和其它設備平行的工作單元。
3D視頻聊天、百萬比特量子計算機、十倍性能TPU:谷歌在I/O大會上讓我們看到了未來

實際上，這是由高解析度傳感器、數十個景深掃描傳感器以及 65 英寸「光場顯示器」重新生成的實時 3D 模型。谷歌表示這一項目已開發了數年之久，其背後是大量計算機視覺、機器學習、空間音頻和數據壓縮技術。谷歌還為此開發出了一套突破性的光場系統，讓人無需佩戴眼鏡或耳機即可感受到逼真的體積和深度感。谷歌計劃在今年晚些時候將 Project Starline 進行小範圍的推廣。
三星Galaxy S7攝像頭有新技術:傳感器配置升級

日前，在陸續傳出三星GALAXYS7將配備2000萬像素ISOCELL和索尼IMX300傳感器等消息之後，這款旗艦新機所配的相機傳感器又有了最新的說法。據稱三星將可能為GALAXYS7配備1200萬像素傳感器，但會加入雙PD技術，傳感器尺寸可能達到1/2英寸，目前已接近量產階段。而如果消息屬實的話，則意味著GALAXY S7的攝像頭將會降至1200萬像素，但會帶來更好的照片效果。
Project Tango,谷歌在VR領域的大殺器

後者是一個開源的虛擬視頻設計，它可以通過谷歌雲計算平臺創建全方位立體聲的360度視頻內容。個人認為，Jump是最為逼真的虛擬實境移動項目。而現在，巴沃作為谷歌「最具才能且最有執行力」的人，將帶領團隊繼續鑽研虛擬實境。本月初，金融時報報導了谷歌虛擬實境的下一步計劃。據其報導，今年穀歌將發布一款類似於Gear VR的產品。該產品將配置更好的傳感器、鏡頭和更為堅固的塑料外殼。
【谷歌】與中國廠商合作:推出3D虛擬實境相機

在谷歌I/O大會上，谷歌宣布正在同小蟻科技合作一款新型的Jump相機，主要針對專業和高端人群。
豪威科技與Nextchip合作開發汽車視覺攝像頭解決方案

（圖片來源：Nextchip）該解決方案包括豪威科技的汽車圖像傳感器OX03C10，該傳感器具有3.0微米大像素，顯著降低運動偽影的140dB高動態範圍（HDR）和極高的LED閃爍減緩（LFM）性能。這一聯合解決方案結合了豪威OX03C10 和NVP2650D ISP的能力，可同時處理兩個圖像傳感器捕獲的圖像，使中低端車輛SVS攝像頭設計人員在不增加系統的情況下，實現高質量的圖像，降低複雜性和功耗。」
Cartographer代碼逐行解析

這套算法可以融合多種傳感器數據，以較低的資源消耗、較高的實時性構建柵格地圖（這裡僅指二維地圖，雖然cartographer也支持3d建圖，但建出來的地圖既不是柵格地圖也不是3d點雲或其他常見格式，這種地圖只能用於定位，沒法用於路徑規劃、任務決策等，所以稍顯雞肋，目前業界很少使用這種地圖））。可以說這套算法是目前雷射slam界算法中的老師傅：沒有新算法的眼花繚亂，但穩健、出色。
基於FPGA的單目攝像頭採集顯示設計方案

不同廠家的圖像傳感器，驅動採集方式，不盡相同，無非是初始化接口是IIC還是SPI，視頻接口是DVP還是LVDS還是MIPI，最後轉成數字後都是逐行掃描的像素時序方式，以及色彩的還原方式等，因此，萬變不離其宗！這裡依然選用個人設計的，4款成熟穩定的攝像頭：OV7725、OV5640、MT9V034、AR0135。
傳感器方案能讓車實現自動駕駛,為什麼還要研究車聯網?

當前的谷歌，特斯拉，Mobileye自動駕駛系統，基於傳感器，雷達和攝像頭的各種信息輸入，通過人工智慧技術決策，單車本身在一定程度上即可以自動駕駛，然而我們為什麼還要研究V2X，車聯網？本文華為研究院的專家給我們全面分析5g車聯網與自動駕駛的關係。列數近年熱門話題，5G、車聯網和自動駕駛都在其中。
音視頻傳輸:RTP協議詳解和H.264打包方案

RTP不僅可以用來傳視頻，也可以傳音頻，甚至可以傳輸圖像和非音視頻數據。傳輸視頻不僅可以傳輸H264編碼的數據，也可以傳輸H265,同樣可以傳輸谷歌的VP8 VP9系列編碼的視頻裸數據。音頻可以傳輸G7xx系列、AAC系列。那封裝好的數據可以傳輸嗎，也是可以的。其中安防中常說的國標流就是RTP+PS形式，也可以傳輸RTP+TS數據；3.
汽車傳感器科普

美國Velodyne 的機械式雷射雷達起步較早，技術領先，最新已推出 128 線原型產品VLS-128，同時與谷歌、通用汽車、福特、Uber、百度等全球自動駕駛領軍企業建立了合作關係，佔據了車載雷射雷達大部分的市場份額。Google、百度、福特、奧迪、寶馬等各企業相繼採用雷射雷達的感知解決方案。寶馬聲明聯手雷射雷達創企 Innoviz 研發無人駕駛汽車，預計 2021 年推出。
MEMS傳感器產業鏈解析

•從事新型傳感器的研發，在某些領域填補國內空白。北京已建立微米/納米國家重點實驗室。•以鄭州、武漢、太原為主。•產學研緊密結合的模式，在PTC/NTC熱敏電阻、感應式數字液位傳感器和氣體傳感器等產業方面發展態勢良好。四、MEMS產業鏈流程MEMS是多學科交叉的複雜系統，整個產業鏈涉及設計、製造、封裝測試、軟體及應用方案環節。
【蘋果資訊】800萬像素專治各種不服帶你看iPhone攝像頭發展史

然而，與其他手機如諾基亞把攝像頭像素堆到4100萬像素不同，iPhone走了相反的路線，至今仍只是800萬像素攝像頭。那麼，iPhone的攝像頭為何能長期保持行業領先水平呢？我們一起看看 iPhone 攝像頭的發展史。iPhone 和 iPhone 3G　　背部攝像頭：200 萬像素，1/4 英寸傳感器，ƒ2.8，固定焦距。
遙測視頻傳輸與實時解析

轉換後的傳輸流以「超採」的方式均勻地放置在 PCM 格式格柵中( 如圖 2 所示的 25 × 27 的 PCM主幀中就包含黃色、紅色和棕色等 3 路遙測視頻信息) ，均勻的編碼方式保證了各路視頻之間的同步性。但是，這種單位時間內固定傳輸帶寬的編碼策略，也為那些動態變化較大的視頻解析和播放帶來了較大挑戰。
Google 開發者大會記,谷歌與你的距離更近了

谷歌開發者大會 | 圖片來源：極客公園其中，TensorFlow Lite 是用於行動裝置和嵌入式設備的輕量級解決方案，現場展臺就有基於 TensorFlow Lite 的互動體驗——Dance Like。
基於攝像頭和顯示器應用的節能乙太網PHY功能特徵

乙太網應用路線圖a、攝像頭到GPU之間的圖像/視頻傳輸採用LVDS；b、GPU到系統主控制器之間的數據傳輸採用1G乙太網；c、系統主控制器與各ECU控制器之間的數據傳輸採用100M/1G乙太網；a、攝像頭到GPU之間的圖像/視頻傳輸採用LVDS；b、GPU到系統主控制器之間的數據傳輸採用多G乙太網；c、系統主控制器與各ECU控制器之間的數據傳輸採用100M/1G/多
12月專利;人機互動;LiDAR; 技術趨勢;Slam;智能傳感器;數字孿生DT; 工業網際網路;幾公司;美軍hololens

從兩者AR的實現方式上看，相比於Tango，ARCore無疑更接近ARkit，兩者都是通過軟體的方式實現，而Tango主要通過特殊硬體模組實現，需要專門的視覺計算晶片、攝像頭、深度攝像頭和傳感器。有了LiDAR的加持，蘋果手機除了拍攝效果的提升外，結合Pro級攝像頭、運動傳感器、iOS內的架構，其AR應用的表達效果無論是在視覺呈現上，還是與現實世界的交互上都會有大幅度提升。蘋果移動端的AR體驗也將進入下一個階段。廠商中為何只有蘋果選擇了LiDAR傳感器？蘋果如何將LiDAR集成至成像系統？
「智能」牆:無人機、傳感器和人工智慧如何在邊境巡邏

它們最初也被開發用於伊拉克和阿富汗的軍事用途，但由於它們可以攜帶比「捕食者」小得多的有效負載，它們被用於監視而不是部署武器。無人機可以收集圖像和視頻，在某些情況下，使用人工智慧，它們可以自動感知是否有可疑人物在不該在的地方。然後，他們將目標的實時視頻發送給遠在數英裡之外的飛機控制者，以供進一步檢查。

不僅僅是大量傳感器和攝像頭,谷歌Starline 3D視頻方案解析

相關焦點

走近3D ToF攝像頭,揭秘ToF傳感器工作原理

谷歌3D混合地圖

谷歌是如何靠著模塊化重新定義手機的?

3D視頻聊天、百萬比特量子計算機、十倍性能TPU:谷歌在I/O大會上讓我們看到了未來

三星Galaxy S7攝像頭有新技術:傳感器配置升級

Project Tango,谷歌在VR領域的大殺器

【谷歌】與中國廠商合作:推出3D虛擬實境相機

豪威科技與Nextchip合作 開發汽車視覺攝像頭解決方案

Cartographer代碼逐行解析

基於FPGA的單目攝像頭採集顯示設計方案

傳感器方案能讓車實現自動駕駛,為什麼還要研究車聯網?

音視頻傳輸:RTP協議詳解和H.264打包方案

汽車傳感器科普

MEMS傳感器產業鏈解析

【蘋果資訊】800萬像素專治各種不服 帶你看iPhone攝像頭發展史

遙測視頻傳輸與實時解析

Google 開發者大會記,谷歌與你的距離更近了

基於攝像頭和顯示器應用的節能乙太網PHY功能特徵

12月專利;人機互動;LiDAR; 技術趨勢;Slam;智能傳感器;數字孿生DT; 工業網際網路;幾公司;美軍hololens

「智能」牆:無人機、傳感器和人工智慧如何在邊境巡邏

豪威科技與Nextchip合作開發汽車視覺攝像頭解決方案

【蘋果資訊】800萬像素專治各種不服帶你看iPhone攝像頭發展史