不僅僅是大量傳感器和攝像頭,谷歌Starline 3D視頻方案解析

2021-12-24 青亭網

Esther|編輯

在今年Google I/O大會上,谷歌展示了一款3D顯示、實時視頻壓縮、空間音頻、計算機視覺、機器學習等技術的3D光場顯示方案:Project Starline。該方案的特點是,可顯示具有體積和深度的立體視覺,讓視頻通話體驗看起來更加生動,沉浸感更強。

近期,谷歌實驗室公布了該項目背後的技術細節,包括採用的攝像頭、紅外傳感器等硬體,以及如何在測試過程中,通過精準的視覺模擬來欺騙用戶的觀感。

簡單來講,Starline可以看做是一種專為面對面會議設計的雙向3D電話亭,它可以實時掃描使用者的3D形象,然後在另一端的光場顯示器上實時呈現立體的視頻圖像,這種立體視頻裸眼可觀看,無需額外的頭顯。此外,聲音也以3D空間音頻形式呈現,通話者的注視點也會實時追蹤和更新,看起來足夠真實。

因此,使用兩個Starline方案,便可以實現多人遠程3D通話。由於Starline本身也是一個光場顯示屏,因此你可以從多個角度查看視頻中的通話者,仿佛那個人就在一片玻璃後面那樣,你們甚至可以實現對視。

據青亭網了解,Starline包含三組立體雙攝像頭(每組包含一顆1600x1200 RGB攝像頭,以及一對1280x1024單色近紅外3D攝像頭),分別位於屏幕的下方和上方(左右兩側),此外還配備四個紅外投影儀模組,兩個紅外聚光燈,另外還有四個定位攝像頭(實時追蹤眼鏡、耳朵和嘴),四個RGB攝像頭(屏幕下方的一個RGB攝像頭對準脖子、面部和下巴,上方的攝像頭捕捉手勢、頭部和軀幹)。其中,Starline使用兩組立體攝像頭來捕捉使用者的面部和上半身形象,並實時生成3D模型。

配備如此多的傳感器硬體,Starline的成本也很高,因此目前僅在谷歌內部使用。從5月以來,該方案在谷歌辦公室的使用規模越來越廣泛,累計測試時間長達數千小時,應用場景包括入職談話、面試、介紹新同事、探討業務、一對一協作等等。同時體驗者們也給出了積極反饋,尤其看好用Starline實現線上眼神交流的能力,並認為3D通話可以增強參與感,拉近任何人之間的距離。

初步測試表明,與傳統視頻通話相比,Starline改善了遠程通話的許多關鍵部分,比如注意力、記憶力和臨場感。一位體驗者認為,使用Starline來通話有點像是在咖啡廳聊天,可模擬逼真的面對面交流,通話的時候更容易靠近並關注對方。

3D視頻支持更多非語言交互

經過對比2D視頻通話與Starline的效果,谷歌得到以下發現:

谷歌測量了數百名員工使用Starline的體驗,發現與傳統視頻通話相比,3D通話的感覺更像是兩人在一個空間。其他發現:

通話者使用更多非語言交流方式,比如手勢使用率提升40%,點頭頻率提升25%,眉毛做表情次數提升50%;

使用Starline通話後,體驗者回憶談話細節和回憶內容時,記憶力提升近30%;

在眼球追蹤實驗中,谷歌發現通話者對於說話人的注意力提升15%,也就是說3D通話有助於提升視覺注意力。

關於系統設計

谷歌透露,Starline的設計目標是:

除了複雜的傳感器設計外,Starline還採用了一種基於圖像的全新幾何融合算法,以及聲源定位系統、空間去混響技術。

谷歌表示:隨著遠程通訊技術發展,遠程通話變得更加保真、同步。目前,人們使用Zoom、Skype、FaceTime等應用進行視頻通話,但這種2D形式的視頻缺少臨場感。未來,具有臨場感的通話技術有望拉近人與人之間的關係,為跨國企業、社會團體帶來更好的遠程通訊體驗。不過,具有臨場感的通話技術面臨三大挑戰,即:

捕捉並渲染遠程用戶的3D視聽圖像,營造真假難辨的體驗感;

在具有視網膜解析度、高視場角、立體視覺和運動時差的顯示屏中,實時運行3D視聽內容;

營造臨場感,給遠程通話者一種在同一空間面對面說話、靠近、互動、對視的感覺。

Starline還有效解決了3D視頻可能存在的偽影等視覺問題。谷歌表示:就現有技術而言,一方面2D視頻已經可以足夠清晰,而3D視頻通常會出現偽影、視覺輻輳調節衝突等問題,而且解析度較低、追蹤延遲較高,因此3D通話體驗難以超越2D視頻。

而Starline則通過進行涉及的物理布局、照明、3D捕捉、色彩與深度視頻壓縮、渲染、顯示和音頻子系統,來營造一種具有臨場感的3D通話效果,消除通話者之間的距離感。

此外,Starline首次採用基於頭部追蹤的串音消除技術,給人一種聲音反覆來自於遠程通話者嘴部的感覺。也就是說,聲音來源可以根據講話者的位置而移動。顯示方面,Starline利用基於圖像的幾何融合算法,將多種深度和色彩融合渲染。在3D人臉掃描部分,則是採用3D面部特徵追蹤系統,結合2D面部關鍵點預測、3D散焦測量以及雙層指數濾波,來準確預測3D面部信息,採樣率可達120Hz。

多細節

在3D視頻通話設計上,谷歌從多方面進行考量,他們認為相比於站立交流,坐著談話更舒適。而且,真人與虛擬圖像之間的距離大約1.25米,正好在標準的個人空間和社交距離之間,因此可以適用於各類社交或會議場景。

谷歌還表示:沒有選擇用AR/VR來實現3D通話,部分原因是因為現有的頭顯技術還存在重量、舒適性等局限,因此決定採用基於屏幕的系統,裸眼就能觀看3D。此外,市面上大多數VR頭顯的角解析度小於20像素/度,而AR頭顯的視場角也不夠大,所以AR/VR頭顯無法在保證視場角同時顯示高解析度。

於是,谷歌採用了一種支持頭部追蹤的,65英寸8K裸眼3D屏幕,其特點是包含3310萬顆RGB像素,刷新率可達60Hz。這個8K顯示屏可滿足對於顯示面積,以及解析度的要求。另外,其角解析度越大45像素/度(人眼與像素距離1.25米時)。

計算單元採用兩個帶有PCle的聯想P920 PC,採用4個NVIDIA顯卡(2個Quadro RTX 6000和兩個Titan RTX)。視頻刷新率達60Hz,面部追蹤和近紅外立體結構捕捉系統的刷新率則分別為120Hz和180Hz。面部追蹤可識別34個面部節點,追蹤延遲約33毫秒。

儘管如此,谷歌認為Starline在顯示和捕捉半透明、輕薄幾何形狀(頭髮、眼鏡),或是深度凹陷、快速運動等效果時,可能會在重建深度圖中存在錯誤或漏洞,導致幾何圖形和紋理渲染錯誤。未來,還將在這些問題上進一步優化。此外,未來3D視頻壓縮程度也將進一步提升,降低整體帶寬利用。

接下來,谷歌希望進一步開發Starline技術,並探索它對於遠程通話帶來的影響。也許,未來這項技術有望大幅優化遠程辦公場景,並在企業推廣。

參考:

https://storage.googleapis.com/pub-tools-public-publication-data/pdf/424ee26722e5863f1ce17890d9499ba9a964d84f.pdf

( END)

 每天五分鐘,輕鬆了解前沿科技。    
         —— 青亭網  

相關焦點

  • 走近3D ToF攝像頭,揭秘ToF傳感器工作原理
    飛行時間原理和框圖本文將以pmdtechnologies(以下簡稱pmd)與英飛凌合作的3D攝像頭開發套件「pico flexx」為例,重點介紹ToF傳感器背後的技術Pico flexx為英飛凌和pmd共同開發的ToF圖像傳感器REAL3構建的。
  • 谷歌3D混合地圖
    3d地圖是一款非常實用的谷歌3d地圖瀏覽工具。谷歌3d地圖為用戶提供非常豐富的谷歌地圖資源,實現用戶查看衛星圖片、剖面圖、歷史圖像等功能,是非常適合用戶在學術研究、工程測繪等領域使用。谷歌3d地圖功能介紹:一、全球衛星圖像下載1.1支持行政區域、框選矩形、多邊形區域範圍高清衛片下載,支持沿路線高清衛片下載。所有下載衛片1.2高清、準確、無水印,讓你嘆為觀止。
  • 谷歌是如何靠著模塊化重新定義手機的?
    PC機足夠經典,但也有USB 接口,顯示器、滑鼠、鍵盤、移動硬碟,藍牙等大量設備可插拔,汽車,飛機及其它很多工業領域用的總線如CAN、I2C就更不用說了。其實主處理器和其它很多設備(如大量的傳感器)完全可以以優雅的方式連到總線上,每個設備即是一個獨立的器件 ,相互之間也可以協調工作。主處理器只是和其它設備平行的工作單元。
  • 3D視頻聊天、百萬比特量子計算機、十倍性能TPU:谷歌在I/O大會上讓我們看到了未來
    實際上,這是由高解析度傳感器、數十個景深掃描傳感器以及 65 英寸「光場顯示器」重新生成的實時 3D 模型。谷歌表示這一項目已開發了數年之久,其背後是大量計算機視覺、機器學習、空間音頻和數據壓縮技術。谷歌還為此開發出了一套突破性的光場系統,讓人無需佩戴眼鏡或耳機即可感受到逼真的體積和深度感。谷歌計劃在今年晚些時候將 Project Starline 進行小範圍的推廣。
  • 三星Galaxy S7攝像頭有新技術:傳感器配置升級
    日前,在陸續傳出三星GALAXYS7將配備2000萬像素ISOCELL和索尼IMX300傳感器等消息之後,這款旗艦新機所配的相機傳感器又有了最新的說法。據稱三星將可能為GALAXYS7配備1200萬像素傳感器,但會加入雙PD技術,傳感器尺寸可能達到1/2英寸,目前已接近量產階段。而如果消息屬實的話,則意味著GALAXY S7的攝像頭將會降至1200萬像素,但會帶來更好的照片效果。
  • Project Tango,谷歌在VR領域的大殺器
    後者是一個開源的虛擬視頻設計,它可以通過谷歌雲計算平臺創建全方位立體聲的360度視頻內容。個人認為,Jump是最為逼真的虛擬實境移動項目。而現在,巴沃作為谷歌「最具才能且最有執行力」的人,將帶領團隊繼續鑽研虛擬實境。本月初,金融時報報導了谷歌虛擬實境的下一步計劃。據其報導,今年穀歌將發布一款類似於Gear VR的產品。該產品將配置更好的傳感器、鏡頭和更為堅固的塑料外殼。
  • 【谷歌】與中國廠商合作:推出3D虛擬實境相機
    在谷歌I/O大會上,谷歌宣布正在同小蟻科技合作一款新型的Jump相機,主要針對專業和高端人群。
  • 豪威科技與Nextchip合作 開發汽車視覺攝像頭解決方案
    (圖片來源:Nextchip)該解決方案包括豪威科技的汽車圖像傳感器OX03C10,該傳感器具有3.0微米大像素,顯著降低運動偽影的140dB高動態範圍(HDR)和極高的LED閃爍減緩(LFM)性能。這一聯合解決方案結合了豪威OX03C10 和NVP2650D ISP的能力,可同時處理兩個圖像傳感器捕獲的圖像,使中低端車輛SVS攝像頭設計人員在不增加系統的情況下,實現高質量的圖像,降低複雜性和功耗。」
  • Cartographer代碼逐行解析
    這套算法可以融合多種傳感器數據,以較低的資源消耗、較高的實時性構建柵格地圖(這裡僅指二維地圖,雖然cartographer也支持3d建圖,但建出來的地圖既不是柵格地圖也不是3d點雲或其他常見格式,這種地圖只能用於定位,沒法用於路徑規劃、任務決策等,所以稍顯雞肋,目前業界很少使用這種地圖))。可以說這套算法是目前雷射slam界算法中的老師傅:沒有新算法的眼花繚亂,但穩健、出色。
  • 基於FPGA的單目攝像頭採集顯示設計方案
    不同廠家的圖像傳感器,驅動採集方式,不盡相同,無非是初始化接口是IIC還是SPI,視頻接口是DVP還是LVDS還是MIPI,最後轉成數字後都是逐行掃描的像素時序方式,以及色彩的還原方式等,因此,萬變不離其宗!這裡依然選用個人設計的,4款成熟穩定的攝像頭:OV7725、OV5640、MT9V034、AR0135。
  • 傳感器方案能讓車實現自動駕駛,為什麼還要研究車聯網?
    當前的谷歌,特斯拉,Mobileye自動駕駛系統,基於傳感器,雷達和攝像頭的各種信息輸入,通過人工智慧技術決策,單車本身在一定程度上即可以自動駕駛,然而我們為什麼還要研究V2X,車聯網?本文華為研究院的專家給我們全面分析5g車聯網與自動駕駛的關係。列數近年熱門話題,5G、車聯網和自動駕駛都在其中。
  • 音視頻傳輸:RTP協議詳解和H.264打包方案
    RTP不僅可以用來傳視頻,也可以傳音頻,甚至可以傳輸圖像和非音視頻數據。傳輸視頻不僅可以傳輸H264編碼的數據,也可以傳輸H265,同樣可以傳輸谷歌的VP8 VP9系列編碼的視頻裸數據。音頻可以傳輸G7xx系列、AAC系列。那封裝好的數據可以傳輸嗎,也是可以的。其中安防中常說的國標流就是RTP+PS形式,也可以傳輸RTP+TS數據;3.
  • 汽車傳感器科普
    美國Velodyne 的機械式雷射雷達起步較早,技術領先,最新已推出 128 線原型產品VLS-128,同時與谷歌、通用汽車、福特、Uber、百度等全球自動駕駛領軍企業建立了合作關係,佔據了車載雷射雷達大部分的市場份額。Google、百度、福特、奧迪、寶馬等各企業相繼採用雷射雷達的感知解決方案。寶馬聲明聯手雷射雷達創企 Innoviz 研發無人駕駛汽車,預計 2021 年推出。
  • MEMS傳感器產業鏈解析
    •從事新型傳感器的研發,在某些領域填補國內空白。北京已建立微米/納米國家重點實驗室。•以鄭州、武漢、太原為主。•產學研緊密結合的模式,在PTC/NTC熱敏電阻、感應式數字液位傳感器和氣體傳感器等產業方面發展態勢良好。四、MEMS產業鏈流程MEMS是多學科交叉的複雜系統,整個產業鏈涉及設計、製造、封裝測試、軟體及應用方案環節。
  • 【蘋果資訊】800萬像素專治各種不服 帶你看iPhone攝像頭發展史
    然而,與其他手機如諾基亞把攝像頭像素堆到4100萬像素不同,iPhone走了相反的路線,至今仍只是800萬像素攝像頭。那麼,iPhone的攝像頭為何能長期保持行業領先水平呢?我們一起看看 iPhone 攝像頭的發展史。iPhone 和 iPhone 3G  背部攝像頭:200 萬像素,1/4 英寸傳感器,ƒ2.8,固定焦距。
  • 遙測視頻傳輸與實時解析
    轉換後的傳輸流以「超採」的方式均勻地放置在 PCM 格式格柵中( 如圖 2 所示的 25 × 27 的 PCM主幀中就包含黃色、紅色和棕色等 3 路遙測視頻信息) ,均勻的編碼方式保證了各路視頻之間的同步性。但是, 這種單位時間內固定傳輸帶寬的編碼策略,也為那些動態變化較大的視頻解析和播放帶來了較大挑戰。
  • Google 開發者大會記,谷歌與你的距離更近了
    谷歌開發者大會 | 圖片來源:極客公園其中,TensorFlow Lite 是用於行動裝置和嵌入式設備的輕量級解決方案,現場展臺就有基於 TensorFlow Lite 的互動體驗——Dance Like。
  • 基於攝像頭和顯示器應用的節能乙太網PHY功能特徵
    乙太網應用路線圖a、攝像頭到GPU之間的圖像/視頻傳輸採用LVDS;b、GPU到系統主控制器之間的數據傳輸採用1G乙太網;c、系統主控制器與各ECU控制器之間的數據傳輸採用100M/1G乙太網;a、攝像頭到GPU之間的圖像/視頻傳輸採用LVDS;b、GPU到系統主控制器之間的數據傳輸採用多G乙太網;c、系統主控制器與各ECU控制器之間的數據傳輸採用100M/1G/多
  • 12月專利;人機互動;LiDAR; 技術趨勢;Slam;智能傳感器;數字孿生DT; 工業網際網路;幾公司;美軍hololens
    從兩者AR的實現方式上看,相比於Tango,ARCore無疑更接近ARkit,兩者都是通過軟體的方式實現,而Tango主要通過特殊硬體模組實現,需要專門的視覺計算晶片、攝像頭、深度攝像頭和傳感器。有了LiDAR的加持,蘋果手機除了拍攝效果的提升外,結合Pro級攝像頭、運動傳感器、iOS內的架構,其AR應用的表達效果無論是在視覺呈現上,還是與現實世界的交互上都會有大幅度提升。蘋果移動端的AR體驗也將進入下一個階段。廠商中為何只有蘋果選擇了LiDAR傳感器?蘋果如何將LiDAR集成至成像系統?
  • 「智能」牆:無人機、傳感器和人工智慧如何在邊境巡邏
    它們最初也被開發用於伊拉克和阿富汗的軍事用途,但由於它們可以攜帶比「捕食者」小得多的有效負載,它們被用於監視而不是部署武器。無人機可以收集圖像和視頻,在某些情況下,使用人工智慧,它們可以自動感知是否有可疑人物在不該在的地方。然後,他們將目標的實時視頻發送給遠在數英裡之外的飛機控制者,以供進一步檢查。