如何實現真正的眼神交流?一切都得看屏下攝像頭和深度學習技術。
把攝像頭放在屏幕下的想法並不新奇,在視頻會議這個交流方式剛剛出現時,人們就意識到把攝像頭和屏幕分設在不同位置讓人交流起來非常彆扭。眼神交流是溝通的關鍵因素,但如今的視頻會議仍然無法在人們之間建立起這種聯繫。
壓縮傳感器尺寸是屏下攝像頭出現的另一大動力。我們或許可以在今年晚些時候買到帶有屏下攝像頭的手機,首款量產機 OPPO Find X2 Pro 在 7 月初已經有了定妝照。在手機這樣的小型設備上想要最大化屏幕尺寸,往往意味著攝像頭、聽筒和各種傳感器都得想辦法靠邊站。
把相機放在屏幕後面,我們就可以獲得一臺完美的全面屏手機,但這也意味著前攝畫質的降低。屏幕像素結構的衍射可以使攝像頭接收的圖像變得模糊,對比度降低,獲得的光線顯然也會變少,屏幕甚至會完全阻擋某些圖像內容,具體方式取決於設備的顯示像素設計。
另一方面,在視頻會議中,除了眼神不能對焦之外還有其他感官扭曲之處,比如缺乏空間位置的直觀展示。
最近,微軟提出了使用機器學習解決這些問題的方法,不論是圖像質量還是人物在圖像中的位置,現在都可以變得更好。
透視問題
攝像頭位於顯示屏上方對於屏幕會議來說會產生一種視覺差,屏幕越大情況越明顯:說話人看起來總是仰望的狀態。相機與顯示器的距離會讓參與者們體驗不到眼神交流的感覺——我看著屏幕中的你,你卻只能看著攝像頭說話,其中一個人就會錯過很多微妙的非語言反饋提示。
這樣看起來更像是監視而不是一場對話。
視線的落差會讓視頻會議的效果打上折扣,無法充分展示每個人的存在感,重現面對面談話的所有潛力。只有把攝像頭放在屏幕下才能充分發揮眼神交流的潛力。
衍射的問題
通常,使用透明的 OLED 屏幕(T-OLED)可以允許攝像頭在屏幕後拍攝出可用照片,但即使這樣的屏幕也不是完全透明的,光線透過這一層會引入衍射和噪聲,從而降低圖像質量。
如下圖所示,我們可以看到通過 T-OLED 屏幕拍攝簡單圖像的效果:
屏幕的像素結構會影響衍射。在一些屏幕中,會留有縫隙允許攝像頭進行觀察:
成像器(右側)透過 T-OLED 像素結構中的垂直間隙進行觀察。
毫無疑問,這會導致明顯的降級,但只會出現在水平方向上。我們可以通過繪製調製傳遞函數(modulation-transfer function, MTF)來可視化此效果:
使用 U-Net 進行圖像恢復
為了補償通過 T-OLED 屏幕拍攝時無法避免的圖像質量下降,研究人員使用 U-Net 神經網絡結構對其進行恢復,既可以改善信噪比又可以對圖像進行模糊處理。
U-Net 最初是一個用於分割生物醫學圖像的卷積神經網絡。它的架構由兩部分組成,左側是提取路徑,右側是擴展路徑。提取路徑用來捕獲上下文,擴展路徑用來精準定位。提取路徑由兩個 3×3 的卷積組成。卷積後經過 ReLU 激活和用於降採樣的 2×2 最大池化計算。
在計算機視覺這個熱門方向裡,U-Net 是比較有名的方法。通過深度學習算法,我們獲得了與原始圖像幾乎一致的重建圖像:
直接拍攝:
屏下攝像頭處理前:
深度學習算法處理後:
通過將相機固定在顯示器中,並保持良好的圖像質量,我們為長期存在的視角問題找到了有效的解決方案。
對話的位置安排
在對話過程中,空間因素也非常重要,但在目前的視頻會議系統中往往是被忽略。參與者們彼此相對的距離是非語言交流中非常重要的方面。
微軟認為,通過調整人物圖像在顯示其中的大小,我們可以很大程度上模擬出說話人位置在虛擬環境中的效果。
圖像分割
要想這樣做,首先要找到人,微軟設計了卷積神經網絡(CNN)結構來在圖像中定位說話的人。
用於分割說話者和背景的神經網絡結構。
首先,需要做語義分割以識別並定位圖像中的人類。
接下來,我們進行深度分割以找到最接近的人類,指認他 / 她為說話者。這種相對簡單的技術在單個發言人時工作效果很好,如果存在多個發言人,則需要應用更為複雜的方法。
校正距離
在遠程視圖中確定了說話者之後,我們就可以縮放傳入的視頻,以便將遠程會議參與者以更為合適的尺寸顯示在本地屏幕上。
一種實現的方法是縮放整個畫面,再把人物定位於正中。但在微軟的項目中,研究人員嘗試了效果更明顯的方法:讓人物獨立於背景進行調整。
將人物與背景分割調整可以帶來一些好處,比如隔離掉不希望顯示的背景畫面,用背景區域直接顯示 PPT 或視頻等。
經過取景效果的提升以及人物位置的縮放,我們最終獲得的遠程會議效果距離真實情況前進了一大步。