屏下攝像頭效果不好?微軟:上神經網絡,還原更真實的可視會議效果

2020-12-17 機器之心Pro

如何實現真正的眼神交流?一切都得看屏下攝像頭和深度學習技術。

把攝像頭放在屏幕下的想法並不新奇,在視頻會議這個交流方式剛剛出現時,人們就意識到把攝像頭和屏幕分設在不同位置讓人交流起來非常彆扭。眼神交流是溝通的關鍵因素,但如今的視頻會議仍然無法在人們之間建立起這種聯繫。

壓縮傳感器尺寸是屏下攝像頭出現的另一大動力。我們或許可以在今年晚些時候買到帶有屏下攝像頭的手機,首款量產機 OPPO Find X2 Pro 在 7 月初已經有了定妝照。在手機這樣的小型設備上想要最大化屏幕尺寸,往往意味著攝像頭、聽筒和各種傳感器都得想辦法靠邊站。

把相機放在屏幕後面,我們就可以獲得一臺完美的全面屏手機,但這也意味著前攝畫質的降低。屏幕像素結構的衍射可以使攝像頭接收的圖像變得模糊,對比度降低,獲得的光線顯然也會變少,屏幕甚至會完全阻擋某些圖像內容,具體方式取決於設備的顯示像素設計。

另一方面,在視頻會議中,除了眼神不能對焦之外還有其他感官扭曲之處,比如缺乏空間位置的直觀展示。

最近,微軟提出了使用機器學習解決這些問題的方法,不論是圖像質量還是人物在圖像中的位置,現在都可以變得更好

透視問題

攝像頭位於顯示屏上方對於屏幕會議來說會產生一種視覺差,屏幕越大情況越明顯:說話人看起來總是仰望的狀態。相機與顯示器的距離會讓參與者們體驗不到眼神交流的感覺——我看著屏幕中的你,你卻只能看著攝像頭說話,其中一個人就會錯過很多微妙的非語言反饋提示

這樣看起來更像是監視而不是一場對話。

視線的落差會讓視頻會議的效果打上折扣,無法充分展示每個人的存在感,重現面對面談話的所有潛力。只有把攝像頭放在屏幕下才能充分發揮眼神交流的潛力。

衍射的問題

通常,使用透明的 OLED 屏幕(T-OLED)可以允許攝像頭在屏幕後拍攝出可用照片,但即使這樣的屏幕也不是完全透明的,光線透過這一層會引入衍射和噪聲,從而降低圖像質量。

如下圖所示,我們可以看到通過 T-OLED 屏幕拍攝簡單圖像的效果:

屏幕的像素結構會影響衍射。在一些屏幕中,會留有縫隙允許攝像頭進行觀察:

成像器(右側)透過 T-OLED 像素結構中的垂直間隙進行觀察。

毫無疑問,這會導致明顯的降級,但只會出現在水平方向上。我們可以通過繪製調製傳遞函數(modulation-transfer function, MTF)來可視化此效果:

使用 U-Net 進行圖像恢復

為了補償通過 T-OLED 屏幕拍攝時無法避免的圖像質量下降,研究人員使用 U-Net 神經網絡結構對其進行恢復,既可以改善信噪比又可以對圖像進行模糊處理。

U-Net 最初是一個用於分割生物醫學圖像的卷積神經網絡。它的架構由兩部分組成,左側是提取路徑,右側是擴展路徑。提取路徑用來捕獲上下文,擴展路徑用來精準定位。提取路徑由兩個 3×3 的卷積組成。卷積後經過 ReLU 激活和用於降採樣的 2×2 最大池化計算。

在計算機視覺這個熱門方向裡,U-Net 是比較有名的方法。通過深度學習算法,我們獲得了與原始圖像幾乎一致的重建圖像:

直接拍攝:

屏下攝像頭處理前:

深度學習算法處理後:

通過將相機固定在顯示器中,並保持良好的圖像質量,我們為長期存在的視角問題找到了有效的解決方案。

對話的位置安排

在對話過程中,空間因素也非常重要,但在目前的視頻會議系統中往往是被忽略。參與者們彼此相對的距離是非語言交流中非常重要的方面。

微軟認為,通過調整人物圖像在顯示其中的大小,我們可以很大程度上模擬出說話人位置在虛擬環境中的效果。

圖像分割

要想這樣做,首先要找到人,微軟設計了卷積神經網絡(CNN)結構來在圖像中定位說話的人。

用於分割說話者和背景的神經網絡結構。

首先,需要做語義分割以識別並定位圖像中的人類。

接下來,我們進行深度分割以找到最接近的人類,指認他 / 她為說話者。這種相對簡單的技術在單個發言人時工作效果很好,如果存在多個發言人,則需要應用更為複雜的方法。

校正距離

在遠程視圖中確定了說話者之後,我們就可以縮放傳入的視頻,以便將遠程會議參與者以更為合適的尺寸顯示在本地屏幕上。

一種實現的方法是縮放整個畫面,再把人物定位於正中。但在微軟的項目中,研究人員嘗試了效果更明顯的方法:讓人物獨立於背景進行調整。

將人物與背景分割調整可以帶來一些好處,比如隔離掉不希望顯示的背景畫面,用背景區域直接顯示 PPT 或視頻等。

經過取景效果的提升以及人物位置的縮放,我們最終獲得的遠程會議效果距離真實情況前進了一大步。

相關焦點

  • 中興將首發屏下攝像頭手機,官方稱自拍效果不用擔心
    IT之家 8 月 13 日消息 昨天中興通訊終端事業部總裁倪飛發微博稱,中興將推出全球首款屏下攝像頭智慧型手機,該機名為中興 A20 5G。屏下攝像頭的應用將讓智慧型手機實現真正的全面屏體驗,但作為一個新技術,由於很難捕捉到足夠多的光線,因此其拍照效果或許要打折扣。不過,中興通訊消費者體驗部部長呂錢浩今天在微博稱,「新機自拍效果不用擔心」。呂錢浩稱:「新機自拍效果不用擔心,做盲測時候,小姐姐們都說好。
  • 中興AXON 20 5G屏下攝像頭如何實現的?對消費者來說有必要嗎?
    屏下攝像頭在業界其實很早就出現了,早在2018年2月,OPPO就向世界知識產權局提交了「屏下攝像頭」的相關專利,這項專利在當時確實很前衛,大致原理就是一整塊屏幕,分為上下兩個部分拼接,上半部分就是平時顯示電量、信號、通知欄的那一塊區域,這塊材質是不同的,它是專為屏下攝像頭而專門製造適配的,在不影響顯示效果的情況下,能夠允許一定的光線通過,方便屏幕下方的傳感器捕捉畫面
  • 720P+自動控制曝光 微軟HD-3000攝像頭評測
    我們熟知的微軟公司,不僅在桌面作業系統上擁有絕對壟斷的低位,而微軟硬體所推出的產品,都一直受到追捧,不單止鼠鍵方面贊以好評,在攝像頭方面也有很出色的成績,近日推出LifeCam系列攝像頭,不僅在性能上加入720P高清,而且還擁有自動控制曝光的TrueColor 技術,性能相當出色,下面為大家評測其中的一款——微軟LifeCam HD-3000。
  • 手機自拍畫質的希望,可能全在屏下攝像頭上了
    因為想要智慧型手機機身儘可能小,顯示面積卻儘可能大,所以就出現了消滅上下邊框的「全面屏」;因為想要全面屏在視覺效果上更加極致,所以就有了從劉海到水滴、從珍珠到開孔的造型變遷;因為就連開孔屏都會被嫌棄擠佔了那麼一點點的屏幕顯示面積,所以如今的設計方向普遍都是將開孔越做越小,以至於就連理論上能夠做到更好前置自拍虛化效果的雙孔雙攝配置,都會被大部分消費者認為「藥丸、太醜」。
  • 微軟深度神經網絡語音,定製個性化的自然人聲
    微軟將在國際殘疾人日捐贈的100小時有聲書籍正昭示著這種改變的開始。微軟深度神經網絡是基於Azure雲的端到端語音合成系統,由前端、聲學模型和聲碼器三部分組成。最後一部分聲碼器負責還原語音的聲學特徵,也就是一般所說的嗓音或聲線,如振幅、頻率、波長等。深度神經網絡模型是當前最先進的語音合成技術,但相應的主流產品在合成效率、效果,以及所需聲音樣本量上,卻存在很大差異。以樣本量為例,微軟的語音合成定製技術處於行業領先地位,一般情況下,只需要不超過2000句的內容,就可以做到非常逼真的還原。
  • 屏下指紋的技術路線之爭,採用LCD屏下指紋有哪些好處?
    據介紹,在研發3D傳感技術的同時,阜時應用到了很多指紋識別的技術及專利,特別是3D人臉識別中用到的深度學習神經網絡算法也進一步應用到LCD屏下指紋技術的研發中去。 通過對LCD背光板的不斷改造與嘗試,對指紋光路方案的不斷調整與改進,包括採用主動式高穿透發射廣元、寬域波長光接收技術、LCD屏背光膜材組合試驗、神經網絡圖像重構算法等……成功解決了顯示效果、指紋成像效果等瓶頸問題。
  • 華為屏下攝像頭專利曝光 最快華為Mate 40 Pro會用上?
    科客點評:各大廠商的進度應該都差不多,相信最快在年內,我們是能看到屏下攝像頭的正式商用。近日,華為最新的屏下攝像頭專利被曝光。作為後續屏幕演變的最終形態,華為似乎也已經準備好了在不久後推出屏下攝像頭的機型,不知道華為是否能搶先拿下首發呢?從曝光的專利圖來看,華為的屏下攝像頭專利展示圖分別有兩個版本,兩者的區別在於後置部分。一款應該是採用了垂直排列的P系列,擁有潛望式鏡頭。另一款則是採用了「浴霸」矩陣式後置,非常鮮明且擁有標誌性的Mate系列。
  • 維信諾屏下攝像頭宣布量產
    科客點評:InV see最終的效果如何?這還得看真機才能評論。希望相應的新機來得快些吧。6月8日,維信諾公布了其最新的「屏幕攝像解決方案」——InV see,維信諾也強調了該方案是全球首個達到量產應用級別的。
  • 屏下攝像頭不再是空想,外媒再次為國產品牌點讚
    即便是廠商們設計出了」升降式前置攝像頭「這樣的解決方案,也被視為權宜之計。一直以來,大家都認為,只有」屏下攝像頭「,才是最理想的、實現手機」真全面屏「的終極解決方案。但此前,由於技術水平的限制,「100%屏佔比」的設想,始終只能是個空想。這個遺憾在今年終於得到了解決——6月26日下午,MWC 19上海展會正式拉開了序幕。
  • 首發屏下攝像頭!中興A205G入網:OLED真全面屏/矩陣四攝
    8月14日消息,近兩年各大手機廠商為了擴大屏幕佔比,推出了劉海屏、挖孔屏、升降攝像頭等,但是都沒有達到理想的效果,而屏下攝像頭被廣泛認為是最理想的狀態。昨天,中興通訊終端事業部總裁倪飛宣布,中興將首發屏下攝像頭技術,首發機型為中興A205G。現在這款全球首款屏下攝像頭手機中興A205G(型號為ZTEA2121)獲得入網許可,外觀設計、硬體規格等大部分細節揭曉。
  • 5G+屏下攝像頭,還有你不知道的黑科技
    手機屏幕從上下雙下巴向全面屏發展,攝像頭也從最初的前後單攝過渡到如今的三攝和四攝,大容量電池也使得續航更持久。那麼2020年,智慧型手機的發展方向又將如何呢?2020年5G即將面臨全面商用,手機終端為了支持5G網絡自然也要全面更新換代,所以5G將是下一代智慧型手機發展的重要方向。5G分為兩種制式,一種為SA(獨立組網),另一種為NSA(非獨立組網),目前有些手機僅支持NSA,屬於單模。
  • 100%屏下攝像頭突然宣告量產、華為小米措手不及!告別升降/挖孔
    100%屏下攝像頭突然宣告量產 作為業界公認的「前攝最佳解決方案」,100%隱藏式的屏下前置攝像頭技術一直為各家廠商所掙相研發。小米、華為、OPPO等等手機大廠,也都紛紛預研發這一項技術、以期儘快帶入量產階段。
  • 屏下攝像頭要來,你剛買的水滴屏手機可能已經過時了
    MWC 2019上海展會即將開展,距離2月份巴塞隆納的展會雖然僅過去了4個月,但這個上海展仍然會有很多令人期待的技術,我們都知道巴塞隆納MWC2019的焦點是5G技術以及摺疊屏,而這次除了這兩個之外,我們還會看到屏下攝像頭技術,100W以上的超級快充技術等等。目前可以確定的是OPPO已經實現了屏下攝像頭技術,並且會在MWC2019上海展上展出。
  • 攝像頭也能錄720P高清!微軟HD-3000到貨
    微軟除了做軟體,還做硬體,大家見得比較多的是微軟的鍵鼠,不過微軟的鍵鼠假貨那個真多,很多人估計都被傢伙的品質矇騙了,其實微軟做的鍵鼠還是相當不錯的,它除了做鍵鼠,還有攝像頭。筆者聞悉,微軟近日推出LifeCam系列攝像頭,不僅在性能上加入720P高清,而且還擁有自動控制曝光的TrueColor 技術,性能相當出色,下面為大家帶來其中的一款——微軟LifeCam HD-3000。
  • OPPO 小米公布屏下攝像頭方案:這就是未來手機該有的樣子
    OPPO:未來手機該有的樣子6 月 3 日,OPPO 副總裁沈義人在微博上發布了屏下攝像頭的視頻。根據 OPPO 推文介紹,它在 2018 年 6 月就申請了屏下攝像頭的專利:小米:具有自主智慧財產權的隱視屏技術在 OPPO 公布屏下攝像頭設計之後,小米總裁林斌也在微博上公布了自家的屏下攝像頭方案,並附上了一段拍攝於上個月的小視頻,視頻中展示了小米 9 工程樣機實現的全屏下攝像頭技術。
  • 三星NOTE 21渲染圖曝光,外觀變化不大,仍未加持屏下攝像頭
    消息稱三星NOTE 21仍然沒有採用屏下攝像頭技術,看來渲染圖的製作者也是這麼認為的。那麼為什麼三星不願意在今年的旗艦上使用屏下攝像頭技術呢?我們認為最大的原因還是三星覺得不成熟,亦或者是無法達到三星量產的需求。三星不使用,並不意味著國內廠商也要採取保守措施。去年中興A20 5G已經率先採用了屏下攝像頭技術,確實也存在一定的不足,對於三星這樣的大廠來說肯定是不能容忍的。
  • 小米屏下攝像頭手機專利曝光
    而智慧型手機行業中研究屏下攝像頭已經有段時間了。在OPPO、華為和三星之後,小米似乎找到了新的方法,能夠開發出一款屏下攝像頭的智慧型手機。IT之家獲悉,2019年4月29日,小米向CNIPA(中國知識產權局)申請了屏下攝像頭手機的專利。
  • vivo APEX 2020上手評測,屏下攝像頭技術成熟,無限接近量產
    總體上來說,整部手機給人一種渾然天成之感。屏下攝像頭技術表現成熟關於vivo APEX 2020會帶來哪些黑科技,想必用戶最期待的一定是屏下攝像頭了。而這次,vivo APEX 2020不僅不負眾望,而且有更加成熟的技術表現。
  • 無需綠幕,微軟用AI為線上活動、AR/VR打造更自然虛擬舞臺
    來源:映維網 作者 顏昳華如果你看了今年微軟的Build大會,你可能在「舞臺」中發現其中一項創新技術。劇透警報:這個舞臺是假的。主持人都呆在安全的家裡。利用華盛頓大學的背景摳圖過程和和Azure Kinect傳感器,微軟製作出仿如真實存在的大會演講。
  • 屏下打孔=屏下攝像頭,網友:榮耀手機重新定義了「打孔屏」!
    智慧型手機發展的趨勢就是全面屏,但是當一整塊屏幕完全覆蓋在手機正面的時候,手機上的一些必要組件就必須隱藏起來了。最先隱藏掉的是指紋,而屏下指紋技術現在已經進化得十分成熟,且體驗已經十分優秀。目前手機圈遇到的最大難題,就是攝像頭需要位置去擺放,主流的解決方案就是升降式和打孔式。但是升降式全面屏已經成為去年的「老技術」,打孔屏幕才是今年的未來!