實驗顯示,這一方法可以有效為多種膚色的人物照片恢復高性能的光線效果,在連續光照的作用下,也可將虛擬背景或者卡通人物添加到肖像照中來。輕量級的架構也使得其在移動端運行成為可能。
論文連結:
https://arxiv.org/pdf/2008.02396.pdf
項目主頁:
https://augmentedperception.github.io/facelight/
相關參考:
https://augmentedperception.github.io/deeplight/
基於單張圖像的高動態照明估計對於經驗豐富的攝影師來說,拍攝時的光線情況不僅可以從皮膚的漫反射獲取,同時還可以通過投射陰影的方向和範圍、高光反射的強度和位置來獲取。在這一經驗的啟發下,研究人員提出了一個可以從人像實現逆向光照的模型,無需任何特定的皮膚反射模型假設,也能估計出環境中全向的高動態範圍照明情況。這種技術可以得到具有更高頻率細節的照明信息,使得更真實的人像渲染和ARi視覺特效成為可能。
為了訓練這一模型,研究人員構建了一個包含人像和對應光照情況的龐大數據集。數據集中包含了70個人物在331個光照下的基礎數據,以及利用渲染技術生成的約一百萬張包含室內外光照環境的人像數據集。下面就讓我們從數據集、模型架構和實驗等方面來詳細了解這項技術的實現過程。
訓練模型需要大量的具有光照情況標記的肖像照片,但在現實中去收集如此龐大的數據集幾乎是不可能的,所以研究人員採用了一種基於圖像的數字驅動的重光照技術來合成具有光照標註的肖像照片,通過適當地捕捉複雜的光傳輸現象來渲染出逼真的圖像。在反射場的理論框架下,人們可以通過反射場和HDR環境光的點乘來獲取重新光照下的主體圖像。
為了記錄人物的反射場,研究人員使用了安裝在球面內的331個LED燈來進行拍攝,反射場通過一系列反射基圖像來進行記錄,每次打開一個LED燈拍攝記錄一個獨立的光照結果(One-Light-At-a-Time, OLAT),並利用6個相機在不同的角度記錄了人物的圖像。
不同光照下的拍攝結果其中35mm的鏡頭用於拍攝不同角度的半身像,50mm的鏡頭用於拍攝面部的細節。
研究邀請了70位不同年齡、膚色和性別的人物來進行拍攝,並記錄了九種不同的表情,最終共得到了3780套在331個光照序列下的成像結果。
由於獲取對象的完整OLAT序列需要六秒鐘,因此,目標在拍攝過程中不可避免地會有一定程度的移動。為了解決這個問題,研究人員採用光流技術來對齊圖像,每隔11個OLAT幀就增加一對均勻一致的照明「跟蹤」幀,以確保滿足光流的亮度恆定約束。這一步驟可保證重光照操作時圖像特徵的清晰度,以便將對齊的OLAT圖像進行線性組合。
利用正前方的兩個相機,研究人員還獲取了每個主體的掩膜,以便於將他們渲染到新的環境中。首先利用六個LED均勻地照明灰色的背景材料,而人物不會被照明;同時還在相同條件下拍攝了沒有人物時的完整背景。這樣一來,掩膜可以用第一次拍攝的圖分離第二次拍攝乾淨的背景圖獲取。
高動態環境捕捉。為了利用拍攝好的反射場對主體進行重新打光,研究人員收集了大規模的高動態環境的數據集來驅動深度學習算法。這裡主要使用視頻級速率的圖像捕捉技術獲取了近100萬張室內和室外的數據集。
如上圖所示,其捕獲的圖像中包含了散射、磨砂銀質和鏡面的參考球體。這三個球可以有效反映環境中不同的照明線索,其中,鏡面球反映了全向的高頻信息,但會忽略較亮的光源,造成強度和顏色的改變;而近似朗伯體BRDF的漫反射球則可以視為低通濾波器,捕獲模糊但相對完整的場景照明線索。與前人的工作不同,本研究需要獲得真實的HDR照明信息來對人物進行重新打光,需要顯式地提升這三個球的質量以估計其所處環境的HDR光照條件。
在給定三個捕獲反射狀況的球體圖像後(可能會有像素缺失),研究人員希望通過解算出HDR光照來得到合理的結果。首先,利用前面提到的光照系統記錄下漫反射球和散射銀球的的反射場,並將輻射基準圖像轉換到相同的輻射空間中去,這一空間通過入射光源的顏色進行了歸一化。隨後,將反射基準圖像投射到鏡面球上(基於朗伯方位角的等面積投影),針對每一個輸入圖像積累能量來構成反射場。對於鏡面球捕捉的圖像來說,如果不存在缺失,則直接利用反射率來恢復場景光照;如果存在缺失,則通過反射模型和最小二乘法來解出對應的結果。通過一系列複雜的算法就可以重建出HDR反射場。
上圖中,上半部分是基準LDR圖像,而下半部分就是利用估計的HDR渲染出的球體光照記錄。更多詳細的推導可以參考文章的3.1的第四部分。
在為每個任務記錄下反射場和估計出HDR光照條件後,研究人員就可以將每個人物在新場景中進行重新光照渲染來生成大規模的訓練數據了。利用包含三個環境光探測器的背景圖像,研究人員可以將記錄中獲取的人像渲染到豐富的背景環境中去。下圖展示了人物主體在新背景環境中得到自然的圖像的過程。
上圖分別展示了背景圖像、對應的HDR照明結果、主體的拍攝結果和利用環境圖像重照明的結果,最後利用掩膜與背景圖像渾然天成的合成結果。為了更有效的利用數據,研究人員還在其中增加了面部檢測的能力,為輸入的數據提供一定的人臉檢測框來幫助模型更好地學習。
合成的訓練數據集將人臉檢測部分進行了剪切,右上角是HDR照明結果。在訓練結束後,研究人員首先將估計出的環境光照信息與多種算法進行了對比,可以看到,這一算法恢復的結果更為真實可信。
同時,研究人員還基於估計出的光照結果對人物進行重新打光,並對比了不同分量渲染結果,還將得到的光照用於渲染新的人物。
接下來,我們再來看一些利用渲染圖像預測出的環境光照結果,它可以在不同膚色、表情、頭部姿勢上穩定工作。
在真實的戶外場景中,也可以實現高性能的光照估計,並且將新的任務渲染在相同的環境中。
此外,有了估計出的環境光,一些特效也能渲染得非常真實,下圖就展示了在自拍中渲染出虛擬氣球做背景的效果,就像真的一樣。
關於我「門」
將門是一家以專注於發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋將門創新服務、將門技術社群以及將門創投基金。
將門成立於2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。
如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我「門」:
bp@thejiangmen.com
點擊右上角,把文章分享到朋友圈
微信:thejiangmen
bp@thejiangmen.com