上海科技大學信息學院智能視覺中心的最新研究成果「Neural Opacity Point Cloud」在人工智慧領域頂級學術刊物IEEE Transactions on Pattern Analysis and Machine Intelligence(簡稱IEEE TPAMI)發表。IEEE TPAMI是目前計算機類別中影響因子最高(影響因子17.730)的期刊之一,主要收錄人工智慧、模式識別、計算機視覺及機器學習領域的原創性科研成果。
神經網絡渲染器可以實現新穎視角下複雜場景圖像的渲染,是深度學習在圖形學領域的全新應用,能大幅度地提高渲染的質量和速度,也是未來渲染技術的發展方向。在該文中,信息學院碩士研究生王岑和博士研究生吳旻燁提出了一種神經網絡半透明點雲(NOPC)渲染方法,實現了自由視角下毛絨物體的高質量渲染。該方法即使使用低質量不完整的三維點雲,也可以生成逼真的渲染。
傳統的基於圖像的不透明外殼(Image-Based Opacity Hull, IBOH)技術會因採樣不足而導致偽影和疊影。通過使用高質量的幾何可以緩解該問題,但是對於毛絨物體來說,獲取真實準確的幾何外觀仍是一項巨大挑戰。這類物體包含成千上萬根毛髮纖維,由於纖維極細且無規律地相互遮擋,它們表現出很強的與視角相關的不透明度,這種不透明度信息很難在幾何形狀和外觀上進行建模。
研究人員提出的渲染方法能夠將基於圖像的渲染(IBR)與神經網絡渲染(Neural Rendering)結合,以渲染對象的粗糙點雲作為輸入,使用相對稀疏視點下拍攝的圖像數據,渲染出毛絨物體在自由視角下逼真的外觀和準確的不透明度。該研究同時提出了一種用於拍攝採集真實毛絨物體數據的拍攝系統。
具體來說,NOPC由兩個模塊組成:第一個模塊旨在學習每個三維點的特徵,該特徵編碼了三維點周圍的局部幾何和外觀信息。通過將所有三維點及其對應的特徵投影到虛擬視角,就可以獲得該視角下的特徵圖;第二個模塊使用卷積神經網絡從特徵圖中解碼出該視角下的RGB圖像和不透明蒙版。該卷積神經網絡基於U-net網絡結構,用門控卷積(gated convolution)代替了常規的卷積,以便魯棒地處理粗糙或破洞的三維幾何。同時在U-net 原有的層級結構的基礎上,從預測RGB 圖像的分支中擴展出新的alpha預測分支,該分支有效地增強了整個網絡模型的性能。
圖1:算法流程示意圖
圖2:渲染網絡結構示意圖
圖3:NOPC在增強現實中的應用示例。它將虛擬對象(貓)放入真實的環境中。與傳統的基於三維模型的渲染相比,NOPC的渲染結果具有逼真的毛絨感外觀。
NOPC有很廣泛的應用場景。它能夠用於虛擬實境(VR)和增強現實(AR)內容的採集渲染流程,將帶有透明度但不易建模的物體(例如人物頭髮、毛絨玩具等)在任意虛擬三維場景中逼真地展示。還可以與偶像AR實時合影,偶像的比例大小與位置可以按需求調整,保證了在任意背景下呈現的真實感。
上海科技大學信息學院為第一完成單位,碩士研究生王岑和博士研究生吳旻燁為第一第二作者,虞晶怡教授為通訊作者。該工作得到了國家重點研發計劃、國家自然科學基金、STCSM和SHMEC的支持。
來源:上海科技大學 上海科技大學信息學院