你的廚房被水淹了:別擔心,這只是3D深度估計做出的特效

2020-12-05 澎湃新聞

機器之心

選自arXiv

作者:羅璇、Jia-Bin Huang等

機器之心編譯

參與:魔王、張倩

還記得那個用論文外觀判斷論文質量的研究嗎?在那份研究中,身為頂會領域主席的作者 Jia-Bin Huang 被自己開發的系統拒了稿,引來了大批社區成員的圍觀。最近,他和合作者提出了一項新的計算機視覺方法,可以讓廚房「水漫金山」,讓天空下起「彩球雨」……

不止如此,想要貓主子不嫌棄自己拍的醜醜視頻,這個方法也能拯救你!

這項研究由來自華盛頓大學、維吉尼亞理工學院和 Facebook 的研究者合作完成。

其中第一作者羅璇現為華盛頓大學現實實驗室博士,她本科畢業於上海交通大學,導師為盧宏濤教授,研究方向為立體匹配,曾在新加坡國立大學跟隨顏水成鑽研深度學習。

第二作者 Jia-Bin Huang 為維吉尼亞理工學院助理教授,研究方向為計算機視覺、計算機圖形學和機器學習。曾擔任 WACV 2018、CVPR 2019、ICCV 2019、BMVC 2019 和 BMVC 2020 會議的領域主席。

這項研究主要探究了如何生成準確度和幾何一致性更高的視頻重建結果,目前該論文已被計算機圖形學頂級會議 SIGGRAPH 2020 接收,代碼也將在未來開源。

論文地址:https://arxiv.org/pdf/2004.15021.pdf

項目網站:https://roxanneluo.github.io/Consistent-Video-Depth-Estimation/

用手機拍攝的視頻可以做 3D 重建嗎?

基於圖像序列進行 3D 場景重建在計算機視覺社區中已有幾十年的研究歷史。毋庸置疑,最簡單的 3D 重建捕捉方式就是利用智慧型手機手持拍攝,因為這類相機很常見,還可以快速覆蓋很大的空間。如果可以利用手機拍攝的視頻實現非常密集、準確的重建,這類技術將變得非常有用。但要做到這一點困難重重。

除了重建系統都要處理的典型問題,如紋理單一區域、重複圖案和遮擋,基於手機拍攝的視頻實現重建還面臨著來自視頻本身的額外挑戰,如較高的噪聲水平、抖動和動態模糊、捲簾快門變形,以及移動對象(如人)的出現。

出於這些原因,現有的方法通常會遇到很多問題,如深度圖中有缺失區域(見下圖 b),幾何和閃爍深度不一致(見下圖 c)。

如何解決?

這篇論文提出了一種新的 3D 重建算法,可以重建單目視頻中所有像素的密集、幾何一致性深度。他們利用傳統的 structure-from-motion(SfM)方法來重建像素的幾何約束。

與傳統重建方法使用特殊先驗的做法不同,該研究使用的是基於學習的先驗,即為單圖像深度估計訓練的卷積神經網絡。在測試時,他們微調了這個網絡,來滿足特定輸入視頻的幾何約束,同時保留其為視頻中受約束較少的部分合成合理深度細節的能力。

定量驗證結果表明,與之前的單目重建方法相比,該方法可以達到更高的準確度及幾何一致性。從視覺上看,本文提出的方法也更加穩定。該方法可以處理具有中等程度晃動的手持拍攝視頻,可以應用到場景重建以及基於視頻的高級視覺效果。

但該方法的局限在於算力消耗太大,因此暫時無法用在實時的 AR 場景中。不過,論文作者也表示,會將速度的提升作為下一步的研究目標。

方法

圖 2:方法概覽。

如上圖 2 所示,該方法以單目視頻作為輸入,目的是估計相機位姿以及每個視頻幀的深度和幾何一致性深度圖。「幾何一致性」不僅意味著深度圖不會隨著時間的推移而閃爍(flicker),還意味著所有的深度圖都是彼此一致的。也就是說,我們可以利用像素深度和相機位姿在幀與幀之間準確地投影這些像素。例如,一個靜態點的所有觀察結果都應該映射到世界坐標系中一個單獨的普通 3D 點上,且沒有漂移(drift)。

隨意捕獲的輸入視頻為深度重建增加了一些挑戰。由於它們大多是手持拍攝的,相機也沒有經過標定,因此經常出現動態模糊、捲簾快門變形等問題。簡陋的光照條件也會造成額外的噪聲及模糊。而且,這些視頻通常包含動態移動的對象(如人或動物),而很多重建系統是專為靜態場景設計的,這就形成了一個大的衝突。

在有問題的場景部分,傳統的重建方法通常會生成「孔洞」(如果強制返回結果,會估計出噪聲非常大的深度)。但在這些方法對返回結果比較有信心的部分,它們通常會返回非常準確且一致的結果,因為它們嚴重依賴幾何約束。

近期基於學習的方法彌補了這些缺陷,它們利用一種數據驅動的強大先驗來預測輸入圖像的合理深度。然而,對每一幀單獨應用這些方法會導致幾何不一致和短暫的閃爍。

本文作者提出的方法結合了以上兩種方法的優點。研究者利用了幾種現成的單圖像深度估計網絡,這些經過訓練的網絡可以合成一般彩色圖像的合理深度。他們利用從視頻中藉助傳統重建方法提取的幾何約束來微調網絡。因此,該網絡學會在特定視頻上生成具有幾何一致性的深度。

該方法包括以下兩個步驟:預處理和測試時訓練。

預處理

預處理是從視頻幀中提取幾何約束的基礎。

該研究首先使用開源軟體 COLMAP 執行傳統的 SfM 重建流程。

為了改善對動態運動視頻的姿勢估計,研究者使用 Mask R-CNN 來獲取人物分割結果,並移除這些區域以獲得更可靠的關鍵點提取和匹配結果,因為視頻中的動態運動主要來自於人物。這一步可以提供準確的內部和外部相機參數,以及稀疏點雲重建。

研究者還利用光流估計了視頻幀對之間的稠密對應關係。相機標定(camera calibration)和稠密對應共同構成了幾何損失。

測試時訓練

在這一階段,研究者微調預訓練深度估計網絡,使其生成對特定輸入視頻更具幾何一致性的深度。

在每次迭代中,該方法使用當前的網絡參數採樣一對視頻幀並估計其深度圖。然後對比稠密一致性和利用當前深度估計結果得到的重投影,從而驗證深度圖是否具備幾何一致性。

最後,研究者評估了兩種幾何損失:空間損失和視差損失,並將誤差進行反向傳播,以更新網絡權重(權重對所有幀共享)。

用這種方式迭代地採樣很多對視頻幀,損失得到降低,網絡學會估計具備幾何一致性的深度,同時能夠在約束較少的部分提供合理的正則化。

該方法得到的改進通常很大,最終深度圖具備幾何一致性,與整個視頻的時序一致,且能夠準確勾勒出清晰的遮蔽邊界,即使是對於運動物體也是如此。有了計算得到的深度之後,研究者就可以為遮擋效應(occlusion effect)提供合適的深度邊界,讓真實場景的幾何與虛擬事物進行交互。

該方法效果如何?

與其他方法的對比結果

研究者對比了當前最優的深度估計算法,這些算法分為三個類別:

傳統的多視角立體視覺系統:COLMAP [Schonberger and Frahm 2016];

單幅圖像深度估計:Mannequin Challenge [Li et al. 2019] 和 MiDaS-v2 [Ranftl et al. 2019];

基於視頻的深度估計:WSVD [Wang et al. 2019a](兩幀)和 NeuralRGBD [Liu et al. 2019](多幀)。

量化對比結果和視覺對比結果見下圖:

圖 4:該研究提出的方法與 SOTA 方法的量化對比結果。

圖 5:與 SOTA 方法的視覺對比結果。

該研究提出的方法可以從手機攝像頭隨意拍攝的視頻中生成具備幾何一致性且沒有顫動的深度估計結果。

控制變量研究

表 2:控制變量研究。該量化評估結果表明該方法的設計重要性。

圖 6:該方法的設計對輸出結果的貢獻。

圖 7:使用長期時間約束和視差損失的效果分析。

在公開基準上的量化結果對比

表 3:在 ScanNet 數據集上的量化對比結果。

表 4:在 TUM-RGBD 數據集上的量化對比結果。

表 5:在 KITTI 基準數據集上的量化對比結果。

方法局限性

那麼該方法有沒有局限性呢?

作者在論文中提到了該方法的四項局限之處,分別是位姿、動態運動、光流和速度。

位姿

該方法目前依賴 COLMAP,來基於單目視頻估計相機位姿。而在難度較大的場景中,如相機平移有限及動態模糊的情況下,COLMAP 可能無法生成靠譜的稀疏重建結果和相機位姿估計。

較大的位姿誤差也會對該方法的輸出結果造成極大的負面影響,因此這限制了該方法在此類視頻中的應用。

將基於學習的位姿估計和該研究提出的方法結合起來,或許是一個不錯的研究方向。

動態運動

該方法支持包含溫和運動的視頻,但如果運動較為激烈則該方法會出現問題。

光流

該方法依賴 FlowNet2 來構建幾何約束。使用前後向傳播一致性檢查並過濾掉不可靠的光流,但這也可能出現錯誤。這時該方法無法輸出正確的深度。研究者嘗試使用稀疏光流,但效果並不好。

速度

該方法利用視頻中所有幀提取幾何約束,因此不支持在線處理。例如,對於一個包含 244 幀、708 個採樣光流對的視頻來說,該方法的測試時訓練步耗時約 40 分鐘。

此外,作者還製作了一個簡短的視頻,介紹了該研究的主要方法、思路和效果,參見:

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。

原標題:《你的廚房被水淹了!別擔心,這只是3D深度估計做出的特效》

閱讀原文

相關焦點

  • 你的廚房被水淹了!別擔心,這只是3D深度估計做出的特效|深度圖|...
    毋庸置疑,最簡單的 3D 重建捕捉方式就是利用智慧型手機手持拍攝,因為這類相機很常見,還可以快速覆蓋很大的空間。如果可以利用手機拍攝的視頻實現非常密集、準確的重建,這類技術將變得非常有用。但要做到這一點困難重重。
  • 怎樣在pr中做出特效
    pr是剪輯視頻的必備軟體,現今有越來越多的人不滿足於 傻瓜軟體做出的視頻,追求高大上,所以進階pr,ae等adobe公司的軟體,但是大多新手除了拼接視頻加幾個效果之後就什麼都不會了,pr特效不僅需要基本技巧,還是需要一些乾貨的
  • 到底要不要做開放式廚房?千萬別被忽悠了!
    1.開放式廚房的優點開放式廚房的優點有很多,用過的人估計都會愛不釋手,其中最大的好處就是以下幾點:空間感、家居幸福感、夏天的涼快感,下面來一一分析。①小戶型大空間對於一些小戶型的房子,廚房可能就是一個非常擁擠的小空間,做飯體驗非常差。而做成開放式的格局,可以讓廚房空間更加寬敞。
  • 櫥櫃這7個尺寸別搞錯,做飯不累還實用,老婆天天下廚房!
    廚房裝修有一個大忌諱就是中看不中用!廚房這樣功能性的地方,承載著一日三餐的重任,就算廚房再好,尺寸量錯也是白搭!像灶臺的高度,太高或者太低,對於做飯的人來說都像是活受罪。所以咱們在廚房設計這些尺寸把握住,別盲目裝修,老婆天天下廚房,做飯不累還實用!
  • 把網絡神曲「可視化」,做出炫酷粒子特效
    本期視頻就教大家如何用AE,把網絡神曲「可視化」,做出炫酷粒子特效。
  • 我勸你,千萬不要輕易嘗試這10件廚房神器!
    講真,廚房是我藏秘密武器最多的地方,簡直比衛生間還難搞。暴露智商和廚藝的被燒糊的鍋底,提醒你N久沒搞衛生囤積的油膩水槽,還有廚房裡最最最頭疼的油煙機厚重老垢......拙略廚藝要提升,廚房也要變好看。保溫杯裡盛過咖啡的怪味,水杯裡的茶味,廚房抹布魔性的油膩味,被西紅柿甚至桑葚染色的砧板,去味同時還能去染色。使用時量別貪多,1-2瓶蓋漂水足夠讓一水池子東西用,冷水泡30分鐘,帶顏色的布類可能會褪色要注意。
  • 廚房蟑螂再多也別踩死它!一種果皮,放廚房一夜,蟑螂死光光
    廚房蟑螂再多也別踩死它!一種果皮,放廚房一夜,蟑螂死光光1、潮溼:蟑螂只要又潮溼的地方就能生產,所以,家裡廚房和廁所的下水道、灶臺附近受它們的侵害最嚴重。2、陰暗:是蟑螂最重要的一個習慣,所以白天蟑螂都會躲在家裡沒有光的地方。只要一到夜晚,它們就會開始出來活動。
  • 初中生睡覺時有這3「怪現象」,別慌你只是在長高,全中偷著笑!
    初中生睡覺時有這3「怪現象」,別慌你只是在長高,全中偷著笑!,如果經常熬夜的話,也會直接影響到我們的身高發育,畢竟過多的生長激素分泌極有可能會讓我們的身高發育的更加迅速,而且深度睡眠也可以促進身體中的血液循環,而生長激素又是我們長高的一個重要成分,所以一旦發現睡眠時間太長的話,那就完全不用擔心,這可是你講過的一個重要信號。
  • 基於單目圖像的深度估計算法,大幅度提升基於單目圖像深度估計的精度
    簡介 基於單目圖像的深度估計算法具有方便部署、計算成本低等優點,受到了學術界和工業界日益增長的關注。現有的單目深度估計方法通常利用單一視角的圖像數據作為輸入,直接預測圖像中每個像素對應的深度值,這種解決方案導致現有方法通常需要大量的深度標註數據,而這類數據通常需要較高的採集成本。
  • Facebook 開源 3D 深度學習函數庫 PyTorch3D
    原標題:Facebook開源3D深度學習函數庫PyTorch3D來源:開源中國Facebook近日開源了將PyTorch用於3D深度學習的函數庫PyTorch3D,這是一個高度模塊化且經過優化的庫,具備獨有的功能,旨在通過PyTorch簡化3D深度學習。
  • 這真的不是開玩笑!廚房裡千萬別做這些事!
    有一種說法:麵粉一旦遇上明火就會發生爆炸,你也許會說:別逗了,麵粉怎麼會爆炸?
  • FB嵌入式人工智慧平臺發布,單目3D姿態估計新方法
    AI Scholar Weekly是AI領域的學術專欄,致力於為你帶來最新潮、最全面、最深度的AI學術概覽,一網打盡每周AI學術的前沿資訊,文末還會不定期更新AI黑鏡系列小故事。周一更新,做AI科研,每周從這一篇開始就夠啦!
  • 裝修廚房時,這3件東西選對了能為你減少很多麻煩,不信就試試!
    導讀:裝修廚房時,這3件東西選對了能為你減少很多麻煩,不信就試試!其實非常的簡單,所以我就給大家帶來了這樣的一個話題:裝修廚房時,這3件東西選對了能為你減少很多麻煩,不信就試試!感興趣的朋友可別放過,相信你看完這次的分享後,就能打造出一個乾淨整潔又實用的廚房,那麼話不多說,直接給大家上乾貨吧。
  • 別擔心,雀巢來幫你
    別擔心,雀巢來幫你。在確定牛奶過敏後,對非母乳餵養的寶寶來說,選擇一款合適的奶粉便是最重要的環節了。針對寶寶不同程度的牛奶蛋白過敏,雀巢有三款奶粉:恩敏舒、肽敏舒和藹兒舒。寶媽可以根據寶寶個人的體質和過敏程度,選擇適合寶寶的產品。
  • 3D建模軟體哪個好?3D建模軟體排行榜
    在影視特效方面也有一定的應用。而在國內發展的相對比較成熟的建築效果圖和建築動畫製作中,3DS MAX的使用率更是佔據了絕對的優勢。  傳送門:3D MAX  二、moi3d三維建模MOI3.0是一款精準的三維建模軟體,別看它的體積不大,但功能上卻非常強大,能夠讓你的建模工程更高效更快捷,對於那些對CAD軟體頭疼的人來講,MOI3.0是一個非常不錯的選擇,它與犀牛的結合更是完美,它們的生成格式甚至是完全相同的,熟悉上手後能夠做出精細的模型,可以繪製各種直線曲線矩形多邊形,繪製圓弧橢圓等圖形
  • 看廚房小白怎麼做出美味的海膽炒飯
    這段時間,受疫情影響,大家都宅在家裡,大部分的飯館都沒開門營業。家裡的小朋友吵著想吃最喜歡的海膽炒飯,這可難住我了,我可是妥妥的一枚廚房小白呀。我只好向一個朋友請教了一番,再根據家裡小朋友的口味準備食材,然後開始下廚第一次做海膽炒飯。1、買來新鮮的海膽肉,預先煲好米飯。
  • 廚房不鏽鋼臺面的優點 如何正確保養廚房不鏽鋼臺面
    在裝修廚房的過程中,免不了臺面材料的選擇。目前市場上的臺面材料有很多,常見的有:不鏽鋼,大理石,玻璃等。由於不同材質的臺面材料,裝修出來的視效和功能也是不一樣的,而我今天要為大家介紹的是廚房不鏽鋼臺面的相關知識。
  • 別擔心別緊張,這是你的大腦在保護你!
    為了維持正常的腦部功能, 人類大腦不僅要有儲存能力, 還要遺忘, 這是一種自然生物機制,
  • 「散文天地」黃禎祥:家被水淹
    家被水淹有家難歸的滋味我已經嘗過兩次,而且都是水淹以後發生的事。我家被水淹,不是長江的無情洪水,也不是海潮過線或狂風卷浪所致,而是暴雨漫溢河湖和多年失修的大型水庫倒堤,淹了我的住宅。我家地處一個緊挨城市的圍墾湖岔邊,由於地勢低矮,又是一層紅磚住屋,雖然基腳看牢,不易倒塌。一旦遇到暴雨或洪災的年歲,心就提到了嗓門邊,時刻擔憂家被淹水。
  • Github霸榜:從零開始學3D著色器編程
    運行示例代碼需要先build如果你想運行示例代碼,首先要先build。渲染到紋理渲染到紋理(Render To Texture, RTT)是現在很多特效裡面都會用到的一項很基本的技術,實現起來很簡單,也很重要。渲染到紋理是為了實現一些特殊的效果,比如一個光滑的球體,它應該是可以反射周圍環境的,這個時候就需要先渲染到紋理。