曉查 發自 凹非寺量子位 報導 | 公眾號 QbitAI
在拍照時我們常常會遇到這樣的苦惱:由於設置的快門時間太長,快速運動的物體會在身後產生嚴重的拖影。
除非是為了特殊的藝術效果,一般來說這張照片就報廢了。
然而來自MIT的研究人員卻告訴我們,拍糊了的照片不要扔,丟給這個神經網絡,還你一份運動視頻。拖影裡包含的信息其實可以找回丟失的時間維度。
他們提出的模型可以從運動模糊的圖像中重新創建視頻。論文第一作者說:「我們能夠恢復這個細節幾乎就像魔術一樣。」
不僅如此,作者還表示,這種模型不僅可以解決時間維度上的損失,還能挽救空間維度上的損失。未來這種技術甚至可能從2D醫學圖像中檢索3D數據,只用一張X光片得到CT掃描的信息。
目前這篇論文已經被計算機視覺頂會ICCV 2019收錄。
恢復視頻並不容易
照片和視頻通常會將時空摺疊到更低維度上,我們將之稱為「投影」(projection)。
比如拍攝X光片,是把3D圖片投影到一張2D底片上,這是空間上的投影。長時間曝光,讓星星在照片上留下常常的軌跡,這是時間上的投影。
投影過程中會丟失信息,下面的向量投影中,我們就損失掉了另一個維度的信息,而且完全無法恢復。
但是大多數物體的尺寸通常比其在圖像中拖影的尺寸小得多,研究人員可以通過投影的信號生成恢復原貌的概率模型。
之前,也是來自MIT一項研究,用一種「角落照相機」的算法可以檢測到拐角處的人。在這樣的場景中,由於邊緣遮擋物的存在,場景的反射光會沿空間維度塌陷。
但是這種算法並不完善,目前僅能根據模糊圖像恢復一些簡單的線條。而最新的這項研究則可以較清晰地恢復物體的原貌。
從模糊中恢復真相
MIT的研究人員收集了一個由35個視頻組成的數據集,其中有30個人在指定區域中行走。他們將所有視頻摺疊成用於訓練和測試模型的投影。
模型從投影中精確地重新恢復了人行走過程中的24幀。而且該模型似乎了解到,隨著時間而變暗和變寬的像素可能對應於一個人在靠近相機。
此外,他們還在人臉數據集FacePlace上進行了測試,從左右擺動高度模糊的圖像中恢復出五官樣貌。
如果圖像中有兩個物體在運動,該算法也能處理。
研究人員讓兩個MNIST手寫體數字相互運動,圖像甚至模糊到連一般人也看不出裡面是什麼,但AI模型不但推斷出了數字的筆畫形狀,還分析出了兩個數字的運動方向。
原理
實現從2D投影到恢復3D時空的的網絡架構如下圖所示:
該網絡有三個參數化函數:qψ(·|·) 表示變分後驗分布,pφ(·|·) 表示先驗分布,gθ(·, ·)表示反投影網絡。z在訓練時從q網絡中採樣,在測試時從p網絡中採樣。
對於後驗分布的參數編碼器q,其中包含一系列3D跨度卷積運算符和Leaky RELU激活函數,以獲得μψ和σψ兩個分布參數。
條件先驗編碼器p以類似的方式實現,因為沒有時間維度信息,它只有2D跨度卷積。
對於反投影函數gθ(x, z),它使用UNet型的體系結構計算x的每個像素特徵。UNet分為兩個階段:在第一階段,應用一系列2D跨度卷積算子提取多尺度特徵;第二階段應用一系列2D卷積和上採樣操作,合成x和更多數據通道。
傳送門
相關報導:
https://www.eurekalert.org/pub_releases/2019-10/miot-rd101619.php
論文地址:
https://arxiv.org/abs/1909.00475