剛剛過去的 2020 年 ECCV(歐洲計算機視覺國際會議),有一項 AI「隱身衣」技術引人矚目。該技術來自本次會議收錄的論文《光流 - 邊緣引導的視頻補全》(Flow-edge Guided Video Completion)。ECCV 是計算機視覺三大會議之一,每兩年舉辦一次,論文錄取率僅 27%。
DeepTech 採訪到該論文第一作者高諶,他是一位 90 後北京小夥,目前在維吉尼亞理工大學計算機工程專業就讀博士三年級,師從華人教授 Jia-Bin Huang。
該研究成果主要是開發出一項 AI 視頻處理算法,其能實現諸多 「炫彩」 成果:比如正在行駛的車輛,突然人間蒸發。
圖 | 突然消失的汽車(來源:受訪者)
正在坐鞦韆的小孩,突然只剩下鞦韆架;正在騎馬的運動員,跨過欄杆人和馬都不見。
圖 | 消失的蕩鞦韆小孩(來源:受訪者)
這不是變魔術,而是本次 AI 視頻處理算法的功能之一,它依託一種名為光流引導(Optical Flow)的方法。
據了解,當前視頻處理主要面臨幾大難題:補全後的光流難以做到分段光滑,難以保證時序連續性,難以在高解析度下實現修復,更難以降低視頻對計算的開銷。
基於此,高諶提出一種以光流邊緣為引導(Flow-edge Guided) 的光流補全技術,再利用補全的光流來完成視頻補全的算法。相比此前方法,該算法可保持運動邊界的清晰度。
研究起源於在 Facebook 的實習
本次研究開始於 2019 年暑假,當時高諶在 Facebook 實習,他跟導師 Jia-Bin Huang 討論後決定了該方向。在查考相關文獻、並了解該領域的現有問題後,他開始著手算法開發。
圖 | 高諶(來源:受訪者)
該研究的主要原理——光流法是視域中物體運動檢測的概念,其用於描述運動所造成的觀測目標、表面或邊緣的運動,主要應用於計算機視覺和影像處理等。使用光流法,可尋到不同幀之間的關係,並通過在不同幀之間傳播信息來補全視頻。
本次研究主要包含三個步驟:光流完成(Flow completion)、內容傳播(Temporal propagation)和融合(Fusion) 。
第一步是光流完成。具體操作時,要計算相鄰幀之間的正向光流和反向光流、以及一組非相鄰幀 (Non-local) 的正向光流和反向光流。
由於視頻可能出現破損,計算出的光流也需要補全。另外,因為光流是分段光滑的,是否能得到一個銳利光流邊緣,將直接影響最後的光流補全結果。最終,高諶選擇利用神經網絡來補全光流邊緣,再以光流邊緣為引導補全光流。
第二步是內容傳播。這時要按照光流的軌跡,為每個丟失的像素找到一組候選像素。順著正向光流和反向光流,最多可找到兩個候選點。而在非局部光流的幫助下,通過檢查三個額外的幀,可以獲得額外的三個候選幀。高諶表示,對於每個候選幀,都要估計一個置信分數以及一個二進位有效性指標。
第三步是融合。使用置信加權平均值,將每個缺失像素的候選像素與至少一個有效候選像素融合。並通過梯度域的操作方式,可避免明顯的拼接裂縫,從而生成無縫的結果。假如一個像素沒有任何候選像素,就意味著它無法通過時間傳播來填充。這時,高諶選擇一個關鍵幀,並使用單個圖像補全技術來填充它。
可實現無痕補視頻
本次算法,相比同類算法主要有三大優點:
第一,此前的補全視頻中,用戶可明顯看出視頻 「補過」,「補丁」 邊界處非常明顯。如下圖所示,其結果往往帶有痕跡,顯得很不自然。而使用本次算法得到的補全視頻,其補全區域是無痕的。
圖 | 用其他方法很難表現自然(來源:受訪者)
第二,此前用算法給視頻補幀時,只能補到前一幀和後一幀,如果找不到前一幀或後一幀的信息,就會無法補全。而本次算法,不僅能補全前一幀和後一幀,還能跳著補幀。比如,直接跳到第一幀去借用信息,或者直接跳到最後一幀去借信息,這樣就不局限於上一幀或下一幀。另外,此前方法在處理有周期性運動物體出現的視頻時往往比較困難,針對該難題高諶通過引入非局部 ( Non-local ) 信息,來提升視頻修復的準確度。
圖 | Non-local temporal neighbor ablation(來源:受訪者)
第三,以前的算法補出來的光流不是很平滑,往往帶有明顯的接縫。而該團隊的算法主要基於光流邊緣進行補全,最終可得到分段光滑的光流。
圖 | 流程完成(來源:受訪者)
以上三個原因,讓本次研究的結果,比以前方法更好。
此外,由於此算法不局限於 GPU 內存,所以可處理最高 2K 解析度的視頻。這種全自動的算法,可告別之前手動一幀幀地刪除視頻內容。
眾所周知,機器學習算法的開發過程費時費力,開發成本高。高諶認為,他們的新算法以完全自動化的流程取代手工,會達到更低的成本。
事實上,機器學習相當於優化問題的過程,優化過程中需要很多 CPU 和 GPU 資源,比如在本次研究中 Facebook 就提供了大量 GPU。
所以,算法開發成本非常高,而算法一旦開發出來,就可以一勞永逸地進行部署,不管多少視頻都能完全自動化處理。並且,對於一般視頻剪輯者來說,即便沒有計算機知識,也能使用該技術。
已經開源,可供廠商和個人使用
在肉眼觀感上,依託該算法修復的視頻,已能做到無痕抹除水印、無痕補全畫面殘缺,在目標識別和影視後期(視頻編輯)中,具有很大應用前景。
除用於視頻編輯外,Vlog 創作者們可使用該算法,營造一個人突然消失的場景;普通用戶則可完成 「美圖秀秀」 式的視頻處理,比如假期旅遊拍攝視頻時,可能你本來想拍景點,但由於遊客太多擋住了景點,使用該算法就能把遊客刪掉,最終只保留景點本身的視頻。
雖然這一過程和刪除圖片中的內容很相似,但這裡是刪除同一幀視頻中的內容,這也是相比照片處理的難度所在。
再就是針對部分內容缺失的老舊視頻,該算法能修復出丟失或破壞的地方。以幾十年前的膠片視頻為例,假如視頻左上角被水淹過,此處就是完全一片黑色,既無顏色也無信息,而使用本次算法,則可補全已缺失部分。
具體操作時,如果某一幀有缺失,就得看能否從視頻中的其他幀借到有用信息,也就是 「補丁」 內容不是憑空生成,而是本身就在視頻裡。這樣補出來的視頻在播放時,就會非常流暢。
還有一種可能,整個視頻都找不到可借用部分,那就只能求助另一個算法,這種方法叫單幀補全,也就是說從其他幀借不到信息,就只能用一個網絡來把這一幀缺失的信息補全。
這一幀補全的信息,還可以借給其他幀,即先從其他人那借,借不過來就自己生成一些,相當於雞生蛋蛋生雞,不斷循環借出去借回來的過程,直到最後可讓整個視頻都補全,且播放非常流暢。
當前的局限在於,算法無法理解視頻的內容,它只能藉助光流找到信息並把信息補全,這也是當前人類 」摳圖師」的優勢所在。
本算法已經在 GitHub 開源,任何人都可以免費使用。高諶表示,歡迎廠商或其他研究人員把該項目的原始碼合併到軟體中。由於已經開源,只要你對視頻編輯感興趣,就能直接用本次研究結果來做創造性作品。
在 DAVIS 數據集上,高諶將該成果與已有成果進行對比,在峰值信噪比(PSNR,Peak Signal to Noise Ratio,一種評價圖像的客觀標準)、結構相似性(SSIM,Structural SIMilarity,一種衡量兩幅圖像相似度的指標,LPIPS)上,均優於其他成果。
圖 | 和同類方法的對比
不過,高諶在論文中坦言:「我們的方法運行速度為 0.12 fps,(速度)與其他基於光流的方法相當...... 我們承認運行時間稍慢是個弱點。」對此,他表示該成果已經開源,因此非常期待圈內人士對其進行優化。
今年 28 歲的高諶,本科時就讀於俄勒岡州立大學,主修電子與計算機工程;碩士來到密西根大學安娜堡分校,就讀於電氣與計算機工程專業;博士則就讀於維吉尼亞理工大學計算機工程專業,師從華人教授 Jia-Bin Huang。截至目前,已發表 7 篇被 ECCV、NeurIPS 等頂會錄用的論文。
2019 年夏季,高諶在 Facebook 計算攝影組擔任研究實習生。2020 年夏季,則在谷歌安卓相機算法團隊,擔任研究實習生。談及他未來的計劃,他表示仍然想去企業工作。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺「網易號」用戶上傳並發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.