幹掉高速攝像頭:神經網絡生成極慢視頻,突破人類肉眼極限

2020-11-24 36kr

編者按:本文來自微信公眾號「新智元」(DI:AI_era),來源:Github; Arxiv ,編輯:文強、金磊;36氪經授權轉載。

總有那麼一些細節,你瞪大雙眼拼了命想看清卻依然奈不了何,比如下面這個:

跟得上球嗎?要看清男子羽毛球比賽的細節實在不容易

有時候想盯住飛來飛去的羽毛球,非常吃力,這就是人類肉眼的極限。

你或許會說,好解決啊,用慢速回放功能就行了。

確實可以回放,但慢速回放的前提,是攝像機一開始就捕捉到了這些細節。如今,一些大型體育賽事已經用上了工業高速攝像頭,為的就是在裁判的裁決引發爭議時,可以用慢鏡頭回放來判定結果。

但是,沒有專業的高速攝像頭怎麼辦?

像我們用智慧型手機拍的視頻,記錄下生活中很多美好,隨風飄逝的晚霞,又或者池塘濺起的漣漪,還有孩子們在泳池裡潑水嬉戲,如果都能夠放慢了觀看,必將帶來全新的感受。

正因如此,當今年計算機視覺頂會CVPR舉行時,英偉達團隊的一篇能讓手機拍攝的視頻也「高清慢速播放」的論文,在業界引發了很大的反響。

這項被稱為Super SloMo的工作,使用深度神經網絡,對視頻中缺失的幀進行預測並補全,從而生成連續慢速回放的效果。

更贊的是,他們提出的方法,能夠排除原視頻幀當中被遮擋的像素,從而避免在生成的內插中間幀裡產生模糊的偽像(artifact)。

值得一提,這篇論文的第一作者,是本碩畢業於西安交通大學、現在麻薩諸塞大學阿默斯特分校讀博四的 Huaizu Jiang。第二作者 Deqing Sun 是英偉達學習與感知研究小組的高級研究員,本科畢業於哈工大,碩士讀的港中文,在布朗大學取得博士學位後,在哈佛 Hanspeter Pfister 教授的視覺研究小組做過博士後。

感受一下Super-SloMo生成的「慢速回放」效果:

注意,左右兩邊都是Super SloMo生成的視頻。左邊是原始慢速視頻,右邊是將這個結果再放慢4倍的效果,如果不告訴你中間的細節(幀)是神經網絡生成的,你會不會把它們當做真的慢速回放?來源:Huaizu Jiang個人主頁

實際用手機拍攝的畫面是這樣的,對比後,意識到Super SloMo補充多少細節了嗎?

論文作者稱,他們能將30FPS(畫面每秒幀數)的視頻變為480FPS,也即每秒幀數增加了16倍。

根據Super SloMo項目主頁,作者表示,使用他們未經優化的PyTorch代碼,在單個NVIDIA GTX 1080Ti 和 Tesla V100 GPU上,生成7個解析度為1280*720的中間幀,分別只需要0.97秒和0.79秒。(補充說明:從標準序列30-fps生成240-fps視頻,一般需要在兩個連續幀內插入7個中間幀。)

Super SloMo效果展示。來源:NVIDIA

效果當然稱得上驚豔。然而,令很多人失望的是,論文發布時並沒有將代碼和數據集公開,儘管作者表示可以聯繫 Huaizu Jiang 獲取部分原始資料。

僅在論文中提到的數據和示例。來源:Super SloMo論文

今天,有人在 Github 上開源了他對 Super-SloMo 的 PyTorch 實現。這位ID為atplwl的Reddit用戶,在作者提供的adobe24fps數據集上預訓練的模型(下圖中pretrained mine),實現了與論文描述相差無幾的結果。

現在,這個預訓練模型,還有相關的代碼、數據集,以及實現條件,都能在GitHub上查到。

自稱新手的atplwl表示,他目前在努力完善這個GitHub庫,接下來預計添加一個PyThon腳本,將視頻轉換為更高的fps視頻,歡迎大家提供建議。

Super SloMo PyTorch實現地址(點擊閱讀原文訪問):https://github.com/avinashpaliwal/Super-SloMo

Super SloMo:將任意視頻變為「高清慢速播放」

代碼在手,再看論文——前文已經說過,從已有視頻中生成高清慢速視頻是一件非常有意義的事情。

除了專業的高速攝像機尚未普及到每個人手裡,人們用手機拍攝的視頻 (一般為240FPS) 想要放慢的時刻是不可預測的,要實現這一點就不得不用標準幀速率來記錄所有視頻,但這樣做需要的內存過大,對行動裝置來說耗電量也花不起。

現在,計算機視覺領域,除了將標準視頻轉換為更高的幀速率之外,還可以使用視頻插值來生成平滑的視圖轉換。在自監督學習中,這也可以作為監控信號來學習未標記視頻的光流。

不過,生成多個中間視頻幀 (intermediate video frame) 是具有挑戰性的,因為幀必須在空間和時間上是連貫的。例如,從30-fps標準序列生成240-fps視頻,需要在兩個連續幀內插入7個中間幀。

成功的解決方案不僅要正確解釋兩個輸入圖像之間的運動(隱式或顯式),還要理解遮擋 (occlusion)。 否則,就可能導致插值幀中產生嚴重的偽像,尤其是在運動邊界附近。

現有方法主要集中於單幀視頻插值,而且已經取得了不錯的進展。然而,這些方法不能直接用於生成任意高幀率視頻。

雖然遞歸地應用單幀視頻插值方法生成多個中間幀是一個很不錯的想法,但這種方法至少有兩個限制:

  • 首先,遞歸單幀插值不能完全並行化,速度較慢,因為有些幀是在其他幀完成後才進行計算的(例如,在七幀插值中,幀2取決於0和4,而幀4取決於0和8)。

  • 其次,它只能生成2i-1個中間幀。因此,不能使用這種方法有效生地生成1008 - fps 24幀的視頻,這需要生成41中間幀。

論文 Super SloMo: High Quality Estimation of Multiple Intermediate Frames for Video Interpolation 提出了一種高質量的變長多幀插值方法,該方法可以在兩幀之間的任意時間步長進行插值。

其主要思想是,將輸入的兩幅圖像扭曲到特定的時間步長,然後自適應地融合這兩幅扭曲圖像,生成中間圖像,其中的運動解釋和遮擋推理在單個端到端可訓練網絡中建模。

Super SloMo效果展示:注意在放慢過渡區域對偽像的處理。

具體來說,首先使用流量計算CNN來估計兩幅輸入圖像之間的雙向光流,然後線性融合來近似所需的中間光流,從而使輸入圖像發生扭曲。這種近似方法適用於光滑區域,但不適用於運動邊界。

因此,Super SloMo 論文作者使用另一個流量插值CNN來細化流近似並預測軟可見性圖。

通過在融合之前將可見性圖應用於變形圖像,排除了被遮擋像素對內插中間幀的貢獻,從而減少了偽像。

Super SloMo網絡架構

「我們的流計算和插值網絡的參數都獨立於被插值的具體時間步長,是流插值網絡的輸入。因此,我們的方法可以並行生成任意多的中間幀。」作者在論文中寫道。

為了訓練該網絡,團隊從YouTube和手持攝像機收集了240-fps的視頻。總量有1.1K視頻剪輯,由300K個獨立視頻幀組成,典型解析度為1080×720。

然後,團隊在其他幾個需要不同插值數量的獨立數據集上評估了訓練模型,包括Middlebury 、 UCF101 、慢流(slowflow)數據集和高幀率(high-frame-rate) MPI Sintel。

實驗結果表明,該方法明顯優於所有數據集上的現有方法。 團隊還在KITTI 2012光流基準上評估了無監督(自監督)光流結果,並獲得了比現有最近方法更好的結果。

相關焦點

  • 微軟RobustFill:無需程式語言,讓神經網絡自動生成程序
    在最近的一項研究中,微軟發布了自己的深度學習程序生成研究。在該研究中,深度神經網絡學會了遵從用戶的意圖來生成電腦程式。用戶只需要提供一些簡單的輸入/輸出(I/O)範例以表示自己希望獲得的程序是什麼形式的。系統就可以使用這些信息生成相應的程序。例如:假設用戶有一個名單,他/她希望將這個名單整理成特定格式,如下圖所示。
  • ...計算能力來獲取攝像頭採集的視頻並採用多個卷積神經網絡進行處理
    打開APP 如何使用硬體的計算能力來獲取攝像頭採集的視頻並採用多個卷積神經網絡進行處理 工程師5 發表於 2018-04-27 16:10:00
  • 挑戰教科書的研究:人類「高速痛覺受體」被發現,原來不比觸覺慢
    舊的觀念認為人類與其他哺乳動物不同,處理痛覺比觸覺慢。那麼,真的是這樣嗎?到目前為止,科學界普遍認為人類大腦傳遞觸覺神經信號比痛覺神經信號更快。研究人員認為,這種速度上的差異是由於觸覺信號通過一層厚厚的髓鞘穿過神經。而傳遞痛覺信號的神經元要麼沒有髓鞘,要麼只有薄薄一層髓鞘。髓鞘是神經周圍起保護作用的脂質絕緣層,幫助神經更快地傳導信號。
  • 神經網絡技術解析:手寫數字識別項目解讀
    打開APP 神經網絡技術解析:手寫數字識別項目解讀 澤南 張倩 發表於 2021-01-13 15:50:11 手寫數字識別是很多人入門神經網絡時用來練手的一個項目
  • Imagination 的神經網絡加速器在邊緣計算領域的應用
    的神經網絡加速器在邊緣計算領域的應用。 以攝像頭為例(如下圖所示),傳統攝像頭是把所有視頻都存儲起來,這樣不但浪費了存儲空間也增加了視頻檢查的難度,而加入了運動檢測的涉嫌頭,只對運動物體有興趣,進行記錄,而有人工智慧功能的攝像頭,在邊緣端進行識別和檢測,把龐大的視頻變成了一串特徵值或者字符串,這樣的節省是非常大的。
  • MSRA視頻理解新突破,實現199層三維卷積神經網絡
    隨著網際網路的不斷發展,可處理視頻的深度神經網絡遠比普通神經網絡更難訓練,如何減輕訓練負擔成為了一項不可忽視的工作。關於偽三維殘差網絡相關的代碼和模型詳見 https://github.com/ZhaofanQiu/pseudo-3d-residual-networks。神經專用神經網絡的發展方向該工作基於偽三維卷積和殘差結構給出了訓練超深度三維卷積網絡的可能性,然而本文中提到的神經網絡目前主要針對視頻分類問題。面對紛繁複雜的視頻內容與視頻應用需求,單一的神經網絡很難滿足。
  • 屢次突破拍照極限,華為P40帶來手機攝影更多想像
    這一次,似乎在情理之中,華為P40系列再一次突破了影像極限,不管是1/1.28英寸的大底,還是10倍光變的超長變焦,都在硬體端刷新了全新的紀錄,而且預計在相當長的時間內都不會被超過。可以說從P20開始,P系列的手機拍照都實現了甩行業一條街的水準,那麼這種超級影像的實力是怎麼煉成的,餘承東口中的「不僅僅堆料」又有哪些含義。通過對華為的深入採訪,我試圖用自己的理解為大家做一個揭秘。
  • 中美科學家新突破讓動物「肉眼可見紅外線」
    新華社合肥3月1日電(記者徐海濤)由於眼睛感光能力的限制,動物無法肉眼看見紅外線。記者從中國科學技術大學獲悉,該校薛天教授研究組與美國麻薩諸塞大學醫學院韓綱教授研究組合作,近期結合視覺神經生物醫學與創新納米技術,首次實現了動物裸眼紅外光感知和紅外圖像視覺能力。
  • 百度大腦這樣思考:模仿人類大腦神經網絡
    原標題:百度大腦這樣思考:模仿人類大腦神經網絡   巴西世界盃足球賽激戰正酣,有爆冷出局的,也有意外晉級的。本屆比賽雖然沒有了「預言帝」章魚保羅,但是預測比賽結果已經有了新工具——能夠分析數據、學習思考的人工智慧。
  • 有道nmt神經網絡_有道神經網絡翻譯(nmt) - CSDN
    另一方面,隨著智能翻譯的興起,越來越多語言專業的學生和翻譯行業的工作人士抱怨,神經網絡翻譯等技術的出現,讓原本就競爭激烈的翻譯市場迅速進入了冰凍期。但是,未來機器翻譯真的會完全取代人類,讓翻譯員們下崗嗎?網易智能梳理了目前主流的機器翻譯技術與應用,一探智機器翻譯行業究竟。
  • 使用神經網絡為圖像生成標題
    我們都知道,神經網絡可以在執行某些任務時複製人腦的功能。神經網絡在計算機視覺和自然語言生成方面的應用已經非常引人注目。本文將介紹神經網絡的一個這樣的應用,並讓讀者了解如何使用CNNs和RNNs (LSTM)的混合網絡實際為圖像生成標題(描述)。
  • 神經可塑性的力量!新神經技術正在突破人類大腦損傷後恢復的極限
    為了突破這一治療瓶頸,神經病學研究中心利用可攜式神經調節刺激裝置(簡稱 PoNS)啟動了為期14周的強化試驗。PoNS是一種神經刺激技術,它可以通過舌頭向人體大腦發送一系列的小型電脈衝(也就是我們所熟知的語言神經刺激方式),從而安全地促進人體神經的可塑性。研究小組使用NeuroCatch平臺(或者稱作NeuroCatch)追蹤了大腦生命體徵的改善情況。NeuroCatch是一種快速客觀測量大腦認知腦功能的方法。
  • 神經可塑性的力量!新的神經技術正在突破人類大腦損傷後恢復的極限
    這項發表在Frontiers of Human Neuroscience上的研究是由神經科學家Ryan D'Arcy博士領導,研究內容涉及到對Greene上尉使用最新且最先進的大腦技術,對大腦神經可塑性、生理、認知以及創傷後應激障礙(PTSD)的改善情況。
  • 迪普科技教你鑑別虛假視頻
    視頻篡改事件頻發,肉眼難辨真假案例一上月,廣東佛山警方抓獲了一個高速碰瓷團夥。該夥嫌疑人通過行車記錄儀錄製前方車輛的行駛情況,然後將視頻導入手提電腦,通過技術快速模擬一塊小石子從對方車輪胎處飛出,砸到擋風玻璃的經過,還用特效製作出撞擊時的聲音。
  • BP神經網絡
    BP神經網絡原理 人工神經網絡是一種數學模型,它具有人類神經網絡的一些特質,並且有自學習的能力,一般由MATLAB軟體來實現。與傳統統計方法不同之處是神經網絡是通過訓練實驗來找到解決問題的路徑。
  • 人工智慧之卷積神經網絡
    神經網絡的概念和組成部分人工神經網絡(Artificial Neural Networks,簡寫為ANNs)也簡稱為神經網絡(NNs)或稱作連接模型(Connection Model),它是一種模仿動物神經網絡行為特徵,進行分布式並行信息處理的算法數學模型。這種網絡依靠系統的複雜程度,通過調整內部大量節點之間相互連接的關係,從而達到處理信息的目的。
  • 「GANs之父」Goodfellow 38分鐘視頻親授:如何完善生成對抗網絡...
    OpenAI是一個非盈利性組織,致力於把通用性的人工智慧變成一種安全的方法,並且造福於全人類。我今天將給大家講一下生成對抗網絡(Generative Adversarial Networks),簡稱「GANs」。
  • 大腦皮層神經網絡測量取得新突破
    使用優化的基於AI的圖像處理以及人機數據分析之間的有效交互,研究人員能夠在此組織段中重建所有大約40萬個突觸和大約2.7米的神經元網絡。重建的組織再現了約7000個軸突和大約3700個突觸後神經細胞過程之間的結締,即神經網絡局部完整的通信圖。重建不僅產生了更大的網絡圖,而且效率提高了約33倍,這是哺乳動物大腦進行密集的多項式重建的新標準。
  • 高速上的測速攝像頭都裝在什麼地方?
    測速攝像頭有哪些種類?卡口測速一種呢就是說卡口測速,在路上設一個關卡,每經過這個路段的時候都會被測一下。一般是用雷達來進行測速的,高速上面最常見的就是這種類型了。我們這種手機導航上也會說的,前方多少多少看一個大方塊在那邊拍照的就是這個了。
  • 自動駕駛汽車利用卷積神經網絡學習人類決策
    對於自動駕駛汽車而言,也許有一種更好的學習駕駛的方法——觀察人類。據外媒報導,澳大利亞迪肯大學的研究人員發現,藉助改進的視覺校正系統,自動駕駛汽車可以通過觀察人類操作員來學習。