如今,能像打遊戲一樣,控制真人網球運動員的每一個動作,「贏得」比賽:
還可以像夾娃娃機一樣,想讓視頻中的機器人夾爪往哪動,它就往哪動:
製作各種視頻,現在就像是打遊戲一樣簡單,效果還非常逼真。
號外!
號外!
疫情期間,矽谷RAVV面向做小型演講的團隊及廣大留學生用戶推出不限時長、可容納最多100人,
免費的zoom.edu.cn會員視頻服務
以滿足當前特殊時刻在線開會、合作討論、協同辦公等需求。
在未來 5G + AI 的浪潮之下,遠程視頻會議、遠程辦公或是家庭的遠程通信,是一個至少萬億級的市場。持續關注RAVV,我們將力所能及給大家帶來更多驚喜福利!
獲取免費zoom會員視頻服務,請掃碼添加客服微信~
只需要敲幾下鍵盤,就能控制視頻中某個目標的方法,叫做「可玩視頻生成器」 (playable video generation)。
也就是說,不需要視頻剪輯技巧,只需要用幾個鍵來指示動作標籤,用戶就能像「打遊戲」一樣,控制目標的每一幀動作,製作出視頻來,效果絲滑流暢。
不過,與遊戲不同的是,這種方法甚至可以通過AI預測動作,來控制真實視頻中的目標。
這是怎麼做到的?作者們利用自監督的方法,讓模型學習了大量無標籤視頻。
也就是說,給出一組無標籤視頻,讓模型學習出一組離散的動作,和一個能通過這些動作、生成視頻的模型。
為此,作者設計了一種encoder-decoder結構CADDY,其中預測的動作標籤則起到瓶頸層(bottleneck)的作用。
這些可播放視頻生成結構,由若干組件組成,其中編碼器E,從輸入視頻序列中,提取幀特徵。
而時序模型,則採用遞歸神經網絡R、和用來預測輸入動作標籤的網絡A,用於估計目標連續的動作狀態。
最後,用解碼器D,來重構輸入幀,就能生成可控制的視頻模型了。
當然,想要讓模型達到開頭那樣的效果,還需要對應的視頻數據集。
作者們用了3個數據集來訓練,分別是RoboNet、Atari Breakout和Tennis。
RoboNet數據集,是伯克利人工智慧研究所(BAIR)做的一個機械臂數據集,共有1500萬個視頻幀。
這個數據集,包含各種機器人的攝像記錄、機械臂姿勢、力傳感器讀數和夾爪狀態。
而Atari Breakout,則是一個彈球遊戲,這是一個非常簡單的2D像素遊戲,玩家通過控制平板左右移動,讓彈球準確地彈掉天花板上的磚塊,以此得分。
這一遊戲,已經專門為AI設立了一個排行榜,目前得分最高的仍然是谷歌DeepMind的MuZero。
而能控制模型一幀幀生成遊戲視頻的CADDY模型,也是通過這個遊戲訓練出來的。
也就是說,只要玩得夠慢,絕對能「0失誤」做出「完美彈球遊戲視頻」來。(細思極恐)
至於網球數據集,作者們是在油管下載的(還需要安裝youtube-dl),通過油管上的網球視頻,做出真人可控的錄像來。
說不定,將來還能操作自己喜歡的網球巨星,來與好友進行一場世界級的「實戰」博弈。
此外,既可以通過項目地址來下載上述的三個模型,也可以自己準備想用的視頻數據集(要求MP4格式),來訓練出目標可控的視頻。
具體到模型運行上,作者們推薦用Linux系統來運行模型,訓練的話,最好自帶1個或以上兼容CUDA的GPU。
此外,模型提供Conda環境和Dockerfile,用於配置所需要的庫,準備好後,就能進行模型訓練和評估了。
目前,這一模型的「彈球遊戲」版在線Demo已出,玩家可以通過控制左、右、或保持,這三種動作,來讓彈球準確地擊打到平板上。
如果你是手殘黨,用這個demo製作出來的視頻,絕對能讓你體會到遊戲0失誤的快樂。
提醒大家,不要把所有的好鏡頭都扔到時間線,這樣並不是好的demo。可能很多人在製作demo的時候都會想,將自己很炫酷的鏡頭都堆積在一起會讓人發現自己是千裡馬,實際上,這樣往往會起到反作用。
作為視頻製作人,我們的職責是去講述一個故事。所以,用我們的demo去講述一個故事,然後選擇為這個故事服務的鏡頭就可以。
這樣,我們的demo就不會顯得冗餘累贅,而是清晰的,一目了然的,高大上的一部傑作。
文末附demo連結,現在趕緊上手試試吧~
這個「可玩視頻生成器」的一作Willi Menapace,是來自特倫託大學的博士生,主修深度學習和計算機視覺應用,尤其對圖像和視頻生成方向的研究特別感興趣。
二作Stephane Lathuili´ere,是巴黎理工學院的助理教授,主要的研究方向是強化學習、和深度學習中的回歸問題,包括圖像和視頻生成。
共同二作Sergey Tulyakov,來自Snap的首席科學家,主要研究方向包括機器學習中的風格轉換、逼真對象操作和動畫、視頻合成、預測和重新定位等。
Aliaksandr Siarohin和Elisa Ricci,分別是來自特倫託大學的博士生和助理教授,主要研究方向包括計算機視覺、機器人和機器學習等。
項目地址:
https://willi-menapace.github.io/playable-video-generation-website/
在線demo:
https://willi-menapace.github.io/playable-video-generation-website/play.html
Innovation Ecosystem
Reliability. Action. Vision. Value.