你在網上看到的0失誤遊戲視頻,可以是用AI生成的!

2021-03-02 RAVV前沿科技

如今,能像打遊戲一樣,控制真人網球運動員的每一個動作,「贏得」比賽:

還可以像夾娃娃機一樣,想讓視頻中的機器人夾爪往哪動,它就往哪動:

製作各種視頻,現在就像是打遊戲一樣簡單,效果還非常逼真。

號外!

號外!

疫情期間,矽谷RAVV面向做小型演講的團隊及廣大留學生用戶推出不限時長、可容納最多100人,

免費的zoom.edu.cn會員視頻服務

以滿足當前特殊時刻在線開會、合作討論、協同辦公等需求。

在未來 5G + AI  的浪潮之下,遠程視頻會議、遠程辦公或是家庭的遠程通信,是一個至少萬億級的市場。持續關注RAVV,我們將力所能及給大家帶來更多驚喜福利!

獲取免費zoom會員視頻服務,請掃碼添加客服微信~

只需要敲幾下鍵盤,就能控制視頻中某個目標的方法,叫做「可玩視頻生成器」 (playable video generation)。

也就是說,不需要視頻剪輯技巧,只需要用幾個鍵來指示動作標籤,用戶就能像「打遊戲」一樣,控制目標的每一幀動作,製作出視頻來,效果絲滑流暢。

不過,與遊戲不同的是,這種方法甚至可以通過AI預測動作,來控制真實視頻中的目標。

這是怎麼做到的?作者們利用自監督的方法,讓模型學習了大量無標籤視頻。

也就是說,給出一組無標籤視頻,讓模型學習出一組離散的動作,和一個能通過這些動作、生成視頻的模型。

為此,作者設計了一種encoder-decoder結構CADDY,其中預測的動作標籤則起到瓶頸層(bottleneck)的作用。

這些可播放視頻生成結構,由若干組件組成,其中編碼器E,從輸入視頻序列中,提取幀特徵。

而時序模型,則採用遞歸神經網絡R、和用來預測輸入動作標籤的網絡A,用於估計目標連續的動作狀態。

最後,用解碼器D,來重構輸入幀,就能生成可控制的視頻模型了。

當然,想要讓模型達到開頭那樣的效果,還需要對應的視頻數據集。

作者們用了3個數據集來訓練,分別是RoboNet、Atari Breakout和Tennis。

RoboNet數據集,是伯克利人工智慧研究所(BAIR)做的一個機械臂數據集,共有1500萬個視頻幀。

這個數據集,包含各種機器人的攝像記錄、機械臂姿勢、力傳感器讀數和夾爪狀態。

而Atari Breakout,則是一個彈球遊戲,這是一個非常簡單的2D像素遊戲,玩家通過控制平板左右移動,讓彈球準確地彈掉天花板上的磚塊,以此得分。

這一遊戲,已經專門為AI設立了一個排行榜,目前得分最高的仍然是谷歌DeepMind的MuZero。

而能控制模型一幀幀生成遊戲視頻的CADDY模型,也是通過這個遊戲訓練出來的。

也就是說,只要玩得夠慢,絕對能「0失誤」做出「完美彈球遊戲視頻」來。(細思極恐)

至於網球數據集,作者們是在油管下載的(還需要安裝youtube-dl),通過油管上的網球視頻,做出真人可控的錄像來。

說不定,將來還能操作自己喜歡的網球巨星,來與好友進行一場世界級的「實戰」博弈。

此外,既可以通過項目地址來下載上述的三個模型,也可以自己準備想用的視頻數據集(要求MP4格式),來訓練出目標可控的視頻。

具體到模型運行上,作者們推薦用Linux系統來運行模型,訓練的話,最好自帶1個或以上兼容CUDA的GPU。

此外,模型提供Conda環境和Dockerfile,用於配置所需要的庫,準備好後,就能進行模型訓練和評估了。

目前,這一模型的「彈球遊戲」版在線Demo已出,玩家可以通過控制左、右、或保持,這三種動作,來讓彈球準確地擊打到平板上。

如果你是手殘黨,用這個demo製作出來的視頻,絕對能讓你體會到遊戲0失誤的快樂。

提醒大家,不要把所有的好鏡頭都扔到時間線,這樣並不是好的demo。可能很多人在製作demo的時候都會想,將自己很炫酷的鏡頭都堆積在一起會讓人發現自己是千裡馬,實際上,這樣往往會起到反作用。

作為視頻製作人,我們的職責是去講述一個故事。所以,用我們的demo去講述一個故事,然後選擇為這個故事服務的鏡頭就可以。

這樣,我們的demo就不會顯得冗餘累贅,而是清晰的,一目了然的,高大上的一部傑作。

文末附demo連結,現在趕緊上手試試吧~

這個「可玩視頻生成器」的一作Willi Menapace,是來自特倫託大學的博士生,主修深度學習和計算機視覺應用,尤其對圖像和視頻生成方向的研究特別感興趣。

二作Stephane Lathuili´ere,是巴黎理工學院的助理教授,主要的研究方向是強化學習、和深度學習中的回歸問題,包括圖像和視頻生成。

共同二作Sergey Tulyakov,來自Snap的首席科學家,主要研究方向包括機器學習中的風格轉換、逼真對象操作和動畫、視頻合成、預測和重新定位等。

Aliaksandr Siarohin和Elisa Ricci,分別是來自特倫託大學的博士生和助理教授,主要研究方向包括計算機視覺、機器人和機器學習等。

項目地址:
https://willi-menapace.github.io/playable-video-generation-website/

在線demo:
https://willi-menapace.github.io/playable-video-generation-website/play.html

Innovation Ecosystem

Reliability. Action. Vision. Value.

相關焦點

  • NVIDIA利用嵌入式AI視覺自動生成遊戲關卡
    經過50,000回合遊戲訓練後,由NVIDIA Research創建的功能強大的新AI模型(稱為NVIDIA GameGAN)可以生成功能完整的PAC-MAN版本,而無需底層遊戲引擎。這意味著即使不了解遊戲的基本規則,人工智慧也可以令人信服的重現遊戲。
  • 史丹福大學用AI模擬溫網:終於可以看到費德勒和自己對戰了
    但來自史丹福大學的研究團隊用人工智慧對溫網比賽進行了模擬,通過這套系統,你甚至可以看到費德勒(被外界稱為「草地之王」)與自己進行比賽。模擬德約科維奇和費德勒的比賽這場模擬是基於一個由史丹福大學研究團隊開發的「交互式可控視頻精靈」——Vid2Player。
  • 史丹福大學用AI模擬溫網:終於可以看到費德勒和自己對戰了
    但來自史丹福大學的研究團隊用人工智慧對溫網比賽進行了模擬,通過這套系統,你甚至可以看到費德勒(被外界稱為「草地之王」)與自己進行比賽。模擬德約科維奇和費德勒的比賽這場模擬是基於一個由史丹福大學研究團隊開發的「交互式可控視頻精靈」——Vid2Player。研究人員使用資料庫訓練AI,並建立統計模型,最終能預測德約科維奇、費德勒等明星球員在特定情況下的比賽情況。
  • AI畫家躥紅,用GAN生成人像油畫,一秒回到文藝復興:伺服器擠爆
    MIT和IBM沃森聯合實驗室,發布了這隻畫師,名叫AI Portraits Ars,可以在線玩耍。但由於生成的畫像過於形神兼備,上線即遭網友大規模湧入,不到三天伺服器就崩壞了。這隻高能的AI,不止能拿著照片作畫,看著視頻也沒問題。
  • 《連線》:AI生成的文字將是最可怕的Deepfake內容
    相反,另一種人工智慧生成的媒體形式正在成為頭條新聞,這種媒體更難被發現,卻更有可能成為網際網路上一股無孔不入的力量:deepfake文字。《連線》稱,上個月推出的GPT-3是生成式寫作的下一個前沿:一個可以產生令人震驚的句子的AI。隨著它的輸出變得越來越難以與人類產生的文本區分開來,可以想像未來在網際網路上看到的絕大多數書面內容都是由機器產生的。
  • 王者榮耀視頻戰報怎麼開啟?視頻戰報怎麼生成的?
    方法一、遊戲結束後進入結算界面,也就是雙方數據結算那裡,右下角有個精彩視頻,點擊一下就能製作生成本局遊戲的精彩視頻片段,這個時間不固定,根據官方的意思1到12個小時都有可能,主要看使用視頻戰報的玩家多不多,同時使用的多生成的速度就慢。
  • AI可以幫你安排一切
    它更多地是基於計算機圖形學(Computer Graphics)來展開,其中用到的最經典的方法是視頻紋理(Video Texture)技術,該技術歷史悠久,可以追溯到 「拳皇」 時代。張浩天解釋道,根據用戶指定的輸入,比如想要放一個「大招」,程序可以選擇對應的視頻片段來播放,玩家就可以看到他控制的角色做出了對應的動作。
  • 部落衝突:當我看到村莊,一個工具可以一鍵生成時,我失去了熱情
    前一段時間,老貓和首領聊起了一件事情,一位叫做「room」的首領在網上看到了一個「字陣生成」的創字工具後,再回到村莊,看了下自己花費了半天,也沒有擺設好的小破字,頓時失去了擺陣的熱情。他「煩惱」的給我們講述一個大家都會經歷的階段故事。
  • 圖文轉視頻的錢你也可以賺 4款實用文字視頻工具推薦
    1、字說這是一款可以一鍵生成文字視頻的軟體。支持將錄音轉換為文字,並以視頻的形式展現。你也可以直接從本地導入音頻文件,或點擊文字轉語音,將準備好的文案加入。軟體有一個很貼心功能,就是在錄音識別中有一個題詞庫的功能,如果你想要自己錄音,卻又不知道要說什麼,就可以在熱門、勵志能量、情感語錄、搞笑段子這幾個分類中找到合適的文案,然後點擊使用,照念上面的文字即可。錄製完成後點擊下一步就會自動生成文字視頻了。
  • 斯坦福出品AI模型一鍵生成溫網決賽
    【新智元導讀】2020 澳網男單半決賽,費德勒0-3輸給了小德。如果費德勒死忠粉對結局很不滿的話,AI這回可以幫你實現了,斯坦福特別出品Vid2Player帶你重新領略不一樣的天王之戰。 『在2020年的澳網男單半決賽上,費德勒惜敗小德。
  • 谷歌AI一鍵生成定製版3D遊戲神獸 可在線體驗
    你是否想像過把螞蟻和豬、螃蟹和鯨魚,或者100種生物的任意兩個組合起來會是什麼神奇的亞子?現在,AI可以把這些天馬行空的想像全部變成現實!更重要的是,它或許還能激發你的創意靈感,而這也是Google研究團隊推出這款工具的目的之一。這款AI繪畫神器名為Chimera Painter,它是一個Web工具,其功能是基於動物簡圖生成高度逼真的「小怪獸」。完成塗鴉後,只要點擊『轉換』按鈕,它就會自動生成3D效果的『怪獸』。
  • 七夕節脫單「神助攻」,AI教你寫情話
    AI情話實測效果展示輸入:你問我多喜歡你生成:你問我多喜歡你,我也說不出來,我心裡明白,我寧願跟你吵架也不願意去愛別人。哎媽呀,淚奔了,哭的不要不要的!目前演示頁限制是七言絕句,如果是需要其它的七言律詩、五言絕句和五言律詩,可以通過代碼調用,效果也是妥妥的!是不是著急了?我仿佛看到一群大老爺們兒向我殺來。
  • 人工智慧如何改變視頻遊戲產業:增強和合成媒體
    要創建合成廣告,您可以使用Deepfake技術,這是一種AI技術,能夠以驚人的精度模仿他人的聲音和面部表情。 使用這項技術,您可以創建一個人具有另一個人的肖像和聲音的視頻,這正是BuzzFeed在下面的視頻中所做的。在視頻遊戲中使用合成聲音在視頻遊戲行業中,可以很容易地將此技術應用於在遊戲對話中產生聲音。
  • 網易伏羲首席遊戲AI技術專家陶建容:AI賦能遊戲創造價值
    當大家玩遊戲的時候,是不是經常會有一種想要喊出來的衝動,我們可以設想一下,如果有一隻AI寵物根據你的語音指令去執行一系列複雜的操作,我想當兄弟們在一起開黑時,一定會別有一番樂趣。在《倩女幽魂》手遊中,我們也是首創發布了AI智能小孩,重新定義了遊戲對話的新體驗。這些小孩有著不同的人設,而且多才多藝,可以實現和玩家多輪對話,而且還可以不斷和玩家對話中進行自我升級和創造。
  • 最近網上流行一種木棒打胯下的謎之遊戲
    木の棒を股間に打ちつける謎のゲームがネットで大きな話題に(寫真アリ)最近網上流行一種木棒打胯下的謎之遊戲
  • 藥企巨頭牽手AI,德國默克將部署Insilico Medicine生成化學平臺
    雷鋒網消息,近日,德國製藥巨頭默克集團,宣布與AI醫藥研發公司 Insilico Medicine(英矽智能)達成合作,將用於全新分子設計的產品Chemistry42生成化學AI平臺,整合到默克集團的高性能計算(HPC)基礎設施上,提供定製化的服務。
  • AI表情包生成器來了!給AI餵了96萬個表情包文案,做出的圖接地氣嗎
    傳送門:https://imgflip.com/ai-meme*看到這裡有沒有朋友好奇「Meme」是什麼?事實上,「Meme」就是我們常說的表情包。再點擊刷新,AI又會給這張圖配上新的文字,下面這張送給吃貨朋友們:刷新了幾次,文摘菌發現,出現次數最多的詞彙有「wow」,「such」,「much」等一些百搭詞彙,而這個AI文字生成器的水平也是參差不一,有時覺得這個表情包可以拿來用,有時就覺得很荒謬,get不到有趣的點。
  • 一鍵生成人臉像素圖,還能上傳到動森!這個項目很好玩
    此外,她還做了另一個有趣的項目 PixelMe,可以將輸入圖像一鍵轉換成像素畫。還在用 PS 把圖像轉換成像素畫嗎?日本獨立開發者 Sato neet 自學人工智慧技術,開發出網站 PixelMe,可以將人像照片一鍵轉換成像素畫,生成的圖像還可以導入到最近大熱的遊戲《動物森友會》。
  • AI 生成中國山水畫,你能認得出真假嗎?
    來源:大數據文摘用 GAN 創作似乎已經不是新鮮事了。2019,英偉達在 GTC 大會上推出了一個人工智慧圖像生成器 "GauGAN"。用戶只需要簡單的勾畫幾條線條輪廓,便會自動生成美麗的風景圖片。這款 AI 使用的技術是生成對抗網絡(GAN),也是一種深度學習模型,現在被廣泛用於圖像生成。包括去年 MIT 和 IBM 沃森聯合實驗室聯合發布的 AI Portraits Ars,用戶可以在線將自己的照片轉變為中世紀的優化風格,這個在線工具一度火爆到網站宕機。
  • 只需1 分鐘,這個網站用 AI 分離歌曲的人聲、伴奏和樂器聲
    糰子DanGo.ai(https://dango.ai/)——微博網友@無吔學生近期利用AI技術做的這個能分離音頻軌道的網站火了。 在音樂分離這一領域,實際上已經有一些免費的AI工具。