一邊動,一邊畫,自己就變二次元!華人小哥參與的黑科技:實時交互式視頻風格化

2021-02-24 量子位
魚羊 十三 發自 凹非寺
量子位 報導 | 公眾號 QbitAI

動畫,動畫,就是你你的,我我的。

就像下面這張GIF,左邊是張靜態圖片,隨著畫者一點一點為其勾勒色彩,右邊的動圖也在實時地變換顏色。

這就是來自布拉格捷克理工大學和Snap研究所的黑科技——**只需要2個特定的幀,就能實時變換視頻中對象的顏色、風格甚至是樣式。

當然,更厲害的還在後面。

拿一張你的卡通頭像圖片,隨意對其修改,頂著這張頭像,坐在鏡頭前的你,也會實時發生改變。

甚至,你還可以一邊畫自己,一邊欣賞自己慢慢變成動畫效果的過程。

真可謂是這邊著,那邊著,動畫就出來了。

而且整個過程無需冗長的訓練過程,也不需要大規模訓練數據集,研究也提交至SIGGRAPH 2020。

那麼,這麼神奇的效果到底是如何做到的呢?

交互式視頻風格化

首先,輸入一個由 N 幀組成的視頻序列 I。

如下圖所示,對於任何一幀 Ii,可以選擇用蒙版 Mi來劃定風格遷移的區域,或者是對整一幀進行風格遷移。

用戶需要做的是提供風格化的關鍵幀 Sk,其風格會被以在語義上有意義的方式傳遞到整個視頻序列中。

與此前方法不同的是,這種風格遷移是以隨機順序進行的,不需要等待順序靠前的幀先完成風格化,也不需要對來自不同關鍵幀的風格化內容進行顯式合併。

也就是說,該方法實際上是一種翻譯過濾器,可以快速從幾個異構的手繪示例 Sk 中學習風格,並將其「翻譯」給視頻序列 I 中的任何一幀。

這個圖像轉換框架基於 U-net 實現。並且,研究人員採用基於圖像塊(patch-based)的訓練方式和抑制視頻閃爍的解決方案,解決了少樣本訓練和時間一致性的問題。

基於圖像塊的訓練策略

關鍵幀是少樣本數據,為了避免過擬合,研究人員採用了基於圖像塊的訓練策略。

從原始關鍵幀(Ik)中隨機抽取一組圖像塊(a),在網絡中生成它們的風格化對應塊(b)。

然後,計算這些風格化對應塊(b)相對於從風格化關鍵幀(Sk)中取樣對應圖像塊的損失,並對誤差進行反向傳播。

這樣的訓練方案不限於任何特定的損失函數。本項研究中,採用的是L1損失、對抗性損失和VGG損失的組合。

超參數優化

解決了過擬合之後,還有一個問題,就是超參數的優化。不當的超參數可能會導致推理質量低下。

研究人員使用網格搜索法,對超參數的4維空間進行採樣:Wp——訓練圖像塊的大小;Nb——一個batch中塊的數量;α——學習率;Nr——ResNet塊的數量。

對於每一個超參數設置:(1)執行給定時間訓練;(2)對不可見幀進行推理;(3)計算推理出的幀(O4)和真實值(GT4)之間的損失。

而目標就是將這個損失最小化。

提高時間一致性

訓練好了翻譯網絡,就可以在顯卡上實時或並行地實現視頻風格遷移了。

不過,研究人員發現在許多情況下,視頻閃爍仍很明顯。

第一個原因,是原始視頻中存在時態噪聲。為此,研究人員採用了在時域中運行的雙邊濾波器的運動補償變體。

第二個原因,是風格化內容的視覺歧義。解決方法是,提供一個額外的輸入層,以提高網絡的判別能力。

該層由一組隨機2維高斯分布的稀疏集合組成,能幫助網絡識別局部上下文,並抑制歧義。

不過,研究人員也提到了該方法的局限性:

當出現新的沒有被風格化的特徵時,該方法通常不能為其生成一致的風格化效果。需要提供額外的關鍵幀來使風格化一致。

處理高解析度(如4K)關鍵幀比較困難

使用運動補償的雙邊濾波器,以及隨機高斯混合層的創建,需要獲取多個視頻幀,對計算資源的要求更高,會影響實時視頻流中實時推理的效果。(Demo的實時捕獲會話中,沒有採用提高時間一致性的處理方法)

研究團隊

這項研究一作為Ondřej Texler,布拉格捷克理工大學計算機圖形與交互系的三年級博士生。

本科和碩士也均畢業於此。主要研究興趣是計算機圖形學、圖像處理、計算機視覺和深度學習。

除了一作之外,我們還發現一位華人作者——柴蒙磊。博士畢業於浙江大學,目前為Snap Research創意視覺(Creative Vision)組的資深研究科學家。

主要從事計算機視覺和計算機圖形學的研究,主攻人類數位化、圖像處理、三維重建和基於物理的動畫。

傳送門

項目地址:
https://ondrejtexler.github.io/patch-based_training/

想趕上直播電商、在線教育、小程序直播的風口?騰訊雲音視頻解決方案為您助力!騰訊雲推出9.9元產品體驗包,包括雲點播、雲直播、實時音視頻,總有一款適合你。識別二維碼即可體驗:

相關焦點

  • 外賣小哥馬路邊抹淚吃蛋糕:生活,是一邊踉蹌前行,一邊重振旗鼓
    1那天,正好是外賣小哥的生日,照常工作照常接單。接單的過程中,接到了一份特殊的外賣,訂單上備註:這份小蛋糕是送給外賣小哥的,生活不易,注意身體哦。驚喜的是,正好當天是這個外賣小哥的生日,疫情期間忙碌的生活和工作,他本沒有打算為自己過這個生日,卻意外收到陌生人的蛋糕。
  • 一邊打工,一邊消失
    不需要和騎手小哥、快遞小哥一樣在外奔波的數字時代打工人,處境實際上也沒好多少。網際網路的飛速發展,改變了傳統工作模式。如果說工業革命是圍繞工廠來組織的,那麼,在一種寬泛的意義上,今天的商業變化則是圍繞數字平臺來展開。
  • 從《天天向上》虛擬偶像,談利亞德"AR+全息+動捕」黑科技
    虛擬動點:OptiTrack動捕技術助力國漫IP打造利亞德與騰訊的合作已經不是第一次。由二次元世界「波洞星球」出道的虛擬主播「波洞看板娘姐妹」賽音、可賽,在QQ音樂發布獨家官方主題曲MV《就現在》。西南數字新媒體中心,為由國內著名彈幕網站「嗶哩嗶哩」主辦的大型線下嘉年華——BiliBiliWorld成都站的虛擬主播實時互動環節提供了OptiTrack光學動捕技術支持和動捕棚場地保障。
  • 世優科技打造虛擬角色全新互動方式,動捕技術助力IP方和品牌方共贏
    粉絲獲得極大的滿足,這種用二次元偶像做主播的新穎形式突破了次元壁,斬獲巨大成功。而讓這一「虛擬秀」成為現實的幕後,正是世優科技的實時動畫技術。早在2019年,酷狗就打算在各種直播玩法中開闢一條「二次元」賽道,並與騰訊動漫達成了合作、引入了塗山蘇蘇這一熱門IP。
  • 《摩玉玄奇》交互式視頻追劇 人物命運觀眾來定
    以互動視頻的形式,讓觀眾在劇集搭建的大框架下解鎖各種劇情,短短一個月時間,該劇播放量已突破373萬,更有7.5萬人在同步追劇。該劇以女主角的視角敘事,但能否笑到最後,就要看觀眾的選擇了。每一集都有很多劇情節點,每個節點都有幾個選項,也就是說一集至少有AB兩種劇情,你的選擇決定了人物命運。B站有up主玩了兩集就「死」了三回,當然死了也可以進度回溯。
  • 大熱的抖音「變身漫畫」濾鏡,背後用了什麼黑科技?
    原創 王司圖 果殼最近,抖音推出了一款動漫特效濾鏡「變身漫畫」,能夠讓用戶在直播中,把自己的現實形象瞬間轉變為二次元「畫風」。對於動漫二次元愛好者來說,「打破次元壁,變身紙片人」這種自娛自樂方式可謂久玩不膩,在此之前,各種美顏修圖和視頻直播類app也都紛紛開發了類似功能,但沒有一個能夠讓用戶擁有「二次元分身」。
  • 你好,舊時光:為什麼我們一邊喜新厭舊,一邊卻在不斷懷舊
    一句「人生若只如初見,何事秋風悲畫扇」道出了多少人的心聲。人類的確是一種矛盾的生物,我們一方面追求刺激,厭惡一成不變的生活,另一方面,卻會因為一首老歌陷入回憶,潸然淚下。如今懷舊已不是老年人的專利,年輕人的懷舊情結甚至更甚。為什麼我們一邊喜新厭舊,一邊卻在不斷懷舊?未來意味著刺激和希望;過去則意味著熟悉和安全。
  • 全球首個超薄全彩色交互式全息視頻顯示器問世
    4K 交互式 3D 海龜遊泳視頻。實時地計算全息圖通常需要巨大的計算成本,並且隨著 SBP 的增加,計算量也會增加。通過算法優化後,仍需要群集處理器或高性能並行處理系統,才能以視頻幀速率計算高質量的全息圖。
  • 黑科技+破次元,企鵝電競的二次元之路是認真的
    據不完全統計,目前日本已經有著超過1000名的虛擬主播,她們有著自己獨特的人設,俘獲了眾多二次元阿宅的心。實際上,「TA」的出現代表了當下直播行業的一種黑科技趨勢,即真人並不會露面,取而代之的是以虛擬的人物建模,通過3DCG及動作捕捉技術將自己的人物形象和動作展現在屏幕上,既有聲優配音,也有使用電腦合成音的虛擬主播。國內雖有虛擬偶像標杆洛天依和樂正綾,但正兒八經開直播的卻很少見。
  • 自己的開發者自己寵 百度全面開放漫畫臉特效SDK一起變身二次元
    點開特效,手機中的自己就從3D變成2D,不僅保留了五官、臉型等個性特徵,而且還可以跟隨動作、表情的改變實時變化,輕鬆變身漫畫世界的主人公。作為視頻技術領域的「優等生」,百度在19年底已在百度大腦AI開放平臺上線圖片級二次元轉換,並於今年5月全球首發手機端上的實時二次元轉換。近日百度宣布將通過百度大腦AI開放平臺對外開放實時二次元SDK,讓更多行業開發者可以輕鬆擁有漫畫特效。
  • 鄭州一男子在大庭廣眾下爬行,妙齡女子一邊用鞭子抽打一邊訓斥
    ,就在昨天11月5日的時候,就有一名網友在網絡上面曝光出一則讓人看了驚掉下巴的視頻,在鄭州市金水區金水升龍廣場上面,居然有一名男子像是狗一樣趴在地面上面,任由後面的一名女子用辮子進行抽打,這裡值得一提的是,那名女子一鞭抽打一邊還在罵著,無疑這一現象引來了很多的圍觀群眾,這件事情到底是什麼情況,下面就讓我們一起來看一下吧。
  • 在澳華人互懟! 一邊說人肉遣返這畜生! 一邊說死個袋鼠不算啥! "虐殺袋鼠將其割喉19刀"這事, 媒體究竟要不要報!
    在長達1分41秒的暴虐視頻裡(小編曾嘗試上傳該視頻,但該視頻審核未通過),可以清晰的看見袋鼠的頭部被小刀一刀刀的劃開,一下,兩下,三下...一直到快二十下,袋鼠的身下的草坪一點一點的被鮮血染紅,袋鼠慘烈的悲鳴聲一點點的變小,
  • 謝永強曬和妻子烤串視頻,二人一邊烤串一邊聊天,畫面十分恩愛
    「謝永強」曬和妻子烤串成果視頻,二人一邊烤串一邊聊天,畫面十分恩愛 4月15日,《鄉村愛情》謝永強扮演出演者賀樹峰,在個人社交平臺上更新了視頻。 那天,他和被寵壞的妻子在鄉下老房子的樓梯上烤串,繼續向鏡頭炫耀自己的勞動成果。
  • 一邊英文一邊中文,兩人竟然可以無障礙溝通?OPPO這個功能有點6
    在18年穀歌開發者大會上,谷歌拿出了一項名為Google Duplex的黑科技,此語音助手可以幫人打電話訂餐訂座位,但作為谷歌Pixel 系列獨佔的功能也是讓不少國內玩家想玩也玩不上。當雙方語言不互通時,通話翻譯就像是一個位於通話人中間的實時翻譯,中文使用者會聽到由系統翻譯而來的中文內容,另一邊的英文使用者則會聽到由系統翻譯而來的英文內容。雙方使用自己的母語正常通話即可,翻譯過程由系統實時處理。只需要一個小小的功能,就可以瞬間打破語言的隔閡,讓彼此變得更為親近,這個功能在商務上實在是有點強大。
  • 要看少兒視頻先看「少兒不宜」?視頻App不能一邊賺流量一邊耍流氓
    3月15日,新華每日電訊微信公號刊發題為《要看少兒視頻先看「少兒不宜」?視頻App不能一邊賺流量一邊耍流氓》的評論。  受新冠肺炎疫情影響,各地幼兒園、小學延遲開學,孩子們在家宅了2個月,要看網校課程、動畫片,使用視頻App的時間不少。
  • 這款黑科技不但能讓手機秒變拍立得,還能讓照片動起來
    使用方法也很簡單,不需要WiFi,不需要藍牙。直接插進去就行了。不過,最酷最好玩的還是下面這招——讓照片動起來!之後用攝像頭對準拍攝的照片,視頻就這麼神奇地出現了!註:本文轉自 最黑科技,部分內容來源網絡,如遇侵權問題請及時聯繫,我們將第一時間刪除。
  • 一邊高喊「我愛中國」,一邊暗搓搓點讚辱華評論!韓國吃播網紅被解約!
    這位Hamzy也借著熱度上傳了一份自己的美食視頻,並在視頻中給了一份「白泡菜」很長時間的鏡頭。 但隨著「Hamzy點讚辱華言論」之事被爆出,還有網友找到了她之前拍攝的一些視頻,竟然也好巧不巧的趕在了中國up主被韓國網友攻擊的時間點。 去年十一月份,同樣是國內頭部美食Up主的 @滇西小哥 就曾發過一則關於燒烤的美食視頻。
  • 華農扶貧工作隊一邊積極防疫一邊為村民的收成操心
    24小時監測宣傳、網格式排查、籌發防疫物資預防藥方、為貧困戶促銷走地雞、統計早稻種子需求……在這個特殊的春節,河源龍川縣豐稔鎮禮堂村的駐村扶貧工作隊和村「兩委」,一邊組織黨員志願隊,築起一道農村疫情阻擊的「銅牆鐵壁」;一邊用「入戶+微信」的方式統計村民春耕所需,順利將636斤早稻種子送到了村民們手中,保障春耕播種。
  • 小尤奈掀起JK圈風波,圈內JK妹跟風被打臉,一邊罵一邊拍露骨照片
    #廣州漫展#二次元圈子繼小尤奈在參加本次漫展上,因為給攝影師拍一些露骨的照片而遭到批評,其本人也被推到熱搜的風口浪尖上,一時間讓自己「火了」起來,這讓人質疑這才是她參加本屆漫展的目的,成為一名網紅。小尤奈在某網站是小有名氣的模特,拍了很多作品,但都是她的圈內作品,很多都是上不了「臺面」的。
  • 竇唯:一邊是黑夢,一邊山河水 深深女神
    大家熱熱鬧鬧地看「笑話」,揣測天后歌詞當中是否有所投射,聽他去年的作品《潸何吊》也是基於女兒竇靖童和父親竇紹儒參與了製作。他把與王菲的離婚、1994年香港紅磡魔巖三傑的那場經典演出,乃至這個世界通通形容為一場蓄意的陰謀。在早些年許戈輝對他的一段採訪視頻中,不難感受到他對周遭世界的極其不信任,許戈輝像對待孩子一樣企圖疏導他,但他卻早已放棄了與外部世界對話的興致。