DeepFake 新高度:一階運動模型讓「萬物皆可動」

2021-01-10 雷鋒網

作者 | 蔣寶尚

編輯 | 叢 末

DeepFake一方面被罵作「AI毒瘤」,另一方面在B站上大行其道。最近,這項技術又用在了在線視頻會議身上。

一鍵換臉,身臨其境與馬斯克開會,商討火箭上天大計的項目,也登上Github熱榜。

據稱,這是一位來自俄羅斯的程式設計師開發的開源「視頻會議阿凡達」軟體Avatarify,背後所用的技術基於名為First Order Motion的核心模型,這個模型可以對視頻中的對象進行動畫處理,並生成視頻序列。First Order Motion模型來自 NeurIPS 2019 論文《First Order Motion Model for Image Animation》,最初的目的是讓「靜態圖片」動起來。如下圖所示:「你動,它也動」。

根據作者介紹,這個模型可以輕易地讓「權遊」中的人物模仿川普進行講話,還可以讓靜態的馬跑起來,另外還可以完成模特的「一鍵換裝」。

論文解讀:一階動畫模型的來源與主要想法

論文多數作者是來自義大利的特倫託大學,還有一位是 snap 公司的員工,論文已經發表在NeurIPS 2019 上。

First Order Motion模型運作流程

整個模型分為運動估計模塊和圖像生成模塊兩個主要組成部分。在運動估計模塊中,該模型通過自監督學習將目標物體的外觀和運動信息進行分離,並進行特徵表示。而在圖像生成模塊中,模型會對目標運動期間出現的遮擋進行建模,然後從給定的名人圖片中提取外觀信息,結合先前獲得的特徵表示,進行視頻合成。該模型對硬體要求比較高,想實現33幀/秒的視頻效果,需要一張1080ti顯卡,也即需要英偉達10系顯卡中的卡皇加持。

模型細節與方法

一階動畫模型的思想是用一組自學習的關鍵點和局部仿射變換來建立複雜運動模型,目的是為了解決大目標姿勢動態變化的情況下,傳統模型生成質量較差的問題。

另外,作者引入了「遮擋感知生成器」,可以指示源圖像中不可見的物體部分,從而利用上下文推斷這部分內容。再者為了改進局部仿射變換的估計,作者擴展了常用於關鍵點檢測器訓練的等差損耗。最後作者還發布了一個新的高解析度數據集Thai-Chi-HD,用於評估圖像動畫和視頻生成框架的參考基準。作者根據汽車駕駛視頻中類似物體的運動情況,對源圖像中描繪的物體進行「動畫化」。

沒有直接監督,而是採用了一種自監督策略,該策略的靈感來源於Monkey-Net。

註:Monkey-Net是通過深度運動遷移使任意物體動畫化。

對於訓練,作者使用包含相同對象類別的大量視頻序列集合。模型被訓練來通過組合單幀和學習的視頻中運動的潛在表示來重建訓練視頻。觀察從同一視頻中提取的幀對,模型學習將運動編碼為特定的關鍵點位移和局部仿射變換的組合。

在測試時,將模型應用於源圖像和驅動視頻的每一幀的幀對,並對源對象進行圖像「動畫」。運動估計模塊的作用是估計一個密集的運動場(dense motion field),該密集運動場隨後被用來調整計算特徵圖與物體姿勢。

另外,作者採用的是後向光流,因為它可以有效地實現雙線採樣。運動估計模塊沒有直接進行預測,而是分兩步進行,在第一步中,從稀疏軌跡集近似兩個變換,其中兩個變換是通過使用自監督方式學習關鍵點獲得的。視頻和圖像中的關鍵點由編碼器-解碼器網絡分別預測。

另外,稀疏運動表示非常適合於動畫,因為在測試時,可以使用驅動視頻中的關鍵點軌跡來移動源圖像的關鍵點。使用局部仿射變換的好處是能夠對每個關鍵點附近的運動進行建模,與僅使用關鍵點置換相比,局部仿射變換能夠對更大的變換族( larger family of transformations)進行建模。

在第二步中,密集運動網絡結合局部近似以獲得密集運動場,除了密集的運動場之外,該網絡還輸出遮擋遮罩,該遮擋遮罩指示視頻中的哪些圖像部分可以通過源圖像的扭曲來重建,以及哪些部分應該內嵌(即從上下文推斷)。

實驗

作者在四個數據集上進行了訓練和測試,結果顯示與所有實驗相比,一階動畫模型能夠渲染解析度非常高的視頻。 VoxCeleb 數據集、UvA-Nemo 數據集、The BAIR robot pushing dataset、作者自己收集的數據集。

其中,VoxCeleb 是從YouTube的視頻中提取到的包含1251人共超過10萬條語音的數據集。數據集是性別平衡的,其中男性為55%.。說話人涵蓋不同的種族,口音,職業和年齡。UvA-Nemo 是一個由1240個視頻組成的人臉分析數據集。作者使用1116個視頻進行訓練,124個視頻進行評估。

伯克利的這個,包含了由Sawyer機器人手臂在桌子上推著不同物體的視頻收集的視頻。它包括42880個訓練視頻和128個測試視頻。每個視頻都有30幀長,解析度為256×256。作者自己收集的數據是YouTube上的285個關於太極功夫的視頻,其中252個用於訓練,28個用於測試。在訓練之前對視頻進行了預處理,分割之後訓練集為3049個訓練視頻,285個測試視頻。

太極功夫視頻上的重建比較

世界結果如上圖消融研究所示:對來自太極高清數據集的兩個序列和兩個源圖像上的圖像動畫任務與當前SOTA比較。

與X2Face和Monkey-Ne相比較,作者的一階動畫模型改進了四個不同數據集中的每一個指標,即使在VoxCeleb和Nemo這兩個人臉數據集上,作者的方法也明顯優於X2Face。

在作者的博客上,還做了換臉的實驗,如下所示:

(雷鋒網)(雷鋒網)(雷鋒網)

相關焦點

  • 什麼是Deepfake?為什麼Deepfake生成的假臉會這麼自然?
    Deepfake當前的缺陷是沒法找到足夠閉著眼睛的圖像 隨著2018年年中將近,美國大選活動也開始逐漸升溫,在諸多宣傳中,一種新形式的虛假信息開始在社交媒體上廣泛傳播。這種生成虛假視頻的技術叫做「Deepfake」,它能把視頻中的臉換成其他人的臉,同時保持臉部肌肉運動和諧,口型和聲音匹配。 結合政治宣傳,這意味著任何人都能「惡搞」候選人,製作他們「演講」「活動」的假視頻。 由於這項技術十分新穎,效果又格外出色,普通人如果不仔細看,可能無法分辨真實視頻和虛假視頻之間的區別。
  • 帶你解析2020 Kaggle DeepFake 排行榜前1.5%技術方案
    一、簡介Deepfake作為新的技術發展方向,受到了很大的關注。但是這也出現了一定的倫理問題,所以攻克deepfake的濫用,也是讓AI可以造福於人類的一個科研重心,本次比賽以FaceBook牽頭製作了上TB的視頻用於deepfake視頻的識別工作。
  • deepfake會通過模擬和翻轉,影響聲音的合成
    第一次見這種標題的消息,就看到說deepfake被曝光但是我本人真的覺得。電影和遊戲還是不要用這種方式更好。確定嗎?這次的事件已經是第四次傳言deepfake,但是得到的回覆都是"很久之前就出現過,但是估計是黃牛炒作"云云。但是這不是重點,重點是這次python等一些軟體已經可以做到將圖片翻轉後,替換聲音、圖像,還原出聲音。
  • 《連線》雜誌:AI生成的文字將是最可怕的Deepfake內容
    但現在,距離11月3日還有3個月左右的時間,一波deepfake內容似乎從未斷過。相反,另一種人工智慧生成的媒體形式正在成為頭條新聞,這種媒體更難被發現,卻更有可能成為網際網路上一股無孔不入的力量:deepfake文字。《連線》稱,上個月推出的GPT-3是生成式寫作的下一個前沿:一個可以產生令人震驚的句子的AI。
  • 找到那張假照片,對抗Deepfake之路
    Deepfake很全能?心跳、脈搏來「打假」FakeCatcher基於的原理是人類心跳時產生的細微膚色差異,而具體到應用上,則是與指尖脈搏血氧儀以及Apple Watch用於測量運動心率相同的技術——光電容積描記法(簡稱PPG)。
  • 一個模型擊潰12種AI造假,各種GAN與Deepfake都陣亡
    不論是GAN生成的,Deepfake的,超解析度的,還是怎樣得來的,只要是AI合成圖片,都可以拿一個通用的模型檢測出來。儘管各種CNN的原理架構完全不同,但是並不影響檢測器發現造假的通病。只要做好適當的預處理和後處理,以及適當的數據擴增,便可以鑑定圖片是真是假,不論訓練集裡有沒有那隻AI的作品。
  • 用生物信號檢測Deepfake,這個新方法會很快失效嗎?
    由此思路出發,美國漢賓頓大學教授尹立軍和他的學生將生物信號 PPG 引入 Deepfake 檢測技術。那麼利用生物信號來檢測 Deepfake,有什麼特殊性?新檢測方式:生物信號尹立軍告訴 DeepTech,PPG 信號已經應用在遠程醫療等領域,即通過視頻信號讀取出一個人的心率數據。
  • DeepFake檢測新思路:用心跳做"信號",背後的"造假"模型也無處可逃
    除此之外,這種方法還能識別出假視頻背後的生成模型。其中,生成模型的判斷是在DeepFakes、Face2Face、FaceSwap、NeuralTex中做「選擇題」。進過實驗,該方法對假視頻的檢測準確率為97.29%,對假視頻背後生成模型的識別準確率93.39%。
  • 研究人員用頻率分析來識別Deep-Fake圖像 算法造圖會...
    Horst Görtz Institute的的研究人員和「大規模對手時代的網絡安全」(Casa)卓越集群開發了一種有效識別深度偽造圖像的新方法。這種方法被讓那些由計算機算法而不是人類創建的偽造圖像「一覽無遺」。為此,他們還分析了頻域中的對象,這是一種已建立的信號處理技術。
  • 想用GAN和Deepfake瞞天過海,沒那麼容易:這是Adobe和加州伯克利的...
    來自 Adobe 和加州伯克利的研究者發現,僅僅在一種 CNN 生成的圖像上進行訓練的分類器,也可以檢測許多其他模型生成的結果。或許,GAN 和 Deepfake 在「瞞天過海」上也不是萬能的。近來,諸如生成對抗網絡(GAN)的深度圖像生成技術快速發展,引發了公眾的廣泛關注和興趣,但這也使人們擔心,我們會逐漸走入一個無法分辨圖像真實與否的世界。
  • 新研究訓練小老鼠充當分類器識別Deepfake假聲音,比計算機更靠譜
    "Deepfake"的發展令人擔憂「小哥哥網戀嗎?我蘿莉音。」在一大波變聲器和修音軟體的風潮下,變聲蘿莉音、御姐音、正太音幾乎只需要手動調調軟體參數。對於遊戲直男來說,遊戲連麥時聽到萌萌妹子音,想要點開個人主頁勾搭卻發現是個摳腳大漢的概率不低。
  • 黑科技檢測方法:利用心跳做信號,還能「揪出」造假模型
    伴隨著這些生成技術的發展,出現了一些被證實有效的 deepfake 檢測方法,這些方法具備較高的分類準確率。然而,目前幾乎沒有任何工作關注 deepfake 視頻的來源(即生成 deepfake 視頻的模型)。來自賓漢姆頓大學、英特爾公司的研究人員提出了一種方法,利用視頻中的生物信號檢測該視頻是否偽造。
  • Deepfake視頻中涉及色情高達96%
    【業界 | 大小僅1MB,超輕量級通用人臉檢測模型登上GitHub趨勢榜】來源: 機器之心超輕量級通用人臉檢測模型登上GitHub趨近日,用戶 Linzaer 在 Github 上推出了一款適用於邊緣計算設備、移動端設備以及 PC 的超輕量級通用人臉檢測模型,該模型文件大小僅 1MB,320x240 輸入下計算量僅
  • 黑科技DeepFake,上線五天就遭全球唾棄,這技術到底有多邪惡?
    團結起來,我們一定能夠戰勝新冠病毒。 謝謝。」這愛因斯坦如假包換,如果他說的不是新冠病毒的話,連種花家都要信了!對了,這就是DeepFake所展現的超級換臉技術,配合製作者高超的視頻特效手法,復活名人、以假亂真不過是雕蟲小技而已!
  • 萬物皆動;宇宙運動能量的來源及宇宙運動的六種形式
    宇宙萬物皆動。「運動和「變化」才是宇宙的客觀本質,而「平衡」和「靜止」則都是很主觀、短暫的認知。宇宙運動的能量主要來自三塊:第一,宇宙大爆炸產生的動能。第二,宇宙物質、暗物質,暗能量之間的引力和斥力,導致宇宙中的天體在永不停息的運動。
  • 社交網絡上的圖正被Deepfake機器人用來生成果體照
    社交網絡上的圖正被Deepfake機器人用來生成果體照 AI新媒體量子位 發表於 2020-11-23 11:39:24 小心!
  • 致道絕學:萬物皆道與宇宙全息論的一段闡述
    全息理論說的是每一相對獨立的組成部分與整體相同,是整體的成比例縮小的規律。道生無極,無極為混沌,混沌中生太極,太極產生陰陽兩極,陰陽相化相生,化生宇宙萬物。宇宙萬物皆是道的衍生,萬物皆有陰陽,太極無處不在,這裡的太極和陰陽都是全息元。萬物都是全息元組合而成,所以萬物一體,萬物皆道。宇宙全息論是萬物皆道的一種體現。
  • 萬物皆數,畢達哥拉斯的宇宙法則
    米利都學派創始人泰勒斯一天到晚念叨著:「萬物起源於水」「水是最好的」。誰知他的弟子阿那克西曼德馬上站出來否定:「水太實際了,萬物起源於具有無限屬性的阿派朗」。話音未落,他的第二個弟子阿那克西美尼又慷慨陳詞:「你們都錯了,萬物起源於氣」。
  • 萬物皆有「靈」,這些來自宇宙的奧秘,早被老祖宗參透了
    上一篇文章中,咱們開了一個腦洞,提到「靈魂」可能是來自於高階宇宙文明的生命體,他們並不是以肉身的形式存在的,而是以純能量的形式存在。由於篇幅的關係,咱們在上一篇文章中沒有展開來聊,今兒個咱們就針對這個問題再深入聊一聊。古往今來,人們都相信人是有靈魂的,雖然近一百多年來人們開始推翻這一說法,認為這都是蠱惑人心的迷信,但是最近幾十年,隨著醫療水平和科技的發展,人們開始發現也許靈魂這個東西確實存在,只不過並不想我們的老祖宗描述的那麼玄妙,而僅僅是一團腦電波。
  • Deepfake陰影下的「人臉識別時代」全面到來!我們可能遭遇什麼危險?
    (小區、高鐵、便利店的人臉識別系統)一時間,人臉識別仿佛已經完全融入了大家的生活之中。但是,是否每個人都能意識到其背後的風險呢?一是密碼識別。密碼是最古老的身份識別工具,也是目前的主流工具。但是,密碼識別會有被破解的風險,也常出現遺忘、弄混的情況。(密碼登陸界面,圖片來自於網絡)二是證書驗證。