什麼是Deepfake?為什麼Deepfake生成的假臉會這麼自然?

2021-01-19 電子發燒友
什麼是Deepfake?為什麼Deepfake生成的假臉會這麼自然?

李倩 發表於 2018-09-03 08:46:59

編者按:自換臉工具Deepfake風行全球後,人們開始意識到除了詐騙簡訊、詐騙電話,現在連視頻都能「詐騙」了。為了應對這種由新技術帶來的犯罪風險,近來研究人員一直在努力發掘虛假視頻和真實視頻的區別,而就在本月初,美國國防部正式宣布了紐約大學開發的一個檢測工具,他們找到了GAN生成視頻的一些明顯特徵。

當時美國國防部把這項技術譽為人類對於AI的軍備競賽的一個開端,近日,這項技術的開發人員接受了媒體採訪。讓我們結合報導和論文,近距離看看他們的方法究竟怎樣。

Deepfake當前的缺陷是沒法找到足夠閉著眼睛的圖像

隨著2018年年中將近,美國大選活動也開始逐漸升溫,在諸多宣傳中,一種新形式的虛假信息開始在社交媒體上廣泛傳播。這種生成虛假視頻的技術叫做「Deepfake」,它能把視頻中的臉換成其他人的臉,同時保持臉部肌肉運動和諧,口型和聲音匹配。

結合政治宣傳,這意味著任何人都能「惡搞」候選人,製作他們「演講」「活動」的假視頻。

由於這項技術十分新穎,效果又格外出色,普通人如果不仔細看,可能無法分辨真實視頻和虛假視頻之間的區別。為了防範它背後的社會安全隱患,近日,紐約大學的研究人員找到了一種區分真假視頻的可靠方法,他們發現在虛假視頻中,人物的頭部動作和瞳孔顏色通常會很怪異,當人眨眼時,它的眼球會出現詭異運動。

什麼是Deepfake?

既然要對抗虛假視頻,就讓我們先從Deepfake講起,下面是它的作品「案例」:

視頻中左側為真實視頻,右側是Deepfake的加工產品。它的工作機制類似各語言間的互相翻譯,先使用一種稱為深層神經網絡的機器學習系統來檢查一個人的面部運動,再合成目標人物的臉,讓後者作出類似的動作。

在生成逼真的視頻前,這個深層神經網絡需要大量目標任務圖像數據,圖像的數量和多元性決定了網絡的「學習」效果——數據越多,模擬效果就越逼真。

上圖是對神經網絡訓練、測試過程的細化圖解。看罷視頻,也許有人會有疑問:為什麼Deepfake生成的假臉會這麼自然?這是因為在訓練期間(Training Phase),我們會先把目標人物A的臉摳出來,定位好五官位置,訓練一個無論如何扭曲A的臉,最後都能生成正常A臉的網絡。

一旦上面的網絡訓練好,我們就可以往其中輸入B的臉。這時在神經網絡看來,B的臉其實就是經扭曲的A的臉,所以它會直接「糾正」。至於表情和口型等細節,這在訓練過程中就已經學會了,數據越多,效果越好,相信這點不難理解。

除了上述基礎內容,為了確保生成效果,我們還要關注清晰度、人臉識別效果、圖片融合等問題。

眨眼/不眨眼?

如果我們再去觀察上面這個視頻,相信不少細心的讀者會發現:在虛假視頻中,人物往往「雙眼無神」,幾乎不怎麼眨眼。這正是目前Deepfake的一個弱點。

當然,這個弱點並非來自算法本身,更多的是它使用的數據集。健康成年人的眨眼頻率是2-10秒一次,一次眨眼耗費十分之一到十分之四秒。在真實演講視頻中,主講人眨眼是十分正常的現象,但虛假視頻裡的假人幾乎個個是「不眨眼」大師。

把主持人的臉換成尼古拉斯·凱奇(對應視頻幀)

這是因為當訓練深層神經網絡時,我們用的是來自網絡的靜態圖像。即便是尼古拉斯·凱奇這樣的公眾人物,他的大多數照片都是睜眼的,除非為了某種藝術效果,攝影師也不會公布明星的閉眼照。這意味著數據集中的圖像沒法表示眼球的自然運動方式。

既然數據集中幾乎沒有眨眼圖像,那麼Deepfake學會「眨眼」的概率就幾乎為零。但看到這裡也許有人會有疑問,之前的視頻中明明也出現了眨眼鏡頭,這個依據是不是不可信?這就要聯繫人類眨眼的頻率和速度。

上面是真假視頻中人物的眨眼記錄,研究人員統計了所有視頻中的真人眨眼頻率,並框定了一個範圍,他們發現Deepfake視頻中假人的眨眼頻率遠低於這個範圍。

如何檢測眨眼?

有了上述發現,整個「打假」問題就可以被簡化為「眨眼檢測」問題。

論文作者開發了一種檢測視頻中人物何時眨眼的方法。更具體地說,他們引入了兩個神經網絡,其中第一個網絡先掃描視頻的每一幀,檢測其中是否包含人臉,如果有,自動定位到眼部。之後,第一個網絡把眼部截圖輸入第二個網絡,由它利用眼睛的外觀、幾何特徵和運動來判斷這是睜眼還是閉眼。

下面是第二個深層神經網絡LRCN的示意圖:

它包含三個模塊:特徵提取、序列學習和狀態預測。

其中特徵提取模塊(第二行)負責把輸入的眼部圖像轉成神經網絡可以「理解」的特徵,這是個基於VGG16架構的CNN。序列學習模塊(第三行)由RNN和LSTM構成,LSTM-RNN的使用是為了增加模型的信息存儲量,避免在使用隨時間反向傳播(BPTT)算法時出現梯度消失。最後一個模塊——狀態預測,由全連接層構成,它輸入LSTM的輸出,並用一個概率預測是睜眼(0)還是閉眼(1)。

根據實驗結果,LRCN的準確率高達95%。

當然,雖然論文只介紹了判斷眨眼頻率的方法,到這裡就結束了。但根據之前Siwei Lyu的介紹,他們團隊其實找到了一種更高效的技術,只是為了防止某些人惡意迭代Deepfake,這種方法暫時需要保密。

論文方法的缺陷

在接受媒體採訪時,Siwei Lyu自己也坦言,論文只提出了一種短期內的有效方法,它的「壽命」可能很短,破解方法也很簡單。

之前我們提到了,算法學不會眨眼,主要是因為沒有眨眼數據。換句話說,如果我們能提供大量不同眨眼階段的圖像,那麼深層神經網絡學會眨眼只是時間問題。更有甚者,為了讓尼古拉斯·凱奇學會眨眼,我們不需要派狗仔去偷拍,收集自己的眼部數據就夠了。

此外,對於上面這類視頻,這種方法也沒法起作用。因為它不同於Deepfake的全臉移植,而是把假嘴和假聲音(這年頭合成聲音也能造假)移到真人臉上。

這是去年美國華盛頓大學研究團隊公布的一項成果,它不需要掃描大量的演講影音資料,也不需要分析不同人說出相同句子的嘴形,只需影音素材即可,成本和規模更小,製作耗時也更短(17小時)。

因此,全民「打假」依然任重道遠,這種方法只是當前邁出的第一步。未來,生成假視頻和檢測假視頻將成為日常生活中的常見博弈,但這應該不是所有人希望看到的。在鼓勵研究人員開發更靠譜的檢測方法的同時,我們應該呼籲停止濫用技術。

除了不要再製作某些低俗、違法視頻,電影工業也要把它用於正途,不要讓技術淪為摳圖流量明星的新「捷徑」。

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • deepfake會通過模擬和翻轉,影響聲音的合成
    第一次見這種標題的消息,就看到說deepfake被曝光但是我本人真的覺得。電影和遊戲還是不要用這種方式更好。確定嗎?這次的事件已經是第四次傳言deepfake,但是得到的回覆都是"很久之前就出現過,但是估計是黃牛炒作"云云。但是這不是重點,重點是這次python等一些軟體已經可以做到將圖片翻轉後,替換聲音、圖像,還原出聲音。
  • 《連線》雜誌:AI生成的文字將是最可怕的Deepfake內容
    但現在,距離11月3日還有3個月左右的時間,一波deepfake內容似乎從未斷過。相反,另一種人工智慧生成的媒體形式正在成為頭條新聞,這種媒體更難被發現,卻更有可能成為網際網路上一股無孔不入的力量:deepfake文字。《連線》稱,上個月推出的GPT-3是生成式寫作的下一個前沿:一個可以產生令人震驚的句子的AI。
  • 研究人員用頻率分析來識別Deep-Fake圖像 算法造圖會...
    兩種算法的相互作用產生新的圖像deep -fake images是「深度學習」(deep learning)和「fake」(fake)的合成詞,是在計算機模型的幫助下生成的,也就是所謂的「生成式對抗網絡」(Generative Adversarial Networks),簡稱GANs。
  • 用生物信號檢測Deepfake,這個新方法會很快失效嗎?
    讓 Deepfake 越來越逼真的一個核心技術是 GAN(Generative Adversarial Network),也就是生成對抗網絡。它的原理類似左右手互博 —— 生成器生成假視頻,鑑別器用以鑑別真偽,以此不斷提高造假的質量。正因如此,檢測 Deepfake 的方法很容易被超越。比如在 2018 年,就有研究通過人物的眨眼是否自然來判斷視頻的真偽。
  • 帶你解析2020 Kaggle DeepFake 排行榜前1.5%技術方案
    Deepfake -假視頻檢測截圖來自kaggle官網最近的2020 Deepfake假視頻檢測挑戰賽,旨在幫助世界各地的研究人員檢測線上視頻及語音是否被偽造和篡改,幫助提升線上人權和保護網絡上個人隱私。
  • 找到那張假照片,對抗Deepfake之路
    FakeCatcher是如何實現其「打假」功能,是否會導致Deepfake「反打假」以及兩年後FakeCatcher又有什麼新的突破和創新,今天智東西為你一一道來。論文:https://arxiv.org/abs/2008.11363
  • 新研究訓練小老鼠充當分類器識別Deepfake假聲音,比計算機更靠譜
    會上,研究人員提出,小動物們,特別是小老鼠,在識別自然語音元素方面很有天分。這項成果可能會影響技術公司通過人工智慧來構建系統,去檢測電腦合成的聲音。"Deepfake"的發展令人擔憂「小哥哥網戀嗎?我蘿莉音。」
  • 一個模型擊潰12種AI造假,各種GAN與Deepfake都陣亡
    即使是人眼都分辨看不出來假臉圖片,還是可以被AI正確鑑別。最新研究發現,只要用讓AI學會鑑別某一隻GAN生成的假圖片,它就掌握了鑑別各種假圖的能力。不論是GAN生成的,Deepfake的,超解析度的,還是怎樣得來的,只要是AI合成圖片,都可以拿一個通用的模型檢測出來。儘管各種CNN的原理架構完全不同,但是並不影響檢測器發現造假的通病。
  • 想用GAN和Deepfake瞞天過海,沒那麼容易:這是Adobe和加州伯克利的...
    或許,GAN 和 Deepfake 在「瞞天過海」上也不是萬能的。近來,諸如生成對抗網絡(GAN)的深度圖像生成技術快速發展,引發了公眾的廣泛關注和興趣,但這也使人們擔心,我們會逐漸走入一個無法分辨圖像真實與否的世界。這種擔憂尤其體現在一些特定的圖像操縱技術上,例如用來進行面部風格替換的「Deepfake」,以及逼真的人像生成。
  • 社交網絡上的圖正被Deepfake機器人用來生成果體照
    別有用心的人,正在盯著你放在社交網絡上的美照,還可能已經被Deepfake拿去生成果照。 最近,外媒The Verge曝光了這個現象: 在Telegram上,Deepfake機器人泛濫,隨便一張社交網絡上的照片,即可自動生成開車圖
  • DeepFake檢測新思路:用心跳做"信號",背後的"造假"模型也無處可逃
    此類檢測技術,大多都是「二分類」檢測方法,雖然也能達到98%的準確率,然而這些檢測方法往往會受到過渡匹配的影響,也就是說在處理不同類型的圖片時,檢測方法的性能會顯著下降。除此之外,這種方法還能識別出假視頻背後的生成模型。其中,生成模型的判斷是在DeepFakes、Face2Face、FaceSwap、NeuralTex中做「選擇題」。進過實驗,該方法對假視頻的檢測準確率為97.29%,對假視頻背後生成模型的識別準確率93.39%。
  • 換臉App背後的恐慌:我的臉什麼時候會被偽造,又該如何辨別?
    誰能想到,全民換臉的時刻這麼快就來臨了。在一夜之間,朋友圈幾乎被ZAO刷屏,親朋好友們紛紛用自己的臉換上了電影明星的臉,「上演天下好戲」。這種以假亂真的換臉視頻技術,其實已經不是什麼新鮮事了。網絡A會生成一個假的視頻片段,然後問網絡B這個視頻是否為真,網絡B的反饋能夠加強網絡A所生成圖像的可信度。前者被稱作生成網絡,後者則為判別網絡。就這樣,兩個神經網絡在不斷對抗中學習,直至Deepfake生成以假亂真的視頻。
  • Deepfake陰影下的「人臉識別時代」全面到來!我們可能遭遇什麼危險?
    Deepfake的陰影籠罩人臉識別時代首先,為什麼近些年來人臉識別發展的如此的火熱、迅速,它到底能解決什麼問題,從而產生巨大的商業價值?實際上,人臉識別本質上也就是一種身份識別技術。如今,身份識別在各個領域都至關重要,而身份識別的方法目前主要有三種。
  • 假臉,又一個人工智慧騙術
    合成圖像高度逼真專家們認為,雖然與近年來合成政客和名人的言行以譁眾取寵的「深度偽造」(deepfake)視頻相比,人工智慧(AI)生成的靜態人臉沒那麼吸引眼球,但它正在成為一種日益常見的傳播虛假信息的工具。這項技術並不是讓真人看上去在說或者做他們沒有說過或者做過的事情,而是無中生有創造出全「新」的人。
  • 黑科技DeepFake,上線五天就遭全球唾棄,這技術到底有多邪惡?
    DeepFake到底是什麼技術,為何會遭全球唾棄?DeepFake到底是什麼技術?DeepFakes對於Reddit官方的封禁極度不滿,為報復Reddit官方封禁,直接在Github將Deepfake技術的AI代碼免費公開!
  • Deepfake視頻中涉及色情高達96%
    【新聞 | Deepfake視頻中涉及色情高達96%,且只針對女性】來源:新智元Deepfake視頻中涉及色情高達96%儘管媒體、政客和技術人員對Deepfake造假影響選舉的風險感到恐慌,但一項新研究在研究了近1.5萬Deepfake視頻後,發現96%的視頻是色情片。
  • Rethink Deepfakes,淺談深度學習落地
    Assessment and Detection[2] 表明了 DeepFakes 生成的假臉足以欺騙大都數較為前沿人臉識別和檢測系統。借著這兩件事,誕生於 2017 年末的,後又被封禁 Reddit 討論區的 deepfakes 再度進入我們的視野中,那麼時隔一年,deepfakes 此刻又取得了什麼進展?