作者 | 馬超
責編 | 伍杏玲
「假作真時真亦假,無為有處有還無。」
近年來基於AI換臉的技術,不但在 GitHub 上時常興風做浪,也經常引發各大社交媒體的大規模口水戰。去年 AI 換臉技術開始在 Reddit 社區流行,一位名叫 Deepfakes 的「大神」發出不雅視頻,影片女主角竟然是知名影星,由於內容低俗短時間吸引就使得 Deepfakes 聚集大量人氣,很快 Reddit 封殺Deepfakes 的視頻,同時 GitHub 對 Deepfakes 及其衍生項目進行封殺。
去年4月初,我國網名叫「換臉哥的極客」將朱茵在94版射鵰中的黃蓉換成了楊冪,整段視頻毫無違和感,這也讓國人初次體會到了AI換臉的威力。
後來一款名叫 ZAO 的 App 橫空出世,在直播平臺上主播們利用實時換臉技術,可以將自己換成某些一線明星來吸引眼球,火爆一時。
今年年初使用自編碼模型技術的AI換臉項目 ALAE 成功登頂 GitHub 趨勢榜(https://github.com/podgorskiy/ALAE),相比之前的 Faceswap 以及 Deepfakes 等換臉項目,ALAE可謂將 AI 換臉帶到新高度,這種最新的技術突破了之前的解析度極限,可以生成高清的換臉圖像,以下是效果圖:
這些換臉的項目終於迎來了剋星!微軟打造的視頻鑑真工具,可以讓經由 Deepfake 等工具處理的偽造視頻原形畢露,其鑑別成功率可達99%以上,以下是鑑定效果圖:
歌神頻繁助攻抓罪犯,人臉識別成 AI 應用領域 C 位
在歌神張學友的演唱會上,AI至少不下5次幫助公安機關抓捕到逃亡多年的嫌犯。這讓那首經典的《她來聽我的演唱會》有了新的含義。當時大眾普遍對 AI 還缺乏了解,據稱當時犯人在被捕時都一臉茫然,沒想到人臉識別技術能在若干年後準確找到他們,人們驚呼原來人臉識別準確率這麼高 。
人臉識別技術在人員身份認證上所體現出來的便捷性及帶來的效率提升,相關人臉識別產品、解決方案層出不窮。人臉識別被廣泛應用於機場、火車站、社區、園區等諸多場景的身份識別、考勤打卡及金融支付應用當中。這開啟了一個方便快捷的時代,用戶不需要輸入密碼,甚至連手指不需動一下就能完成相關的身份認證,其來勢洶洶的氣勢讓很多金融機構也不得不放下身段,躬身入局,向科技公司請求AI技術的加持,把人臉識別加入自身安全認證體系當中。
AI換臉技術的出現,著實給人臉識別技術的安全性造成了不小的挑戰,比如去年5月美國議長南希·佩洛西的一段醉酒視頻在 Facebook 上流傳甚廣,視頻中的議長明顯是狀態暈沉,醉意十足,後來證明這是一段是 由Deepfake 生成的假視頻。
Facebook 創始人小扎的一段視頻也開始瘋傳,在視頻中小扎說「讓我們快速地想像一下,一個人手握偷竊來的數十億人的隱私信息,他們的所有秘密、生活和未來等等 」,這也是 Deepfake 傑作。
隨著對抗神經網絡(GAN)的不斷發展,AI生成的假人物越發真假難辯,尤其去年底一名叫做Katie Jones的女政治家,似乎正在美國政壇冉冉升起,她在頂級智庫工作,擁有由一批專家和權威人士組成的關係網。她與一名助理國務卿、一名參議員的高級助理以及經濟學家 Paul Winfree 都有聯繫,搜尋引擎上也能查到相應的新聞報導,不過這位女士並不存在,對此美聯社已經作出確認,其面部信息是合成的,其相關新聞都是AI捉刀寫的。據說這樣的幽靈用戶在臉書上還有幾十萬個,這些帳戶可以在社交媒體上不知疲倦的發貼點讚,對於時事發表觀點,這也是川普當局指責臉書幹擾美國大選的主要原因之一。
魔高一尺道高一丈,AI鑑定技術的進步
雖然AI換臉技術不斷發展,但是AI鑑定技術也一直在進步,比如在去年CVPR2019 大會上,Photosho p母公司 Adobe 聯手伯克利共同推出了論文《Learning Rich Features for Image Manipulation Detection》,提出的模型可以用於偵測圖像是否有被 PS 修改過。
這款反 PS 工具準確率極高,據論文數據顯示,一般人眼分辨 PS 痕跡大約有 53% 準確率,即使是專業人士不超過 70%,這款反 PS 工具識別準確率高達99%以上。
CVPR2020 上,由華為與復旦大學聯合發表了一篇論文《FM2u-Net: Face Morphological Multi-Branch Network for Makeup-Invariant Face Verification》,這篇論文可以通過 AI 將照片中的人物卸妝,防止戀愛中的男女被「照騙」。
此次由微軟推出的鑑真工具可進行逐幀分析,以驗證圖像有無存在篡改,不過此工具僅對 Deepfakes、Faceswap 等算法有效,如果使用一種沒有公開或者未知的算法,其鑑定準確率無法保證,微軟承認最安全的方法還是基於其雲服務Windows Azure 的組件對圖像添加數字散列和證書。無論如何現在這樣一套可以針對已知換臉算法進行鑑定的工具,還是很有價值和現實性意義的。
換臉並不可怕,多模鑑定才是關鍵
去年年末,谷歌發表了論文SV2TTS(https://arxiv.org/pdf/1806.04558.pdf),SV2TTS 使用低解析度的原音信息,在短時間內完成轉換,生成新的聲音。這個算法一經問世,就技驚四座,瞬間霸榜GitHub。這種換聲技術的出現,再結合三星提出 Speech-Driven Facial Animation 生成的視頻不僅可以產生與音頻同步的唇部動作,還可以呈現特有的面部表情,例如眨眼,眉毛等,同時能夠捕捉說話者的情緒並將其反映在面部表情中。
這將使得單純的AI換臉鑑定失去其原有意義。可以說目前只利用單一技術手段的「單模」用戶身份識別方案,其可信性與安全性都要打上一個大大的問號,據最新的用戶體驗調研,但凡要在操作中多付出一秒的時間就要承擔30%左右的用戶流失,企業不能接受這成本的。所以讓用戶走回相對安全密碼認證的老路完全行不通,這要求大家在安全性與用戶體驗方面做出平衡選擇,這正是多模融合身份識的戰略機遇。
多模態融合的生物識別實際共有兩層含義,一是指綜合使用「人臉、指紋、掌紋、聲紋」多模態的等生物信息,二是指在人臉識別領域,綜合使用「2D人臉、3D人臉、多光譜人臉」等多種模態,以發揮各模態特定的優勢。比起單模態的識別技術,多模態類似於一種結構化框架,綜合獲取多渠道的信息,並根據相應渠道的權值來取得最終結果,這樣不僅提升了系統的識別的準確率,還提升了系統的可靠性與容錯能力。
在多模識別方面我國進展很快,近日阿里宣布在電氣和電子工程師協會(IEEE)成功申請成立「行動裝置生物特徵識別」標準工作組,並立項「生物特徵識別多模態融合」國際標準,牽頭生物識別國際標準的訂立。相信成立標準工作組及國際標準,有助於中國APP在全球範圍內實現更安全、更規範的應用。據悉,此前阿里及螞蟻集團已主導及參與制定ISO、ITU國際標準以及國家標準90餘項,其中30餘項為生物識別技術領域的國際和國家標準。
「一流的公司定標準,二流的公司做技術,三流的公司做產品」,歷來龍頭企業之間歸根結底都是標準之爭,如果從頂層規定了技術框架、業務流程、功能要求、性能要求以及安全要求,實際引領了整個時代的潮流,並掌握話語權。