最近CVPR2020的論文集合在GitHub火了,CVPR2020-Paper- Code 的項目(https://github.com/extreme-assistant/CVPR2020-Paper-Code-Interpretation)已獲得超5.2K Star(截至發稿),甚至一度排在趨勢榜的前五名位置。在通讀了CVPR2020論文的概要之後,最令筆者印象深刻的當屬由華為諾亞實驗室與復旦大學聯合發表的論文《FM2u-Net: Face Morphological Multi-Branch Network for Makeup-Invariant Face Verification》,讀過了這篇論文後筆者腦洞大開:是某位作者經歷了換臉風化妝的約會套路後,才會提出了FM2u-Net「AI卸妝藥水」,來幫助戀愛中的男女看清妝容下真實的臉。當然目前FM2u-Net的計算規模還非常大,計算量上應該還有優化空間。筆者不排除後續優化模型推出後,會有App直接嵌入一鍵卸妝的功能。在去年CVPR2019大會上,Photoshop的母公司Adobe與伯克利共同推出的論文《Learning Rich Features for Image Manipulation Detection》技驚四座,他們提出的模型可以用於偵測圖像是否有被PS過。
這款反PS工具準確率極高,根據論文數據顯示,
一般人眼分辨PS痕跡大約有53%的準確率,但是反PS工具識別準確率高達99%以上。到了CVPR 2020,妝容遷移的問題明顯在人臉識別的領域中得到了更多的重視,比如我們馬上要解讀的這篇FM2u-Net的論文,就將視角完全聚焦在了妝容不變性上。
可以說「照騙」一族和「化妝」一族在AI的偵測下,通通都只有立現原形的份,按照目前的趨勢發展,只要整合了整容不變性技術,AI就基本集齊龍珠,實現火眼金睛了,所以明年整容遷移問題能否成為CVPR2021的焦點話題,值得我們拭目以待。如今人臉技術也形成了識別偵測與合成偽造的兩大流派,這兩大流派形成了典型的相互促進,相互攻防的趨勢。人臉識別技術最開始被人們所熟知在2017年前後,當時歌神張學友的演唱會上,AI人臉識別技術屢屢立下大功,甚至創造了一次演唱會,就幫助公安機關抓捕到5名逃犯的紀錄。這賦予了《她來聽我的演唱會》這首老歌新的含義,扯遠了。當時大眾對AI還缺乏了解,據說不少人在被逮捕時,還一臉茫然,完全沒想到人臉識別技術能在多年後準確找到自己。這讓人們驚呼原來人臉識別這麼牛啊,因為人臉識別技術在人員身份認證上所體現出來的便捷性及帶來的效率提升,相關人臉識別產品、解決方案層出不窮。人臉識別被廣泛應用於機場、火車站、社區、園區等諸多場景的身份識別、考勤打卡甚至金融支付應用當中。這開啟了一個方便快捷的時代,用戶不需要輸入密碼,甚至連手指都不需要動一下就能完成相關的身份認證,短短幾年時間,人臉識別的安全認證手段就已經完全取代了密碼的方式成為了主流的技術方案,潮流的趨勢並不可逆。自2017年iPhone X啟用人臉識別以來,Face ID一直是蘋果公司引以為傲的一大黑科技,可以瞬間通過3萬個特徵點來感知用戶面部特徵。人臉識別技術被廣泛應用了一年多以後的2018年末,人臉偽造技術即AI換臉技術迎來爆發。先是SIGGRAPH(暨國際計算機圖形學會)的2018年年會上,當時一個由史丹福大學、慕尼黑技術大學、巴斯大學等科研究機構聯合研發的Deep Video portrait模型橫空出世。該技術不但能讓被替換的人臉完全模仿原視頻中人物的表情,甚至在放大對比時,兩個視頻在髮絲和睫毛的表現上都能做到極度的精確,後來其論文被發表在了《ACM圖形交易》上。目前在GitHub上,由Deep Video portrait技術衍生而來的開源項目數量不下十幾個,其中以FaceSwap、OpenFaceswap等開源項目為代碼的換臉技術在GitHub上的更新與討論十分熱烈,後來一名叫做換臉哥的網友在微博上傳了一段由楊冪換臉朱茵而主演的《射鵰英雄傳》,讓我們對於人臉識別安全風險給予了足夠的重視,從而開始考慮使用人臉、聲紋、瞳距等多模態方法來提高準確性。化妝導致的容貌的顯著變化,是妝容遷移不變性模型所要面臨的首要問題,而且目前絕大部分數據集當中,也沒有給出化妝/未化妝的分類集,這從客觀上也增加了妝容遷移問題的實現難度。
面部妝容遷移目的是在任意給定的化妝圖像中呈現非化妝的面部圖像,同時保留面部特徵。當前最佳方法是將化妝風格信息從人臉圖像中分離出來,實現化妝效果的傳遞。華為和復旦的研究人員提出了一種FM 2 u-net也就是形態多分支網絡,來完成妝容遷移不變性的工作,從宏觀上看FM 2 u-net由兩個FM-Net和一個AttM-Net共同組成。整體架構圖如下:其中FM-Net由兩個堆疊的自動編碼器組成,可以通過循環一致的方式來對於化妝區域進行不變性轉移,合成具有不同化妝信息的真實面容,進而合成逼真的化妝人臉圖像。生成網絡AttM-Net由一個全球分支和三個本地分支組成,將人臉圖像進一步分解為四個獨立分量,包括整體風格、左眼風格、右眼風格、嘴部風格,可以有效地捕捉互補的整體和細節信息。AttM-Net的架構圖如下:AttM-Net不僅可以控制全局化妝風格的程度,還可靈活地調節局部化妝風格的程度。
FM 2 u-net不但能瞬間將素顏化上煙燻妝,能從自然風瞬間切換至典型風,可以產生更真實和準確的化妝遷移結果。目前圖片篡改識別與妝容遷移方面的應用,還沒有非常完善、高效的技術方案。不過根據CV技術的發展趨勢,未來AI「火眼金睛」的練成只是時間問題。甚至筆者暢想,視頻網站會推出一鍵還原場景的功能,讓用戶突破視頻特效,看到演員在綠幕前的表演。
更多精彩推薦
☞從微信「拍一拍」,我想到了那些神奇的一行代碼功能
☞騰訊總市值超阿里巴巴;英特爾回應蘋果換芯;Perl 5.32 發布 | 極客頭條
☞無代碼開發到底是不是偽需求?
☞程式設計師端午炫富指南~
☞Spring 從入門到入土——AOP 就這麼簡單!| 原力計劃
☞硬核!國外開發者用 25 美元做了個區塊鏈警佩相機!
☞Python 玩出花兒了!一文教你用 Python 製作吃豆人遊戲!| 附代碼