今年三月初,楊冪因為「穿越」到了1994年版的《射鵰英雄傳》而上了熱搜。這個視頻最早由B站換臉哥發起,而後頂著楊冪臉的黃蓉就刷了屏。
視頻中,大冪冪表情靈動,違和感不強,而背後的技術則是已經在歐美技術圈兒火了一年多的換臉黑科技——Deepfakes。
除了大冪冪,還有很多歐美明星中招。
美國女星勞倫科漢(Lauren Cohan)被移到《異塵餘生4》上:
「神奇女俠」蓋爾·加朵成為了AV女主角:
圖片來源:任玩堂
還有包括斯嘉麗·詹森、麥茜·威廉士、泰勒·斯威夫特等多個女星的羞羞圖片。
一時間,從娛樂明星到普羅大眾,談Deepfakes色變。大家紛紛恐懼與類似技術可能帶來的巨大危害。畢竟Deepfakes同時兼具了幾個特質:
軟體開源,一年多以前,Deepfakes首度上線了論壇Reddit,因為此機器學習模型能夠把任何視頻中的人臉替換成另一張臉而迅速被技術宅們嘗試起來。雖然因為後來的「毛片」事件,Reddit禁止了Deepfakes,但這種技術已經在網絡上扎了根,而且還有愈加逼真的勢頭;
成本低廉,過去,人工智慧和深度學習一直是計算機大牛們的專屬,沒點計算機功底,很難做相關操作。但隨著技術的逐步迭代,機器學習模型的使用門檻已經大大降低。拿Deepfakes來說,只需要花點時間,收集目標人物的大量照片,把模型訓練熟了,將照片拖放到一個文件夾中,即可達到以假亂真的視覺效果;
可以批量完成,如今,幾乎每天都有「熱心」網民把萊婭公主的臉加到《星球大戰:原力覺醒》(Star Wars: The Force Awakens)裡,證明自己的實力足以「碾壓」好萊塢特效工作室工業光魔公司(Industrial Light and Magic)。去年,一位特效界傳奇人物感嘆道,這位匿名用戶引發了「一場關於孰真孰假的戰爭」。
如今,大概12個月過去了,無數事實證明,Deepfakes是有先見之明的。
在美國,正有一波新企業渴望藉助類似的技術謀利,利用機器學習技術在媒體界立下前所未有的創舉,從偽造聲音到偽造頭像,甚至偽造精細複雜的照片。
為此,《快公司》採訪了其中三家致力於開發商業應用的公司。除了制定可持續的軟體商業模式,各家公司還必須謹慎看待這項新興技術的力量,思考如何保護社會不受其工具所害,以免破壞正常的社會秩序。
或者這三個公司的案例可以啟發我們反思在這個科技日漸發達的社會,科技從業者不僅要研究技術的價值,更應守住商業社會的底線。
潛在威脅:機器學習並不了解細節,只會重建細節,那麼,如果機器錯了呢?理論上講,被應用於識別車牌以開罰單的AI軟體,具備出錯的可能性;
十幾年來,艾瑞克·楊和阿爾伯特·楊(Eric and Albert Yang)共同經營著Topaz Labs,一家小而成功的軟體公司,專門為Adobe After Effects等軟體開發各類獨立的圖像編輯工具和插件。
父子倆花了幾年的時間開發算法,聘請了圖像增強專業的博士研究員,幫助他們完成費時費力且高度專業化的軟體製作工作。其軟體能夠從視頻中提取異常清晰的圖像,也可以為移動圖像添加電子輝光。
接著,一場機器學習革命爆發了。突然之間,他們可以訓練神經網絡完成銳化圖像的艱苦任務:「我們最大的驚喜之一……就是可以立即拋掉10年的辛苦工作。」因此,在過去一年裡,該工作室圍繞機器學習技術,或多或少進行了自我重建。埃裡克表示:「(我們)幾乎成了一家新的創業公司。」
該公司新推出的人工智慧(簡稱AI)軟體套裝大受歡迎,預計今年將拉動50%的收入增長。這套軟體支持從降噪到將簡單的JPEG格式轉換為高度可編輯的原始圖像等各種功能。其中的重頭戲是Gigapixel AI,本質上就是現實版的「增強畫質!」
Topaz Labs案例
它能把一幅解析度極低的圖像放大600%。原始圖像中的每個像素都要通過200萬個單獨處理程序的分析和優化,使一張iPhone照片變成80英寸的衝印相片。
這背後的功臣就是AI:經過數萬張圖像的訓練,AI掌握了大部分照片中單個像素相互環繞的一般外觀效果。Gigapixel AI的效果驚為天人,以至於Topaz Labs常常得費勁向客戶解釋,他們網站上的示例是真實的。
Gigapixel AI十分擅長景觀照和風景照的增強,給人像添加細節實際上是它的弱項,因為它不知道人臉應該長什麼模樣。
圖片來源:Topaz Lab
然而,只要這款軟體能夠造出逼真的假照片,它就有可能以其它方式被濫用。
關於這點,Topaz再清楚不過了。早已有警察機構採用其舊版非AI軟體增強車牌照畫質,以更好地識別車牌號(然後開交通罰單)。該公司的AI軟體實際上會生成新的像素,所以他們也承認,從理論上來講,人工智慧也有可能「猜錯」像素,如果用來查車牌,那麼是有可能出現錯誤的數字或字母的。
「眾所周知,機器學習並不了解真正的細節,它只會重建細節。這顯然是有問題的。」阿爾伯特說道,「隨著這項技術的進步,我們必須更多地去深思。以目前的數據水平,我們倒不需要太擔心,還不至於因為軟體偽造車牌號而導致交警揪錯人。」但這個可能性是存在的。
因此,Topaz正試圖控制其軟體的使用,包括向攝影師推銷這項技術,並針對其局限性向其他人(比如官方機構)提出忠告。「我們目前還不打算進入安全執法領域。」艾伯特補充道。
潛在威脅:如果此技術被用來模仿名人、政客或者是你身邊的任何一個朋友的聲音,都可能產生致命威脅
邁克·帕帕斯(Mike Pappas)正走在麻省理工學院宿舍的走廊上,這時,他看到一個人在房間裡擺弄白板。此人是物理系本科生卡特·霍夫曼(Carter Huffman),也是Modulate未來的首席技術官。Modulate成立於2018年,獲得了來自Harmonix工作室(您可聽說過《吉他英雄》?)創始人等音頻創新者的200萬美元資金。
它的作用類似於Deepfakes,只不過處理對象是語音:它可以把你的聲音轉換成任何人的聲音。Modulate的網站上有一段巴拉克•歐巴馬(Barack Obama)「本人」推薦這款軟體的演示視頻,雖然容易引起誤解,但逼真度確實沒得說。
Modulate的想法誕生於2015年左右。當時,霍夫曼發現了一種叫做「風格轉移」的新現象,能夠把一件藝術品的風格套用到另一件藝術品上,比如讓一張照片看起來像是梵谷的畫作。
在訓練機器生成逼真的贗品方面,不妨把風格轉換想像成Deepfakes的「近親」。
「卡特當時正在研讀相關資料,他產生了一個想法,不如把音頻保存為一張圖像,一張光譜圖。他想知道,如果我們嘗試在這個音頻上做圖像風格的轉換,會產生什麼結果。」帕帕斯回憶道,「他做了實驗,得到的直接答案是,這樣的音頻聽起來完全是垃圾。」
Modulate核心團隊
然而,經過三年的修整,Modulate的表現已經相當不錯了。該軟體的工作原理是對一個人的許多聲音樣本進行模型訓練。這意味著,錄製過數小時音頻的公眾人物更容易成為模仿的目標。理論上,你可以利用Modulate的技術,建立一個政客、名人或經常公開講話的人的聲音模型,然後隨時通過電腦用他們的聲音說話。
但帕帕斯對於用Modulate模仿政客或名人不感興趣。「歐巴馬的聲音出現在我們的網站上,是為了演示某個人物或角色的聲音匹配效果,而他恰好有很多公開音頻,所以很方便。」帕帕斯說,「有人說,如果說話聲音能像歐巴馬,玩個一兩分鐘,也是挺酷的。」所以,他們實際上並不提供歐巴馬的人聲「濾鏡」。
相反,Modulate希望把技術授權給社交媒體和遊戲公司,讓這些平臺的用戶擁有一個很酷的音頻化身,但僅限於平臺範圍內。這個聲音不是被用戶本人訓練成像他一樣的聲音,而是由開發人員訓練成某個角色的聲音,所以會受到相對嚴格的控制。在《守望先鋒》(Overwatch)等遊戲中,如果能用真人配音演員的聲音說話,你又何必暴露自己小學生/初中生的身份呢?
「最有意義的直接應用是為上網的消費者設計在線角色。他們花錢給角色買了新皮膚,但只要開啟語音聊天…就打破了自己製造的幻覺,因為他們只能用自己的聲音。」帕帕斯說,「請賦予他們完全進入角色的自由。」
話雖如此,帕帕斯並不否認,Modulate可以加入名人的聲音。他指出,《堡壘之夜》(Fortnite)最近推出了NFL(美國國家橄欖球聯盟)視覺皮膚,供玩家購買,沒準有些球員還會想為這款遊戲「獻聲」。
在這方面,Modulate也已經考慮過如何及早打擊欺詐行為。它給所有的錄音添加了音頻指紋,雖然裸耳聽不出來,但觀察聲波波形就能輕鬆發現。這樣的指紋雖不足以阻止假新聞的快速傳播,但至少可以用來反駁某位名人發表了爭議言論的假視頻。
然而,這項安全措施仍然不夠完善,而這也是Modulate一直以來關注的焦點。「世界上有很多技藝精湛的音頻工程師,也許有一天他們可以編輯這些水印。」帕帕斯說,「所以,我們的任務之一就是尋找新方法,讓水印更深入地嵌入到音頻之中。因此,我們正在開展新的機器學習研究,以製作更加強健的水印。」
潛在威脅:可能會有人濫用這個系統,拿別人的臉創建3D模型
米沙·萊博維奇(Misha Leybovich)一直夢想成為一名太空人。所以,他進入加州大學伯克利分校攻讀工程學本科學位,然後在麻省理工學院獲得了技術政策和航空航天工程的雙料碩士學位。
他開玩笑說,從來沒有人告訴過他,大部分成年人最後都沒有當上太空人。後來,他在麥肯錫諮詢公司找了份工作,心裡卻萌生了創業的念頭。
他的平臺Meo足足醞釀了三年。Meo的技能是把面部2D視頻轉換成3D頭像。這個頭像可以是一條龍或一隻小貓,但它能夠傳達你的情緒狀態,模仿你獨特的微表情,比如淡淡的微笑或皺眉,這是蘋果animoji做不到的。
在籌集了250萬美元的資金後,Meo也交出了一份合格的成績單,現在它正面向電子遊戲行業出售,計劃整合到遊戲中。
在萊博維奇的設想中,Meo最終能夠讓用戶製造出一個逼真的自己,用於從遊戲到社交網絡到美妝應用等任意平臺。通過拍攝成千上萬甚至上百萬張你的照片,Meo能夠把攻擊好友城堡的遊戲角色做成你的模樣,或者幫你看看新眼線筆畫在你臉上的效果。「總而言之,只要你創建了自己的3D模型,你想拿它做什麼都可以。」萊博維奇說道。
源圖:Luke Braswell/Unsplash高清圖庫
萊博維奇承認,可能會有人濫用這個系統,拿別人的臉創建3D模型。他說:「最終,你可以模仿名人,或其它任何東西。」
也許,你可以把手機對準一個Twitch播主直播玩遊戲的視頻,然後根據視頻內容創建化身。
又或者,你不喜歡這麼明目張胆的偽造。你只是想撒一點小謊,用假想中的Instagram濾鏡調整你的外表,加幾塊腹肌,提亮膚色,或者修改年齡和性別。
萊博維奇坦言,視頻本身就給人一種可信的感覺,所以被濫用的可能性是存在的。成年人可以偽裝成兒童,心懷嫉妒的前任可能假扮成新追求者。 「我想,任何一家優秀的科技公司都希望他們的工作成果是為善而非為惡所用。」萊博維奇說,「我們正在努力未雨綢繆,為我們的技術建立保護措施。」
Meo的保護措施很有潛力,有望成為其他平臺仿效的模型。為了整合Meo,開發人員必須使用其軟體開發工具包,裡頭包含了所謂的真實分數和實時分數。真實分數描述了你的模型偏離核心臉型的程度。把鼻子縮小一點,你的真實得分可能就是85%。把自己變成一個80歲的精靈,你的真實分數可能就會降到25%。
而實時分數則描述了Meo對於你的化身是來自你的真實面孔還是預先錄製的視頻的確定程度。如何將這些分數整合到自己的應用程式取決於開發者,但很可能是直接發布在用戶的個人資料頁面上,點擊滑鼠就能快速查看。
「應該做到公開透明。」萊博維奇稱,「我們能否強制要求整個行業採用真實分數和實時分數?不能,我們只是一家公司,不是監管機構。但作為行業領先者,如果我們能夠取得成功,並且大肆推廣,那或許就能建立一個標準,讓其他所有人因為羞愧而效仿。」
Deepfakes利用公開研究成果創造了免費軟體,在媒體操縱領域掀起了一場革命。關於機器學習如何模擬真人身份的知識一直就在那裡,他們只是把它做成了一款看得見的應用程式。
但以上新創企業用行動證明了一點:利用類似的媒體操縱技術謀利——或使用成千上萬份照片或音頻文件訓練機器模仿人物或地點——或許能夠帶來實際效益。
與普通的Reddit用戶相比,想要使用AI操縱圖像、視頻和語音的公司必須接受更高標準的要求(至少理論上是如此)。撇開其他不談,這些公司知道自己必須盈利。要做到這一點,它們就得保留研究所有權,並限制最明顯的使用途徑。
「一方面是想成為良好公民,我相信這也有私心的成分在。」萊博維奇說道,「說到底,我想Facebook肯定希望自己不用接受國會質詢。從商業和社會效益來講,這都不是一件好事。重點不僅僅是為了行得正,如果有人濫用你的技術,你的生意就會出問題。最好的辦法還是防患於未然。」
文 | Mark Wilson
翻譯 | 李美玉
編輯 | 和星星
圖片 | 快公司&網絡
挖掘創新是《快公司》一以貫之的行事方法論,然而,關於「創新是什麼」,「創新在哪兒」的議論往往莫衷一是。其實,創新本就是一場沒有邊界和限制的頭腦風暴,每一次刷新都是顛覆。我們一直在尋找創新路上的並肩者,他們與眾不同,不墨守成規,他們是這場風暴的中心。如果您身邊有這樣不懈嘗試的「風暴發起者」,歡迎後臺留言。
點擊即可購買雜誌,全年訂閱8折優惠哦