真實的虛擬世界:從深度偽造到深度合成

2020-12-24 大眾網

2020年12月21日,騰訊研究院和騰訊新聞共同推出的「騰訊對話·Tencent Dialogue:始於2020」舉行了第五期線上對談。此次騰訊對話著重探討AI深度學習為基礎的深度合成技術(Deep Synthesis)的發展與應用。騰訊玄武實驗室負責人於暘、騰訊AI Lab視覺首席科學家劉威博士、中科院自動化研究所副總工程師張文生教授、電影《大聖歸來》出品人路偉圍繞深度合成技術展開了深入討論,此次對話由騰訊研究院院長司曉主持。

2014年,對抗生成網絡(GAN)被發明,由AI打造的虛擬世界大門初現。此後,「AI深度合成」(Deep Synthesis)逐漸從實驗室飛入尋常百姓家,成為普通人數字生活體驗的一部分。朋友圈中刷屏的換臉軍裝照、以假亂真的虛擬主播以及導航軟體中響起的明星語音都是這項技術的應用形式。AI深度合成帶來新奇體驗的同時也激起了眾多疑慮,「深度偽造」(Deepfake)的陰雲揮之不去。有了「Deepfake」, 「眼見為實」成為過時的經驗,人們擔心這項技術會帶我們進入一個「真假混淆」的世界,其中個體安全感和社會信任都岌岌可危。

我們如何理解這項技術的現在和未來?深度偽造之憂如何破解?深度合成技術如何向善發展?以下是對話實錄摘要:

合成=偽造or合成=創造力?

司曉:深度合成技術在我們身邊有哪些應用?

劉威:在很多人的印象裡,合成和偽造是天然聯繫在一起的,但實際不是這樣的。我們有很多積極的應用形式。譬如圖像修復,也是一種合成。騰訊AI Lab也與敦煌、故宮都在討論,怎麼去用人工智慧的技術,確切來說用對抗生成網絡的技術,去還原一幅古畫,用AI的想像修補殘缺。

路偉:深度合成在電影裡面的應用是越來越多了。以《大聖歸來》為例,其中有一百多個角色,很多故事情節,我們要讓它們在虛擬場景裡影像化呈現。我們還用到了AI音效,建立角色的虛擬人格。老片《上甘嶺》的重映用到了AI去做色彩還原,效果還不錯。像中國電影資料博物館有非常多老片資源,今後都可以通過技術還原手段重獲新生,能達到2K、甚至4K的清晰度。

張文生:現在大家重視的都是一些語音和圖像的深度合成,實際上能合成的東西還有很多。比如一個城市系統的智能交通,本身也是在做合成,它是我們物理空間和數字空間的合成。

司曉:埃隆·馬斯克一段訪談裡面講,按現在通過技術去仿真的能力的提升速度,我們總有一天能夠去用完全數位化的方式去還原或者模擬一個人類來說真假難辨的世界。大家開一下腦洞,大膽預測一下深度合成的未來?

路偉:現在的電影仿真技術已經能以假亂真。我們現在做電影,也在用一切辦法讓觀眾進入一個虛擬的真實世界,從環境、燈光、空氣密度、照度、色溫,然后角色的運動、擁抱、談笑,全部都要讓觀眾覺得它是真的。虛擬主播也開始出現,比如洛天依和初音未來是虛擬角色1.0版本,接下來肯定會有2.0、3.0版本。在未來的五到十年,我認為虛擬明星的市場要遠遠大於真實世界的市場。

認為未來會出現「無邊界的概念。特別是在AI和VR的時代,觀眾感受到的不只是感官的視覺、聽覺、味覺,還有情感的感受,它應該是更加真實的、更加入心的,有時候我是認為在未來的真實的虛擬世界裡,虛擬和真實和邊界會慢慢模糊。我覺得現在的CG(計算機圖形)技術和計算能力,在不斷拓寬我們對世界的認知。

張文生:我們對深度合成的「深度」要求是與審美水平提高同步的。比如我們看到的AI主播,一開始是二維的,然後語音和圖像結合了,慢慢地把口型什麼都做得很好了。我想未來的三年,它有可能變成三維的、立體的一個場景。

只要有需求,有應用場景,這項技術就有市場。以電影製作為例,當我們拍一些危險場景,就可以使用深度合成來完成,減少演員受傷。或者一些「大場面」,用實拍成本非常高,有時根本實現不了,比如想展現成千上萬隻羊在山上跑,但是用深度合成就可以連羊鬍鬚這樣的細節都展顯出來。另外,一些想像層面的內容,比如把動物的動作附加到人身上,也可以通過技術實現。只要這些需求存在,技術一定會有大的突破。十年前,我們就在做裸眼3D,現在看,裸眼3D技術如果與深度合成技術結合,我相信那市場會更大。

司曉:我們看到的這些合成動作離真人的動作差距點還在哪?目前存在哪些瓶頸 ?

劉威:我們目前稱之為「深度合成」的技術使用的是深度神經網絡,在此之前的合成用的是統計的方法,嚴格意義上不能叫做「深度合成」。統計的方法就是說我們想合成什麼東西,我會收集跟它很像的一些樣本,然後用統計手段去「猜」一下,把這個樣本拼在一起。2014年對抗生成網(GAN)被發明,自此以後,相關應用的發展突飛猛進。

但是,就拿產生圖像來說,雖然這六年技術發生了巨大的進展,但是仍然離我們想像的那種高度自動化、高度自由度有很大的距離。何為高度自動化呢?舉例來說,我們要產生一個非常逼真的人臉圖,當然需要這個人臉圖像解析度越高越好。但是解析度一大,你需要的算力就會很大,大到在手機上是完成不了的,必須在雲上做,用若干塊GPU才能做出來。

同樣,對於自由度來說,我們現在的合成技術也有很大局限。通俗地說,自由度就是我想讓它產生什麼樣,就產生什麼樣,這個仍然很難。在對抗生成網絡發展的早期,我們是用一個噪音來產生一張人臉,最後產出的結果是無法把控的。直到今年,我們才能對生成的人臉的屬性有要求。背後我們要訓練的神經網絡模型參數是海量的,訓練方式也是非常複雜的。

儘管我們會遇到各種技術難點,我堅信未來用人工智慧技術去自動產生影像,會越做越好,日臻完美

於暘:我想到的最重要的其實是感情。大家看一些電影,或者電視劇,有時會有這種情節:角色的親人故去之後,他可能去找一個巫婆、法師,把親人的魂魄招回來,讓我能再看他一眼,再跟他說一句話。現在,技術讓我們可能擁有了種魔法。未來肯定會有人有這種想法,有這種需求,這對技術提出了新的要求。

「深度合成本身應該是賦能的技術」

司曉:目前深度合成技術面臨汙名化,「深度偽造」問題突出,我們怎麼樣保障我們這個技術不被用在造假、詐騙上?

劉威:在國內,騰訊在數字鑑偽——或者稍微學術一點,叫信息辯論術上取得了不小的突破。我們對語音、圖像、視頻鑑定的準確率比較可觀。當然道高一尺魔高一丈,合成的技術變強,我們的防禦能力也得增長,這就像雙手互搏。

以目前的圖像鑑偽技術為例,我們有一個步驟,先用對抗生成技術去製造高逼真的樣本,再把數據給計算機去判定,讓它多輪反覆學習。我對鑑偽技術的發展保持樂觀。可以看到,即使在國際上的數字鑑偽比賽中,面對非常複雜的數據集、測試集,大家最後奪冠那些方法也不外如此。而造假的成本遠遠比鑑偽要高,也就是說,有人挖空心思造了假,我們一下就解決了。

於暘:假的影像或者聲音,能不能騙過人?能不能騙過機器?這其實是兩個話題。有些場景下人比機器好騙。比如,騙子給你打電話冒充你的同學,你一聽口音,我這個山東同學怎麼是福建口音?但可能未來就不一樣了,騙子先打給你這個同學,錄一段你那個同學的聲音,根據那個聲音合成一下。你一聽,十幾年沒見,這好像就是我老同學的聲音,你就信了。

關於能不能騙過機器,在技術維度上,就是單純的機器造假和機器鑑別的較量。可能攻守雙方誰都不會特別確信能取得百分之百的優勢,但落地到具體的業務裡面的時候會發現,有時候會需要讓步。這個其實會給造假者提供便利。

張文生:這個可能還關乎商業模式,就是如何從經濟上激勵「打假」相關技術的開發。此外,從打假的思路來說,如果我們要加上語義識別,可能會更容易,成本也更低。比如在電話詐騙這個場景下,騙子用了合成的語音,我馬上問一個涉及隱私的問題,對方就答不上來了,這就是語義。   

司曉:我們這個行業還需要做哪些事情,真正保障深度合成這個技術是在一個向善軌道上快速運行?

劉威:我個人希望從政策上鼓勵人工智慧技術創新,尤其是影視內容層面應用的創新,來提高效率,降低製作流程的成本。同時我希望要能有一些文教方面的創新,包括老照片、老電影的上色、復原,在線教育領域的應用等等。這些都是正確的引導。在立法和技術鑑別手段逐漸完善的情況下,我覺得技術造假應該是小概率事件,整體上深度合成技術還是應該向善。

於暘:我們看整個人類發展歷史,其實就是個體所擁有的力量,不管是建設力也好,破壞力也好,力量越來越大的過程,這是不可避免的。任何情況下,冒然抑制技術發展我認為都是不對的。法律不是禁止發展技術,而是規範如何把技術用在好的方面。我覺得這個是最關鍵的。

張文生:人工智慧本身是賦能的技術。我們做技術實際上是圍繞人們的生活、社會的進步。深度合成會發展成一個新業態,全世界技術人員都會為它貢獻自己的力量。同時,我們也需要相關的規範來約束違法的、不利於社會發展的技術使用方式。做技術的人,怎麼樣在這個「魔高一尺,道高一丈」的情況下更新技術,幫助政府和公民,用技術來解決問題。

路偉:對影視業來講,有關深度合成的核心關切是版權保護,虛擬資產、虛擬人物的版權歸屬都需要法律來界定。在科技發展之外,加上對版權的管理和尊重,這個行當會越來越健康。

「用人性的溫度推動AI持續向善」

司曉:各位深度合成的發展還有哪些期待?

劉威:我期待深度合成技術能夠便利於文教、文創事業,孕育出更好的數字鑑別技術。我們今天談到的所有的一切,無論是合成、鑑偽,最後驅動的都是人腦,人的創意。我希望AI裡面會有越來越多的有溫度的東西,這樣我們才能讓AI持續向善。

於暘:在有現代科技之前,大部分人類生活的世界其實很小。但是以網際網路為代表的現代科技讓我們每個人都能夠和全世界發生聯繫。再往後發展,類似深度合成這樣的技術,可以在我們已有的這種基礎上,再更進一步。這種技術可以把物理世界中不存在的美好創造出來,讓我們去感受,它必然會把人類生活的美好推到下一個境界。

張文生:我希望科技企業能夠把深度合成技術推動變成一個商業模式,來吸引更多的做技術的人為之服務,做出來更好的產品。科技企業也有責任和政府一起關注深度合成技術的發展,保障它在正確的、向善的軌道上。

路偉:我希望通過深度合成,通過計算機網絡,能夠讓我們未來做電影、影視、虛擬世界越來越簡單,讓我們的作品越來越有溫度,讓更多的人能夠把自己掃描進虛擬世界。我希望在這個世界裡,人性的光輝照到更多角落裡面。

相關焦點

  • CSIS報告:深度偽造 (Deepfake) 技術政策簡報
    Deepfakes Policy Brief - 深度偽造技術政策簡報》報告。「深度偽造」(Deepfake)是「deep learning」(深度學習)和「fake」(偽造)的混合詞,即利用深度學習算法,實現音頻和視頻的模擬和偽造。
  • 「聲音」也能被深度偽造,連你親媽都聽不出來
    這種「深度偽造」不僅可以換臉,還可偽造聲音。而目前一些科技公司在面對深度偽造的視頻時,也顯得力不從心。這不禁讓人們擔憂,在深受網絡社交媒體追捧的「超級」新技術背後,可能有哪些安全隱患?語音合成「術」可以模擬任何人語音彭博社記者萬斯使用電腦合成語音給他母親打了個電話,看看他母親能否發現?
  • Nuke深度合成|Houdini深度雲層EXR2.0工程與圖片
    儘管一般圖像的合成流程已經很成熟。但是深度圖像合成將來是趨勢。深度合成大幅度減少合成的複雜度,工序大,不需要再為空間深度、遮擋關係擔憂,其最大的優勢就是快速控制空間在z軸向上的深度,同時在合成的時候,只需要一層即可解決問題,而不需要使用大量通道來進行合成。
  • 蝸牛數字方舟公園亮相G-Star 打造最真實的虛擬世界
    深度沉浸 營造最真實的恐龍世界如此備受全球關注的國產VR遊戲,到底是出於什麼原因呢?蝸牛數字副總裁、《方舟公園》製作人吳天奇這樣描述:「《方舟公園》打造了一個史前恐龍星球,通過貼近遠古的大世界觀和極度的沉浸感將虛擬世界變得更加真實。」《方舟公園》中有豐富多變的原始生態圈,變幻的晝夜和四季,在這樣一個真實的世界中,玩家可以體驗不同類型的載具,多場景的自由探索和收集材料,從而獲取基因、恐龍蛋,和鍛造生存工具和武器。隨後馴養和騎乘自己的專屬恐龍,並可以享受獵龍的樂趣。
  • 虛擬世界與真實世界的經濟互動及其影響 ∣ 企鵝經濟學
    現在,開發者以這樣或那樣的形式將曾經被視為是有害的和具有破壞性的活動——真實貨幣交易(RMT)嵌入到大多數虛擬世界經濟中,真實貨幣交易發展的大部分內容都是用戶試圖改變甚至是顛覆虛擬世界經濟交易規則的結果(Knowles et al,2015)。根據虛擬世界經濟的不同,真實貨幣交易可以被批准或禁止,可能有一個一級或二級市場,或者兩者都有。
  • 深度學習到頂,AI寒冬將至!
    然而,從12,13年甚囂塵上,到如今的塵埃落地,浪潮一再的退去。面對疲軟的風口,養肥的豬,人工智慧將何去何從?AI Winter Is Well On Its Way多年來,深度學習一直處於所謂的人工智慧革命的最前沿,許多人相信深度學習將帶領我們進入通用AI時代。
  • 停課不停學|曠視×北大《深度學習實踐》課程全面開放!
    曠視研究院聯合北京大學數學科學學院機器學習實驗室開設的《深度學習實踐》全套課程(視頻+PPT,共計28課時)今日正式全面上線,讓你足不出戶也能享有高水平的教學資源。「與其疫情宅家玩遊戲,不如家裡蹲大學把課上。」
  • 人類活在虛擬世界?越來越多的證據表明,虛擬世界真實存在
    該電影塑造了一個充滿虛擬實境技術的世界,故事發生在2045年,男主角在虛擬世界結識了其他四位夥伴,並一起踏上尋找彩蛋的徵程。看完電影後不少觀眾感嘆於虛擬實境技術的先進,對未來的VR技術發展充滿期望。在現實中,隨著晶片、傳感器、顯示器等技術不斷地發展,普通人已經能夠接觸到VR技術。
  • Google翻譯是如何把深度學習「塞進」手機的?
    這時就該讓「深度學習」出馬了。我們要用到卷積神經網絡,並在字母和非字母集合上訓練這個網絡,這樣做的目的在於,讓它學習到不同字母的長得是啥模樣(在圖3左3子圖中,瑞典語「Mörk」為識別出的字符)。有意思的是,我們的訓練集,並非都是那些方方正正的「純潔的」字符集合,因為倘若不是這樣,訓練出來的識別器,就無法識別出在這個「並不純潔」的大千世界中的字符。
  • 通過深度通道將2D圖像轉3D立體影片stereoFake
    StereoFake使用深度傳遞來創建立體圖像,並能輸出左右眼的立體圖,並排或隨機播放通道。全球範圍內有多家2D轉3D工作室開發了大量類似的工具,經過NewVFX測試,精選了兩款最佳好評度,並已經在一些知名Pipeline上運行的2D轉3D工具,提供給工作室下載使用。
  • 卻是深度偽造
    瀏覽器版本過低,暫不支持視頻播放不過這一視頻卻是不折不扣的假視頻,是一段俄羅斯網友深度偽造的視頻。有趣的是,這首描寫太空旅行的優美歌曲,裡面卻唱到:沒有任何地方比得上我們的家園,我們的地球。當你聽到馬斯克唱出這一句的時候,是不是已經莞爾,忍俊不禁?
  • 深度票據網票據經紀商合規轉型培訓會圓滿召開
    2019年12月7日,由深度票據網組織的「科技賦能、守心拓路」票據經紀商合規轉型培訓會在深度票據網總部圓滿召開。銀行業資深票據專家趙慈拉,天津卓茂律師事務所資深律師孫浩煜,京東數科戰略客戶總監李媛媛出席會議並作授課分享。參加會議的還有行業協會、實體企業以及全國票據經紀商、主流媒體等逾200人。
  • 《超級小熊布迷》點擊量突破30億,深度探索兒童教育
    提到國產動畫,近些年優秀作品層出不窮,在內容深度和廣度上都有著更大的發展,由上遊動漫和企鵝影視聯合出品的《超級小熊布迷》便是代表之一。在得到觀眾認可的背後,是它對幼教領域堅持不懈地深度探索。
  • 機器學習、虛擬世界與元宇宙 Metaverse
    另外,「虛擬世界」裡面的物理規則也可以完全和真實世界不一樣。比如我們在「虛擬世界」裡要從一個地方到另一個地方,我們僅僅需要在代碼層面設定好規則,就直接跳轉了。這樣的方式在「虛擬世界」裡,就是 1 和 0 規則下的地址定義。
  • 谷歌新研究:用2D網圖就能合成3D地圖模型
    但這些大規模的虛擬世界/地圖,需要依靠大量數據支撐。目前,覆蓋面最廣的VR地圖之一非谷歌街景莫屬,其通過出借全景相機等眾包方式,收集了來自世界各地的360°地圖影像。  但這還遠遠不夠,而Niantic在收購3D地圖廠商6D.ai後,在前不久才通過《Ingress》和《精靈寶可夢Go》LBS AR遊戲,獲取幾十萬個基於真實地理位置的3D數據。
  • 下一代GPU再加速 DIGITS深度學習科技會
    採用 3D 堆疊顯存將可提高比 Maxwell 架構高出三倍的帶寬和近三倍的容量,讓開發人員能建立更大的神經網絡,大大提升深度學習訓練中帶寬密集型部分的速度。Pascal 採用顯存晶片逐個堆疊的技術,位置接近 GPU 而不是處理器板更往下的地方。如此就能把輸出在顯存與 GPU 間往返的距離從幾英寸減縮到幾毫米,大幅加快傳輸速度和擁有更好的省電錶現。
  • 衣櫃深度一般是多少 整體衣櫃的特色
    如果我們要選擇定做衣櫃的話,必須要根據自己的想法去做,這樣的話能達到一個實用的效果,那麼,如果自己要構思想法的話,就必須要先清楚衣櫃的最基本的東西,一定要看一下衣櫃深度一般是多少,必須要確定它的標準深度,而且,我們大家還要了解一下整體衣櫃的特色是什麼。
  • 光線追蹤DLSS深度剖析:遊戲畫面不斷趨近於真實
    這兩種技術可以說有著劃時代意義,光線追蹤可以讓我們在遊戲中獲得更為真實的光線效果,讓遊戲畫面不斷趨近於真實。同時還可以節省大量遊戲開發者的時間,而DLSS效果則可以在不降低畫質的情況下讓幀數暴漲。NVIDIA自Volta架構開始,在GPU中增加了針對深度學習加速設計的矩陣運算單元,並稱之為Tensor Core(張量計算核心)。在圖靈架構裡,NVIDIA引入了第二代Tensor Core,而到了RTX 30系列所採用的Ampere架構,則進化到了第三代Tensor Core。
  • iPhone 12,使用「Deep Fusion深度融合」技術,拍攝的照片更精彩
    iPhone 12攝像頭的Deep Fusion(深度融合)技術能完美記錄你的每個精彩時刻。iPhone 12的Deep Fusion(深度融合)技術的工作原理。1. 當按下拍攝按鈕的時候、攝像頭先高速拍攝4張短曝光的照片。2.
  • 人臉檢測發展:從VJ到深度學習(下)
    從神經網絡到深度學習    深度學習本質上並不是一項新的技術,作為其物理核心的神經網絡早在上個世紀中葉就已經有人開始研究,並且在上世紀末已經經歷過一次研究高潮。        從「深度學習」這一字面上可以看到,神經網絡改頭換面重出江湖,關鍵在一個「深」字上。