真實的虛擬世界:從深度偽造到深度合成

2020-12-24 CSDN技術社區

2020年12月21日,騰訊研究院和騰訊新聞共同推出的「騰訊對話·Tencent Dialogue:始於2020」舉行了第五期線上對談。此次騰訊對話著重探討AI深度學習為基礎的深度合成技術(Deep Synthesis)的發展與應用。騰訊玄武實驗室負責人於暘、騰訊AI Lab視覺首席科學家劉威博士、中科院自動化研究所副總工程師張文生教授、電影《大聖歸來》出品人路偉圍繞深度合成技術展開了深入討論,此次對話由騰訊研究院院長司曉主持。

2014年,對抗生成網絡(GAN)被發明,由AI打造的虛擬世界大門初現。此後,「AI深度合成」(Deep Synthesis)逐漸從實驗室飛入尋常百姓家,成為普通人數字生活體驗的一部分。朋友圈中刷屏的換臉軍裝照、以假亂真的虛擬主播以及導航軟體中響起的明星語音都是這項技術的應用形式。AI深度合成帶來新奇體驗的同時也激起了眾多疑慮,「深度偽造」(Deepfake)的陰雲揮之不去。有了「Deepfake」, 「眼見為實」成為過時的經驗,人們擔心這項技術會帶我們進入一個「真假混淆」的世界,其中個體安全感和社會信任都岌岌可危。 

我們如何理解這項技術的現在和未來?深度偽造之憂如何破解?深度合成技術如何向善發展?以下是對話實錄摘要: 

合成=偽造or合成=創造力?

司曉:深度合成技術在我們身邊有哪些應用?

劉威:在很多人的印象裡,合成和偽造是天然聯繫在一起的,但實際不是這樣的。我們有很多積極的應用形式。譬如圖像修復,也是一種合成。騰訊AI Lab也與敦煌、故宮都在討論,怎麼去用人工智慧的技術,確切來說用對抗生成網絡的技術,去還原一幅古畫,用AI的想像修補殘缺。 

路偉:深度合成在電影裡面的應用是越來越多了。以《大聖歸來》為例,其中有一百多個角色,很多故事情節,我們要讓它們在虛擬場景裡影像化呈現。我們還用到了AI音效,建立角色的虛擬人格。老片《上甘嶺》的重映用到了AI去做色彩還原,效果還不錯。像中國電影資料博物館有非常多老片資源,今後都可以通過技術還原手段重獲新生,能達到2K、甚至4K的清晰度。

張文生:現在大家重視的都是一些語音和圖像的深度合成,實際上能合成的東西還有很多。比如一個城市系統的智能交通,本身也是在做合成,它是我們物理空間和數字空間的合成。

司曉:埃隆·馬斯克一段訪談裡面講,按現在通過技術去仿真的能力的提升速度,我們總有一天能夠去用完全數位化的方式去還原或者模擬一個人類來說真假難辨的世界。大家開一下腦洞,大膽預測一下深度合成的未來?

路偉:現在的電影仿真技術已經能以假亂真。我們現在做電影,也在用一切辦法讓觀眾進入一個虛擬的真實世界,從環境、燈光、空氣密度、照度、色溫,然后角色的運動、擁抱、談笑,全部都要讓觀眾覺得它是真的。虛擬主播也開始出現,比如洛天依和初音未來是虛擬角色1.0版本,接下來肯定會有2.0、3.0版本。在未來的五到十年,我認為虛擬明星的市場要遠遠大於真實世界的市場。

認為未來會出現「無邊界的概念。特別是在AI和VR的時代,觀眾感受到的不只是感官的視覺、聽覺、味覺,還有情感的感受,它應該是更加真實的、更加入心的,有時候我是認為在未來的真實的虛擬世界裡,虛擬和真實和邊界會慢慢模糊。我覺得現在的CG(計算機圖形)技術和計算能力,在不斷拓寬我們對世界的認知。    

張文生:我們對深度合成的「深度」要求是與審美水平提高同步的。比如我們看到的AI主播,一開始是二維的,然後語音和圖像結合了,慢慢地把口型什麼都做得很好了。我想未來的三年,它有可能變成三維的、立體的一個場景。 

只要有需求,有應用場景,這項技術就有市場。以電影製作為例,當我們拍一些危險場景,就可以使用深度合成來完成,減少演員受傷。或者一些「大場面」,用實拍成本非常高,有時根本實現不了,比如想展現成千上萬隻羊在山上跑,但是用深度合成就可以連羊鬍鬚這樣的細節都展顯出來。另外,一些想像層面的內容,比如把動物的動作附加到人身上,也可以通過技術實現。只要這些需求存在,技術一定會有大的突破。十年前,我們就在做裸眼3D,現在看,裸眼3D技術如果與深度合成技術結合,我相信那市場會更大。

司曉:我們看到的這些合成動作離真人的動作差距點還在哪?目前存在哪些瓶頸 ?

劉威:我們目前稱之為「深度合成」的技術使用的是深度神經網絡,在此之前的合成用的是統計的方法,嚴格意義上不能叫做「深度合成」。統計的方法就是說我們想合成什麼東西,我會收集跟它很像的一些樣本,然後用統計手段去「猜」一下,把這個樣本拼在一起。2014年對抗生成網(GAN)被發明,自此以後,相關應用的發展突飛猛進。

但是,就拿產生圖像來說,雖然這六年技術發生了巨大的進展,但是仍然離我們想像的那種高度自動化、高度自由度有很大的距離。何為高度自動化呢?舉例來說,我們要產生一個非常逼真的人臉圖,當然需要這個人臉圖像解析度越高越好。但是解析度一大,你需要的算力就會很大,大到在手機上是完成不了的,必須在雲上做,用若干塊GPU才能做出來。

同樣,對於自由度來說,我們現在的合成技術也有很大局限。通俗地說,自由度就是我想讓它產生什麼樣,就產生什麼樣,這個仍然很難。在對抗生成網絡發展的早期,我們是用一個噪音來產生一張人臉,最後產出的結果是無法把控的。直到今年,我們才能對生成的人臉的屬性有要求。背後我們要訓練的神經網絡模型參數是海量的,訓練方式也是非常複雜的。

儘管我們會遇到各種技術難點,我堅信未來用人工智慧技術去自動產生影像,會越做越好,日臻完美

於暘:我想到的最重要的其實是感情。大家看一些電影,或者電視劇,有時會有這種情節:角色的親人故去之後,他可能去找一個巫婆、法師,把親人的魂魄招回來,讓我能再看他一眼,再跟他說一句話。現在,技術讓我們可能擁有了種魔法。未來肯定會有人有這種想法,有這種需求,這對技術提出了新的要求。

「深度合成本身應該是賦能的技術」

司曉:目前深度合成技術面臨汙名化,「深度偽造」問題突出,我們怎麼樣保障我們這個技術不被用在造假、詐騙上? 

劉威:在國內,騰訊在數字鑑偽——或者稍微學術一點,叫信息辯論術上取得了不小的突破。我們對語音、圖像、視頻鑑定的準確率比較可觀。當然道高一尺魔高一丈,合成的技術變強,我們的防禦能力也得增長,這就像雙手互搏。

以目前的圖像鑑偽技術為例,我們有一個步驟,先用對抗生成技術去製造高逼真的樣本,再把數據給計算機去判定,讓它多輪反覆學習。我對鑑偽技術的發展保持樂觀。可以看到,即使在國際上的數字鑑偽比賽中,面對非常複雜的數據集、測試集,大家最後奪冠那些方法也不外如此。而造假的成本遠遠比鑑偽要高,也就是說,有人挖空心思造了假,我們一下就解決了。

於暘:假的影像或者聲音,能不能騙過人?能不能騙過機器?這其實是兩個話題。有些場景下人比機器好騙。比如,騙子給你打電話冒充你的同學,你一聽口音,我這個山東同學怎麼是福建口音?但可能未來就不一樣了,騙子先打給你這個同學,錄一段你那個同學的聲音,根據那個聲音合成一下。你一聽,十幾年沒見,這好像就是我老同學的聲音,你就信了。

關於能不能騙過機器,在技術維度上,就是單純的機器造假和機器鑑別的較量。可能攻守雙方誰都不會特別確信能取得百分之百的優勢,但落地到具體的業務裡面的時候會發現,有時候會需要讓步。這個其實會給造假者提供便利。

張文生:這個可能還關乎商業模式,就是如何從經濟上激勵「打假」相關技術的開發。此外,從打假的思路來說,如果我們要加上語義識別,可能會更容易,成本也更低。比如在電話詐騙這個場景下,騙子用了合成的語音,我馬上問一個涉及隱私的問題,對方就答不上來了,這就是語義。   

司曉:我們這個行業還需要做哪些事情,真正保障深度合成這個技術是在一個向善軌道上快速運行?

劉威:我個人希望從政策上鼓勵人工智慧技術創新,尤其是影視內容層面應用的創新,來提高效率,降低製作流程的成本。同時我希望要能有一些文教方面的創新,包括老照片、老電影的上色、復原,在線教育領域的應用等等。這些都是正確的引導。在立法和技術鑑別手段逐漸完善的情況下,我覺得技術造假應該是小概率事件,整體上深度合成技術還是應該向善。

於暘:我們看整個人類發展歷史,其實就是個體所擁有的力量,不管是建設力也好,破壞力也好,力量越來越大的過程,這是不可避免的。任何情況下,冒然抑制技術發展我認為都是不對的。法律不是禁止發展技術,而是規範如何把技術用在好的方面。我覺得這個是最關鍵的。

張文生:人工智慧本身是賦能的技術。我們做技術實際上是圍繞人們的生活、社會的進步。深度合成會發展成一個新業態,全世界技術人員都會為它貢獻自己的力量。同時,我們也需要相關的規範來約束違法的、不利於社會發展的技術使用方式。做技術的人,怎麼樣在這個「魔高一尺,道高一丈」的情況下更新技術,幫助政府和公民,用技術來解決問題。

路偉:對影視業來講,有關深度合成的核心關切是版權保護,虛擬資產、虛擬人物的版權歸屬都需要法律來界定。在科技發展之外,加上對版權的管理和尊重,這個行當會越來越健康。

「用人性的溫度推動AI持續向善」

司曉:各位深度合成的發展還有哪些期待?

劉威:我期待深度合成技術能夠便利於文教、文創事業,孕育出更好的數字鑑別技術。我們今天談到的所有的一切,無論是合成、鑑偽,最後驅動的都是人腦,人的創意。我希望AI裡面會有越來越多的有溫度的東西,這樣我們才能讓AI持續向善。

於暘:在有現代科技之前,大部分人類生活的世界其實很小。但是以網際網路為代表的現代科技讓我們每個人都能夠和全世界發生聯繫。再往後發展,類似深度合成這樣的技術,可以在我們已有的這種基礎上,再更進一步。這種技術可以把物理世界中不存在的美好創造出來,讓我們去感受,它必然會把人類生活的美好推到下一個境界。

張文生:我希望科技企業能夠把深度合成技術推動變成一個商業模式,來吸引更多的做技術的人為之服務,做出來更好的產品。科技企業也有責任和政府一起關注深度合成技術的發展,保障它在正確的、向善的軌道上。

    

路偉:我希望通過深度合成,通過計算機網絡,能夠讓我們未來做電影、影視、虛擬世界越來越簡單,讓我們的作品越來越有溫度,讓更多的人能夠把自己掃描進虛擬世界。我希望在這個世界裡,人性的光輝照到更多角落裡面。

【免責聲明:CSDN本欄目發布信息,目的在於傳播更多信息,豐富網絡文化,稿件僅代表作者個人觀點,與CSDN無關。其原創性以及中文陳述文字和文字內容未經本網證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本網不做任何保證或者承諾,請讀者僅作參考,並請自行核實相關內容。凡註明為其他媒體來源的信息,均為轉載自其他媒體,轉載並不代表本網贊同其觀點,也不代表本網對其真實性負責。您若對該稿件由任何懷疑或質疑,請即與CSDN聯繫,我們將迅速給您回應並做處理。】

相關焦點

  • Deepfake系列——音頻深度偽造(1)
    Deepfake這個概念最早出現在 2017 年底,起初是一名為「deepfakes」的Reddit用戶在網上發布了一段利用名人面孔合成的色情視頻,引發各界關注
  • 「深度偽造」的第一個大規模應用:色情機器人
    「深度偽造」(DeepFake)被認為是最危險的人工智慧技術之一,可廣泛應用於業務欺詐、輿論操縱、社會工程等多個犯罪領域。但是直到最近,深度偽造技術才有了第一個大規模應用:深度偽造色情機器人(DeepNude)。
  • 小心打開「AI深度合成」魔法盒
    不法分子會通過深度合成技術,偽造虛假的或是真假難辨的圖片、音視頻等來進行非法活動,包括政治幹擾、色情報復、商業詆毀、假冒身份詐騙、非法獲取個人信息等。 色情性的深度合成視頻,是深度合成技術濫用的重災區。
  • 從空間媒體到深度偽造,RNDR預測「20後」媒體內容趨勢
    與此同時,光場實驗室(Light Field Lab)正在開發超真實且無需佩戴眼鏡的全息顯示技術,這一技術能夠真正的將3D內容投射到你的眼前,應用在廣告牌、電視,乃至活動場館、零售店鋪中。空間媒體領域已經出現一些創新性的實驗。比如紐約時報的互動敘事團隊,在真實世界的基礎上增加了一層基於地理位置的數據層,用來顯示主要城市的大氣汙染水平。
  • 深度偽造防不勝防!
    從某些最早的現代圖像生成算法出現,到這種人工智慧生成色情作品現象的發生,都是有跡可循的。生成器生成圖像,而鑑別器將根據其訓練時接觸到的真實圖像來判斷該圖像是真是假。鑑別器只會接受最真實的圖像,從而確保最終結果是人工智慧生成圖像中的精品。
  • 面部識別、深度偽造、隱私和自動化定義的AI 2019
    深度偽造(自我審查和深度造假)2019年2月,OpenA打破了學術規範,決定不公開用於訓練其最先進的自然語言處理模型GPT-2的語料庫,也不公開與之相關的訓練代碼。OpenAI在一篇證明其決定合理性的博客文章中表示,它擔心這些信息可能被用來生成有關特定公司的合成新聞,比如種族主義或性別歧視的文章,以及亞馬遜(Amazon)或Yelp等網站上的虛假評論。OpenAI隨後發布了幾個更小、更簡單的GPT-2版本,並研究了它們的接收情況以及它們訓練時使用的數據集。
  • |利用深度學習實現流式肽合成的預測與優化
    Pentelute和Rafael Gomez-Bombarelli,Pentelute教授專注的方向是蛋白質工程與藥物遞送,而Bombarelli教授則是從事計算輔助的合成方法學研究。固相肽合成(SPPS)是人工合成多肽的重要手段,與基因重組表達相比,SPPS合成的肽不受序列與胺基酸種類的限制,因此使用範圍更廣。然而,SPPS涉及多個步驟的重複反應,對時間和體力的消耗非常大。
  • 8篇論文深入學習深度估計:深度預測;自我運動學習;觀看《冰雪奇緣...
    深度估計是一種計算機視覺任務,旨在從2D圖像中估計深度。這個任務輸入RGB圖像,輸出深度圖。深度圖包含了從視圖看圖像中的被攝物體距離的信息。深度估計的應用包括:平滑圖像的模糊部分、更好地渲染3D場景、自動駕駛、機器人抓取、機器人輔助手術、電影中的2D到3D的自動轉換以及3D計算機圖形學中的陰影映射等。在這篇指南中,我們將介紹幾篇通過深度學習來解決這些問題的論文。
  • 如何減少噪聲標籤的影響 谷歌提出一種魯棒深度學習方法MentorMix
    在深度神經網絡中,能夠使用高質量標籤訓練數據對於學習效果至關重要,因為訓練數據中存在錯誤標籤(噪聲標籤)會大大降低乾淨測試數據上模型的準確性。矛盾在於:一方面,若想訓練更好的深度網絡,大數據或海量數據是必要的。而另一方面,深度網絡往往會記住噪聲標籤的訓練數據,從而導致模型在實踐中性能較差。
  • |深度學習探索可編程RNA開關
    增強深度學習的模式識別可以用於預測合成生物學成分。本文用深度神經網絡(DNN)來預測合成生物學中的經典核糖開關模型——toehold開關。為了促進DNN訓練,作者在體內合成並表徵了涵蓋23個病毒基因組和906個人類轉錄因子的91,534個toehold開關的數據集。
  • 卻是深度偽造
    瀏覽器版本過低,暫不支持視頻播放不過這一視頻卻是不折不扣的假視頻,是一段俄羅斯網友深度偽造的視頻。有趣的是,這首描寫太空旅行的優美歌曲,裡面卻唱到:沒有任何地方比得上我們的家園,我們的地球。當你聽到馬斯克唱出這一句的時候,是不是已經莞爾,忍俊不禁?
  • 2020年深度學習發展大盤點及對2021年深度學習的未來展望|極客雲算
    深度學習框架作為AI底層工具,對個人而言是進入深度學習世界的一把鑰匙,掌握深度學習框架並不等於理解了深度學習,要在AI開發中有所作為,關鍵還是要真正理解框架背後的技術、實踐和生態。隨著近年來的人工智慧發展,2020年深度學習依然是發展最快的領域之一,直奔未來工作。其發展是多方面的,而且是多方位的。
  • 《Fate Zero》的劇情是否很有深度,有深度在什麼地方
    動漫《Fate Zero》的劇情是否很有深度,有深度在什麼地方?今天,小編想為大家推薦一部動漫《Fate Zero》。首先,劇情深度上是有的這點應該毫無疑問。單是所有御主和從者都有一套自己的能夠自圓其說的行動邏輯,並且整場四戰下來一以貫之沒有出現大的劇情矛盾之處,單是做到這一點,已經比單純拼戰力順帶爭論的普通「戰爭」劇情又有深度的多。這些問題其實與思想深度毫無關聯,甚至可以說僅僅是為了體現人物衝突,推動劇情發展的需要而出現的情節。
  • 關於MATLAB 圖像處理與深度學習的作用分析和介紹
    接下來我們將介紹如何創建該算法,並說明為何深度學習和圖像處理對於對象檢測和圖像分類同樣十分有用。 圖像處理與深度學習 我們重點介紹兩種技術: 圖像處理 按像素級別變換或者修改圖像。比如,過濾、模糊、去模糊和邊緣檢測等; 深度學習 通過學習樣本圖像自動識別圖像特點。近幾年,深度學習已經徹底改變了圖像處理領域。
  • 深度神經網絡語音 微軟或將正式發布此系列產品
    原標題:深度神經網絡語音,微軟或將正式發布此系列產品   以往,談及對合成語音的刻板印象,很多人會聯想到《星球大戰》中的C-3PO
  • 人類活在虛擬世界?越來越多的證據表明,虛擬世界真實存在
    該電影塑造了一個充滿虛擬實境技術的世界,故事發生在2045年,男主角在虛擬世界結識了其他四位夥伴,並一起踏上尋找彩蛋的徵程。看完電影後不少觀眾感嘆於虛擬實境技術的先進,對未來的VR技術發展充滿期望。在現實中,隨著晶片、傳感器、顯示器等技術不斷地發展,普通人已經能夠接觸到VR技術。
  • 深度強襲深度改
    作者:牛筋叔 哈哈,硬貨來了,深度強襲應該算作有生之年系列的作品。大部分玩家都是敬仰且嚮往,但一旦要自己來做的話就有點望而卻步的感覺了。iN看到別人的深度強襲也一直會有我一定也要做一個的感覺。可惜一直不曾動手。
  • ...發布 XRSPACE MANOVA VR 一體機及虛擬世界,成立 XR 未來城市聯盟
    用戶戴上XRSPACE MANOVA VR一體機,即可進入XRSPACE MANOVA虛擬世界——一個高度模擬甚至超越現實生活場景體驗的虛擬平臺,其所呈現的虛擬世界某種程度上可理解為真實版「頭號玩家」。
  • 別擔心,這只是3D深度估計做出的特效
    在測試時,他們微調了這個網絡,來滿足特定輸入視頻的幾何約束,同時保留其為視頻中受約束較少的部分合成合理深度細節的能力。 定量驗證結果表明,與之前的單目重建方法相比,該方法可以達到更高的準確度及幾何一致性。從視覺上看,本文提出的方法也更加穩定。該方法可以處理具有中等程度晃動的手持拍攝視頻,可以應用到場景重建以及基於視頻的高級視覺效果。
  • 波網交易所 交易深度全球領先
    鄙夷過後就是傻眼,由於所在交易所深度差,買方要以高出市價數個點買入,賣方要以低處市價數個點賣出。此時方知變現不易,入場更難。這就是交易所的交易深度,以及它存在的現實意義,用戶不得不重視。  交易深度  眾所周知,一個交易所市場裡,交易深度非常足,代表買盤和賣盤都很足夠,無論是買還是賣,基本上都能以市價成交。