只要一句話、一段文字,想讓歐巴馬說啥他就說啥

2020-12-17 量子位

十三 發自 凹非寺

量子位 報導 | 公眾號 QbitAI

「嘿!Siri,我能看看你的臉嗎?」

「沒問題,什麼樣的臉我都能給你呈現。」

不僅如此,現在還可以根據你自己的聲音或是一段文字,再選擇一張臉,就能讓TA說話。

這個黑科技叫Neural Voice Puppetry,來自慕尼黑科技大學和馬普所。

只要一句話,一段文字,隨便一張臉就能說話

Neural Voice Puppetry是音頻驅動的面部視頻合成技術。

只要輸入一段音頻,就能根據它生成人物說話的視頻,而且還十分逼真。

下圖就是生成的歐巴馬演講視頻,從嘴型到說話的神態都非常自然。

給出一段文字,也可以生成人說話的視頻。

根據下面的這段文字,生成了美國四位總統的演講視頻,跟我們印象中他們說話的樣子如出一轍。

類似於這樣的技術之前也是有過,但從效果和功能上看,Neural Voice Puppetry取得了一定的進步。

與最先進的基於音頻驅動的面部視頻合成技術相比,該方法能夠適用於多個目標。

與VOCA相比,只需要一個3D代理(proxy)作為中間步驟,並沒有對視頻做特殊處理。

和Speech2Vid相比,使用的是3D模型來保證輸出視頻的逼真程度。

和基於2D的「You said that?」(基於GAN)方法相比,雖然它們不需要3D模型就可以工作,但作者的這項工作能夠保證輸出視頻的3D一致性。

並且生成的是視頻,而不是標準化的圖像。

在人物表情非常扭曲的時候,輸出的結果也是非常穩健的。

不僅如此,還能對不同語言做處理。

什麼原理?

為了實現根據一句話就能再現逼真的面部視頻,研究人員採用3D面部模型作為面部運動的中間表示。

Neural Voice Puppetry的關鍵部分是基於聲音的面部表情估計,採用了一個兩階段的過程。

首先是Audio2ExpressionNet,根據DeepSpeech特徵來估計每一幀的表徵。

這個網絡的輸出是長度為32的音頻表徵向量。

這個音頻表徵是有時間噪聲的,使用一個表徵感知過濾網絡進行過濾,該網絡可以與每幀表徵估計網絡一起訓練。

使用了5個核尺寸為3的一維卷積濾波器,將特徵空間從32×8 、16×8、8×8、4×8、2×8到1×8依次縮小。

其次是Rendering network。

基於驅動人臉模型的表情預測,對目標視頻圖像空間進行神經紋理處理。

這一步包括兩個網絡。第一個網絡用於將從神經紋理中採樣的神經描述符轉換為RGB顏色值。第二個網絡將此圖像嵌入到目標視頻幀中。

最後,採用了一種新的延遲神經渲染(deferred neural rendering)技術來生成最終的輸出圖像。

下一步工作

雖然Neural Voice Puppetry對不同的音頻源和目標視頻效果很好,但它仍然有局限性。

特別是在音頻流中有多個聲音的情況下,該方法會失效。

另外還有一個局限性是談話風格較為固定。

因為研究人員假設目標參與者在一個目標序列中的談話風格是不變得。

在後續的工作中,研究人員計劃從語音信號來估計說話風格,以此來控制面部動作的表現力。

團隊介紹

Justus Thies,慕尼黑工業大學視覺計算組的博士後。2017年,獲得埃爾朗根-紐倫堡大學的博士學位,主要研究面部表情的無標記運動捕捉及其應用。近期專注於神經圖像合成技術,允許視頻編輯和創作。工作領域結合了計算機視覺、機器學習和計算機圖形學視覺。

Mohamed Elgharib,馬普所計算機圖形學部分。主要研究領域包括可視真實感渲染、3D重建及視頻後期製作等。

Ayush Tewari,馬普所計算機圖形學部門。

△Christian Theobalt

Christian Theobalt,馬普所圖形、視覺和視頻研究小組組長,沙爾大學計算機科學教授。

Matthias Niener,慕尼黑工業大學教授,可視化計算小組。研究領域包括計算機視覺、圖形學和機器學習的交叉領域。對3D 重建、語義3D 場景理解、視頻編輯和人工智慧驅動的視頻合成等尖端技術特別感興趣。

傳送門

論文地址:

https://arxiv.org/pdf/1912.05566.pdf

相關焦點

  • 產婦出產房後第一句話會說啥?多半是這4句話,看看你說了哪句?
    疼痛也有等級,分娩疼痛為12級,每一個完成分娩的媽媽都是神聖的,產房裡的護士每天都會見證許多新生命的到來,小寶寶們長得各不相同,非常可愛,除了對新生兒的關注之外,護士也會和產婦有許多交流,連她們生完孩子之後說的第一句話,護士都差不多能猜出,產婦出產房後第一次開口逃不過這4句話,還記得你當時說了啥嗎
  • 盤點:這一屆的日本網友,又開始說啥大實話了?
    盤點:這一屆的日本網友,又開始說啥大實話了?打開今天的文章分享,被這一屆的日本網友圈粉了,他們經常會發表一些「經典語錄」,由此也被稱為「人間真實」。接下來,我們就一起盤點,這一屆的日本網友,又開始說啥大實話了?一、關於「想做的事」。如果我們在現實生活中,總是因為一些「該做的事」綁住了手。長此以往,帶來的嚴重後果,就會慢慢失去自己「想做的事」。
  • "你到底想說啥?"義大利語怎麼說?
    中外教教研組老師們旨在為你打造優秀課程!受到本次疫情影響很多學友選擇在我們的👉義大利語微課堂👈在線學習,提升自己期待疫情結束後,再現超人風範!Che vuoi dire? 你到底想說啥?2. Non capisco che vuoi dire.我不知道你到底想說啥。3. Già, capisco che vuoi dire, Maria.好了,我知道你要說啥了,Maria.4.
  • 100位車主說啥了?10大熱門兩廂車油耗全曝光_專題_網易汽車頻道
    100位,車主,說啥了,10大,熱門,兩廂車,油耗,全曝光,100位,車主,說啥了,10大,熱門,兩廂車,油耗,全曝光,100位,車主,說啥了,10大,熱門,兩廂車,油耗,全曝光,100位,車主,說啥了,10大,熱門,兩廂車,油耗,全曝光,100位,車主,說啥了,10大,熱門,兩廂車,油耗,全曝光,100位,車主,說啥了,10大,熱門,兩廂車,油耗,
  • 搞笑的GIF:誰知道在說啥
    1_誰知道在說啥編輯2_實用生活小妙招,學會了記得來交作業!他一邊收拾碗筷,一邊在嘀咕,我爸從來也不主動做家務,也沒見你跑啊。[撞到玻璃][撞到玻璃][撞到玻璃]6峽谷最強機制,2秒摧毀防禦塔?編輯7_「三百萬吃十噸??你願意嗎?」編輯8_說的很對??
  • 寵文:相府喜得千金,攝政王來祝賀一眼相中,說啥也要等她十八年
    大家好我是舒雅,本期為大家帶來的是四本古言甜寵文:相府喜得千金,攝政王來祝賀一眼相中,說啥也要等她十八年!《侯門寵妻》作者:成小源 內容簡介:相府喜得千金,攝政王來祝賀一眼相中,說啥也要等她十八年!王爺的愛溫柔知心,他總能明白她心中所想。 將軍的愛熱烈如火,可是他總用自己的方式去愛她。 王爺說:永生永世以琬琬為妻,絕不另娶。 將軍說:只要你願意我可以給你天下。 對王爺是愛。 對將軍是感動。 當王爺甘心為她放棄天家富貴的時候,她知道此生不會再有其他男人能走進她心裡。 當將軍為她擋過穿心一箭時,她知道她此生都不會忘記這個男人。 王爺的愛溫柔了歲月。 將軍的愛驚豔了時光。
  • 「如果周杰倫來吃你的灌餅,你會對他說啥?」河北「周餅倫」火了……
    河北保定灌餅攤主因酷似周杰倫成「網紅」視頻來源:@瀟湘晨報12月5日,河北保定一段雞蛋灌餅攤主酷似華語歌壇巨星周杰倫的視頻走紅。白先生是個很實在的人,回應說自己沒什麼本事,就會灌餅這一門手藝,大家吃得開心,他就很滿意了。白先生說:「咱會什麼做什麼,說白了人有幾斤幾兩,咱都會掂量自個兒。」
  • 網友挑刺:聽不懂她在說啥
    究其原因是她的口號「BE BEST」與米歇爾的「BE BETTER」十分相似,該活動的宣傳手冊更像是完全照搬2014年歐巴馬任美國總統時聯邦商務委員會發布的宣傳資料。(編譯/海外網 李萌)本文系版權作品,未經授權嚴禁轉載。海外視野,中國立場,登陸人民日報海外版官網——海外網www.haiwainet.cn或「海客」客戶端,領先一步獲取權威資訊。
  • 微信全新版本重磅升級,網友直言:說啥不重要,怎麼說才是關鍵
    請注意,語音輸入並不等於語音聊天,是指在微信聊天工具中的語音輸入功能,通過語音輸入可以輕鬆轉換成文字,不過此前該功能只支持普通話語音輸入,而在該版本中則加入英語和粵語識別功能,對於東南區的小夥伴和外國友人以及英語老師等人群來說非常友好了。
  • 烏鴉嘴阿衰說啥中啥,店老闆綁架眾人只為奪取「貼身之物」?
    烏鴉嘴阿衰說啥中啥,店老闆綁架眾人只為奪取「貼身之物」? 烏鴉嘴阿衰說啥中啥,店老闆綁架眾人只為奪取「貼身之物」?
  • 世界各地的人都用這三種共同的方式表達「你說啥」
    這是一份來自《大西洋月刊》的報告,他們說,世界各地的人們表達「你說啥」的方式都差不多。三年前,語言學家 Mark Dingemanse 和 Nick Enfield 就發現「Huh?」(哈?蛤?)似乎是一種世界通用語,它在人類的 31 種語言中都用來表達「你說啥」。
  • 向佐稱很討厭女友翻看自己手機,聽到郭碧婷說啥後,粉絲:他不配
    向佐稱很討厭女友翻看自己手機,聽到郭碧婷說啥後,粉絲:他不配向佐郭碧婷這一對情侶當時談戀愛的時候引起了不小的熱度,兩人完全是由向太撮合而成的,向太非常喜歡郭碧婷,後來在她的努力下兩人成功走到了一起並且還辦了婚禮,在談戀愛的時候兩人也是非常甜蜜的
  • 若問Siri:give us a hint 它會說啥?
    8月28日消息,CNET記者:「當我問他蘋果9月9日發布會邀請函上的那個問題時——『give me a hint』,Siri給了我個驚喜。」蘋果公司已確定於今年9月9日舉行新品發布會,該公司已於當地時間周四晨間發出來一波又一波的邀請函。
  • 妹子一點都不做作,做最真實的自己,誰想說啥就說啥去吧!
    11、還想炫一下技,打臉了!12、小夥子們你們玩得可真是歡快啊,當年我也是這麼玩的,後來經理就把我辭了13、這已經是讓出的最大位置了,你就將就點吧,總會有出去的時候。14、女漢子你惹不起的,發起飆來讓你滿地找牙15、當孩子沒有危險的時候,他爸就是最大的危險16、家裡的貓咪就是要這麼和它們玩,不要提有多開心了!17、這地位在家裡排不上前三啊,哥們真不容易。
  • 王俊凱被問健身效果,說啥都不承認,當說出一個字後瞬間笑出豬叫聲
    王俊凱被問健身效果,說啥都不承認,當說出一個字後瞬間笑出豬叫聲王俊凱作為TFboss團隊的隊長,出道這六年的時間裡都給大家很多的驚喜,而他為了照顧兩個弟弟的感受,也承擔了很多的壓力,所以才導致現在的年齡就有著很成熟的心理,其實在一些綜藝節目裡面,我們完全都能夠感受到。
  • 《終極筆記》阿寧領盒飯,她最後一幕想說啥?其實你我心知肚明!
    《終極筆記》阿寧領盒飯,她最後一幕想說啥?其實你我心知肚明!自從《終極筆記》上線後,網友們一直對劇中的選角,一直都有些自己的意見。有人認為劇中的演員都非常帥,與角色完美的搭配在了一起。然還還有些聲音則是認為,劇組選角太過草摔了。
  • 老司機教你絕招:這麼做他們不敢說啥
    老司機教你絕招:這麼做他們不敢說啥!大家知道,商業險的價格跟車子是有關係的,一臺10萬的車,一般要買六七千的保險,4S店就能從中賺到兩三千,這個油水是很肥的,因此在很多4S店,都會強制車主去買,不然的話,車子都寧可不賣了。但是如果不想買這個保險而被拒,咱們也不用著急,老司機早有很多應對的絕招,照下面講的這麼做,他們不敢說啥。
  • 小學生:我們的校花很美,初中生:我們的超甜,大學生:說啥?
    主題:小學生:我們的校花很美,初中生:我們的超甜,大學生:說啥? 我們注意到他畫的是一個淡妝,整體的這個顏值看上去還是非常的不錯。那麼,你們覺得哪個時期最美呢? 【註:本文為作者「微循環」原創,未經授權,任何商業不得轉載。圖片來源於網絡,如有版權方請聯繫刪除】
  • 6歲男孩喜歡和奶奶睡覺,寶媽得知原因很尷尬,說啥都要分開睡
    導讀:6歲男孩喜歡和奶奶睡覺,寶媽得知原因很尷尬,說啥都要分開睡各位點開這篇文章的朋友們,想必都是很高的顏值吧,我們真的是很有緣哦,小編每天都會給大家帶來不一樣的育兒資訊,如果對小編的文章或者其他的什麼,有什麼一些意見的話歡迎在下方積極評論哦,小編每條都會認真看的。那麼本期的內容是:6歲男孩喜歡和奶奶睡覺,寶媽得知原因很尷尬,說啥都要分開睡!那麼我們就來看看吧!
  • 第五人格設定自相矛盾,守墓人:我視力差修機慢 盲女:你說啥?
    但只要你足夠仔細,就會發現許多不合理的地方。 因為角色多了,設定多了,很多設定開始自相矛盾,難以自圓其說。這是角色策劃與文案沒溝通好導致的,都說第五人格美工和建模打架,其實,角色策劃與文案打起架來,那才叫兇。01守墓人:我視力差修機慢 盲女:你說啥?