語音驅動3D虛擬人,百度ACCV 2020最新文章解讀

2020-11-23 澎湃新聞

機器之心報導

機器之心編輯部

本文來自百度研究院被亞洲計算機視覺會議 ACCV 2020 接收的一篇論文《Speech2Video Synthesis with 3D Skeleton Regularization and Expressive Body Poses》。

Speech2Video 是一種從語音音頻輸入合成人體全身運動(包括頭、口、臂等)視頻的任務,其產生的視頻應該在視覺上是自然的,並且與給定的語音一致。傳統的 Speech2Video 方法一般會使用專用設備和專業操作員進行性能捕獲,且大多數語音和渲染任務是由動畫師完成的,定製使用的成本通常比較昂貴。

近年來,隨著深度神經網絡的成功應用,數據驅動的方法已經成為現實。例如,SythesisObama 或 MouthEditing 通過使用 RNN 通過語音驅動嘴部運動來合成說話的嘴部。泰勒 [3] 提出使用音頻來驅動高保真圖形模型,該模型不僅可以將嘴部動畫化,而且還可以對面部的其他部分進行動畫處理以獲得更豐富的語音表達。

然而,嘴部運動的合成大部分是確定性的:給定發音,在不同的人和環境中嘴部的運動或形狀是相似的。但現實生活中,相同情況下的全身手勢運動具有更高的生成力和更多的變異性,這些手勢高度依賴於當前的上下文和正在執行語音的人類。傳遞重要信息時,個性化的手勢會在特定時刻出現。因此,有用的信息僅稀疏地存在於視頻中,這為簡單的端到端學習算法 [1、3] 從有限的錄製視頻中捕獲這種多樣性帶來了困難。

近日,百度提出了一種新的方法,將給定文字或音頻轉換為具有同步、逼真、富表現力的肢體語言的實感視頻。該方法首先使用遞歸神經網絡(recursive neural network,RNN)從音頻序列生成 3D 骨骼運動,然後通過條件生成對抗網絡(GAN)合成輸出視頻。

論文地址:https://arxiv.org/pdf/2007.09198.pdf

為了使骨骼運動逼真並富有表現力,研究者將關節 3D 人體骨骼的知識和學習過的個性化語音手勢字典嵌入到學習和測試過程中。前者可以防止產生不合理的身體變形,而後者通過一些有意義的身體運動視頻幫助模型快速學習。為了製作富有運動細節的逼真高解析度視頻,研究者提出一種有條件的 GAN,其中每個細節部分,例如頭和手,是自動放大過的以擁有自己的判別器。該方法與以前處理類似任務的 SOTA 方法相比效果更好。

方法

圖 1:Speech2Video 系統 pipeline

如圖 1 所示,根據用於訓練 LSTM 網絡的內容,系統的輸入是音頻或文本。考慮到文本到語音(TTS)和語音到文本(STT)技術都已經成熟並且可商用,此處假定音頻和 text 是可互換的。即使從最先進的 STT 引擎中得到一些錯誤識別的單詞 / 字符,系統也可以容忍這些錯誤,LSTM 網絡的主要目的是將文本 / 音頻映射到身體形狀。錯誤的 STT 輸出通常是與真實發音相似的單詞,這意味著它們的拼寫也很可能是相似的。因此,它們最終將映射的身體形狀或多或少相似。

LSTM 的輸出是由 SMPL-X 參數化的一系列人體姿勢 [9]。SMPL-X 是一個人體、面部和手部的 3D 聯合模型,這一動態關節 3D 模型是由一個 2D 彩色骨架圖像序列可視化的。這些 2D 圖像被進一步輸入到 vid2vid 生成網絡[17] 中,以生成最終的現實人物圖像。

在成功同步語音和動作的同時,LSTM 大部分時間只能學習重複的人類動作,這會使視頻看起來很無聊。為了使人體動作更具表現力和變化性,研究者在一些關鍵詞出現時將特定姿勢加入 LSTM 的輸出動作中,例如,巨大、微小、高、低等。研究者建立了一個字典,將這些關鍵詞映射到它們相應的姿勢。

圖 3 顯示了數據採集環境。模特站在相機和屏幕的前面,當他 / 她在屏幕上閱讀腳本時,研究者會捕獲這些視頻。最後再要求模特擺一些關鍵詞的動作,例如巨大、微小、向上、向下、我、你等等。

人體模型擬合

研究者首先將這些 2D 關鍵點作為人體模型的表示,並訓練了 LSTM 網絡,但結果不能令人滿意(如圖 4 所示)。

最後採用了 SMPL-X,這是一種關節式 3D 人體模型。SMPL-X 使用運動學骨架模型對人體動力學進行建模,具有 54 個關節,包括脖子、手指、手臂、腿和腳。

詞典構建和關鍵姿勢插入

如圖 5 所示,研究者從錄製的視頻中手動選擇關鍵姿勢,並建立一個單詞 - 姿勢查詢字典。同樣,該姿勢表示為 106 個 SMPL-X 參數。關鍵姿勢可以是靜止的單幀姿勢或多幀運動,可以通過相同的方法將兩者插入到現有的人體骨骼視頻中。

訓練視頻生成網絡

研究者採用 vid2vid 提出的生成網絡,將骨架圖像轉換為真實的人像。

圖 7:用於訓練 vid2vid 的示例圖像對。雙手均帶有特殊的色環標記。

運行時間和硬體方面,系統中最耗時和最耗內存的階段是訓練 vid2vid 網絡。在 8 個 NVIDIA Tesla M40 24G GPU 集群上完成 20 個時期的訓練大約需要一周;測試階段要快得多,在單個 GPU 上生成一幀僅需約 0.5 秒。

結果

評估與分析

如表 1 所示,研究者將使用用戶研究的結果與 4 種 SOTA 方法進行比較,結果顯示,本文方法獲得了最佳的總體質量得分。

此外,研究者使用 Inception 分數評估圖像生成結果,包括兩個方面:圖像質量和圖像多樣性。

為了評估最終輸出的視頻,研究者在 Amazon Mechanical Turk(AMT)上進行了人類主觀測試,共有 112 名參與者。研究者向參與者展示了總共五個視頻,其中四個是合成視頻,兩個由真實人的音頻生成,兩個由 TTS 音頻生成;剩下的是一個真實人物的短片。參與者以李克特量表(從 1(強烈不同意)到 5(強烈同意))對這些視頻的質量進行評分。其中包括:1)人體的完整性(沒有遺漏的身體部位或手指);2)視頻中人臉清晰;3)視頻中的人體動作(手臂,手,身體手勢)看起來自然流暢。4)身體的動作和手勢與聲音同步;5)視頻的整體視覺質量。

總結

Speech2Video 是一種新穎的框架,可以使用 3D 驅動的方法生成逼真的語音視頻,同時避免構建 3D 網格模型。作者在框架內建立了個性化關鍵手勢表,以處理數據稀疏性和多樣性的問題。更重要的是,作者利用 3D 骨骼約束來生成身體動力學,從而保證其姿勢在物理上是合理的。

參考連結:

1. Suwajanakorn, S., Seitz, S.M., Kemelmacher-Shlizerman, I.: Synthesizing obama: learning lip sync from audio. ACM Transactions on Graphics (TOG) 36 (2017) 95

2. Fried, O., Tewari, A., Zollh¨ofer, M., Finkelstein, A., Shechtman, E., Goldman, D.B., Genova, K., Jin, Z., Theobalt, C., Agrawala, M.: Text-based editing of talking-head video. arXiv preprint arXiv:1906.01524 (2019)

3. Taylor, S., Kim, T., Yue, Y., Mahler, M., Krahe, J., Rodriguez, A.G., Hodgins, J., Matthews, I.: A deep learning approach for generalized speech animation. ACM Transactions on Graphics (TOG) 36 (2017) 93

4. Kim, B.H., Ganapathi, V.: Lumi \ erenet: Lecture video synthesis from audio. arXiv preprint arXiv:1907.02253 (2019)

5. Pavllo, D., Feichtenhofer, C., Grangier, D., Auli, M.: 3d human pose estimation in video with temporal convolutions and semi-supervised training. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. (2019) 77537762

6. Cao, Z., Hidalgo, G., Simon, T., Wei, S.E., Sheikh, Y.: OpenPose: realtime multi-person 2D pose estimation using Part Affinity Fields. In: arXiv preprint arXiv:1812.08008. (2018)

7. Pavlakos, G., Choutas, V., Ghorbani, N., Bolkart, T., Osman, A.A.A., Tzionas, D., Black, M.J.: Expressive body capture: 3d hands, face, and body from a single image. In: Proceedings IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). (2019)

8. Wang, T.C., Liu, M.Y., Zhu, J.Y., Liu, G., Tao, A., Kautz, J., Catanzaro, B.:Video-to-video synthesis. In: Advances in Neural Information Processing Systems (NeurIPS). (2018)

9. Romero, J., Tzionas, D., Black, M.J.: Embodied hands: Modeling and capturing hands and bodies together. ACM Transactions on Graphics (ToG) 36 (2017) 245

Amazon SageMaker 1000元大禮包

ML訓練成本降90%,被全球上萬家公司使用,Amazon SageMaker是全託管機器學習平臺,支持絕大多數機器學習框架與算法,並且用 IDE 寫代碼、可視化、Debug一氣呵成。

現在,我們準備了1000元的免費額度,開發者可以親自上手體驗,讓開發高質量模型變得更加輕鬆。

原標題:《語音驅動3D虛擬人,百度ACCV 2020最新文章解讀》

閱讀原文

相關焦點

  • 百度世界2020大會硬核來襲!百度智能語音交互技術重磅迭代
    9月15日,AI領域的行業盛會「百度世界2020」大會於線上隆重召開,一大波硬核技術襲來:百度創始人、董事長兼CEO李彥宏與總臺央視主持人康輝「虛擬人」亮相、顛覆搜索形態的「度曉曉」、沒有駕駛員的「全自動駕駛」、各行各業賦能案例……既有硬核技術,又有「接地氣」的落地應用。
  • 百度大腦升級至6.0發布養成類虛擬助手「度曉曉」
    新浪科技訊 9月15日上午消息,在2020百度世界大會直播現場,百度CTO王海峰在現場發布全新升級的百度大腦6.0。據介紹,核心技術方面,百度大腦6.0已具備「知識增強的跨模態深度語義理解」能力。基於掌握的5500億知識,以及「知識增強的持續學習語義理解」技術,百度大腦綜合語音、語言、視覺等不同信息,實現跨模態語義理解,獲得對世界的統一認知。有了這一能力,機器就能聽懂語音,看懂圖像視頻,理解語言,進而理解真實世界。此外,百度還發布了一款搜索創新產品 「度曉曉」。
  • 百度輸入法爆紅啟示錄:語音黑科技立功!
    尤其是最近的數據報告更是刷新了我的認知,《2020中國第三方手機輸入法市場疫期專題報告》發布稱:百度輸入法目前已經成為市場份額第一的第三方手機輸入法。在過去的2019年全年,百度輸入法的月活增速處於行業第一,AI技術落地全面,AI技術應用整體滿意度、語音輸入準確率及相應滿意度也均達到業內第一;2020年百度輸入法延續猛增態勢,4月的用戶量已與搜狗輸入法持平,並以43.4%的市場份額領跑行業。不僅如此,在這些主流的第三方手機輸入法中,百度輸入法更受年輕人喜愛,90後佔比超過30%。
  • 百度大腦論壇如期而至,語音、視覺、語言與知識技術成熱點
    作為首位出場嘉賓,百度 CTO 王海峰博士表示,在上午,大家看到了百度 AI 技術在各行各業的應用,如小度音響、自動駕駛,這些都承載在全新升級的百度大腦 5.0 上,上午只是管中窺豹,不足以看到所有技術進展。這場論壇將從算力到平臺再到生態,為在場觀眾帶來百度大腦的更詳細解讀。
  • 2019百度AI開發者大會前夕,解讀百度大腦的半年「豹變」
    以語音領域的突破為例,百度在今年1月宣布取得一項對全球學術界和工業界都具備重大意義的技術突破:流式截斷的多層注意力建模(SMLTA),它將在線語音識別精度提升15%,並在世界範圍內首次實現了基於 Attention 技術的在線語音識別服務大規模上線應用。
  • 百度AI的2020
    世界的2020,是充滿不確定性的變局之年;中國的2020,是團結一心、共克時艱、於變局中開新局的希望之年;百度 AI 的2020,是堅定信念,擁抱變化,踐行「科技為更好」的實幹之年。今年9月,百度推出虛擬助手「度曉曉」App,擁有二次元虛擬人物形象和獨特的情感交互系統,可以像真人一樣跟用戶溝通,提供更好的個性化服務。
  • 百度大腦AI加持語言教育,智能語音糾正口語發音、指導朗讀背誦
    2020開年這出乎意料的漫長「假期」讓大多數人的生活節奏都被按下「暫停」鍵,當有了空閒、手機和WIFI,如何度過這段時間似乎不成問題,但如何更有意義的利用這段時間,也成了不少善於思考的人探尋的方向,於是「學習外語」成為他們的答案。 「市場缺乏好的VR遊戲內容,而造成了用戶需求不旺盛的假象。如果產品內容夠好,有一定的深度,用戶的需求還是非常大的。」
  • 從語音、視覺、語義到算法,百度大腦 5.0 全方位升級
    對於落地應用正在端側呈現出巨大需求,百度大腦語音團隊研發出一款針對遠場語音交互打造的晶片——百度鴻鵠晶片。簡單而言,一體化人機互動系統是人與機器、虛擬環境的自然交互與融合,該系統適用於實現AR特效的直播、小視頻、特效小程序等場景,已應用於百度多款視頻App。大場景物理世界交互系統是將視覺定位與AR技術突破性結合,實現大範圍的虛擬信息與物理世界的精準疊加,從而建立起AI時代全新的交互系統。目前,軟硬體結合可以滿足應用場景更高效的視覺計算,以及更低延時的體驗,同時能保護數據隱私。
  • 虛擬助手「度曉曉」:開啟搜索創新玩法
    9月15日,在萬物智能——百度世界2020」大會開啟在線直播現場,百度發布了一款搜索創新產品 「度曉曉」。 百度集團執行副總裁沈抖表示:「度曉曉是一款養成類虛擬助手App,建立在小度助手的能力基礎上,具備視覺識別能力
  • 中文語音合成最高水平,百度語音技術打造全球首款地圖語音定製產品
    9月19日,百度地圖「『音』為有你,更有『AI』」語音定製功能發布會召開,重磅推出全球首個地圖語音定製產品。該功能科技範兒十足,用戶只需在百度地圖App上錄製20句話,最快20分鐘,即可生成個人完整語音包。換句話說,當你之後出行使用地圖功能時,就可以用自己的家人甚至寶寶的定製化語音導航,十一旅遊還可以聽自己聲音的景區解讀。
  • 百度手機輸入法語音翻譯
    文章原標題:百度手機輸入法語音翻譯 開啟人工智慧新紀元  談及語音識別,其實早已不是什麼新鮮技術了。TTS(Text To Speech)技術發展了幾十年,各種科技公司都相繼推出了語音搜索和語音助手功能,語音輸入類產品也是層出不窮。
  • ACCV 2020最佳論文等三項大獎出爐!華為諾亞獲最佳學生論文獎
    ACCV 2020 共錄用論文 255 篇,官方提供所有論文開放下載。官網連結:http://accv2020.kyoto/截止目前,大會已經公布了最佳論文獎、最佳學生論文獎、最佳應用論文獎等三項大獎,其中帝國理工和華為諾亞方舟合作獲得了最佳學生論文獎。以下AI科技評論就帶大家讓我們一起來看看這三項大獎吧 !
  • 百度飛槳用AI打破「次元壁」,WAVE SUMMIT+2020體驗穿越動漫世界
    NoNoNo,這是12月20日百度在北京舉辦的WAVE SUMMIT+2020深度學習開發者峰會現場實況。  (圖:WAVE SUMMIT+2020深度學習開發者峰會展區現場)  作為面向深度學習開發者一年兩次的技術盛會,WAVE SUMMIT+2020除了滿滿的技術乾貨和「全明星」嘉賓陣容,現場還設置了「開發者互動」和「
  • 2020世界VR大會開幕,虛擬實境,全息投影,AI虛擬主持人……一波赫...
    10月19日,以「VR讓世界更精彩——育新機、開新局」為主題的2020世界VR產業雲峰會大會拉開序幕,虛擬實境、全息投影、AI同聲傳譯、AI虛擬主持人等行業最新技術一一亮相。
  • AI晶片、框架、語言與知識、量子計算……百度大腦6.0發布
    9月15日,科技界年度盛會「百度世界2020」線上開幕。今年的百度世界大會由百度與「央視新聞」聯合呈現,上午剛剛結束的主論壇精彩紛呈,反響熱烈,花式登上熱搜:百度創始人、董事長兼CEO李彥宏與央視主持人康輝「虛擬人」亮相、顛覆搜索形態的「度曉曉」、去安全員的「全自動駕駛」……這些炫酷的背後離不開百度大腦的支撐。
  • 百度大腦語音能力引擎論壇即將在京召開
    其實這些正在發生:打開手機語音搜索查天氣、查路況,聽書聽新聞;與智能音箱交流對話,還能聲音控制開關空調、加溼器等家電;甚至很多盲聾啞殘障人士也能藉助語音技術改變生活和交流體驗。這些點點滴滴的便利背後,正是得益於語音技術日新月異的發展。11月28日,百度大腦將在北京舉行語音能力引擎論壇。
  • 百度大腦攜文心、智能創作、AR和VR參加融交會
    一年多以來,已累計服務20多家媒體機構,生成的文章200萬+、自動創作短視頻15萬+,服務媒體、金融、營銷等不同行業的內容創作、生產需求,旨在成為更懂您的智能創作助手。  李穎超還表示,AR技術在產業的落地運用不止於此,百度大腦DuMix AR將虛擬形象生成與視覺驅動、語音驅動等AI能力相結合,形成高精度、低成本的動態虛擬人物生成方案,不僅實現了用戶對於擬我形象千人千面的體驗訴求,更為新聞播報、內容創作、視頻智能化生產、虛擬偶像塑造等領域帶來了切實的效率提升。
  • 自研晶片+自主AI框架,百度CTO王海峰攜百度大腦6.0亮相
    兩位虛擬人根據康輝和李彥宏20年前的形象、記憶和所擁有的知識打造,形象、動作、聲音高度逼近真人。在這場特殊的對話裡,不僅康輝、李彥宏能和20年前的「小康」、「小李」流暢閒聊,甚至兩個虛擬人之間也來了一場親切互動。百度說,這是具備認知能力、可機機對話的終端虛擬人。
  • 2018全國科普日百度百科創新亮相 科普傳播進入AI時代
    今年的全國科普日是大型群眾性科普活動,百度百科作為當今社會最具影響力、最權威的中文知識類平臺,向大眾展示了最新的創新成果。「百度百科數字博物館」作為百度百科結合虛擬實境等新興技術的典型創新產品,吸引了大量觀眾。本次全國科普日,百度百科帶來了「梁家河數字博物館」,這是由陝西延安市聯合百度共同打造,於2017年10月13日正式上線,讓網民特別是廣大青少年通過網際網路身臨其境,踏尋知青足跡,追憶崢嶸歲月,追尋領袖「初心」。
  • 百度黑科技天津辦證發布會開到央視文科生都看
    而與以往不同的是,今年百度還和央視新聞首次合作「組CP」,在1000平方米、全部以屏幕搭建的演播室來了一場黑科技的超級科普。話不多說,一起一文看盡百度世界2020大會展現的最新黑科技進展。 這也是百度給自己創辦20周年的最強技術成果總結。無人車三大進展:是不是可以不考駕照了?Apollo無人車,依然是最重要的黑科技進展。