研究動態|語音驅動姿勢生成模型來了,肢體語言比總統候選人還豐富

2020-08-27 自動化與儀器儀表




只輸入語音便能生成人體姿勢。瑞典皇家理工學院的研究者做到了!


你能看出上圖中的人物姿勢是僅基於一段語音生成的嗎?


基於語音生成上半身動作甚至全身姿勢,並實現速度、對稱度等高級的姿勢控制,瑞典皇家理工學院的一項研究做到了。


該研究提出的方法不僅能夠基於語音合成對應的姿勢,還可以為同樣的語音生成不同的姿勢:


上面這兩組姿勢竟然表達的是同一段話?


僅僅這樣還不夠,該方法還提供高級的風格控制,比如速度:



左右方姿勢的對稱度:



說話時姿勢動作的半徑範圍,動作幅度的大小盡在掌控:



甚至還能控制一側手臂的高度位置:



此外,該方法還可以生成全身的姿勢動態,包括站姿的變化和腳步的移動:



具體效果參見視頻:


Demo 展示的效果徵服了一批 reddit 網友。他們表示,如果能將這個技術用在遊戲(如《無人深空》)或 VR 產業,那麼無需昂貴的人體動作捕捉就能生成逼真的高質量動作,這可以大大降低遊戲的開發成本,也能讓對話情境下的 VR 人物更加逼真。



那麼,如此逼真的姿勢動作是如何生成的呢?我們來看這項研究的具體細節。


只用語音生成人物姿勢


逼真姿勢的自動合成有望改變動畫、替身和交際智能體領域。在離線應用中,新工具可以將動畫師的角色轉變為導演,他只需為期望的動畫效果提供高級輸入即可。之後,學得的網絡將這些指令轉換為適當的身體姿勢序列。在交互場景中,實時生成自然動畫的系統是塑造可信和關聯角色的關鍵所在。


瑞典皇家理工學院的研究者通過對 MoGlow 這一基於深度學習的動作合成方法進行改進,提出了一種新的生成模型,該模型可實現當前最優的語音驅動姿勢生成。


得益於該方法的概率屬性,在給定相同輸入語音信號的情況下,該模型可以生成多個不同且合理的姿勢,實現動作的自然變化。



  • 論文主頁:https://diglib.eg.org/handle/10.1111/cgf13946
  • 項目地址:https://github.com/simonalexanderson/StyleGestures


研究者還展示了該模型對輸出風格施加指引性控制的能力,如姿勢高度、速度、對稱度和空間活動範圍。這類控制可用來傳達期望角色的個性或情緒。研究者在未對數據做任何手動標註的情況下,實現了以上功能。


在實驗部分,用戶研究表明,該方法生成的上半身姿勢動作自然,並且與輸入語音非常匹配。該方法的評分高於先前所有的此類系統和基線方法,並且接近原始記錄動作的評分。


研究者進一步發現,該方法可以在不損失動作的感知自然度的情況下,準確地控制姿勢風格。


最後,研究者展示了該方法同樣適用於行走和站立等全身姿態的動作合成。


接下來,我們來看該模型的實現原理和具體效果。


實現原理


該研究提出的概率生成模型基於近期關於歸一化流的工作構建,尤其是 MoGlow [HAB19]。該模型可在大型非結構化運動數據集上進行訓練,且數據無需手動標註。


與直接基於語音合成動作的方法不同,該模型的訓練過程中將語音作為輸入,建模動作的條件概率分布。這樣就可以基於概率分布採樣新的姿勢,從而每一次都可以生成不同卻合理的姿勢。這與人類行為一致,並且可以為虛擬智能體和動畫行業提供不錯的應用優勢。


該方法的優勢包括:


  • 數據集無需手動標註;
  • 具備不確定性(因而可以得到無限種類的姿勢變體);
  • 能夠輸出全身姿勢。


具體而言,在實現語音驅動姿勢合成的過程中,研究者使用了歸一化流(normalising flow)。完整的動作生成流程如下圖 1 所示:



該模型的思路是在使用歸一化流的姿勢序列

穩定自回歸模型中,學習姿勢 X 的多維下一步(next-step)分布。歸一化流這一通用技術在表示大量連續值分布 p(x) 時能夠同時實現高效推理(概率計算)以及高效的分布採樣。


整體轉換和中間結果表示如下:



此外,歸一化流的核心難題是設計出一個靈活、可逆、可微分且具有快速計算雅克比行列式(Jacobian determinant)的 f_n 變換參數族。2018 年,Diederik P. Kingma 等研究者提出了 Glow 方法,在生成面部圖像上實現了顯著的效果。之後,又出現了改進版 MoGlow。


MoGlow 專注於零算法延遲的運動控制,並不非常適合語音驅動姿勢合成任務。與語音同時出現的人體姿勢可以分割為準備、執行(stroke)和撤回三個階段。


基於此,該研究令時間實例 t 時的控制輸入 c_t 同時包含當前語音特徵 a_t 以及周圍語音特徵

的視窗(window),從而將足夠的未來信息考慮在內。完整的動作生成流程如上圖 1 所示。


實現效果如何?


在所有實驗中,評分者需要觀看和聆聽人體姿勢的 18 秒視頻片段(如下圖所示),並根據給定的評分標準進行打分(5 分制)。



人體相似性和適當性評估


下圖 3 和表 1 展示了人體相似性、適當性、風格控制人體相似性和全身姿勢人體相似性的平均得分:



風格控制評估


下圖 4 展示了風格控制對系統生成動作的影響,其中每一行表示不同的風格控制系統(分別是 M-H、MG-V、MG-R 和 MG-S)。



全身姿勢評估


評估結果如上圖 3 中最右側圖,全身 GT 平均得分為 4.005,FB-C 平均得分為 3.764,FB-U 平均得分為 3.421。


全身姿態的人體相似性評估結果。


缺陷


這項研究在 reddit 上引起了廣泛關注和討論。除了對模型效果表示讚嘆以外,也有網友發現了其中需要改進的地方。


例如,有網友指出:「這個模型可以恰當地對節奏和語音強度做出反應,但它似乎並不怎麼關注真實的語音信息內容。」


對此,作者之一 Gustav Eje Henter 表示同意:


你說的對!這個模型僅傾聽語音(沒有文本輸入),但並不包含任何人類語言模型。我認為,使用這類模型生成具備語義意義的姿勢(尤其還要與語音節奏保持一致)仍是一個未解難題。


該網友還提出了數據問題:「要想使模型達到合理的效果,可能需要大規模數據集。」


對於,Henter 也表示認同:


數據是目前的主要瓶頸。該模型基於同一個人的大約四小時的姿勢和語音數據。我們很難找到足夠的高質量語音和動作平行數據。一些研究者使用 TED 演講,但是從此類視頻中提取的姿勢動作看起來不具備說服力,不夠自然。(好的運動數據需要運動捕捉設置和仔細的數據處理。)因此,該研究目前使用的是較小型的高質量數據集。


參考連結:

https://www.reddit.com/r/MachineLearning/comments/hpv0wm/r_stylecontrollable_speechdriven_gesture/

https://www.reddit.com/r/MachineLearning/comments/hpv0wm/r_stylecontrollable_speechdriven_gesture/fxuytg1/


END


摘自:機器之心

相關焦點

  • 這個模型生成演講替身,肢體語言比總統候選人還豐富
    你能看出上圖中的人物姿勢是僅基於一段語音生成的嗎?基於語音生成上半身動作甚至全身姿勢,並實現速度、對稱度等高級的姿勢控制,瑞典皇家理工學院的一項研究做到了。該研究提出的方法不僅能夠基於語音合成對應的姿勢,還可以為同樣的語音生成不同的姿勢:
  • 語音驅動3D虛擬人,百度ACCV 2020最新文章解讀
    近年來,隨著深度神經網絡的成功應用,數據驅動的方法已經成為現實。例如,SythesisObama 或 MouthEditing 通過使用 RNN 通過語音驅動嘴部運動來合成說話的嘴部。泰勒 [3] 提出使用音頻來驅動高保真圖形模型,該模型不僅可以將嘴部動畫化,而且還可以對面部的其他部分進行動畫處理以獲得更豐富的語音表達。
  • 語言進化研究的跨學科思考:語言是心理時間旅行的外延
    想像力是語言生成的基礎,最初是以時間、空間的形式,提供語言本身的遞歸、生成屬性。語言的生成和遞歸就是想像力的生成和遞歸,是MTT的延展、想像力的外化。海馬體是語言網絡的一部分支持記憶的海馬體也支持語言處理,成為記憶和語言共享神經機制的直接神經生理學證據。這一發現將豐富語言模型。
  • The Relightables可生成動態人體3D模型
    作者:DIGITIMES陳明陽Google AI開發的"The Relightables"系統結合可調整動態人體3D模型照明的重建技術,以及全視點(free-viewpoint)容積測量捕捉(volumetric capture)技術,可生成高解析度、光源可調的動態人體3D模型,
  • 一周AI最火論文 | 生成描述性文字的新平臺,用語言加強AI在動態...
    雖然,研究人員一直在努力開發強大的檢測算法,但由於大多數可用數據集只有一種語言:英語,所以這仍然是一個具有挑戰性的問題。  在本文中,研究人員對多語言仇恨言論進行了首次大規模分析。他們使用來自9種語言的16個數據集,使用深度學習模型來開發用於多語言仇恨言論分類的分類器。  結果:他們在各種條件下(低資源和高資源,單語和多語環境)針對多種語言進行了許多實驗。
  • 百度大腦論壇如期而至,語音、視覺、語言與知識技術成熱點
    隨後,他又一次談到飛槳的五大核心優勢:全面支持動態圖&靜態圖兩種計算圖,官方支持模型目前已有超過 70 個,支持大規模分布式訓練,提供非常強的端到端部署能力,提供系統化深度學習技術服務。智能創作平臺在本質上是對信息的重組織和再加工,通過自然語言處理、知識圖譜等基礎技術,將大量的原始信息進行深度語義理解、邏輯分析,形成創作當中所需的知識圖譜和素材庫,可以在創作的成文階段為創作者提供組稿、順稿、潤色等能力。智能創作平臺 2.0 具備如下三個新特性:實時熱點關聯豐富素材、全面的創作輔助能力、領先的多模生成技術。
  • AI每日精選:LipGAN通過語音生成說話面孔;百度6億投資宇信科技
    研究技術1.深度學習的大批量優化:76 分鐘訓練 BERT來自谷歌,加州大學伯克利分校以及加州大學洛杉磯分校的研究團隊發表了一篇名為「深度學習的大批量優化:76 分鐘訓練 BERT」的研究。該研究中,研究人員首先研究一種有原則的分層適應策略,以使用大型迷你批處理來加快深度神經網絡的訓練速度。
  • 2020開年解讀:NLP新範式凸顯跨任務、跨語言能力,語音處理落地開花
    首先在大規模文本數據上通過無監督(自監督)學習預訓練大部分的參數,然後在具體的自然語言處理任務上添加與任務相關的神經網絡,這些神經網絡所包含的參數遠遠小於預訓練模型的參數量,並可根據下遊具體任務的標註數據進行微調。 由此,研究人員可以將通過預訓練從大規模文本數據中學到的語言知識,遷移到下遊的自然語言處理和生成任務模型的學習中。
  • 生物圖像研究新挑戰?手語與CV交叉發展?Workshop第三彈為你揭秘
    通過肢體語言了解人類的情感是計算機視覺、機器人、心理學等領域的重要研究內容。而利用計算機視覺和機器學習的方法理解人類肢體語言中所要表達的情感近年來發展迅速,包括:肢體語言數據集、基於計算機視覺的肢體情感解讀方法、人體姿態表達、人體運動編碼系統、機器人和自動駕駛領域的應用、公平性算法的開發等。
  • 中科院自動化所提出BIFT模型:面向自然語言生成,同步雙向推斷
    雖然「persons」能夠判別第二個詞語應該是「are」而不是「is」,但是由於在預測第二個單詞時,只能依賴已經產生的單詞「There」,而無法參考還未生成的「five」和「persons」。這個簡單的例子就能反映出傳統自左往右自然語言生成的弊端。我們提出的 BIFT 希望打破這種文本生成模式,採用同步雙向推斷模型為每個時刻的預測同時提供歷史信息和未來知識。
  • 動態三維組織培養系統驅動方法的研究現狀
    :是一種高度仿生的體外模型培養方式,通過三維培養可以重建體內複雜微環境的模型來克服傳統體外模型的局限性;動態培養下的培養基流動可以為細胞和組織提供各種生物力學刺激,這種生物力學刺激是細胞和組織分化和各種生理過程中的重要因素。
  • 大牛講堂 | 語音專題第二講,語言模型技術
    2011年7月畢業於哈爾濱工業大學計算機科學與技術專業,曾任百度語音資深研發工程師。負責百度超大語言模型訓練,語音交互技術研發以及語音搜索、語音輸入法、語音助手等產品的語音識別優化。現在地平線負責語音識別、自然語言處理等相關技術算法研究。語言模型技術語言模型技術廣泛應用於語音識別、OCR、機器翻譯、輸入法等產品上。
  • 心理學家:與人交談時,肢體語言比較豐富的人,相對好勝心也強
    心理學家在研究中發現,說話時肢體語言比較豐富的人,是因為這種人急於表達自己的情感和態度,同時也在宣洩自己的情緒,這也就出現了一種狀況,他們只顧自己的表現,因而忽略了他人的感受,所以這種人是屬於個性較為強勢的人,如果在與一位缺乏主見性格又內向的人,和他們在一起交談,大多時候都會被其很強的氣勢壓制住,這也是因為他們不論在與任何人交談時,只考慮自己如何將情緒痛快的宣洩出去
  • CSSML(中文語音合成標記語言)的發展與應用
    SSML(語音合成標記語言)是由W3C制定並在VoiceXML中使用,作為電話語音流程中語音合成控制的標準。SSML的基本任務就是在不同的應用平臺上為合成文本提供一個標準的控制語音輸出的方法,例如發音、音量、音調、語速等參數。而VoiceXML作為人與電話應用交互的流程描述語言,在當今的語音門戶、統一消息平臺等以語音驅動的應用中正發揮著越來越重要的作用。
  • DSP開發板的語音識別系統的研究
    0 引言  語音識別技術的目的是使機器能理解人類語言,最終使人機通信成為現實。在過去幾十年,自動語音識別(AutomaticSpeech Recognition,ASR)技術已經取得了非常重大的進步。  ASR系統已經能從處理像數字之類的小詞彙量到廣播新聞之類的大詞彙量。
  • 人與社會:「肢體口音」能披露你來自何方的原因
    有些人體姿勢可能是碰巧發生的偶然行為,而有些則可能事出有因。比如俄國總統普京走路時,他的「槍臂」(右臂)貼在身邊從來不擺動,據說這是他當克格勃接受武器訓練留下的習慣。在去年的一項研究中,傑克和同事們發現,甚至人類在性高潮時的面部表情也帶有不同的「文化口音」。存在肢體式的非語言口音不應該是大驚小怪的事。人類一直以來都可以識別不同人的聲音和面孔,以致走路或跑步的方式,而不會明確意識到是用什麼方法辨識出來的。
  • 自然語言處理前沿論壇在京召開 學者專家共探機器之讀、寫、說、譯
    孫栩聚焦在稀疏化的深度學習NLP,提出一個簡單有效的算法meProp[2]來簡化訓練及訓練出的神經網絡。在反向傳遞算法中,找出梯度中最重要的信息,僅用全梯度的一小部分子集來更新模型參數。實驗表明,在多個任務上5%左右的稀疏化程度就可以達到很好的效果。此外,還提出了帶記憶的meProp,具有更好的穩定性,達到更好的反向傳遞。
  • 基於C語言的設計流優化語音識別晶片結構設計
    本文介紹利用Frontier Design公司設計工具來開發歐元兌換器ASIC產品 的全過程。在ASIC中實現複雜DSP算法的要求通常極為苛刻,但採用Frontier的結構合成工具A|RT Designer工具能迅速優化RTL描述,該工具還允許自由選擇備用結構以優化應用設計。
  • 2019自然語言處理前沿論壇 五大議題全面解析NLP技術前沿
    孫栩聚焦在稀疏化的深度學習NLP,提出一個簡單有效的算法meProp[2]來簡化訓練及訓練出的神經網絡。在反向傳遞算法中,找出梯度中最重要的信息,僅用全梯度的一小部分子集來更新模型參數。實驗表明,在多個任務上5%左右的稀疏化程度就可以達到很好的效果。此外,還提出了帶記憶的meProp,具有更好的穩定性,達到更好的反向傳遞。
  • Nature Reviews Neurosci:語言中的節奏及其神經機制|導讀 37期
    摘要:聽覺語音感知使聽者能夠從語音中獲取語音類別。在言語生產和言語運動學習過程中,說話人的經驗與聽覺和體感輸入相匹配。因此,體感信息也可以提供語音單位。目前研究評估了人類在沒有聽覺反饋的情況之下,是否可以使用體感反饋來識別元音。