一上臺就緊張?這個模型生成演講替身,肢體語言比總統候選人還豐富

2020-07-13 機器之心Pro

只輸入語音便能生成人體姿勢。瑞典皇家理工學院的研究者做到了!

一上臺就緊張?這個模型生成演講替身,肢體語言比總統候選人還豐富

你能看出上圖中的人物姿勢是僅基於一段語音生成的嗎?

基於語音生成上半身動作甚至全身姿勢,並實現速度、對稱度等高級的姿勢控制,瑞典皇家理工學院的一項研究做到了。

該研究提出的方法不僅能夠基於語音合成對應的姿勢,還可以為同樣的語音生成不同的姿勢:

一上臺就緊張?這個模型生成演講替身,肢體語言比總統候選人還豐富

一上臺就緊張?這個模型生成演講替身,肢體語言比總統候選人還豐富

上面這兩組姿勢竟然表達的是同一段話?

僅僅這樣還不夠,該方法還提供高級的風格控制,比如速度:

左右方姿勢的對稱度:


說話時姿勢動作的半徑範圍,動作幅度的大小盡在掌控:


一上臺就緊張?這個模型生成演講替身,肢體語言比總統候選人還豐富


甚至還能控制一側手臂的高度位置:

一上臺就緊張?這個模型生成演講替身,肢體語言比總統候選人還豐富

此外,該方法還可以生成全身的姿勢動態,包括站姿的變化和腳步的移動:

一上臺就緊張?這個模型生成演講替身,肢體語言比總統候選人還豐富

具體效果參見視頻:

00:00/00:00倍速

Demo 展示的效果徵服了一批 reddit 網友。他們表示,如果能將這個技術用在遊戲(如《無人深空》)或 VR 產業,那麼無需昂貴的人體動作捕捉就能生成逼真的高質量動作,這可以大大降低遊戲的開發成本,也能讓對話情境下的 VR 人物更加逼真。

一上臺就緊張?這個模型生成演講替身,肢體語言比總統候選人還豐富

那麼,如此逼真的姿勢動作是如何生成的呢?我們來看這項研究的具體細節。

只用語音生成人物姿勢

逼真姿勢的自動合成有望改變動畫、替身和交際智能體領域。在離線應用中,新工具可以將動畫師的角色轉變為導演,他只需為期望的動畫效果提供高級輸入即可。之後,學得的網絡將這些指令轉換為適當的身體姿勢序列。在交互場景中,實時生成自然動畫的系統是塑造可信和關聯角色的關鍵所在。

瑞典皇家理工學院的研究者通過對 MoGlow 這一基於深度學習的動作合成方法進行改進,提出了一種新的生成模型,該模型可實現當前最優的語音驅動姿勢生成。

得益於該方法的概率屬性,在給定相同輸入語音信號的情況下,該模型可以生成多個不同且合理的姿勢,實現動作的自然變化。

一上臺就緊張?這個模型生成演講替身,肢體語言比總統候選人還豐富

論文主頁:https://diglib.eg.org/handle/10.1111/cgf13946

項目地址:https://github.com/simonalexanderson/StyleGestures

研究者還展示了該模型對輸出風格施加指引性控制的能力,如姿勢高度、速度、對稱度和空間活動範圍。這類控制可用來傳達期望角色的個性或情緒。研究者在未對數據做任何手動標註的情況下,實現了以上功能。

在實驗部分,用戶研究表明,該方法生成的上半身姿勢動作自然,並且與輸入語音非常匹配。該方法的評分高於先前所有的此類系統和基線方法,並且接近原始記錄動作的評分。

研究者進一步發現,該方法可以在不損失動作的感知自然度的情況下,準確地控制姿勢風格。

最後,研究者展示了該方法同樣適用於行走和站立等全身姿態的動作合成。

接下來,我們來看該模型的實現原理和具體效果。

實現原理

該研究提出的概率生成模型基於近期關於歸一化流的工作構建,尤其是 MoGlow [HAB19]。該模型可在大型非結構化運動數據集上進行訓練,且數據無需手動標註。

與直接基於語音合成動作的方法不同,該模型的訓練過程中將語音作為輸入,建模動作的條件概率分布。這樣就可以基於概率分布採樣新的姿勢,從而每一次都可以生成不同卻合理的姿勢。這與人類行為一致,並且可以為虛擬智能體和動畫行業提供不錯的應用優勢。

該方法的優勢包括:

數據集無需手動標註;

具備不確定性(因而可以得到無限種類的姿勢變體);

能夠輸出全身姿勢。

具體而言,在實現語音驅動姿勢合成的過程中,研究者使用了歸一化流(normalising flow)。完整的動作生成流程如下圖 1 所示:

一上臺就緊張?這個模型生成演講替身,肢體語言比總統候選人還豐富

該模型的思路是在使用歸一化流的姿勢序列

一上臺就緊張?這個模型生成演講替身,肢體語言比總統候選人還豐富

穩定自回歸模型中,學習姿勢 X 的多維下一步(next-step)分布。歸一化流這一通用技術在表示大量連續值分布 p(x) 時能夠同時實現高效推理(概率計算)以及高效的分布採樣。

整體轉換和中間結果表示如下:

一上臺就緊張?這個模型生成演講替身,肢體語言比總統候選人還豐富

此外,歸一化流的核心難題是設計出一個靈活、可逆、可微分且具有快速計算雅克比行列式(Jacobian determinant)的 f_n 變換參數族。2018 年,Diederik P. Kingma 等研究者提出了 Glow 方法,在生成面部圖像上實現了顯著的效果。之後,又出現了改進版 MoGlow。

MoGlow 專注於零算法延遲的運動控制,並不非常適合語音驅動姿勢合成任務。與語音同時出現的人體姿勢可以分割為準備、執行(stroke)和撤回三個階段。

基於此,該研究令時間實例 t 時的控制輸入 c_t 同時包含當前語音特徵 a_t 以及周圍語音特徵

一上臺就緊張?這個模型生成演講替身,肢體語言比總統候選人還豐富

的視窗(window),從而將足夠的未來信息考慮在內。完整的動作生成流程如上圖 1 所示。

實現效果如何

在所有實驗中,評分者需要觀看和聆聽人體姿勢的 18 秒視頻片段(如下圖所示),並根據給定的評分標準進行打分(5 分制)。

一上臺就緊張?這個模型生成演講替身,肢體語言比總統候選人還豐富

人體相似性和適當性評估

下圖 3 和表 1 展示了人體相似性、適當性、風格控制人體相似性和全身姿勢人體相似性的平均得分:

一上臺就緊張?這個模型生成演講替身,肢體語言比總統候選人還豐富

風格控制評估

下圖 4 展示了風格控制對系統生成動作的影響,其中每一行表示不同的風格控制系統(分別是 M-H、MG-V、MG-R 和 MG-S)。

一上臺就緊張?這個模型生成演講替身,肢體語言比總統候選人還豐富

全身姿勢評估

評估結果如上圖 3 中最右側圖,全身 GT 平均得分為 4.005,FB-C 平均得分為 3.764,FB-U 平均得分為 3.421。

一上臺就緊張?這個模型生成演講替身,肢體語言比總統候選人還豐富

全身姿態的人體相似性評估結果。

缺陷

這項研究在 reddit 上引起了廣泛關注和討論。除了對模型效果表示讚嘆以外,也有網友發現了其中需要改進的地方。

例如,有網友指出:「這個模型可以恰當地對節奏和語音強度做出反應,但它似乎並不怎麼關注真實的語音信息內容。」

對此,作者之一 Gustav Eje Henter 表示同意:

你說的對!這個模型僅傾聽語音(沒有文本輸入),但並不包含任何人類語言模型。我認為,使用這類模型生成具備語義意義的姿勢(尤其還要與語音節奏保持一致)仍是一個未解難題。

該網友還提出了數據問題:「要想使模型達到合理的效果,可能需要大規模數據集。」

對於,Henter 也表示認同:

數據是目前的主要瓶頸。該模型基於同一個人的大約四小時的姿勢和語音數據。我們很難找到足夠的高質量語音和動作平行數據。一些研究者使用 TED 演講,但是從此類視頻中提取的姿勢動作看起來不具備說服力,不夠自然。(好的運動數據需要運動捕捉設置和仔細的數據處理。)因此,該研究目前使用的是較小型的高質量數據集。

參考連結:

https://www.reddit.com/r/MachineLearning/comments/hpv0wm/r_stylecontrollable_speechdriven_gesture/

https://www.reddit.com/r/MachineL

相關焦點

  • 研究動態|語音驅動姿勢生成模型來了,肢體語言比總統候選人還豐富
    他們表示,如果能將這個技術用在遊戲(如《無人深空》)或 VR 產業,那麼無需昂貴的人體動作捕捉就能生成逼真的高質量動作,這可以大大降低遊戲的開發成本,也能讓對話情境下的 VR 人物更加逼真。、替身和交際智能體領域。
  • 演講中怎樣用好肢體語言?如何控制好手勢和姿態,提升演講的氣場
    演講中善用肢體語言,可以增強說服力,提升個人魅力,讓你的演講充滿感染力。手勢,眼神,表情,站姿到位了,你的氣場就會變強。不會發揮肢體語言的作用,演講就會顯得十分呆板,沒有激情和活力。演講的時候,聽眾其實不光是在聽,也是在看,不當的肢體動作會讓演講的整體效果減分。本期的話題,唐歌就和你來聊一聊:演講中怎樣用好肢體語言?
  • 上臺緊張怎麼辦?
    從另一角度,避免上臺過度緊張,保持身體、手臂、手指鬆弛也能保護肢體同時極大助益舞臺演奏。為什麼我們會在臺上感到緊張,怎樣降低肌肉的緊張度,達到較好的演奏狀態?對此筆者採訪了美國十大女中提琴演奏家之一、北德克薩斯州大學音樂學院弦樂學科主任蘇珊·杜波艾教授。
  • TED演講:肢體語言如何塑造你自己?
    所以,我們很真的很執著於肢體語言,特別是對別人的肢體語言感興趣。你看,我們對尷尬的互動,或一個微笑或輕蔑的一瞥,或奇怪的眨眼甚至是握手之類的事情感興趣。 Narrator: Here they are arriving at Number 10.
  • 韓國總統樸槿惠在清華大學演講
    記者 郭海軍 攝  清華大學校長陳吉寧主持演講會,代表學校歡迎樸槿惠總統來到清華大學訪問並發表演講。他回顧了清華大學與韓國多所知名大學、著名企業開展合作和交流的情況,表示相信在中韓兩國領導人的重視和推動下,新時期的中韓關係將會全面深化,兩國高等教育、科學技術和文化等領域的合作將更加深入。陳吉寧還向現場聽眾介紹了樸槿惠總統的簡歷。
  • 如何消除上臺講話的緊張感?10個有效應對策略,絕對有效!
    以前讀書聽演講大賽時就遇到過很多選手明明稿子背的很熟練,上臺前也準備得很充分,但是一上臺就緊張了,還沒說幾句,就出現忘詞,卡頓的現象。其實在我們的工作中也經常遇到,有時因工作需要,我們需要上臺競聘演講,做工作匯報,主持年會等等活動。大部分朋友可能都都會出現怯場,產生緊張,發揮不自然等狀況,其實適度的緊張不是壞事,但過得緊張就不那麼好了!
  • 上臺發言很緊張,語無倫次怎麼辦?
    先看傳統辦法:「上臺緊張,就不要看觀眾,眼睛看著後面的牆」,這是治標不治本,試過的人就知道,你看觀眾緊張,不看觀眾其實也是緊張,我大學畢業那會,剛參加工作,被安排做公司年會的主持,臺下幾百號人,燈光一打,看不見臺下的觀眾,但是依然緊張。
  • 心理學家:與人交談時,肢體語言比較豐富的人,相對好勝心也強
    ,若此時的情緒很低落,心情又不愉快,比手畫腳的動作也會在無意識當中較為誇張的表現出來,其實這就是我們常說的肢體語言,也是我們在相互交流當中,所能體現出除語言外的情緒和情感的一種表達方法,他所呈現的渲染力,在一定的程度也算是一種情緒宣洩。
  • 中科院自動化所提出BIFT模型:面向自然語言生成,同步雙向推斷
    自然語言理解既可以利用上文信息也可以利用下文信息,高效的雙向編碼能力正是 BERT 成功的關鍵因素之一。但是,自然語言生成由於都默認自左往右地逐詞產生文本輸出,預測某個時刻的輸出只能利用上文的歷史信息而無法訪問還未生成的未來信息。例如將漢語句子「有五個人」自動翻譯為英語時,從左到右的理想預測結果是「There」、「are」、「five」 和「persons」。
  • 布隆伯格大手筆加入總統選戰,比他還壕的是候選人的金主們
    據美聯社報導,布隆伯格豪氣宣布競選期間不接受政治捐款,當選總統後也不會領取薪水,或者只是象徵性的拿1美元。現任總統川普也曾宣稱,把40萬美元年薪全數捐給了慈善機構。2019年年初開始就陸續有民主黨人宣布參選,布隆伯格則「姍姍來遲」。他加入選戰,其他民主黨總統候選人虎視眈眈,而候選人背後的金主也蓄勢待發。
  • 77歲拜登正式接受總統候選人提名,被川普嘲諷為「Sleepy Joe」
    預計閱讀時間2-6分鐘#美國大選#當地時間8月20日,美國前副總統拜登在民主黨全國代表大會上發表演講,正式接受民主黨總統候選人提名。(百度詞條)在民主黨全國大會上,喬·拜登聲稱:「也許歷史可以說,美國黑暗這一章的結尾從今晚開始,今晚隨著愛、希望和光明為國家靈魂而戰。」在這次演講中,他強調美國正面臨四個危機,包括新冠疫情、經濟困境、氣候變化和種族主義,並認為他將有能力帶領美國走出困境。
  • 哈佛"最火"30歲女教授:肢體語言如何塑造你自己?@TED演講
    所以,我們很真的很執著於肢體語言,特別是對別人的肢體語言感興趣。你看,我們對尷尬的互動,或一個微笑或輕蔑的一瞥,或奇怪的眨眼甚至是握手之類的事情感興趣。 Narrator: Here they are arriving at Number 10.
  • 美國總統候選人拜登獲諾貝爾和平獎提名
    「今日俄羅斯」(RT)29日最新消息稱,英國反對黨工黨議員克裡斯布萊恩特提名美國民主黨總統候選人喬拜登獲諾貝爾和平獎,理由是拜登在席捲全美的暴力抗議中緩解了政治緊張局勢。報導稱,對拜登的這一提名就在美國2020年總統候選人首場辯論的前一天出現。而此時,拜登的競爭對手、現任美國總統川普今年已3次獲諾貝爾和平獎提名。
  • 一文縱覽自然語言生成的發展
    每當我們聽到「人工智慧」這個詞,便會聯想到《終結者》、《黑客帝國》、《我,機器人》等電影。機器人具有獨立思考的能力在目前看來還比較遙遠,但機器學習和自然語言理解領域已經在過去幾年取得了重大進展。個人助理(Siri/Alexa)、聊天機器人及問答機器人等應用程式正悄無聲息地改變著人們的生活方式。
  • 土耳其總統候選人簡介
    原標題:土耳其總統候選人簡介  新華網安卡拉8月10日電(記者鄭金髮 王雅晨)第12屆土耳其總統選舉10日舉行,現任總理、執政黨正義與發展黨(正發黨)主席埃爾多安、共和人民黨和民族行動黨聯合提名的前伊斯蘭合作組織秘書長伊赫桑奧盧以及親庫德的人民民主黨推舉的德米爾塔什參加角逐。
  • 1984年以來美國總統大選,每一次他都預測對了
    而且,神奇之處還不止於此。他居然還同時預測,川普上臺後會遭國會彈劾,並極可能被免職。果然,2019年川普遭到了彈劾,儘管彈劾最後沒有成功,也足以證明利希特曼的神奇。今年又是大選年。離下任美國總統選舉的時間也就80天多一點,那他的預測是啥呢?
  • 自然語言生成的演變史
    什麼是自然語言生成 語言生成的目標是通過預測句子中的下一個單詞來傳達信息。 可以通過使用語言模型來解決。語言模型是對詞序列的概率分布。 語言模型可以在字符級別,短語級別,句子級別甚至段落級別構建。模型在其存儲器中存儲遇到的先前單詞並計算下一單詞的概率。
  • 忽視恐懼,享受演講,從心理學和進化論角度解析「演講恐懼症」
    有的人上臺演講和發言的關鍵時刻,經常會出現不自覺的手腳發抖,吐字不清,氣短等現象,這類現象被稱為演講恐懼症,在進化論和生理學對演講恐懼症都有相應的解釋。所以我們上臺演講和發言的關鍵時刻,經常會出現不自覺地手腳發抖,吐字不清,氣短等現象。心理學聚光燈效應解析演講恐懼症康奈爾大學季洛維奇教授和薩維斯基教授提出聚光燈效應,又稱焦點效應:有時候我們總是不經意的把自己的問題放到無限大。
  • 美總統首場辯論前一天,民主黨總統候選人拜登獲諾貝爾和平獎提名
    布萊恩特提名美國民主黨總統候選人喬?拜登獲諾貝爾和平獎,理由是拜登在席捲全美的暴力抗議中緩解了政治緊張局勢。RT:不在意那些從塞爾維亞到敘利亞的「屍袋」,英國工黨議員提名喬?拜登獲諾貝爾和平獎布萊恩特當地時間28日表示:「當美國城市陷入火海,民眾之間相互攻擊時,是喬的影響力讓人們平靜下來。」
  • 參考快訊:繼川普後,民主黨總統候選人拜登獲諾貝爾和平獎提名
    參考消息網9月29日報導據英國天空新聞頻道報導,繼美國總統川普獲諾貝爾和平獎提名後,民主黨總統候選人喬·拜登也被提名為諾貝爾和平獎候選人。報導稱,英國工黨議員克裡斯·布賴恩特提名拜登為諾貝爾和平獎候選人。