卡內基梅隆大學的研究人員最近進行了一項研究,旨在通過產生自然手勢來伴隨他們的語音來改善虛擬助手和機器人與人的通信方式。他們的論文預先發表在arXiv上並定於2020年歐洲計算機視覺會議上發表,介紹了Mix-StAGE,這是一種新模型,可以產生不同風格的共語音手勢,最適合與之對應的語音。
虛擬助手和機器人正變得越來越智能,具有交互性。但是,為了完全複製人類的交流,人工智慧代理不僅能夠確定用戶在說什麼並產生適當的響應,還應該模仿他們的說話方式。
想像一下您正在通過虛擬實境耳機在虛擬空間中與朋友交流的情況。耳機只能聽到您的聲音,而看不到您的手勢。模型的目標是預測伴隨語音的手勢。當人們與他人交流時,他們通常會有獨特的手勢方式。創建一個能夠將這些個體差異考慮在內的共語音手勢生成模型,以產生與說話人的聲音和個性相一致的手勢。
Mix-StAGE背後的關鍵思想是為許多不同樣式的手勢學習一個通用的手勢空間。此手勢空間包含所有可能的手勢,這些手勢按樣式分組。Mix-StAGE的後半部分學習如何在與輸入語音信號同步的同時預測任何給定樣式的手勢,這一過程稱為樣式轉移。
Mix-StAGE受過訓練,可以為多個說話者產生有效的手勢,學習每個說話者的獨特風格特徵,並產生與這些特徵匹配的手勢。另外,該模型可以為另一位演講者的語音生成一個演講者風格的手勢。例如,它可以生成與說話者A所說的手勢相匹配的手勢,而手勢通常由說話者B使用。
與以前的方法要求每種樣式都需要一個單獨的模型不同,能夠講授一個模型(即涉及較少的內存)來代表許多手勢樣式。模型利用手勢樣式之間的相似性,同時記住每個人(即每種樣式)的獨特之處。
在最初的測試中,模型表現非常出色,以不同的樣式產生了逼真的有效手勢。此外,研究人員發現,隨著他們增加用於訓練Mix-StAGE的揚聲器的數量,其手勢生成準確性大大提高。將來,該模型可以幫助增強虛擬助手和機器人與人類進行交流的方式。
為了訓練Mix-StAGE,研究人員編輯了一個名為Pose-Audio-Transcript-Style(PATS)的數據集,其中包含25個說話的人的語音記錄,總計250個小時以上,並且手勢匹配。該數據集很快將被其他研究團隊用來訓練其他手勢生成模型。
在目前的研究中,當生成手勢時,專注於語音的非語言部分(例如,韻律)。對下一步感到很興奮,還將語音的言語部分(即語言)作為另一種輸入。假設是語言將有助於特定類型的手勢,例如圖標或隱喻手勢,其中話語的含義可能是最重要的。