深度學習資訊|Mix-StAGE,一種可以生成手勢和語音的模型

2020-12-23 人工智慧研究院

卡內基梅隆大學的研究人員最近進行了一項研究,旨在通過產生自然手勢來伴隨他們的語音來改善虛擬助手和機器人與人的通信方式。他們的論文預先發表在arXiv上並定於2020年歐洲計算機視覺會議上發表,介紹了Mix-StAGE,這是一種新模型,可以產生不同風格的共語音手勢,最適合與之對應的語音。

PATS是用於研究手勢樣式的數據集

虛擬助手和機器人正變得越來越智能,具有交互性。但是,為了完全複製人類的交流,人工智慧代理不僅能夠確定用戶在說什麼並產生適當的響應,還應該模仿他們的說話方式。

想像一下您正在通過虛擬實境耳機在虛擬空間中與朋友交流的情況。耳機只能聽到您的聲音,而看不到您的手勢。模型的目標是預測伴隨語音的手勢。當人們與他人交流時,他們通常會有獨特的手勢方式。創建一個能夠將這些個體差異考慮在內的共語音手勢生成模型,以產生與說話人的聲音和個性相一致的手勢。

Mix-StAGE背後的關鍵思想是為許多不同樣式的手勢學習一個通用的手勢空間。此手勢空間包含所有可能的手勢,這些手勢按樣式分組。Mix-StAGE的後半部分學習如何在與輸入語音信號同步的同時預測任何給定樣式的手勢,這一過程稱為樣式轉移。

Mix-StAGE受過訓練,可以為多個說話者產生有效的手勢,學習每個說話者的獨特風格特徵,並產生與這些特徵匹配的手勢。另外,該模型可以為另一位演講者的語音生成一個演講者風格的手勢。例如,它可以生成與說話者A所說的手勢相匹配的手勢,而手勢通常由說話者B使用。

與以前的方法要求每種樣式都需要一個單獨的模型不同,能夠講授一個模型(即涉及較少的內存)來代表許多手勢樣式。模型利用手勢樣式之間的相似性,同時記住每個人(即每種樣式)的獨特之處。

在最初的測試中,模型表現非常出色,以不同的樣式產生了逼真的有效手勢。此外,研究人員發現,隨著他們增加用於訓練Mix-StAGE的揚聲器的數量,其手勢生成準確性大大提高。將來,該模型可以幫助增強虛擬助手和機器人與人類進行交流的方式。

為了訓練Mix-StAGE,研究人員編輯了一個名為Pose-Audio-Transcript-Style(PATS)的數據集,其中包含25個說話的人的語音記錄,總計250個小時以上,並且手勢匹配。該數據集很快將被其他研究團隊用來訓練其他手勢生成模型。

在目前的研究中,當生成手勢時,專注於語音的非語言部分(例如,韻律)。對下一步感到很興奮,還將語音的言語部分(即語言)作為另一種輸入。假設是語言將有助於特定類型的手勢,例如圖標或隱喻手勢,其中話語的含義可能是最重要的。

相關焦點

  • 新AI模型可以讓機器人邊說話邊配合標誌性手勢
    卡內基梅隆大學的研究人員最近進行了一項研究,希望虛擬助手和機器人在和人交流時,能像人一樣配合一些自然手勢。他們將這種可以自動適配交流內容、產生自然手勢的模型叫做Mix-StAGE。目前論文發表在預印本平臺arXiv,並計劃于于2020年歐洲計算機視覺會議(ECCV)上發表。Mix-StAGE的關鍵思想是將許多不同樣式的手勢納入一個通用的手勢空間。
  • 深度學習模型那麼多,科學研究選哪個?
    圖神經網絡圖是一種非常神奇的表示方式,生活中絕大多數的現象或情境都能用圖來表示,例如人際關係網、道路交通網、信息網際網路等等。相比於傳統的圖模型,圖網絡最大的優勢在於它不只可以對一個節點進行語義表示。可以把圖神經網絡看做將深度學習技術應用到符號表示的圖數據上,或者說是從非結構化數據擴展到了結構化數據。
  • 今日Paper|人體圖像生成和衣服虛擬試穿;魯棒深度學習;圖像風格...
    from=leiphonecolumn_paperreview0113推薦理由:提出了一個基於外觀流的生成模型ClothFlow,該模型可以合成穿衣人,用於定位引導的人的圖像生成和虛擬試穿。3)最後,生成網絡以扭曲的服裝區域為輸入,呈現目標視圖。我們在深度時尚數據集和VITON數據集上進行了大量的實驗,分別用於定位引導的人物圖像生成和虛擬實驗任務。較強的定性和定量結果驗證了該方法的有效性。
  • 盤點金融領域裡常用的深度學習模型
    我們跟隨 Sonam Srivastava 的分析,並展望深度學習在金融領域的運用前景。雖然金融是計算密集型最多的領域,但廣泛使用的金融模型:監督和無監督模型、基於狀態的模型、計量經濟學模型甚至隨機模型都受到過度擬合和啟發式問題帶來的影響,抽樣結果很差。因為金融生態圈異常複雜,其非線性充斥著大量的相互影響的因素。
  • YouTube深度學習推薦模型最全總結
    分析 YouTube 的深度學習推薦系統論文 Deep Neural Networks for YouTube Recommenders,包括 《重讀 Youtube 深度學習推薦系統論文,字字珠璣,驚為神文》、《YouTube 深度學習推薦系統的十大工程問題》、《揭開 YouTube 深度推薦系統模型 Serving 之謎》 等,給大家進行一個完整版的解讀。
  • 金融中的三種深度學習用例及這些模型優劣的證據
    我們跟隨 Sonam Srivastava 的分析,並展望深度學習在金融領域的運用前景。雖然金融是計算密集型最多的領域,但廣泛使用的金融模型:監督和無監督模型、基於狀態的模型、計量經濟學模型甚至隨機模型都受到過度擬合和啟發式問題帶來的影響,抽樣結果很差。因為金融生態圈異常複雜,其非線性充斥著大量的相互影響的因素。
  • 谷歌人工智慧癌症研究登上自然雜誌;對抗網絡的高保真語音合成
    【今日資訊頭條 | 谷歌人工智慧小組兩項癌症病例研究登上自然雜誌】來源:twitter以下是兩項研究的簡要介紹:「使用深度學習提高前列腺癌的評分」是谷歌人工智慧小組去年發布的的一項研究,並於今年六月進行了更新。
  • 複雜場景下的多目標定位——深度學習算法綜述
    三、深度學習在2012年的ImageNet競賽中,AlexNet神經網絡一舉成名,也使CNN成為了計算機視覺研究的中心,同時再一次掀起了深度學習的研究熱潮。3.1R-CNN[1]R-CNN是先進的視覺對象檢測系統,它將自下而上的候選區域提取與卷積神經網絡的豐富功能結合在一起。
  • 微軟大牛講解生成式模型的本質
    作者 |劉暢、王晉東 來源 | 王晉東不在家(ID:yourwjd) 編輯 | 九三山人 編者按:正文非常硬核,我在這裡先幼兒園一下主要觀點,機器學習從數據學習方式的角度可以分為判別式模型和生成式模型
  • 普林、DeepMind新研究:結合深度學習和符號回歸,從深度模型中看見...
    符號模型緊湊,具備可解釋性和良好的泛化能力,但很難處理高維機器學習問題;深度模型擅長在高維空間中學習,但泛化性和可解釋性卻很差。那麼有沒有什麼辦法可以取二者之所長呢?這項研究做到了。如何將深度模型轉換為符號方程?來自普林斯頓、DeepMind 等機構的研究人員提出了一種解決方案:結合深度學習和符號回歸實現這一目標。
  • 深度學習架構
    本文介紹了五種最熱門的深度學習架構,包括循環神經網絡 (RNN)、長短期記憶 (LSTM)/門控循環單元 (GRU)、卷積神經網絡 (CNN)、深度信念網絡 (DBN) 和深度堆棧網絡 (DSN),本文還探討了深度學習的開源軟體選項。深度學習並非一種單一的方法,而是一類算法和拓撲結構,可用於解決多種問題。
  • 一文帶你深入了解,什麼是深度學習及其工作原理
    作者 | CraigStedman 編譯 | CDA數據科學研究院深度學習是機器學習(ML)和人工智慧(AI)的一種,它模仿人類獲取某些類型的知識的方式。深度學習是數據科學的重要元素,其中包括統計和預測模型。對於負責收集,分析和解釋大量數據的數據科學家而言,這是極為有益的。深度學習使此過程更快,更輕鬆。
  • 圖靈獎花落深度學習「三劍客」 後者曾為師徒和同事
    Pancake指出,人工智慧的發展在很大程度上歸功於深度學習的最新進展 。Cherri M. Pancake表示,任何有智慧型手機的人都可以明確體會到自然語言處理和計算機視覺技術的進步,這在10年前是不可能實現的,除了我們每天使用的產品之外,深度學習的發展為醫學、天文學、材料科學等領域的科學家提供了強大的新工具 。但深度學習也經歷過低谷。
  • 「深度學習」基於RNN實現特定庫的分子生成的遷移學習指南
    在本工作中,作者利用基於SMILES的GRU-RNN模型對18個小數據的藥化分子庫進行分子生成。通過對不同的遷移學習的配置實驗,作者提出了在基於RNN的分子生成任務中使用遷移學習的經驗性原則和建議。——背景——得益於大型資料庫(如ZINC,ChEMBL等)的出現和機器學習技術的蓬勃發展,深度學習技術已經被廣泛的應用到了藥物設計中,而分子生成正是其中主要的一類任務。
  • 乾貨|語音識別框架最新進展——深度全序列卷積神經網絡登場
    科大訊飛在今年提出了一種全新的語音識別框架——深度全序列卷積神經網絡(DFCNN,Deep Fully Convolutional NeuralNetwork),更適合工業應用。本文是對科大訊飛使用DFCNN應用於語音轉寫技術的詳細解讀,其外還包含了語音轉寫中口語化和篇章級語言模型處理、噪聲和遠場識別和文本處理實時糾錯以及文字後處理等技術的分析。
  • 深度學習:盤點全球的深度學習框架「Tensorflow、Pytorch」勝出
    Keras並不是一個獨立的深度學習框架,而是構建與Theano之上的封裝框架,Keras是一個基於Python的深度學習庫,其旨在幫助用戶進行快速的原型實驗,以最小的時延把想法轉換為實驗結果。使用Keras搭建網絡和訓練網絡非常容易。而且,在通常情況下,如果需要深入模型中控制細節,使用Keras提供的一些函數就可以了,很少需要深入其後端引擎中。
  • FB開源深度學習推薦模型
    選自Facebook博客作者:Maxim Naumov等機器之心編譯參與:路、一鳴近日,Facebook 開源了深度學習推薦模型 DLRM。DLRM 通過結合協同過濾算法和預測分析方法,提供了推薦系統當前最優效果。隨著深度學習的發展,基於神經網絡的個性化和推薦模型成為在生產環境中構建推薦系統的重要工具。
  • 抽取+生成:一種基於背景知識的參考感知網絡對話模型
    經過一定數量的解碼時間步(每個時間步均執行解碼選擇器和混合解碼器),我們可以得到最終的回覆序列。回復序列將由生成解碼生成的詞與參考解碼抽取的語義單元共同按序合成。我們具體來看解碼選擇器的實現。論文將 RefNet 與最強的生成式模型CaKe和最強的抽取式模型 QANet 在輸出回復的自然性(N)、信息性(N)、合適性(A)和類人性(H)4 個指標上進行評測,見圖 11。實驗結果表面,RefNet 在所有指標上超過了兩個強有力的基線模型。
  • 基於數值數據理解和重要信息驗證的數據到文本生成模型
    圖1 任務示例,NCP是基線模型生成的結果,Gold是參考文本。Extracted Records是文本中提到的數據。2. 背景和動機這個任務上的模型可以分為兩大類:傳統的流水線模型和端到端模型。流水線模型[3,4]將整個任務劃分為多個階段,依次生成。
  • 深度神經網絡降噪取得重大突破 清微智能受邀參加國際語音旗艦會議
    論文《PAGAN:一種用於語音增強的自適應生成對抗網絡》對降噪問題中頻域處理過程中會導致相位不匹配的問題,提出一種全新的思路——用對抗網絡的方法,生成網絡使用頻譜信息,對抗網絡使用時域信息,以得到更好的頻域降噪中的相位匹配。語音降噪是最常見的語音應用,但由於噪聲產生是隨機的,產生的原因和特性也相當複雜,因此只有適宜的語音增強技術才能達到較理想的降噪效果。