國際頂級的語音技術圈會議INTERSPEECH 2020於10月25-30日在中國上海舉辦,本次會議主題為「Cognitive Intelligence for Speech Processing」。思必馳作為國內領先的對話式人工智慧平臺公司參加該國際頂會,支持大會在這不平凡的2020年順利舉行,致力推進產學研用的一體化進程。
思必馳-上海交通大學智能人機互動聯合實驗室10篇論文被INTERSPEECH 2020收錄
INTERSPEECH 2020共接收有效論文總數2100餘篇,實際收錄數量為1022篇。其中,思必馳-上海交通大學智能人機互動聯合實驗室10篇論文被正式收錄,涉及說話人識別、語音識別及合成、多模態語音分離、口語語義理解等多方面的技術創新研究。
10篇論文簡要介紹如下:
《用於單通道多說話人語音識別的上下文嵌入表示學習方法》
Learning Contextual Language Embeddings for Monaural Multi-talker Speech Recognition
端到端多說話人語音識別是近年來的熱門話題。本文探討了利用上下文信息來提升多說話人語音識別的性能。我們設計了嵌入表示學習模型來直接從多說話人混合語音中準確地提取上下文嵌入表示,同時進一步提出了兩種高級的訓練策略來改進該新模型,即嵌入表示採樣和兩階段訓練。實驗結果表明,我們的方法在多說話人語音識別上取得了顯著改進,與端到端多說話人語音識別的基線模型相比,本文提出的方法減少了相對25%的詞錯誤率。
圖:基於上下文嵌入表示的多說話人語音識別模型結構
《在雞尾酒會中聆聽、觀察、理解:音頻-視頻-上下文的多模態語音分離》
Listen, Watch and Understand at the Cocktail Party: Audio-Visual-Contextual Speech Separation
多個說話人同時說話時,人類可以通過聽混合語音,觀看說話者並理解上下文信息,將注意力集中在感興趣的語音上。我們嘗試使用三種模態(視覺模態、語音模態以及上下文信息模態)來解決與說話者無關的語音分離問題。與以前的應用純音頻/音視頻模態的方法相比,我們設計了特定模型來直接從語音混合中提取所有目標說話人的上下文語言信息,然後將這些提取的上下文知識通過適當的注意力機制進一步合併到基於多模態信息的語音分離體系結構中。實驗表明,在新提出的基於上下文信息的語音分離模型上可以觀察到性能顯著改善。
圖:基於音頻-視頻-上下文的多模態語音分離示意圖
《多模態作用很大: Voxceleb數據集上的性能飛躍》
Multi-modality Matters: A Performance Leap on VoxCeleb
來自不同模態的信息通常相互補償。我們在說話人嵌入特徵級別探索了視聽人員驗證系統的不同信息融合策略和損失函數。我們在說話人嵌入特徵級別上使用視聽知識的最佳系統在VoxCeleb1的三個公開測試列表上達到了0.585%,0.427%和0.735%的EER,這是該數據集上報告的最好的結果。此外,我們基於VoxCeleb1數據集構建了一個嘈雜的測試集。我們在說話人嵌入特徵級別使用數據增廣策略來幫助視聽系統區分噪聲和乾淨的嵌入。通過這種數據增廣策略,所提出的視聽人員驗證系統在嘈雜的測試集上取得了更好的效果。
圖:在帶噪測試集上的性能比較
《BERT聯合編碼詞混淆網絡和對話上下文的口語語義理解方法》
Jointly Encoding Word Confusion Network and Dialogue Context with BERT for Spoken Language Understanding
口語理解可以將自動語音識別得到的假設轉換為結構化的語義表示,語音識別錯誤會使後續口語理解模塊的性能嚴重下降。為了緩解口語理解不確定性的問題,本文提出一種新穎的基於詞混淆網絡(WCN)和BERT預訓練模型的口語語義理解模型(WCN-BERT SLU),對話上下文中的上一輪系統行為也被用作附加輸入。該模型對WCN和對話上下文進行聯合編碼,在BERT架構中集成了詞混淆網絡的結構信息和語音識別的後驗概率。在口語理解的基準數據集DSTC2上進行的實驗表明,該方法大大優於以前的最佳模型。
圖:與已發表結果在 DSTC2 數據集上的比較
《將部分共享神經網絡應用於基於對抗訓練的說話人驗證領域自適應》
Adversarial Domain Adaptation for Speaker Verification using PartiallyShared Network
我們使用領域對抗訓練來研究具有不同語言的數據集之間的領域自適應策略。這種架構可以幫助嵌入特徵提取器學習域不變特徵,同時不會犧牲說話者辨別能力。在SRE16粵語和菲律賓語評估測試集上實現了約25.0%的相對平均等錯誤率(EER)的改進。
《基於雙重對抗領域自適應的泛化重放攻擊檢測》
Dual-Adversarial Domain Adaptation for Generalized Replay Attack Detection
我們提出了對偶對抗領域自適應的框架,通過使用兩個領域鑑別器分別對欺騙數據和真實數據進行細粒度的對齊,從而提高欺騙檢測的性能。實驗表明:該框架對於通用的重放攻擊檢測更加地魯棒和有效。
《噪聲環境下通過半監督音頻事件檢測模型訓練的語音端點檢測器》
Voice activity detection in the wild via weakly supervised sound event detection
我們提出了兩種弱監督訓練的通用VAD模型,GPV-F和GPV-B。在真實場景的測試中,GPV-F模型比標準VAD模型提升很多,GPV-B模型也獲得和標準VAD模型可比的性能。
《神經同態聲碼器》
Neural Homomorphic Vocoder
本文提出了神經同態聲碼器(NHV),一種基於源-濾波器模型的神經網絡聲碼器框架,能夠通過多解析度 STFT 損失和對抗損失函數聯合進行優化,計算效率高,可控性和可解釋性好。
《基於雙編碼器多專家模型結構的中英文語種混雜語音識別》
Bi-encoder Transformer Network for Mandarin-English Code-switching Speech Recognition using Mixture of Experts
我們研究使用一種嶄新的端到端模型來進行中英文語種混雜語音識別。實驗結果表明,相比於基線的Transformer模型,我們的結構可以取得大幅度的性能提升。
思必馳擁有全鏈路的軟硬一體化端到端語音交互系統能力,近年來不斷加碼源頭技術的持續創新,通過思必馳-上海交通大學智能人機互動聯合實驗室、上交大蘇州智研院合作的共同努力,在模型泛化及快速定製能力、變幀率語音識別解碼技術、說話人識別技術、超高壓縮比神經網絡模型壓縮技術、多模態感知及理解和表達技術等方面,均有顯著突破。圍繞對話式AI能力,思必馳會不斷夯實「全鏈路智能對話」技術以及「高自由度定製」方案能力。未來也會持續加大對基礎源頭技術創新與核心產品能力升級的核心投入,持續提升AI+智能終端、AI+智慧服務的快速規模化能力,加速向更多行業場景縱深賦能。