2020年10月25日-30日,備受全球關注的第21屆INTERSPEECH2020 國際會議將在上海舉辦,科大訊飛作為本屆頂會的獨家Founding贊助商,全程支持頂會在華順利落地。
據了解,INTERSPEECH 是國際語音通訊協會(International Speech Communication Association,ISCA)主辦的頂級國際會議,也是全世界公認的語音領域兩大頂會之一。
此次會議共接收有效論文投稿總數2140篇,錄取1022篇,覆蓋語音、信號處理、口語語言處理等多個方面。其中,科大訊飛研究院聯合中國科學技術大學語音實驗室共發表收錄14篇論文,覆蓋語音識別、語音合成、語音增強、語音情感識別、聲音事件檢測、說話人識別等多個技術方向的創新,這些論文將受邀在線上展示,「讓機器更好傾聽」再次展現科大訊飛源頭技術創新力,產學研用深度融合孕育撬動未來的力量。
在語音識別方向,科大訊飛重點針對說話人自適應技術進行研究。這是語音識別中的關鍵技術,目的是讓算法模型根據每個說話人不同的發音特性,進行快速自適應,從而達到更好的識別效果。
在《Speaker Adaptive Training for Speech Recognition Based on Attention-over-Attention Mechanism》論文中,針對這一技術難題,研發團隊提出了一種是基於層疊注意力(Attention-over-Attention)機制的方法,以提升句子級別的說話人表達的準確性與穩定性。該方法在SWB英文數據集和AISHELL-2中文數據集上相對說話人無關模型提升了8%以上,相對傳統的基於句子級別的d-vector自適應方案提升幅度超過6%,而相對基於幀級別注意力機制的自適應方案提升了4%。
在語音合成方向,非平行性語音轉換任務是學界研究的熱點和難點問題。語音轉換的目標是對輸入的源語音進行一定處理,使輸出聽起來像目標人的語音,並在這個過程中保持語義信息不變。它在個性化語音合成、娛樂應用、聲音匿名化處理等方面有廣泛的應用場景。
研發團隊在《Recognition-Synthesis Based Non-Parallel Voice Conversion with Adversarial Learning》中,提出了一種結合對抗學習的識別-合成非平行語音轉換模型。通過聯合優化識別合成模型,並引入對抗學習目標,使得語義特徵和說話人音色特徵更加解耦,從而提升語音轉換的相似度。
在語音增強方向,研發團隊將深度學習技術和傳統麥克風陣列算法進行結合,在CHiME-6(CHiME,國際多通道語音分離和識別大賽)雞尾酒會場景的語音分離和識別效果上取得了顯著的提升。 《A Space-and-Speaker-Aware Iterative Mask Estimation Approach to Multi-channel Speech Recognition in the CHIME-6 Challenge》論文中,研發人員提出一種基於空間-說話人同步感知的掩蔽信號迭代估計(Spatial-and-Speaker-Aware Iterative Mask Estimation, SSA-IME)的方法,對語音分離性能有顯著提升,並且在該任務所有提交系統中實現最低的詞錯誤率。
在說話人識別方向,如何獲取準確的說話人標籤一直是說話人識別的難點。研發團隊提出了結合說話人確認和說話人分類的方法,減少了算法模型對於精準標註數據的依賴,提升說話人識別的準確度。
這些源頭技術創新將進一步增強科大訊飛的智能語音能力,不但能夠賦能訊飛翻譯機、訊飛聽見、訊飛學習機等產品,使其不斷優化迭代,為用戶帶來更便捷、更優質的服務;還能賦能醫療、金融、司法、教育等行業領域,推動A.I.+行業的創新應用。
【免責聲明:CSDN本欄目發布信息,目的在於傳播更多信息,豐富網絡文化,稿件僅代表作者個人觀點,與CSDN無關。其原創性以及中文陳述文字和文字內容未經本網證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本網不做任何保證或者承諾,請讀者僅作參考,並請自行核實相關內容。凡註明為其他媒體來源的信息,均為轉載自其他媒體,轉載並不代表本網贊同其觀點,也不代表本網對其真實性負責。您若對該稿件由任何懷疑或質疑,請即與CSDN聯繫,我們將迅速給您回應並做處理。】