亮劍INTERSPEECH 2020,思必馳10篇論文被收錄

2021-01-10 IT168

  國際頂級的語音技術圈會議INTERSPEECH 2020於10月25-30日在中國上海舉辦,本次會議主題為「Cognitive Intelligence for Speech Processing」。思必馳作為國內領先的對話式人工智慧平臺公司參加該國際頂會,支持大會在這不平凡的2020年順利舉行,致力推進產學研用的一體化進程。

  思必馳-上海交通大學智能人機互動聯合實驗室10篇論文被INTERSPEECH 2020收錄

  INTERSPEECH 2020共接收有效論文總數2100餘篇,實際收錄數量為1022篇。其中,思必馳-上海交通大學智能人機互動聯合實驗室10篇論文被正式收錄,涉及說話人識別、語音識別及合成、多模態語音分離、口語語義理解等多方面的技術創新研究。

  10篇論文簡要介紹如下:

  《用於單通道多說話人語音識別的上下文嵌入表示學習方法》

  Learning Contextual Language Embeddings for Monaural Multi-talker Speech Recognition

  端到端多說話人語音識別是近年來的熱門話題。本文探討了利用上下文信息來提升多說話人語音識別的性能。我們設計了嵌入表示學習模型來直接從多說話人混合語音中準確地提取上下文嵌入表示,同時進一步提出了兩種高級的訓練策略來改進該新模型,即嵌入表示採樣和兩階段訓練。實驗結果表明,我們的方法在多說話人語音識別上取得了顯著改進,與端到端多說話人語音識別的基線模型相比,本文提出的方法減少了相對25%的詞錯誤率。

  圖:基於上下文嵌入表示的多說話人語音識別模型結構

  《在雞尾酒會中聆聽、觀察、理解:音頻-視頻-上下文的多模態語音分離》

  Listen, Watch and Understand at the Cocktail Party: Audio-Visual-Contextual Speech Separation

  多個說話人同時說話時,人類可以通過聽混合語音,觀看說話者並理解上下文信息,將注意力集中在感興趣的語音上。我們嘗試使用三種模態(視覺模態、語音模態以及上下文信息模態)來解決與說話者無關的語音分離問題。與以前的應用純音頻/音視頻模態的方法相比,我們設計了特定模型來直接從語音混合中提取所有目標說話人的上下文語言信息,然後將這些提取的上下文知識通過適當的注意力機制進一步合併到基於多模態信息的語音分離體系結構中。實驗表明,在新提出的基於上下文信息的語音分離模型上可以觀察到性能顯著改善。

  圖:基於音頻-視頻-上下文的多模態語音分離示意圖

  《多模態作用很大: Voxceleb數據集上的性能飛躍》

  Multi-modality Matters: A Performance Leap on VoxCeleb

  來自不同模態的信息通常相互補償。我們在說話人嵌入特徵級別探索了視聽人員驗證系統的不同信息融合策略和損失函數。我們在說話人嵌入特徵級別上使用視聽知識的最佳系統在VoxCeleb1的三個公開測試列表上達到了0.585%,0.427%和0.735%的EER,這是該數據集上報告的最好的結果。此外,我們基於VoxCeleb1數據集構建了一個嘈雜的測試集。我們在說話人嵌入特徵級別使用數據增廣策略來幫助視聽系統區分噪聲和乾淨的嵌入。通過這種數據增廣策略,所提出的視聽人員驗證系統在嘈雜的測試集上取得了更好的效果。

  圖:在帶噪測試集上的性能比較

  《BERT聯合編碼詞混淆網絡和對話上下文的口語語義理解方法》

  Jointly Encoding Word Confusion Network and Dialogue Context with BERT for Spoken Language Understanding

  口語理解可以將自動語音識別得到的假設轉換為結構化的語義表示,語音識別錯誤會使後續口語理解模塊的性能嚴重下降。為了緩解口語理解不確定性的問題,本文提出一種新穎的基於詞混淆網絡(WCN)和BERT預訓練模型的口語語義理解模型(WCN-BERT SLU),對話上下文中的上一輪系統行為也被用作附加輸入。該模型對WCN和對話上下文進行聯合編碼,在BERT架構中集成了詞混淆網絡的結構信息和語音識別的後驗概率。在口語理解的基準數據集DSTC2上進行的實驗表明,該方法大大優於以前的最佳模型。

  圖:與已發表結果在 DSTC2 數據集上的比較

  《將部分共享神經網絡應用於基於對抗訓練的說話人驗證領域自適應》

  Adversarial Domain Adaptation for Speaker Verification using PartiallyShared Network

  我們使用領域對抗訓練來研究具有不同語言的數據集之間的領域自適應策略。這種架構可以幫助嵌入特徵提取器學習域不變特徵,同時不會犧牲說話者辨別能力。在SRE16粵語和菲律賓語評估測試集上實現了約25.0%的相對平均等錯誤率(EER)的改進。

  《基於雙重對抗領域自適應的泛化重放攻擊檢測》

  Dual-Adversarial Domain Adaptation for Generalized Replay Attack Detection

  我們提出了對偶對抗領域自適應的框架,通過使用兩個領域鑑別器分別對欺騙數據和真實數據進行細粒度的對齊,從而提高欺騙檢測的性能。實驗表明:該框架對於通用的重放攻擊檢測更加地魯棒和有效。

  《噪聲環境下通過半監督音頻事件檢測模型訓練的語音端點檢測器》

  Voice activity detection in the wild via weakly supervised sound event detection

  我們提出了兩種弱監督訓練的通用VAD模型,GPV-F和GPV-B。在真實場景的測試中,GPV-F模型比標準VAD模型提升很多,GPV-B模型也獲得和標準VAD模型可比的性能。

  《神經同態聲碼器》

  Neural Homomorphic Vocoder

  本文提出了神經同態聲碼器(NHV),一種基於源-濾波器模型的神經網絡聲碼器框架,能夠通過多解析度 STFT 損失和對抗損失函數聯合進行優化,計算效率高,可控性和可解釋性好。

  《基於雙編碼器多專家模型結構的中英文語種混雜語音識別》

  Bi-encoder Transformer Network for Mandarin-English Code-switching Speech Recognition using Mixture of Experts

  我們研究使用一種嶄新的端到端模型來進行中英文語種混雜語音識別。實驗結果表明,相比於基線的Transformer模型,我們的結構可以取得大幅度的性能提升。

  思必馳擁有全鏈路的軟硬一體化端到端語音交互系統能力,近年來不斷加碼源頭技術的持續創新,通過思必馳-上海交通大學智能人機互動聯合實驗室、上交大蘇州智研院合作的共同努力,在模型泛化及快速定製能力、變幀率語音識別解碼技術、說話人識別技術、超高壓縮比神經網絡模型壓縮技術、多模態感知及理解和表達技術等方面,均有顯著突破。圍繞對話式AI能力,思必馳會不斷夯實「全鏈路智能對話」技術以及「高自由度定製」方案能力。未來也會持續加大對基礎源頭技術創新與核心產品能力升級的核心投入,持續提升AI+智能終端、AI+智慧服務的快速規模化能力,加速向更多行業場景縱深賦能。

相關焦點

  • Interspeech2020滴滴論文解讀(四)| 基於Conv-TasNet的分離對抗網絡(Conv-TasSAN)
    本篇文章將解讀滴滴的《Conv-TasSAN: Separative Adversarial Network based on Conv-TasNet》論文。在本篇論文中,滴滴提出一個全新的完全時域的對抗分離網絡(Conv-TasSAN),將分離對抗的訓練機制引入到分離任務中,對比原始模型,有效提高了分離網絡的性能。
  • 思必馳-上海交大實驗室14篇 ICASSP 2018入選論文解讀
  • ICML 2019收錄774篇論文:谷歌153篇,清華北大26篇
    近日ICML主辦方公布了今年被收錄的文章名單。據統計,今年大會收到3424份提交申請,共有774篇論文被收錄,接收率為22.6%。一位來自博世公司的網友Andreas Doerr對這份名單按作者和機構進行了分類統計。由於圖片尺寸較大,我們只展示其中一部分。
  • 阿里人工智慧厚積薄發 11篇論文被AAAI 2018收錄
    2018年伊始,阿里巴巴傳來了在 人工智慧 領域的最新成果:11篇論文被人工智慧頂級學術會議AAAI 2018收錄,6位作者受邀赴主會作報告。論文內容涉及對抗學習、神經網絡、提高輕量網絡性能的訓練框架、聊天機器人、無監督學習框架、極限低比特神經網絡等技術方向。
  • 京東雲與AI 10篇論文被AAAI 2020收錄,京東科技實力亮相世界舞臺
    美國時間2月7-12日,AAAI 2020大會在紐約正式拉開序幕,AAAI作為全球人工智慧領域的頂級學術會議,每年評審並收錄來自全球最頂尖的學術論文,這些學術研究引領著技術的趨勢和未來。京東雲與AI在本次大會上有10篇論文被AAAI收錄,涉及自然語言處理、計算機視覺、機器學習等領域,充分展現了京東用技術驅動公司成長的發展模式以及技術實力,技術創新和應用落地也成為這些論文最吸引行業關注的亮點。
  • ECCV2020論文收錄揭曉,百度AI入選10篇論文,涵蓋眾多研究領域
    近日,國際三大計算機視覺頂尖會議之一的ECCV (歐洲計算機視覺國際會議)官方公布了2020年論文收錄結果。結果顯示,ECCV 2020投稿量再創新高,共5025篇有效投稿,相較上屆翻了一倍多。投稿激增的同時,接收率卻大幅下降,今年ECCV共接收發表文章1361篇,接收率為27%,相比上屆降低近5%,其中Oral論文接收率僅為2%,堪稱史上最難ECCV。
  • 好未來7篇學術論文學術論文被四大國際頂級會議收錄
    近日,好未來AI工程院機器學習團隊的7篇學術論文連續入選國際人工智慧教育大會(AIED 2020)、教育數據挖掘國際會議(EDM 2020)、國際聲學、語音與信號處理會議(ICASSP 2020)、國際網際網路大會(WWW 2020)等多個國際頂級學術會議,向世界展示了中國AI+教育的發展潛力
  • 京東雲與AI 10 篇論文被AAAI 2020 收錄,京東科技實力亮相世界舞臺
    美國時間2月7-12日,AAAI 2020大會在紐約正式拉開序幕,AAAI作為全球人工智慧領域的頂級學術會議,每年評審並收錄來自全球最頂尖的學術論文,這些學術研究引領著技術的趨勢和未來。
  • 我校七月新增收錄Web of Science論文數量達59篇
    近日,我校圖書館學科信息研究中心發布2020年7月份濱州醫學院新增收錄Web of Science論文名單,共有59篇學術論文收錄。其中,我校作為第一署名單位或通訊作者單位及我校教師作文第一作者發文38篇,高水平論文共計十餘篇。
  • 京東深耕語音技術研究 4篇論文入選國際語音頂會INTERSPEECH 2020
    備受全球關注的第21屆國際語音通訊會議INTERSPEECH2020在上海召開。作為國際語音通訊協會(International Speech Communication Association,ISCA)主辦的頂級國際會議,INTERSPEECH是國際公認的語音領域兩大頂會之一。此次會議共接收有效論文投稿2140篇,錄取1022篇,覆蓋語音、信號處理、口語語言處理等多個方面。
  • 被ACL 2020收錄11篇NLP論文?百度:小意思,見慣了
    近日,國際自然語言處理領域頂級學術會議「國際計算語言學協會年會」(ACL 2020)公布了今年大會的論文錄用結果。根據此前官方公布的數據,本屆大會共收到 3429 篇投稿論文,投稿數量創下新高。其中,百度共有11篇論文被大會收錄,再次展現出在自然語言處理領域的超高水準。
  • 百度11篇AI論文被ACL 2020收錄 都寫了什麼?
    近日,國際自然語言處理領域頂級學術會議「國際計算語言學協會年會」(ACL 2020)公布了今年大會的論文錄用結果。根據此前官方公布的數據,本屆大會共收到 3429 篇投稿論文,投稿數量創下新高。其中,百度共有11篇論文被大會收錄,再次展現出在自然語言處理領域的超高水準。
  • 京東數字科技集團:今年共有5篇論文被ICML收錄
    來源:TechWeb.com.cn【TechWeb】7月22日消息,京東數字科技集團對外宣布,集團有5篇論文被ICML 收錄。如果從ICML發布的論文接收結果來看,京東數科的入選數量位列中國企業第四名。
  • NeurIPS 引用量最高的10篇論文!Faster R-CNN登頂!何愷明和孫劍均有兩篇論文入圍
    本文就來盤點NeurIPS 2015-2019年引用量最高的10篇論文。根據此數據,一方面能看出這段深度學習黃金時期的研究熱點,另一方面查漏補缺,看看這些必看的Top級論文是不是都掌握了。算是現在入門目標檢測學習的第一篇論文,也是R-CNN系列的最終篇。
  • 雲知聲三篇論文被 NLP 國際頂會——ACL 2020收錄
    日前,自然語言處理領域國際頂級會議 ACL 2020 (Association for Computational Linguistics)論文接收結果公布。大會共收到 3429 篇投稿論文,投稿數量創下新高。作為計算語言學和自然語言處理領域最重要的頂級國際會議,ACL 錄取論文代表了自然語言處理領域在過去一年最新和最高的科技水平以及未來發展潮流。
  • 前瞻研究和落地應用兼顧,ACL 2020百度11篇被收錄論文解讀
    前瞻研究和落地應用兼顧,ACL 2020百度11篇被收錄論文解讀 2020-04-21 17:47
  • ICCV 引用量最高的10篇論文!何愷明兩篇一作論文:Mask R-CNN和PReLU,Facebook佔據四席!
    篇論文,詳見:何愷明ResNet登頂,YOLO佔據兩席!各位CVers反映內容很贊,於是Amusi 快速整理了ICCV 引用量最高的10篇論文。在谷歌發布的2020年的學術指標(Scholar Metrics)榜單,ICCV 位列總榜第29位,是計算機視覺領域排名第二的大會!
  • 港中大(深圳)博士生以第一作者的3篇論文被頂級國際會議收錄!
    近日,香港中文大學(深圳)理工學院和未來智聯網絡研究院喜報頻傳,我校博士生作為第一作者的三篇論文被頂級國際會議收錄。三名博士生的論文被IEEE計算機視覺與模式識別頂會CVPR 2020和信息檢索頂級會議ACM SIGIR 2020收錄。
  • 明年中國頂級AI論文有望超越美國 曠視被CVPR 2019收錄14篇
    報告指出,「中國在已發表AI論文領域的表現已超過美國」,並斷言按照此趨勢發展下去,中國有望分別於今年在引用率前50%的AI論文領域、明年在引用率前10%的AI論文領域,以及2025年在引用率前1%的AI論文領域全面超過美國。
  • 6156篇SCI論文!華中科技大學2019年度高端論文篇次增長顯著!
    2020年12月29日,中國科學技術信息研究所(以下簡稱中信所)在京召開線上新聞發布會,發布2019年度中國科技論文各種數據的統計結果。2019年度,華中科技大學高端論文產出相關數據報告如下:中國卓越科技論文收錄我校論文4855篇,位列全國高校排名第5名,較去年上升1位,篇次較上年增長了1273篇;SCI(科學引文索引擴展版)學科影響因子前1/10的期刊論文收錄我校1150篇,繼續位列全國高校第4名;而據SCI統計,我校科技工作者作為第一作者參與國際合著論文計1484篇,繼續位列全國高校第5名,篇次較上年增長了357篇