雲知聲原創技術獲肯定:多篇論文被國際語音頂會 INTERSPEECH 2020...

2021-01-10 驅動中國
來源: 華夏晚報網 文:薛剛   2020-10-23/11:31

近日,全球語音頂會INTERSPEECH 2020 公布了論文接收結果,雲知聲聯合上海師範大學、安徽大學等高校發表多篇論文成功入選。分別在中英文混合語音識別、大詞彙量連續語音識別和多模態虛擬形象生成等領域取得突破,代表著雲知聲在語音及多模態交互領域持續的底層技術創新。同時,雲知聲也是今年會議的金牌贊助商,致力於加強工業界和學術界的技術協作,支持會議順利舉行。

INTERSPEECH 是世界上規模最大、最全面的頂級語音領域會議,由國際語音通信協會 ISCA(International Speech Communication Association)組織。該會議每年舉辦一次,今年大會是第 21 屆 INTERSPEECH 會議,也是第二次在中國舉辦。本屆會議以「Cognitive Intelligence for Speech Processing」為主題,內容涵蓋信號處理、語音識別、自然語言處理、神經機器翻譯等領域,收到超過 2100 篇投稿論文。會議研究成果代表著語音相關領域的最新研究水平和未來的技術發展趨勢。

作為 INTERSPEECH 會議的一部分,國際語音合成比賽 Blizzard Challenge 2020 研討會將於 10 月 30 日舉行。Blizzard Challenge 是當今全球規模最大、最具影響力的語音合成領域頂尖賽事,在今年的 Blizzard Challenge 比賽中,由雲知聲-上海師範大學自然人機互動聯合實驗室申報的系統在強敵環伺的賽場中突出重圍,首次參賽即斬獲中文普通話、上海話多項關鍵指標第一。在 10 月 30 日的研討會上,研究團隊會通過 live online oral presentation 的形式對參賽系統進行詳細解讀,歡迎參與和討論。

中英文混合語音識別

在中英文混合語音識別方向,針對混合語言語音 (code-switching) 場景,研究團隊提出了一個基於Transformer模型的多編碼器-解碼器結構的語碼轉換混合語音識別方案(Multi-Encoder-Decoder Transformer for Code-Switching Speech Recognition),該結構具有兩個對稱的與特定語言相關的編碼器,以捕獲各種語言的特有屬性,從而改善每種語言的深度聲學表示。這些深度表示被進一步在解碼器模塊中使用特定於語言的多頭注意力機制進行有效整合,以最終提升整個端到端識別系統的性能。同時,團隊還使用了大規模單語言語料庫對每個編碼器及其相應的注意力模塊進行了預訓練,旨在減輕語碼轉換訓練數據不足的影響。藉助預訓練方式,研究團隊的模型分別在 SEAME 中以中文和英文為主的評估集上達到 16.7% 和 23.1% 的詞錯誤率,刷新了在此數據集上的最好成績,相對之前論文的最佳成績提升了12.5%的性能。

語碼轉換語音實例及多編碼器的輸出

大詞彙量連續語音識別

研究團隊提出了一種新穎的帶深度聲學結構和 Self-and-Mixed 注意力解碼器結構(Self-and-Mixed Attention Decoder with Deep Acoustic Structure for Transformer-based LVCSR),其利用具有深度聲學結構的 Self-and-Mixed 注意力解碼器,以改善基於 Transformer 的大詞彙量連續語音識別的聲學表示。具體來說,研究團隊引入一種自注意力機制,以獲取深層的聲學表徵。研究團隊還設計了一種混合注意力機制,該機制可以在共享的特徵空間中同時學習不同層次的聲學表徵及其對應的語言信息之間的對齊關係。本項研究工作在 AIShell-1 數據集上曾刷新最佳成績,字符錯誤率降低至 5.1%,相對之前的最佳成績提升了 24% 的性能,顯著提升了識別效果。

多模態虛擬形象生成

如何在提高虛擬人面部動作的豐富和自然度,是目前虛擬人生成的熱點問題。研究團隊提出了一種基於面部關鍵點和改進的  GAN 模型的兩級模型生成方案,實現從語音到虛擬人形象的生成,在本方案中,利用面部關鍵點作為語音特徵到視頻生成之間的信息表達中介,同時引入 attention 機制,解決在虛擬人生成過程中不同區域因子對視頻效果質量的影響。實驗生成的視頻結果表明本方法保持了豐富的面部細節、精確的嘴部動作和自然的頭動效果。在娛樂應用、擬人化交互等領域有廣泛的應用和落地場景。

人工智慧成功的關鍵在應用,而所有應用皆源自底層技術。為不斷拓寬自身基礎能力邊界,雲知聲深入布局了語音、語言、視覺圖像、機器翻譯、AI晶片等諸多方向,形成豐富的具備全球領先的原創技術積累,相關研究成果多次在 NIPS、NIST、WMT、ACL 等全球頂會與賽事中得以印證。

本次在 INTERSPEECH 2020 大會上這些原創技術的提出,也將進一步夯實雲知聲全棧+硬核的人工智慧技術「底座」,提高雲知聲在智能語音和多模態人機互動領域的技術領先性,推動人工智慧系統以更人性化、高效的方式服務於千行百業,為用戶帶來更好的交互體驗。

--

免責聲明:

1.本文援引自網際網路,旨在傳遞更多網絡信息,僅代表作者本人觀點,與本網站無關。

2.本文僅供讀者參考,本網站未對該內容進行證實,對其原創性、真實性、完整性、及時性不作任何保證。

相關焦點

  • 雲知聲- CMU 合作論文入選全球 AI 頂會 NeurIPS 2020
    在官方公布的論文入選名單中,雲知聲與 CMU (卡內基梅隆大學)張坤教授團隊等合作的針對機器學習典型的無監督領域自適應問題論文《Domain Adaptation As a Problem of Inference on Graphical Models》,憑藉基於數據驅動的圖模型框架解決方案的創新研究成功入選,彰顯了雲知聲在人工智慧與機器學習原創技術領域的持續創新能力。
  • 京東深耕語音技術研究 4篇論文入選國際語音頂會INTERSPEECH 2020
    其實,在這些常見場景之外,京東的語音技術也已經擁有成熟的應用領域,例如京東智能客服和京東物流大件外呼,語音技術的相關研究也取得了重大進展,並獲得國際認可。  備受全球關注的第21屆國際語音通訊會議INTERSPEECH2020在上海召開。
  • 科大訊飛源頭技術創新再接力,14篇論文被國際語音頂會INTERSPEECH...
    2020年10月25日-30日,備受全球關注的第21屆INTERSPEECH2020 國際會議將在上海舉辦,科大訊飛作為本屆頂會的獨家Founding贊助商,全程支持頂會在華順利落地。據了解,INTERSPEECH 是國際語音通訊協會(International Speech Communication Association,ISCA)主辦的頂級國際會議,也是全世界公認的語音領域兩大頂會之一。此次會議共接收有效論文投稿總數2140篇,錄取1022篇,覆蓋語音、信號處理、口語語言處理等多個方面。
  • 雲知聲三篇論文被 NLP 國際頂會——ACL 2020收錄
    日前,自然語言處理領域國際頂級會議 ACL 2020 (Association for Computational Linguistics)論文接收結果公布。大會共收到 3429 篇投稿論文,投稿數量創下新高。作為計算語言學和自然語言處理領域最重要的頂級國際會議,ACL 錄取論文代表了自然語言處理領域在過去一年最新和最高的科技水平以及未來發展潮流。
  • 雲知聲-上海師範大學人機互動獲BC2020國際語音合成大賽第一名
    Blizzard Challenge 2020 國際語音合成大賽剛剛落下帷幕。由雲知聲-上海師範大學自然人機互動聯合實驗室申報的系統在強敵環伺的賽場中突出重圍,首次參賽即斬獲中文普通話、上海話多項關鍵指標第一,再一次印證了雲知聲語音合成技術在業界的領先水準。
  • 雲知聲-上師大人機互動實驗室獲BC2020國際語音合成大賽第一名
    Blizzard Challenge 2020 國際語音合成大賽剛剛落下帷幕。由雲知聲-上海師範大學自然人機互動聯合實驗室申報的系統在強敵環伺的賽場中突出重圍,首次參賽即斬獲中文普通話、上海話多項關鍵指標第一,再一次印證了雲知聲語音合成技術在業界的領先水準。
  • 雲知聲入選 ACL 2020 的三篇論文,都研究了什麼?
    日前,自然語言處理領域國際頂級會議 ACL 2020 (Association for Computational Linguistics)論文接收結果公布。大會共收到 3429 篇投稿論文,投稿數量創下新高。作為計算語言學和自然語言處理領域最重要的頂級國際會議,ACL 錄取論文代表了自然語言處理領域在過去一年最新和最高的科技水平以及未來發展潮流。
  • 亮劍INTERSPEECH 2020,思必馳10篇論文被收錄
    國際頂級的語音技術圈會議INTERSPEECH 2020於10月25-30日在中國上海舉辦,本次會議主題為「Cognitive Intelligence for Speech Processing」。思必馳作為國內領先的對話式人工智慧平臺公司參加該國際頂會,支持大會在這不平凡的2020年順利舉行,致力推進產學研用的一體化進程。
  • Interspeech2020滴滴論文解讀(四)| 基於Conv-TasNet的分離對抗網絡(Conv-TasSAN)
    本篇文章將解讀滴滴的《Conv-TasSAN: Separative Adversarial Network based on Conv-TasNet》論文。在本篇論文中,滴滴提出一個全新的完全時域的對抗分離網絡(Conv-TasSAN),將分離對抗的訓練機制引入到分離任務中,對比原始模型,有效提高了分離網絡的性能。
  • 雲知聲-中科院自動化所語言與知識計算聯合實驗室三篇論文被 ACL...
    日前,自然語言處理領域國際頂級會議 ACL 2020 (Association for Computational Linguistics)論文接收結果公布。大會共收到 3429篇投稿論文,投稿數量創下新高。作為計算語言學和自然語言處理領域最重要的頂級國際會議,ACL錄取論文代表了自然語言處理領域在過去一年最新和最高的科技水平以及未來發展潮流。
  • 平安科技聯邦學習技術團隊再創佳績:5篇論文被國際語音會議...
    (原標題:平安科技聯邦學習技術團隊再創佳績:5篇論文被國際語音會議INTERSPEECH 2020錄用)
  • 搜狗新動態:雲知聲語音服務嶄露頭角
    當然,作為一家主要以輸入法馳騁於移動網際網路的企業——搜狗而言,其對於語音服務業務支持的選擇也會成為眾廠商矚目的焦點。王小川表示,搜狗的主要產品是輸入法,但輸入法的根本目的不是拼音,而是輸入,所以早在2011年底,搜狗就開始投入資金和人力去做語音服務,這也是其在無線布局中會強調輸入法加語音識別的原因。
  • 好未來測量技術論文再次入選國際教育測量學頂會NCME 2021
    近日,好未來集團中臺內容雲教育測量和算法團隊發表的兩篇有關教育測量技術理論與實踐的論文獲選參加美國國家教育測量委員會
  • 雲知聲衝擊AI語音第一股,憑什麼?
    2020 年是不平凡的一年,突如其來的疫情,雖然改變了人們的生活方式,但卻為人工智慧的發展按下了加速鍵,語音的「非接觸」交互優勢被充分的挖掘和放大,語音 AI 也迎來了行業紅利期。 在經歷了上半年的「沉寂」後,語音 AI 企業在下半年集體「蓄勢待發」了。
  • 雲知聲:自然語言處理算法在醫療領域率先應用
    近日,記者獲悉,自然語言處理領域國際頂級會議 ACL 2020 (Association for Computational Linguistics)論文接收結果公布。
  • 獲全球頂會NeurIPS、COLT雙認可 百度研究院優質論文解讀AI技術趨勢
    (原標題:獲全球頂會NeurIPS、COLT雙認可 百度研究院優質論文解讀AI技術趨勢)
  • 雲知聲闖關科創板:營收增速放緩智能語音交互產品佔比下降
    目前全球智能語音行業的市場參與者分為兩類,包括網際網路科技巨頭谷歌、蘋果、亞馬遜、百度以及智能語音技術公司Nuance、Cerence、科大訊飛、思必馳等。雲知聲的主營業務包括提供智能語音交互產品、智慧物聯解決方案、人工智慧技術服務三大部分。
  • AI視覺技術突破創新,國際學術權威CVPR收錄多篇聯發科論文
    該會議收錄的論文代表了AI視覺領域最新的發展趨勢和領先的技術水平,獲選單位均為全球一流大學、研究機構以及頂尖企業,如牛津大學、麻省理工學院、微軟亞洲研究院、Google、Facebook等。  CVPR會議一向重視突破性的創新,堪稱AI視覺界的「奧林匹克」,2020年CVPR的論文入選率僅有22%,在激烈的技術角逐下能獲選實屬不易。
  • INTERSPEECH 2020 | 騰訊AI Lab解讀語音識別與合成方向及入選論文
    感謝閱讀騰訊AI Lab微信號第107篇文章。本文將分組介紹語音領域頂級會議 INTERSPEECH 2020 中騰訊 AI Lab 的重點研究方向和入選論文。語音技術頂級會議 INTERSPEECH 今年將於 10 月 25 - 29 日在線上舉行。根據主辦方發布的數據,INTERSPEECH 2020共接收到有效論文投稿 2140 篇,其中 1022 篇被接收。
  • 雲知聲:最新自然語言處理算法已在醫療業務率先應用
    中證網訊(記者 董添)近日,自然語言處理領域國際頂級會議 ACL 2020 (Association for Computational Linguistics)論文接收結果公布。