達摩院公布語音AI新進展:逼近真人的語音交互體驗

2020-12-16 DOIT

9月18日，在2020雲棲大會上，達摩院公布了語音AI技術的最新突破：端上語音識別和語音合成能力首次達到媲美雲端的水平，這意味著未來個人用戶在移動終端即可輕鬆體驗逼近真人的語音技術。據介紹，達摩院最新的語音技術已在淘寶直播、釘釘會議、高德導航等場景大規模應用，正全面對外開放。

語音AI的核心是讓機器聽懂人話、並能開口說話，語音合成和語音識別技術是實現這些目標的基礎。但由於過去幾年業界在語音模型上未能有突破性創新，高精度的語音交互任務長期依賴雲端算力，造成了語音指令處理不可避免的延時等問題。

此次達摩院率先在算法模型上實現創新，推出E2E-ASR端到端語音識別技術及全新的端上KAN-TTS語音合成技術，首次在移動終端上實現接近雲端的語音識別與合成效果。

據介紹，在語音識別方面，達摩院提出SAN-M網絡結構及基於SCAMA的流式端到端語音識別框架，提升計算效率的同時，還將高難度場景中的語音識別錯誤率降低近三成。達摩院研發的語音識別系統，可純離線、低成本部署在手機端，原型系統不到40MB，識別效果媲美超過100GB的達摩院上一代DFSMN-CTC雲端系統。

繼去年發布仿真率可達97%的自研KAN-TTS語音合成模型後，達摩院此次在移動端實現了對語音模型的「大瘦身」，相比雲端，端上模型大小壓縮了101倍，計算量壓縮35倍，通過終端算力即可快速復現逼近真人的語音。例如，高德地圖近期發布了利用達摩院全新語音技術合成的李佳琦、林志玲、小團團等明星導航語音包，語音效果較之前更自然，斷網狀態下語音導航也不會中斷。

達摩院語音實驗室負責人鄢志傑表示，「在終端處理語音任務一直是學術界和工業界的難題，達摩院最新的語音技術有效釋放了終端設備的能力，讓終端也能輕鬆處理語音任務，我們相信，在終端算力和雲端算力的協同支撐下，未來語音交互將無處不在。」

過去幾年，阿里語音AI取得了一系列突破。2019年，阿里語音AI入選《麻省理工評論》「全球十大突破性技術」，是唯一上榜的中國科技公司；今年7月IDC發布的《中國AI雲服務市場半年度研究報告》顯示，阿里語音AI以44%的市場份額，在雲上語音AI市場中位居第一。

未經允許不得轉載：DOIT » 達摩院公布語音AI新進展：逼近真人的語音交互體驗

相關焦點

從手機跨越到電視,Breeno 語音彎道搶佔語音交互新賽道

OPPO 自家的 AI 助理 Breeno 語音，此次還為 OPPO 電視訂製了一整套語音交互解決方案，提升交互體驗的同時，還為 OPPO 智能電視提供了內容和服務生態的便捷入口。眾所周知，智能音箱帶動了家庭場景語音交互的普及。
AI虛擬主播現身淘寶直播間,替代真人主播上崗雙11

【環球網科技綜合報導】10月28日消息，今日記者獲悉，雙11前夕，阿里AI虛擬主播現身淘寶直播間，替代真人主播「上崗」雙11。該虛擬主播形神兼備，聲音、情緒、動作逼近真人，不僅能聽會說，與千萬觀眾對答如流，還會跳舞、Rap，完成各種複雜動作。據悉，阿里AI虛擬主播即將在紀梵希、歐萊雅和雀巢等商家直播間上線。
智能語音交互應該如何設計?

編輯導語：隨著亞馬遜、小米、阿里巴巴等大公司都推出了智能語音產品，智能語音互動設計成為了一個值得探索的領域。語音交互如何設計才能達到更自然的交互反饋、更好的傳達情感，這是目前需要解決的問題。對於用戶來說，希望能與智能產品建立親切的信任感，越相處越好用。AI時代，深知我者，才能久居我心。
準確率97.03% 超越人類專業速記員水平語音識別世界紀錄在重慶誕生

10月 29日，入駐兩江新區數字經濟產業園的AI獨角獸重慶中科雲叢科技有限公司在語音識別技術上取得重大突破，該企業融合圖像識別與語音識別的優勢，推出了全新Pyramidal-FSMN語音識別模型，大幅刷新語音識別世界紀錄。
...Scape:阿里連續兩年位居對話式AI領導者象限 ,遠超傳統語音廠商

對話式AI是人機互動的基礎，智能音箱、地圖導航、智能客服等均離不開報告顯示，以阿里云為代表的雲廠商在語音合成、語音識別、自然語言處理方面的產品技術能力正全面超越傳統語音廠商。例如，達摩院自研的StructBERT、PALM、VECO等模型，有效提高語言知識與上下文理解任務的準確率和對輸入文本的理解能力，可幫助機器實現接近人類水平的多輪對話
智能語音在人機互動中的應用

人機語音交互的發展階段包括以下幾個方面：語音識別語音識別是人機語音交互的第一步，主要作用是將用戶的語音轉換為文字，以便機器的結構化處理。當前，自然語言理解是人機語音交互中較弱的一環，暫時還無法應用到全場景交互中，但是在垂直領域（金融、醫療、教育等）可用，並且可解決部分客服、銷售業務。在閒聊場景中，目前智能音響的應用比較深入，多個廠商的智能音響可支持百科問答、導購交互、日常聊天等功能。
專訪阿里 iDST 語音組總監鄢志傑:智能語音交互從技術到產品,有...

iDST 智能語音交互小組在做哪些事情？雷鋒網：阿里 iDST 部門智能語音交互小組主要負責什麼？鄢志傑：我們這邊是智能語音交互的，包括幾個部分，通常我們講語音進和語音出。語音進就是語音識別，識別成了文字以後，就進入到我們的對話系統裡，做這句話的理解。
Avaya結合阿里雲、達摩院為客戶提供更智慧解決方案

2020年5月26日，Avaya 與阿里雲舉辦線上發布會，揭曉了Avaya百年企業級經驗和通信能力以及阿里達摩院前沿科技創新與落地，會後Avaya大中華區總裁富莉莉、Avaya大中華區首席技術官李農、阿里巴巴達摩院語音實驗室負責人鄢志傑、阿里雲國際產品與解決方案部負責人北姜接受了環球網科技頻道的採訪。
百度財報首秀智能音箱交互次數,語音交互的春天來了?

值得一提的是，百度特意在財報中單獨公布了以小度智能音箱為主的第一方交互數據，或許可以從中讀出這樣兩個信號：其一，小度智能音箱的市場銷量在公司層已經得到了的認可；其二，智能音箱背後的語音交互或將上升到了公司整體戰略。
OPPO小布助手2.0到來,升級 AI 性能,語音交互更智能

在這萬物互聯的時代，人工智慧技術蓬勃發展，人機之間的智能交互愈發受到群眾的青睞，而語音助手更是成了這其中繞不開的話題。但是目前存在的語音助手，大部分並不十分「智能」，存在功能不多、語音識別不準、語音喚醒困難等種種問題，給用戶的體驗並不友好。
專訪思必馳俞凱:大規模可定製的對話式語音交互,已經來臨

近些年，深度學習給語音交互的性能和研究方法帶來了極大進步。但進步並不意味著就沒有挑戰。語音識別的精度總在不斷刷新，卻並沒有達到用戶使用體驗的門檻。思必馳聯合創始人、首席科學家俞凱堅定地認為，大規模可定製的對話式語音交互技術已經到來。
支持「免喚醒」,TCL V8全場景AI電視成未來語音交互引領者!

基於目前市面上各品牌語音交互的設計來看，當下大多數智能電視的語音操作都需要頻繁喚醒交互。以某品牌舉例，當你看電影時，要先喊出"xx同學，我想看xxx"，"xx同學，播放第幾集"，"xx同學，調節音量"……用遙控器幾秒鐘就能完成的事，在語音交互下反而花了更長的時間。
如何讓AI發音更像真人?平安語音技術讓聲音更有溫度

你收到的語音到底是不是真人呢?可別那麼快就下定論!近期,不少人遭遇了「本人語音」的電信詐騙。當收到朋友的借錢微信後,人們的第一反應通常是朋友被盜號了,但「朋友」立馬補充了一條「真人語音」做確認。
天貓精靈妙物TWS真無線藍牙耳機:支持AI語音交互?絕了

隨著科技技術的飛速發展，人工智慧交互體驗在我們生活中已經變的十分常見了，在眾多的AI交互體驗當中，支持語音交互的智能音箱應該是最為常見的，不過今天筆者並不是要和大家分享智能音箱產品，而是要和大家分享一款支持語音操控的智能耳機「天貓精靈妙物TWS真無線藍牙耳機」。那麼這款產品表現的到底怎麼樣呢？接下來就讓我們一起來了解一下吧！
2017年馬雲豪擲1000億打造的達摩院,現在怎麼樣了?

但其實我國晶片領域中的企業不僅僅只有中芯國際，我們還有這紫光展銳等晶片企業，值得一提的是我國知名電商企業阿里旗下也有著紮根於晶片領域中的企業，那就是在2017年馬雲豪擲1000億打造的達摩院。現如今，距離阿里成立達摩院已經過去了近3年了，那麼現在阿里達摩院怎麼樣了呢？
達摩院AI緊急支援全國汛情分析速度提升百倍

在全國「七下八上」防汛關鍵期，阿里巴巴達摩院1周內緊急升級遙感AI技術，開發出應用於防汛的水體識別算法，支持水利部相關監測與分析工作。在重點超警戒水位地區，處理影像數量比平時提升5倍，影像分析速度提升百倍，大大提升防汛工作智能化水平。
晶片自主少不了阿里,馬雲砸下1000億成立達摩院,如今怎麼樣了

自從去年5月華為被美國列入實體清單後，便承受了美國一輪又一輪的打壓，即使今年美國被Yi情弄得焦頭爛額，川普政府也不忘對華為展開新一輪的制裁政策。根據媒體消息，美國對華為等高科技企業又放「大招」，禁止臺積電等向華為提供晶片。
賈磊暢談AI語音技術的現在、過去和未來

因此從 2000 年到 2010 年左右的十年期間，雖然語音識別的核心算法技術仍然是 HMM、GMM 和 Ngram 統計語言模型，但是因為網際網路技術的引入，可以採用雲端體積更大的聲學模型和語言模型，訓練這些模型的語料庫也顯著增加，最終導致語音交互的用戶體驗得到很大提升，語音技術的雲端應用逐漸開始流行。
達摩院成立XG實驗室!阿里官宣進軍5G

達摩院方面表示，新成立的XG實驗室將依託阿里的豐富應用生態，專注5G基礎設施技術和應用的協同創新，為超高清視頻、在線辦公、AR/VR、工業網際網路、智能物流、自動駕駛等場景研究符合5G時代的視頻編解碼技術、網絡傳輸協議等，並制定相關標準。雲計算是驅動5G應用落地的另一個關鍵因素。
ai語音控制是什麼專題及常見問題 - CSDN

然而，語音界面為各品牌提供了前所未有的機會，讓它們能以一種極為強大的新方式與消費者進行互動，而目前來說，很少有品牌利用到了這一點。當前廣泛使用的功能在範圍和用途上均受到限制。就開發創新的內容和體驗，以及全新的服務來說，現下各品牌仍有機會。

達摩院公布語音AI新進展:逼近真人的語音交互體驗

相關焦點

從手機跨越到電視,Breeno 語音彎道搶佔語音交互新賽道

AI虛擬主播現身淘寶直播間,替代真人主播上崗雙11

智能語音交互應該如何設計?

準確率97.03% 超越人類專業速記員水平 語音識別世界紀錄在重慶誕生

...Scape:阿里連續兩年位居對話式AI領導者象限 ,遠超傳統語音廠商

智能語音在人機互動中的應用

專訪阿里 iDST 語音組總監鄢志傑:智能語音交互從技術到產品,有...

Avaya結合阿里雲、達摩院 為客戶提供更智慧解決方案

百度財報首秀智能音箱交互次數,語音交互的春天來了?

OPPO小布助手2.0到來,升級 AI 性能,語音交互更智能

專訪思必馳俞凱:大規模可定製的對話式語音交互,已經來臨

支持「免喚醒」,TCL V8全場景AI電視成未來語音交互引領者!

如何讓AI發音更像真人?平安語音技術讓聲音更有溫度

天貓精靈妙物TWS真無線藍牙耳機:支持AI語音交互?絕了

2017年馬雲豪擲1000億打造的達摩院,現在怎麼樣了?

達摩院AI緊急支援 全國汛情分析速度提升百倍

晶片自主少不了阿里,馬雲砸下1000億成立達摩院,如今怎麼樣了

賈磊暢談AI語音技術的現在、過去和未來

達摩院成立XG實驗室!阿里官宣進軍5G

ai語音控制是什麼專題及常見問題 - CSDN

準確率97.03% 超越人類專業速記員水平語音識別世界紀錄在重慶誕生

Avaya結合阿里雲、達摩院為客戶提供更智慧解決方案

達摩院AI緊急支援全國汛情分析速度提升百倍