騰訊雲發布多款語音專屬識別模型,準確率提升10%

2020-12-10 DOIT

4月29日,騰訊雲正式發布金融、音視頻等多個領域專屬語音識別模型。最新發布的模型不僅識別準確率得到大幅提升,同時也增加了對粵語、韓語的支持,後面會陸續開放對上海話等方言以及日語、泰語、印尼語等國外語言的支持。 正式發布金融行業專屬模型,字準率業界領先 據了解,語音識別在金融行業應用場景廣泛,但是實際場景下,很多用戶都是使用方言在和外呼、客服機器人交流,加上金融領域有著大量的專有句式和詞彙,市場上目前通用的語音識別模型存在識別不準的情況。 基於這些的痛點,騰訊雲AI團隊與微信智聆聯合打造了金融行業專屬語音識別模型,這個模型的推出不僅能夠有效解決上述難題,還在識別的準確率上得到大幅提升。目前該模型已經在金融領域的智能外呼、智能客服、電話錄音質檢等多個場景落地。經客戶實測,字準率在業界處於領先水平。 

 率先打造音視頻專屬語音識別模型,準確率提升10% 隨著網際網路直播浪潮的興起,如何利用智能語音技術快速識別用戶的音視頻內容、進行精準推薦和不健康內容過濾,已經成為各大直播和內容分享平臺在日益激烈的市場競爭中的核心競爭力。但由於音視頻背景環境複雜且屬於半遠場,需要有大量數據積累才能實現準確識別。 憑藉自身在音視頻領域數據的大量積累,騰訊雲在業界率先推出了音視頻領域專屬語音識別模型,目前已在多家音視頻領域直播平臺和電商直播平臺應用,經客戶實測,識別準確率提升近10%。 

語種豐富度進一步提升,騰訊雲語音識別加速落地 為滿足不同客戶群體需求,騰訊雲語音識別今年在語種豐富度上持續發力,聯合微信智聆、騰訊國際業務語音技術實驗室、騰訊民漢翻譯等多個人工智慧實驗室,在原有常見語種基礎上,開放了韓語、粵語的識別能力,後面會陸續開放對上海話等方言以及日語、泰語、印尼語等國外語言的語音識別能力。經過長期的打磨訓練和效果調優,目前騰訊雲語音識別各語種已廣泛應用於會議記錄轉寫、視頻字幕、電話錄音質檢等業務場景。 

 實際上,騰訊雲憑藉多年在智能語音領域的耕耘,已經收穫眾多權威機構的認可。在Gartner今年首次正式發布的《Magic Quadrant for Cloud AI Developer Services》研究報告中,騰訊雲成為中國唯一入選Gartner雲AI開發者服務魔力象限的雲廠商。 騰訊雲AI語音產品負責人周超表示:「騰訊雲AI語音團隊未來仍將繼續打磨技術,提供業界最具性價比的智能語音產品,推動智能語音在產業網際網路的廣泛落地。用更前沿的技術、更極致的產品體驗,幫助合作夥伴和客戶打造高效的專屬解決方案,助力各行各業的數位化和智能化轉型。」 

未經允許不得轉載:DOIT » 騰訊雲發布多款語音專屬識別模型,準確率提升10%

相關焦點

  • 騰訊雲發布專屬語音識別模型,支持韓語、粵語
    4月29日,騰訊雲正式發布金融、音視頻等多個領域專屬語音識別模型。最新發布的模型不僅識別準確率得到大幅提升,同時也增加了對粵語、韓語的支持,後面會陸續開放對上海話等方言以及日語、泰語、印尼語等國外語言的支持。
  • 騰訊雲小微&騰訊雲智能鈦聯合團隊獲國際口音英語語音識別賽冠軍
    &騰訊雲智能鈦聯合團隊在口音英語語音識別賽道中以大幅領先的成績獲得冠軍。因此,此次比賽是騰訊雲小微團隊在語音識別方案上的全新探索。在這個方案中,騰訊團隊首先使用Librispeech無監督預訓練的Wav2Vector模型進行模型初始化,之後在預訓練模型上添加一層輸出層,採用英文字母作為建模單元,並使用CTC損失函數進行訓練。由於模型採用的是字母建模,識別結果隨機性較大,容易引入過多錯誤。因此,團隊引入了語言模型進行約束,大幅提高了識別性能。
  • 語音識別技術發展史與行業最佳實踐全解析
    在人工智慧技術的探索徵程裡,語音語義識別技術一直扮演著先驅的角色,不管是在技術探索還是商業落地方面都走在了前面。近兩年來隨著深度學習技術的進一步深入,其識別準確率更是得以大大提升。為教育、客服、電信等傳統行業的產業升級帶來了一大助力,在車載、家居、醫療、智能硬體等領域又開闢出了新的商業應用探索實踐。語音語義技術目前發展到了哪個階段?
  • 雲從科技刷新一項語音識別紀錄:將 Librispeech 數據集上的錯詞率...
  • 百度上線英語語音輸入功能識別準確率高得驚人
    Facemoji英語語音實時識別詞準率達90%以上  百度國際輸入法Facemoji在2016年於美國發布,憑藉其前沿的AI技術及有趣的個性化特色,成為美國最受年輕人歡迎的輸入法。  百度自研平臺開發實踐上萬小時數據的聲學建模  據百度技術人員介紹,Facemoji更新的英語語音輸入功能完全基於百度自研的深度學習平臺進行開發,使用上萬小時的語音數據進行模型訓練,識別結果快速準確。
  • INTERSPEECH 2020 | 騰訊AI Lab解讀語音識別與合成方向及入選論文
    感謝閱讀騰訊AI Lab微信號第107篇文章。本文將分組介紹語音領域頂級會議 INTERSPEECH 2020 中騰訊 AI Lab 的重點研究方向和入選論文。語音技術頂級會議 INTERSPEECH 今年將於 10 月 25 - 29 日在線上舉行。根據主辦方發布的數據,INTERSPEECH 2020共接收到有效論文投稿 2140 篇,其中 1022 篇被接收。
  • 百度語音識別新算法準確率提升超30%,鴻鵠晶片彰顯AI落地新打法
    如果在識別過程中目標信號源發送移動,或波束方向上存在噪聲,則識別準確率會大幅下降。深度學習讓信號處理和語音識別終成一體而百度提出的新算法不再需要首次喚醒。在識別開始時,目標聲音信號直接被多路麥克風輸入到模型中,採用複數個 CNN 網絡提取聲音信號中的多種特徵,包括不同麥克風輸入信息的特徵,和跨頻率耦合的聲學特徵。
  • 依圖做語音了!識別精度創中文語音識別新高點
    新智元報導 編輯:聞菲【新智元導讀】依圖強勢進軍智能語音,聯合微軟發布語音開放雲平臺,攜手華為發布軟硬體一體化的智能語音聯合解決方案。依圖語音識別算法在全球最大開源中文資料庫AISHELL-2上詞錯率僅3.71%,比原業內領先者提升約20%,大幅刷新現有紀錄。比對各家語音識別算法,當今智能語音戰場,英雄唯訊飛與依圖爾?
  • 羅永浩「子彈簡訊」,語音識別準確率超微信,馬化騰怎麼看?
    羅永浩「子彈簡訊」,語音識別準確率超微信,馬化騰怎麼看?網際網路誕生這幾年,令大家最為熟悉的是騰訊QQ和騰訊微信,小時候接觸QQ,長大玩微信。在今天有相當多的APP帳號登錄都支持騰訊QQ微信快捷登錄,很多APP想要崛起都需要靠騰訊微信流量,滴滴出行、美團外賣、摩拜單車都出現在騰訊微信九宮格,可見騰訊微信地位之重要,移動網際網路流量掌握者!
  • 國內最值得關注的10家人工智慧語音識別公司
    、語義理解、多輪對話等功能,主要用於家居和機器人領域。 主要產品介紹: SoundAIAzero,一款集成聲波配網、波束形成、聲源測向、噪聲抑制、混響消除、回聲消除、語音喚醒、端點檢測、語音識別、聲紋識別、語義理解、語音合成、雙工通話等全鏈條智能語音交互開發系統,兼容主流智能語音晶片和硬體架構,支持DuerOS、AliGenies、小愛平臺、騰訊叮噹、Alexa
  • 百度發布AI輸入法:語音識別精度提升15%支持凌空手寫
    【網易智能訊1月16日消息】今天,百度召開新品發布會,宣布百度輸入法AI探索版正式發布,這是一款默認輸入方式為全語音輸入,並調動表情、肢體等全感官輸入的產品。據了解,百度首先宣布了在語音技術方面取得的突破,流式截斷的多層注意力建模(SMLTA)已經將在線語音識別精度提升了15%,這一技術能夠解決傳統Attention模型在識別中的時延性,以及因此導致的無法進行大規模在線語音實時交互的問題。
  • 兒童語音引擎識別準確率達95%,葡萄英語如何讓AI老師更懂孩子?
    例如在階段報告中,會對孩子的語言運用如聽力口語閱讀寫作和語言能力如詞彙語法發音流利度進行多維度評價。韓異凡表示,依託詳細的英語知識圖譜和數據積累,葡萄英語的AI系統能夠把孩子的表現量化拆分為語言運用和語言技巧能力,通過能力模型,不但能分析出孩子的知識薄弱點,提出後續提升計劃,還能縱向分析孩子在整個學習中每項能力的變化,把這些能力和課程標準一一對應,讓孩子的進步明晰可見。
  • 超越整句的流式多級Attention:解密百度輸入法背後的語音識別模型
    機器之心原創作者:曉坤、思源1 月 16 日,百度輸入法舉辦了「AI·新輸入全感官輸入 2.0」發布會,正式對外發布百度輸入法 AI 探索版,這是一款默認輸入方式為全語音輸入、並以注意力機制為語音核心的新產品
  • 騰訊雲發布多款音視頻通信技術產品,服務全球開發者
    首先,騰訊雲發布了自研編碼器「瑤池V500」和音頻技術方案「騰訊天籟」,為提升音視頻通信質量輸出能力;其次,針對融合通信,騰訊雲發布了TRTC在金融及IOT領域的方案,超低延遲「快直播」產品結束公測,正式規模商用;另外
  • 語音識別準確率行業第一,中英、方言混輸百度輸入法都沒在怕的!
    這時候就該「動口不凍手」的語音輸入來「大展拳腳」了,打開百度輸入法語音輸入,分分鐘就能幫你搞定各種輸入需求。最近,艾媒諮詢發布《中國第三方手機輸入法市場年度專題研究報告》(以下簡稱《報告》),指出了百度輸入法2019年在語音輸入領域的重大突破。
  • 語音識別新範式:完全的「端到端」模型,優勢在哪裡?
    第二,解決了傳統的語音識別方案中各部分任務獨立,無法聯合優化的問題。單一神經網絡的框架變得更簡單,隨著模型層數更深,訓練數據越大,準確率越高。因此企業可以使用更大量的專有數據集來訓練模型,得到相應場景下更準確的識別結果。 第三,新的神經網絡結構可以更好地利用和適應新的硬體(比如GPU)並行計算能力,運算速度更快。
  • 離線中英混合語音識別準確率超98%!百度輸入法帶你體驗「有網沒網...
    這項基於中英文SMLTA模型的創新功能,讓用戶在弱網甚至無網絡環境中,依然可以順暢地進行中英文語音混輸,且識別準確率和有網絡時一樣優秀, 準確率超過98%。百度輸入法在此前推出的「在線中英自由說」功能基礎上,藉助AI技術賦能對語音輸入進行了又一次重大升級,大幅提升了用戶交互效率,全感官輸入2.0再迎重磅升級。
  • 基於Transformer的高效、低延時、流式語音識別模型
    編者按:Transformer 模型在自然語言領域被提出後,目前已經擴展到了計算機視覺、語音等諸多領域。然而,雖然 Transformer 模型在語音識別領域有著更好的準確率,但在流式的語音識別場景下,Transformer 模型的速度和延時往往阻礙其實際的應用。
  • 語音識別技術簡史
    由於語音交互提供了更自然、更便利、更高效的溝通形式,語音必定將成為未來最主要的人機互動接口之一。當然,當前技術還存在很多不足,如對於強噪聲、超遠場、強幹擾、多語種、大詞彙等場景下的語音識別還需要很大的提升;另外,多人語音識別和離線語音識別也是當前需要重點解決的問題。雖然語音識別還無法做到無限制領域、無限制人群的應用,但是至少從應用實踐中我們看到了一些希望。
  • 百度語音識別功能以及優勢
    百度語音識別是採用國際領先的流式端到端語音語言一體化建模算法,將語音快速準確識別為文字,支持手機應用語音交互、語音內容分析、機器人對話等多個場景。百度雲語音識別功能優勢:一、技術領先採用領先國際的流式端到端語音語言一體化建模方法,融合百度自然語言處理技術,近場中文普通話識別準確率達98%二、自助訓練專屬模型