阿里開源自研語音識別模型 DFSMN,準確率高達96.04%

2021-01-08 開源中國

近日,阿里巴巴達摩院機器智能實驗室開源了新一代語音識別模型DFSMN,將全球語音識別準確率紀錄提高至96.04%。這一數據測試基於世界最大的免費語音識別資料庫LibriSpeech。

對比目前業界使用最為廣泛的LSTM模型,DFSMN模型訓練速度更快、識別準確率更高。採用全新DFSMN模型的智能音響或智能家居設備,相比前代技術深度學習訓練速度提到了3倍,語音識別速度提高了2倍。

著名語音識別專家,西北工業大學教授謝磊表示:「阿里此次開源的DFSMN模型,在語音識別準確率上的穩定提升是突破性的,是近年來深度學習在語音識別領域最具代表性的成果之一,對全球學術界和AI技術應用都有巨大影響。」

語音識別技術一直都是人機互動技術的重要組成部分。有了語音識別技術,機器就可以像人類一樣聽懂說話,進而能夠思考、理解和反饋。近幾年隨著深度學習技術的使用,基於深度神經網絡的語音識別系統性能獲得了極大的提升,開始走向實用化。基於語音識別的語音輸入、語音轉寫、語音檢索和語音翻譯等技術得到了廣泛的應用。

目前主流的語音識別系統普遍採用基於深度神經網絡和隱馬爾可夫(Deep Neural Networks-Hidden Markov Model,DNN-HMM)的聲學模型,其模型結構如圖 1所示。聲學模型的輸入是傳統的語音波形經過加窗、分幀,然後提取出來的頻譜特徵,如 PLP, MFCC 和 FBK等。而模型的輸出一般採用不同粒度的聲學建模單元,例如單音素 (mono-phone)、單音素狀態、綁定的音素狀態 (tri-phonestate) 等。從輸入到輸出之間可以採用不同的神經網絡結構,將輸入的聲學特徵映射得到不同輸出建模單元的後驗概率,然後再結合HMM進行解碼得到最終的識別結果。

項目地址:https://github.com/tramphero/kaldi

詳情見阿里技術公眾號。

相關焦點

  • 谷歌驗證碼系統被破解 機器語音驗證準確率高達85%
    美國馬裡蘭大學的四位研究員開源了一個名為UnCaptcha的工具,能夠破解谷歌的驗證碼系統ReCaptcha,其進行語音驗證的準確率高達85%。與眾多驗證機制一樣,早期的ReCaptcha系統通過數字驗證碼進行識別,以此確保操作方是人類而非機器人。但是,2012年一個谷歌研究團隊幾乎百分之百破解了其文本驗證碼系統。
  • 學術發布 | 臺灣研究團隊稱「腦紋識別」準確率可高達96%
    本研究通過卷積神經網絡(Convolutional Neural Network,CNN)開發了一種針對個體的腦電波驗證模型,用於身份識別,以保護運動員的生物特徵數據。腦電波特徵選腦電圖採集參賽者的2分鐘靜態腦電波信號,通過巴特沃斯低通濾波(BLPF)和短時傅立葉變換(STFT),對比多個機器學習分類器和深度學習CNN模型,建立驗證評價模型。
  • 百度上線英語語音輸入功能識別準確率高得驚人
    據統計,該輸入法已累積超過千萬下載量,現在Google Play平臺 (GP)用戶評分高達4.7分(滿分5分)。     據了解,Facemoji輸入法更新的人工智慧英語語音輸入功能操作簡易快捷。用戶只需輕觸鍵盤上的話筒按鈕,即可進行英文語音輸入。隨著用戶講話,語音內容將實時、準確地呈現在手機屏幕上,還能根據斷句自動添加標點符號。
  • 專注E2E語音識別,騰訊AILab開源語音處理工具包PIKA
    機器之心報導作者:魔王、杜偉PyTorch + Kaldi,騰訊 AI Lab 開源輕量級語音處理工具包 PIKA,專注於端到端語音識別任務。Kaldi 是一個開源的語音識別系統,由 Daniel Povey 主導開發,在很多語音識別測試和應用中廣泛使用。
  • 橫評:五款免費開源的語音識別工具
    作為 SVDS 研究團隊的成員,我們會經常接觸各種不同的語音識別技術,也差不多見證了語音識別技術近幾年的發展。直到幾年之前,最先進的語音技術方案大多都是以語音為基礎的(phonetic-based),包括發音模型(Pronunciation models),聲學模型(Acoustic Modelling)和語言模型(Language Model)等。
  • 阿里全新AI診斷新冠肺炎技術:20 秒出結果,96% 準確率
    打開APP 阿里全新AI診斷新冠肺炎技術:20 秒出結果,96% 準確率 編輯部 發表於 2020-02-17 09:43:10
  • 基於DL的中文語音識別系統ASRT開源
    2月11日消息,一套基於深度學習實現的語音識別系統ASRT(全稱Auto Speech Recognition Tool),由AI檸檬博主開發並在GitHub上開源(GPL 3.0 協議)。本項目聲學模型通過採用卷積神經網絡和連接性時序分類方法,使用大量中文語音數據集進行訓練,將聲音轉錄為中文拼音,並通過語言模型,將拼音序列轉換為中文文本。
  • 排名 語音識別_語音識別技術排名 - CSDN
    表3:雲從科技部分金融服務產品三、從人臉識別到智能感知再到智能分析的迭代升級雲從科技核心技術閉環包括人臉識別、智能感知與智能分析三個階段。2018年10月29日,雲從科技宣布在語音識別技術上取得重大突破,在全球最大的開源語音識別數據集Librispeech上刷新了世界紀錄,錯詞率降到了2.97%,將Librispeech的WER指標提升了25%。此次語音識別突破屬於智能感知中的一環。
  • 基於Transformer的高效、低延時、流式語音識別模型
    編者按:Transformer 模型在自然語言領域被提出後,目前已經擴展到了計算機視覺、語音等諸多領域。然而,雖然 Transformer 模型在語音識別領域有著更好的準確率,但在流式的語音識別場景下,Transformer 模型的速度和延時往往阻礙其實際的應用。
  • 語音識別新範式:完全的「端到端」模型,優勢在哪裡?
    >2017年前後,基於 Transformer(自注意力機制)的完全端到端語音識別如果說 2011 年深度學習的引入,是語音識別領域上一次範式轉換的起點,那麼從 2017 年開始,基於注意力機制和 Transformer 新型神經網絡結構的語音識別研究,無疑標誌著語音識別的新範式正在形成。
  • 語音識別技術簡史
    但是,語音識別自誕生以來的半個多世紀,一直沒有在實際應用過程得到普遍認可,一方面這與語音識別的技術缺陷有關,其識別精度和速度都達不到實際應用的要求;另一方面,與業界對語音識別的期望過高有關,實際上語音識別與鍵盤、滑鼠或觸控螢幕等應是融合關係,而非替代關係。深度學習技術自 2009 年興起之後,已經取得了長足進步。
  • 語音識別揭秘:你的手機究竟有多理解你?
    大規模的語音識別研究始於70年代,並在單個詞的識別方面取得了實質性的進展。上世紀80年代以後,語音識別研究的重點逐漸轉向更通用的大詞彙量、非特定人的連續語音識別。90年代以來,語音識別的研究一直沒有太大進步。但是,在語音識別技術的應用及產品化方面取得了較大的進展。自2009年以來,得益於深度學習研究的突破以及大量語音數據的積累,語音識別技術得到了突飛猛進的發展。
  • 今日Paper|蚊子叫聲數據集;提高語音識別準確率;對偶注意力推薦...
    以下是今日的精選內容——目錄提高有噪聲情況下的語音識別準確率——而且用常見工具就可以基於對偶圖注意力網絡多方面社交影響的推薦系統想研究蚊子、阻止瘧疾,你需要一個蚊子叫聲數據集用於類遞增目標檢測的交叉數據集訓練卷積均值:一種簡單的用於照度估計的卷積神經網絡提高有噪聲情況下的語音識別準確率——而且用常見工具就可以論文名稱:Improved Robust
  • 百度開源業內首個口罩人臉檢測及分類模型
    2月13日,百度宣布免費開源業內首個口罩人臉檢測及分類模型。該模型可以有效檢測在密集人流區域中攜帶和未攜戴口罩的所有人臉,同時判斷該者是否佩戴口罩。目前已通過飛槳PaddleHub開源出來,廣大開發者用幾行代碼即可快速上手,免費調用。
  • 語音識別開源工具PyTorch-Kaldi:兼顧Kaldi效率與PyTorch靈活性
    機器之心原創作者:Nurhachu Null本文主要介紹用於語音識別的開源工具——PyTorch-Kaldi。1 背景傑出的科學家和工程師們一直在努力地給機器賦予自然交流的能力,語音識別就是其中的一個重要環節。人類對語音識別技術的研究從上世紀 50 年代開始就未曾停止。在長期的探索中,一次次重大的技術突破逐漸讓語音識別技術進入我們的日常生活。今天的 ASR 技術水平是前所未有的。
  • 訊飛輸入法:安卓新版大幅提升武漢話語音識別準確率
    IT之家2月26日消息 根據訊飛輸入法官方的消息,訊飛輸入法團隊通過海量方言語音數據和機器學習技術,使武漢話識別準確率大幅提升。IT之家了解到,訊飛輸入法從中國方言庫積累的語料中篩選醫用和日常對話場景進行標註,將武漢話和普通話對應起來,並通過遷移學習模型訓練,有效提升方言轉普通話的性能。病友用武漢話表述症狀時,訊飛輸入法不但把武漢話轉為普通話的文字,還能通過普通話自動播報,從而方便幫助醫生準確地判斷病情,有效地及時救治。
  • 從不溫不火到炙手可熱:語音識別技術簡史
    但是,語音識別自誕生以來的半個多世紀,一直沒有在實際應用過程得到普遍認可,一方面這與語音識別的技術缺陷有關,其識別精度和速度都達不到實際應用的要求;另一方面,與業界對語音識別的期望過高有關,實際上語音識別與鍵盤、滑鼠或觸控螢幕等應是融合關係,而非替代關係。深度學習技術自 2009 年興起之後,已經取得了長足進步。
  • 矽基資訊 || 矽基智能語音硬核產品上線,智能交互平臺進入「樂高"模式
    矽基智能為什麼要把ASR、TTS和語音克隆作為獨立的AI服務?自成立以來矽基智能一直專注於AI智能交互技術的研發和商業應用,旗下的「矽語智能外呼機器人」、「矽語協呼機器人」、「矽語數字人」等產品,依賴核心架構平臺DUIX的支撐,在三年的商用過程中,系統經受住多個行業用戶的大規模商用的考驗,架構得到不斷完善,語音交互性能得到不斷訓練和提升,贏得市場和客戶的青睞。
  • 百度大腦產品上新&技術升級:圖像處理、智能寫作平臺、語音識別
    新開放 AI 技術能力語音識別語音識別極速版支持60秒內音頻使用 REST API 方式進行調用,簡單易用。採用國際領先的注意力(Attention)模型,實時率小於0.1,5 s 音頻不到500 ms 即可完成識別過程,極大提升語音交互的體驗。
  • 基於DeepSpeech2實現中文語音識別,實施全流程講解,拿來即用
    你是否在苦苦尋找能識別中文的語音識別模型?那認真看完本文,你也能實現,本文可能為您節省少則幾小時多則數天的工作時間。DeepSpeech2由百度矽谷AI實驗室在2015年發布,是一個採用PaddlePaddle深度學習框架實現的端到端自動語音識別系統,它能通過簡單學習算法較準確的識別英語和中文。