基於DL的中文語音識別系統ASRT開源

2020-12-05 智東西

2月11日消息,一套基於深度學習實現的語音識別系統ASRT(全稱Auto Speech Recognition Tool),由AI檸檬博主開發並在GitHub上開源(GPL 3.0 協議)。本項目聲學模型通過採用卷積神經網絡和連接性時序分類方法,使用大量中文語音數據集進行訓練,將聲音轉錄為中文拼音,並通過語言模型,將拼音序列轉換為中文文本。基於該模型,作者在Windows平臺上實現了一個基於ASRT的語音識別應用軟體,同樣已在GitHub上開源。

相關焦點

  • 基於Julius的機器人語音識別系統構建
    只需要對幾十個字或詞的命令行進語音識別,便可使得原本需要手工操作的工作由語音輕鬆完成。本文針對現有機器人平臺,設計一個非特定人的孤立詞語音識別系統。  1 語音識別原理及JuliUS簡介  1.1 基於HMM的語音識別原理  語音識別系統是一種模式識別系統,系統首先對語音信號進行分析,得到語音的特徵參數,然後對這些參數進行處理,形成標準的模板。這個過程稱為訓練或學習。
  • 專注E2E語音識別,騰訊AILab開源語音處理工具包PIKA
    機器之心報導作者:魔王、杜偉PyTorch + Kaldi,騰訊 AI Lab 開源輕量級語音處理工具包 PIKA,專注於端到端語音識別任務。Kaldi 是一個開源的語音識別系統,由 Daniel Povey 主導開發,在很多語音識別測試和應用中廣泛使用。
  • 基於DeepSpeech2實現中文語音識別,實施全流程講解,拿來即用
    你是否在苦苦尋找能識別中文的語音識別模型?那認真看完本文,你也能實現,本文可能為您節省少則幾小時多則數天的工作時間。DeepSpeech2由百度矽谷AI實驗室在2015年發布,是一個採用PaddlePaddle深度學習框架實現的端到端自動語音識別系統,它能通過簡單學習算法較準確的識別英語和中文。
  • 橫評:五款免費開源的語音識別工具
    未來,我們希望以這些傳統模型為基礎,探索一些諸如與百度 Deep Speech 等最新的語音識別系統相結合的新技術。當然,目前網際網路上可以找到許多針對這些基礎模型進行解釋、匯總的文章和資料,但針對它們之間的差別和特點展開闡述的卻並不多。
  • 阿里開源自研語音識別模型 DFSMN,準確率高達96.04%
    近日,阿里巴巴達摩院機器智能實驗室開源了新一代語音識別模型DFSMN,將全球語音識別準確率紀錄提高至96.04%。這一數據測試基於世界最大的免費語音識別資料庫LibriSpeech。
  • .| 深度學習理論與實戰:提高篇(5)——深度學習在語音識別中的應用
    作者李理,環信人工智慧研發中心vp,有十多年自然語言處理和人工智慧研發經驗,主持研發過多款智能硬體的問答和對話系統,負責環信中文語義分析開放平臺和環信智慧機器人的設計與研發。以下為正文。提起深度學習的再次興起,大家首先可能會想到2012年AlexNet在圖像分類上的突破,但是最早深度學習的大規模應用發生在語音識別領域。
  • 基於DSP的語音識別系統的實現及分析
    尤其在會話任務上,自動語音識別系統遠不及人類。因此,語音識別技術的應用已成為一個極具競爭性和挑戰性的高新技術產業。  隨著DSP技術的快速發展及性能不斷完善,基於DSP的語音識別算法得到了實現,並且在費用、功耗、速度、精確度和體積等方面有著PC機所不具備的優勢,具有廣闊的應用前景。
  • 基於DSP的漢字語音識別系統的實現方式解析
    語音識別是機器通過識別和理解過程把語音信號轉變為相應的文本文件或命令的高技術。作為專門的研究領域,語音識別又是一門交叉學科,它與聲學、語音學、語言學、數位訊號處理理論、資訊理論、計算機科學等眾多學科緊密相連。語音識別經過四十多年的發展,已經顯示出巨大的應用前景。本文從實現原理入手,介紹語音識別系統的實現方式。
  • 語音識別開源工具PyTorch-Kaldi:兼顧Kaldi效率與PyTorch靈活性
    機器之心原創作者:Nurhachu Null本文主要介紹用於語音識別的開源工具——PyTorch-Kaldi。高性能的語音識別給我們帶來了更多的生活體驗,我們擁有了可以對話的智能數字助手;它也在逐步改善相關領域的生產力水平。和很多偉大技術的應用一樣,語音識別技術的背後也是很多模塊的組合。對其實現流程的改進往往會從一定程度上節省開發成本,並且加快技術迭代的速度。Pytorch-Kaldi 的出現就是基於這樣的動力。
  • 基於嵌入式Linux的語音識別系統硬軟體設計
    在嵌入式Linux作業系統下,運用多進程機制完成了對語音識別晶片、超聲波測距和雲臺的控制,並將語音識別技術應用於多角度超聲波測距系統中。通過測試,系統可以通過識別語音指令控制測量方向,無需手動幹預,最後將測量結果通過語音播放出來。
  • 從原理入手,解析基於DSP的漢字語音識別系統的實現方式
    語音識別是機器通過識別和理解過程把語音信號轉變為相應的文本文件或命令的高技術。作為專門的研究領域,語音識別又是一門交叉學科,它與聲學、語音學、語言學、數位訊號處理理論、資訊理論、計算機科學等眾多學科緊密相連。語音識別經過四十多年的發展,已經顯示出巨大的應用前景。本文從實現原理入手,介紹語音識別系統的實現方式。
  • 基於HMM的連續小詞量語音識別系統的研究
    、小詞量的語音識別系統。實驗證明,該語音識別系統具有較高的識別率和一定程度的魯棒性,實驗室識別率和室外識別率分別達到95.6%,92.3%。關鍵詞:語音識別;嵌入式系統;Hidden Markov Models;ARM;Viterbi算法0 引言 嵌入式語音識別系統是應用各種先進的微處理器在板級或是晶片級用軟體或硬體實現的語音識別。
  • 團隊新作 | CIF:基於神經元整合發放的語音識別新機制
    基於CIF的模型不僅有效地支持了在線識別、邊界定位及聲學Embedding提取,而且在兩個中文基準語音識別集(HKUST、AISHELL-2)上創造了SOTA的性能。相關成果被ICASSP 2020錄用為Oral論文。基於注意力機制的端到端模型正深刻影響著語音識別技術的發展。
  • 北郵張慶恆:如何基於 rasa 搭建一個中文對話系統 (有源碼視頻)|...
    本文為大家介紹了一種新方法,即如何基於 rasa 搭建一個中文對話系統。在近期雷鋒網AI研習社舉辦的線上免費公開課上,來自北京郵電大學網絡技術研究院的張慶恆分享了基於 rasa nlu 構建自己的自然語言理解工具,並結合 rasa core 搭建對話系統框架的一些經驗,方便初學者入門,加深對對話系統的理解。本文根據分享者的直播視頻內容整理而成。
  • 語音識別揭秘:你的手機究竟有多理解你?
    語音識別系統通常由聲學識別模型和語言理解模型兩部分組成,分別對應語音到音節和音節到字的計算。一個連續語音識別系統(如下圖)大致包含了四個主要部分:特徵提取、聲學模型、語言模型和解碼器等。當今語音識別技術的主流算法,主要有基於動態時間規整(DTW)算法、基於非參數模型的矢量量化(VQ)方法、基於參數模型的隱馬爾可夫模型(HMM)的方法、以及近年來基於深度學習和支持向量機等語音識別方法。站在巨人的肩膀上:開源框架目前開源世界裡提供了多種不同的語音識別工具包,為開發者構建應用提供了很大幫助。
  • DSP開發板的語音識別系統的研究
    然而針對識別效果來說,ASR 系統則相對較差。尤其在會話任務上,自動語音識別系統遠不及人類。因此,語音識別技術的應用已成為一個極具競爭性和挑戰性的高新技術產業。  隨著DSP技術的快速發展及性能不斷完善,基於DSP的語音識別算法得到了實現,並且在費用、功耗、速度、精確度和體積等方面有著PC機所不具備的優勢,具有廣闊的應用前景。
  • 基於DSP的語音識別計算器電路設計
    根據實際的應用,語音識別可以分為:特定人與非特定人的識別、孤立詞與連續詞的識別、中小詞彙量與無限詞彙量的識別。 考慮到成本及使用範圍因素,本文中應用的是基於TMS320VC5509 DSP的非特定人、孤立詞、小詞彙量的語音識別系統。
  • 基於語音識別的移動電子病歷應用探索
    系統架構基於語音識別的移動電子病歷應用架構主要分為2個部分。第一部分是部署在內網的院內伺服器,主要包括醫院內部移動醫生工作站代理伺服器、電子病歷伺服器等。第二部分是部署在外網的醫療語音雲伺服器。為了保證內外網伺服器的安全通信,採用SSL VPN的方式進行網絡的連接。系統架構如圖2所示。
  • 語音識別原理及其語音識別系統分類
    YQ語音識別方案語音識別是一個多層模式識別任務。聲音信號經過考察,結構分為一個層次詞根單位(例如,音素)、詞、短語、句子。一個標準的語音識別系統如下圖所示。YQ5969語音識別二、語音識別系統分類語音識別系統根據對說話人說話方式的要求,可以分為孤立詞語音識別系統、連接字語音識別系統和連續語音識別系統;根據對說話人的依賴程度,可以分為特定人和非特定人語音識別系統
  • 語音識別是什麼 語音識別聲學特徵介紹【圖文】
    到八十年代,語音識別技術開始了從實驗室到產品的轉移。  東芝在語音識別技術領域的研發,開始於上世紀七十年代,目前已經形成了以東京-劍橋-北京為中心的全球研發體系,開發出了包括中、日、英、法、德等十四種以上語言的語音識別系統。