語音識別原理及其語音識別系統分類

2021-01-08 指靜脈識別服務中心

一、語音識別原理

語言交流是人類一種天然的溝通模式。從兒童時代開始我們對語言的相關學習都是自發的,語言交流始終貫穿於我們的生活。它是那麼的自然以至於我們根本沒有發現這是一種多麼複雜的現象。人類的聲道和發音器官,是具有非線性特徵的生物器官,不僅僅運行在有意識的控制下,而且受到性別及其成長因素情緒狀態的影響。因此,聲音會因為他們的口音、發音、清晰度、體積、速度等有著大幅的變動。人類希望能與機器進一步溝通,從而方便生產與生活,而在語音信號的傳輸過程中,我們不規則的語言行為方式會被背景噪聲和回聲,以及電特性(如話筒等電子設備)進一步扭曲。這一切可變性的聲音來源語音識別更加繁瑣複雜。

YQ語音識別方案

語音識別是一個多層模式識別任務。聲音信號經過考察,結構分為一個層次詞根單位(例如,音素)、詞、短語、句子。每一層可提供額外的時間限制,例如,已經被認知的單詞發音或法律上的單詞序列,可以彌補錯誤或把不確定性降到較低水平。限制的最好方法是在所有較低的層次中利用概率相結合的決策,而只在最高層次中使用離散決策。

一個標準的語音識別系統如下圖所示。

YQ5969語音識別

二、語音識別系統分類

語音識別系統根據對說話人說話方式的要求,可以分為孤立詞語音識別系統、連接字語音識別系統和連續語音識別系統;根據對說話人的依賴程度,可以分為特定人和非特定人語音識別系統;根據詞彙量大小,可分為小詞彙量、中等詞彙量、大詞彙量以及無限詞彙量語音識別系統。不同的語音識別系統。雖然具體實現細節有所不同,但所採用的基本技術相似。一個典型的語音識別系統除了要選取適當的語音識別單元之外,還需要特徵參數技術提取、系統建模、模型訓練和模式匹配這三方面的技術。語音識別系統也可以分成一個前端和一個後端。其中,前段處理音頻流,從而分隔可能發聲的聲音階段,並將它們轉換成一系列能夠表示數值。後端是一個專用的搜尋引擎,它獲取前端產生的輸出並跨以下三個資料庫進行搜索:一個發音模型、一個語言模型和一個詞典。發音模型表示一種語言的發音聲音,可通過訓練來識別某個特定用戶的語音模式和發音環境的特徵。語言模型表示一種語言的單詞如何合併。詞典列出語言的大量單詞,以及關於每個單詞如何發音的信息。

相關焦點

  • 語音識別技術原理全面解析
    1、語音識別的基本原理  語音識別系統本質上是一種模式識別系統,包括特徵提取、模式匹配、參考模式庫等三個基本單元,它的基本結構如下圖所示:    未知語音經過話筒變換成電信號後加在識別系統的輸入端,首先經過預處理,再根據人的語音特點建立語音模型,對輸入的語音信號進行分析,並抽取所需的特 徵,在此基礎上建立語音識別所需的模板。
  • DSP開發板的語音識別系統的研究
    然而針對識別效果來說,ASR 系統則相對較差。尤其在會話任務上,自動語音識別系統遠不及人類。因此,語音識別技術的應用已成為一個極具競爭性和挑戰性的高新技術產業。  隨著DSP技術的快速發展及性能不斷完善,基於DSP的語音識別算法得到了實現,並且在費用、功耗、速度、精確度和體積等方面有著PC機所不具備的優勢,具有廣闊的應用前景。
  • 基於DSP的語音識別系統的實現及分析
    1 系統參數選擇  一般情況下,語音識別系統按照不同的角度、不同的應用範圍、不同的性能要求有不同的分類方法。針對識別對象不同有孤立詞識別、連接詞識別、連續語音識別與理解和會話語音識別等。針對識別系統的詞彙量有小詞彙量語音識別(1~20個詞彙)、中詞彙量識別(20~1 000個詞彙)和大詞彙量(1 000以上個詞彙)語音識別。
  • 語音識別算法有哪些_語音識別特徵提取方法
    第一種:基於動態時間規整(Dynamic Time Warping)的算法   在連續語音識別中仍然是主流方法。   該方法的運算量較大,但技術上較簡單,識別正確率高。   在小詞彙量、孤立字(詞)識別系統中,也已有許多改進的DTW算法被提出。例如,利用頻率尺度的DTW算法進行孤立字(詞)識別的方法。
  • ZLG深度解析:語音識別技術
    語音識別已成為人與機器通過自然語言交互重要方式之一,本文將從語音識別的原理以及語音識別算法的角度出發為大家介紹語音識別的方案及詳細設計過程。語言作為人類的一種基本交流方式,在數千年歷史中得到持續傳承。近年來,語音識別技術的不斷成熟,已廣泛應用於我們的生活當中。語音識別技術是如何讓機器「聽懂」人類語言?
  • 基於Julius的機器人語音識別系統構建
    只需要對幾十個字或詞的命令行進語音識別,便可使得原本需要手工操作的工作由語音輕鬆完成。本文針對現有機器人平臺,設計一個非特定人的孤立詞語音識別系統。  1 語音識別原理及JuliUS簡介  1.1 基於HMM的語音識別原理  語音識別系統是一種模式識別系統,系統首先對語音信號進行分析,得到語音的特徵參數,然後對這些參數進行處理,形成標準的模板。這個過程稱為訓練或學習。
  • 語音識別是什麼 語音識別聲學特徵介紹【圖文】
    到八十年代,語音識別技術開始了從實驗室到產品的轉移。  東芝在語音識別技術領域的研發,開始於上世紀七十年代,目前已經形成了以東京-劍橋-北京為中心的全球研發體系,開發出了包括中、日、英、法、德等十四種以上語言的語音識別系統。
  • 玩人工智慧的你必須知道的語音識別技術原理
    語音識別技術正逐步成為計算機信息處理技術中的關鍵技術,語音技術的應用已經成為一個具有競爭性的新興高技術產業。  1、語音識別的基本原理  語音識別系統本質上是一種模式識別系統,包括特徵提取、模式匹配、參考模式庫等三個基本單元,它的基本結構如下圖所示:
  • 基於嵌入式Linux的語音識別系統硬軟體設計
    在嵌入式Linux作業系統下,運用多進程機制完成了對語音識別晶片、超聲波測距和雲臺的控制,並將語音識別技術應用於多角度超聲波測距系統中。通過測試,系統可以通過識別語音指令控制測量方向,無需手動幹預,最後將測量結果通過語音播放出來。
  • 從原理入手,解析基於DSP的漢字語音識別系統的實現方式
    語音識別是機器通過識別和理解過程把語音信號轉變為相應的文本文件或命令的高技術。作為專門的研究領域,語音識別又是一門交叉學科,它與聲學、語音學、語言學、數位訊號處理理論、資訊理論、計算機科學等眾多學科緊密相連。語音識別經過四十多年的發展,已經顯示出巨大的應用前景。本文從實現原理入手,介紹語音識別系統的實現方式。
  • 語音識別技術簡史
    本篇文章將從技術和產業兩個角度來回顧一下語音識別發展的歷程和現狀,並分析一些未來趨勢,希望能幫助更多年輕技術人員了解語音行業,並能產生興趣投身於這個行業。語音識別的技術歷程現代語音識別可以追溯到 1952 年,Davis 等人研製了世界上第一個能識別 10 個英文數字發音的實驗系統,從此正式開啟了語音識別的進程。
  • 排名 語音識別_語音識別技術排名 - CSDN
    該成果有望推動語音識別技術的大幅進步,已超越人類專業速記員的水平」的字眼令正在從事語音識別研究的科研工作者和技術提供商一陣錯愕,不明真相的群眾紛紛認為當前語音識別已經刷無可刷,語音識別技術已經沒有門檻,語音識別是已經解決的問題了……但是事實並不是這樣,在LibriSpeech這種簡單數據集上「刷」到詞錯誤率2.97%並不困難,語音識別領域仍存在大量的問題需要解決。
  • 智能語音助手的原理_預測智能語音助手的未來
    NLP結合了計算機科學、人工智慧和計算語言學,涵蓋了以人類理解的方式解釋和生成人類語言的所有機制:語言過濾、情感分析、主題分類、位置檢測等。   1.語音識別的基本原理   語音識別系統本質上是一種模式識別系統,包括特徵提取、模式匹配、參考模式庫等三個基本單元,它的基本結構如下圖所示:
  • 應用、算法、晶片,「三位一體」淺析語音識別
    黃松延,浙江大學人工智慧博士,前華為高級算法工程師,對深度學習及其應用有深入的研究,閱後若有所感,歡迎通過郵箱syhuang@chentao-capital.com或者微信號Nikola_629與他交流。人工智慧產業鏈由基礎層、技術層與應用層構成,同樣,智能語音識別亦由這三層組成。
  • 基於DL的中文語音識別系統ASRT開源
    2月11日消息,一套基於深度學習實現的語音識別系統ASRT(全稱Auto Speech Recognition Tool),由AI檸檬博主開發並在GitHub上開源(GPL 3.0 協議)。本項目聲學模型通過採用卷積神經網絡和連接性時序分類方法,使用大量中文語音數據集進行訓練,將聲音轉錄為中文拼音,並通過語言模型,將拼音序列轉換為中文文本。
  • 基於DSP的漢字語音識別系統的實現方式解析
    語音識別是機器通過識別和理解過程把語音信號轉變為相應的文本文件或命令的高技術。作為專門的研究領域,語音識別又是一門交叉學科,它與聲學、語音學、語言學、數位訊號處理理論、資訊理論、計算機科學等眾多學科緊密相連。語音識別經過四十多年的發展,已經顯示出巨大的應用前景。本文從實現原理入手,介紹語音識別系統的實現方式。
  • 基於HMM的連續小詞量語音識別系統的研究
    、小詞量的語音識別系統。實驗證明,該語音識別系統具有較高的識別率和一定程度的魯棒性,實驗室識別率和室外識別率分別達到95.6%,92.3%。關鍵詞:語音識別;嵌入式系統;Hidden Markov Models;ARM;Viterbi算法0 引言 嵌入式語音識別系統是應用各種先進的微處理器在板級或是晶片級用軟體或硬體實現的語音識別。
  • GMM-HMM語音識別原理詳解
    本文簡明講述GMM-HMM在語音識別上的原理,建模和測試過程。本文引用地址:http://www.eepw.com.cn/article/201710/368485.htm  1. 什麼是Hidden Markov Model?
  • FinTech時代商業銀行智能語音識別技術應用與發展
    (2)實用階段  進入20世紀90年代後,語音識別的系統框架趨於穩定,隨著計算機運算能力的快速提升以及語音識別在系統自適應、參數調優等方面的成熟,語音識別技術在商業上逐步成功運用,語音識別技術進入實用階段。
  • 使用Python和Keras創建簡單語音識別引擎
    在本文中,我將演示:語音轉文字的工作原理如何處理要轉錄的音頻使用Keras解決問題的深度學習模型一種評估此模型的方法將預測模型集成到項目中的腳本簡介語音只是由我們的聲帶引起的空氣周圍振動而產生的一系列聲波。這些聲波由麥克風記錄,然後轉換為電信號。然後使用高級信號處理技術處理信號,分離音節和單詞。