語音識別是什麼 語音識別聲學特徵介紹【圖文】

2020-11-26 太平洋電腦網

  語音識別,什麼是語音識別

  語音識別

  與機器進行語音交流,讓機器明白你說什麼,這是人們長期以來夢寐以求的事情。語音識別技術就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高技術。語音識別是一門交叉學科。近二十年來,語音識別技術取得顯著進步,開始從實驗室走向市場。人們預計,未來10年內,語音識別技術將進入工業、家電、通信、汽車電子、醫療、家庭服務、消費電子產品等各個領域。

  語音識別聽寫機在一些領域的應用被美國新聞界評為1997年計算機發展十件大事之一。很多專家都認為語音識別技術是2000年至2010年間信息技術領域十大重要的科技發展技術之一。

  語音識別技術所涉及的領域包括:信號處理、模式識別、概率論和資訊理論、發聲機理和聽覺機理、人工智慧等等。

  通過語音控制各種設備、與電腦進行直接的交流是人類長期以來的夢想。在許多描述未來世界的電影、小說中,語音識別幾乎成為了人工智慧的代名詞。從上世紀四十年代開始,隨著數位技術尤其是電腦的飛速發展,語音識別技術成為了科學研究的熱點。到八十年代,語音識別技術開始了從實驗室到產品的轉移。

  東芝在語音識別技術領域的研發,開始於上世紀七十年代,目前已經形成了以東京-劍橋-北京為中心的全球研發體系,開發出了包括中、日、英、法、德等十四種以上語言的語音識別系統。東芝中國研發中心,從二零零一年成立以來,致力於中文(包含粵語及各種方言)語音識別技術的研發,開發了高性能的中文語音識別引擎,如下圖所示:

  語音識別技術支持不同層次的系統要求:

  1. 高魯棒性嵌入式語音識別引擎,可以應用到各種電子設備,從而利用語音來完成電子設備的自動控制等。特別在車載環境下,利用語音來控制各種設備的"hand-free"模式已經成為語音識別技術最重要的應用之一。

  東芝的嵌入式語音識別引擎結合了高性能語音端點檢測技術、語音增強技術和特徵補償技術,並採用了噪聲免疫訓練,可以在各種噪聲環境下工作;特別針對汽車背景噪聲優化,在極低信噪比環境下仍可使用。該引擎無需特別訓練即可供不同說話人使用,並特別針對不同地方口音進行優化,可以同時支持不同口音的說話人。除了可以完成高精度的命令詞識別,東芝的嵌入式語音識別引擎支持大詞彙量的地址識別,結合在線文法生成功能和語音標籤功能,使得聲控的汽車導航成為現實。此外,該引擎還支持中文數字串識別和人名識別等,可以輕鬆完成聲控撥號/定位任務。引擎採用了高效的搜索算法和聲學模型壓縮等技術,可以在資源十分有限的條件下工作,目前已經應用到多款汽車導航系統中。

  2. 語音對話系統和翻譯系統中的語音聽寫引擎。結合語音識別/合成和機器翻譯技術,不同語言間的自動語音翻譯已經成為可能。

  東芝的語音翻譯系統,目前已經支持中、英、日三國語言的互譯。作為其中重要的模塊之一,我們開發了高性能的中文語音聽寫引擎(大詞表連續語音識別系統)。該系統採用了噪聲魯棒性技術,可以應用到不同環境中。聲學模型訓練中採用了區分性訓練,並針對不同地方口音進行了優化;高性能的自適應技術,可以在無監督的模式下有效提高對不同口音和環境的適應能力。該引擎支持大詞彙量的語音聽寫,並提供了用戶詞典功能;具有高可移植性,可以為不同領域快速定製識別引擎。

  常用的一些聲學特徵

  * 線性預測係數LPC:線性預測分析從人的發聲機理入手,通過對聲道的短管級聯模型的研究,認為系統的傳遞函數符合全極點數字濾波器的形式,從而n 時刻的信號可以用前若干時刻的信號的線性組合來估計。通過使實際語音的採樣值和線性預測採樣值之間達到均方差最小LMS,即可得到線性預測係數LPC。對 LPC的計算方法有自相關法(德賓Durbin法)、協方差法、格型法等等。計算上的快速有效保證了這一聲學特徵的廣泛使用。與LPC這種預測參數模型類似的聲學特徵還有線譜對LSP、反射係數等等。

  * 倒譜係數CEP:利用同態處理方法,對語音信號求離散傅立葉變換DFT後取對數,再求反變換iDFT就可得到倒譜係數。對LPC倒譜(LPCCEP),在獲得濾波器的線性預測係數後,可以用一個遞推公式計算得出。實驗表明,使用倒譜可以提高特徵參數的穩定性。

  * Mel倒譜係數MFCC和感知線性預測PLP:不同於LPC等通過對人的發聲機理的研究而得到的聲學特徵,Mel倒譜係數MFCC和感知線性預測 PLP是受人的聽覺系統研究成果推動而導出的聲學特徵。對人的聽覺機理的研究發現,當兩個頻率相近的音調同時發出時,人只能聽到一個音調。臨界帶寬指的就是這樣一種令人的主觀感覺發生突變的帶寬邊界,當兩個音調的頻率差小於臨界帶寬時,人就會把兩個音調聽成一個,這稱之為屏蔽效應。Mel刻度是對這一臨界帶寬的度量方法之一。

  MFCC的計算首先用FFT將時域信號轉化成頻域,之後對其對數能量譜用依照Mel刻度分布的三角濾波器組進行卷積,最後對各個濾波器的輸出構成的向量進行離散餘弦變換DCT,取前N個係數。PLP仍用德賓法去計算LPC參數,但在計算自相關參數時用的也是對聽覺激勵的對數能量譜進行DCT的方法。

  語音識別系統的性能指標主要有四項。①詞彙表範圍:這是指機器能識別的單詞或詞組的範圍,如不作任何限制,則可認為詞彙表範圍是無限的。②說話人限制:是僅能識別指定發話者的語音,還是對任何發話人的語音都能識別。③訓練要求:使用前要不要訓練,即是否讓機器先「聽」一下給定的語音,以及訓練次數的多少。④正確識別率:平均正確識別的百分數,它與前面三個指標有關。

  小結

  以上介紹了實現語音識別系統的各個方面的技術。這些技術在實際使用中達到了較好的效果,但如何克服影響語音的各種因素還需要更深入地分析。目前聽寫機系統還不能完全實用化以取代鍵盤的輸入,但識別技術的成熟同時推動了更高層次的語音理解技術的研究。由於英語與漢語有著不同的特點,針對英語提出的技術在漢語中如何使用也是一個重要的研究課題,而四聲等漢語本身特有的問題也有待解決。

相關焦點

  • 語音識別技術簡史
    GMM-HMM時代70 年代,語音識別主要集中在小詞彙量、孤立詞識別方面,使用的方法也主要是簡單的模板匹配方法,即首先提取語音信號的特徵構建參數模板,然後將測試語音與參考模板參數進行一一比較和匹配,取距離最近的樣本所對應的詞標註為該語音信號的發音。該方法對解決孤立詞識別是有效的,但對於大詞彙量、非特定人連續語音識別就無能為力。
  • 智能語音識別技術入門系列(上)
    下面展示的語音識別系統的典型結構,語音識別系統主要由圖中四個部分組成:信號處理和特徵提取、聲學模型、語言模型和解碼搜索部分。信號處理和特徵提取部分是以音頻信號作為輸入,通過消除噪聲和信道失真對語音進行增強,為後面的聲學模型提取合適的有代表性的特徵向量。
  • 語音識別算法有哪些_語音識別特徵提取方法
    語音識別算法有哪些_語音識別特徵提取方法 網絡整理 發表於 2020-04-01 09:24:49   語音識別算法有哪些   本文列舉了幾種不同的語音識別算法
  • 基於Julius的機器人語音識別系統構建
    只需要對幾十個字或詞的命令行進語音識別,便可使得原本需要手工操作的工作由語音輕鬆完成。本文針對現有機器人平臺,設計一個非特定人的孤立詞語音識別系統。  1 語音識別原理及JuliUS簡介  1.1 基於HMM的語音識別原理  語音識別系統是一種模式識別系統,系統首先對語音信號進行分析,得到語音的特徵參數,然後對這些參數進行處理,形成標準的模板。這個過程稱為訓練或學習。
  • DSP開發板的語音識別系統的研究
    語音識別系統一般包括前端處理、特徵參數提取、模型訓練和識別部分。圖1所示是基於模式匹配原理的語音識別系統框圖。圖1 語音識別系統基本框圖  1.2 特徵參數  語音信號中含有非常豐富的信息,包括影響語音識別的重要信息,也包括對語音識別無關緊要甚至會降低識別率的冗餘信息。
  • 玩人工智慧的你必須知道的語音識別技術原理
    而計算機在識別過程中要根據語音識別的模型,將計算機中存放的語音模板與輸入的語音信號的特徵進行比較,根據一定的搜索和匹配策略,找出一系列最優的與輸入語音匹配的模板。然後根據此模板的定義,通過查表就可以給出計算機的識別結果。顯然,這種最優的結果與特徵的選擇、語音模型的好壞、模板是否準確都有直接的關係。  語音識別系統構建過程整體上包括兩大部分:訓練和識別。
  • 應用、算法、晶片,「三位一體」淺析語音識別
    用於判斷什麼時候有語音輸入,什麼時候是靜音狀態。2、特徵提取梅爾頻率倒譜係數(MFCC)是最為常用的語音特徵,梅爾頻率是基於人耳聽覺特徵提取出來的。MFCC主要由預加重、分幀、加窗、快速傅立葉變換(FFT)、梅爾濾波器組、離散餘弦變換幾部分組成,其中FFT與梅爾濾波器組是MFCC最重要的部分。但是近年研究表明,對於語音識別而言,梅爾濾波器組不一定是最優方案。
  • ZLG深度解析:語音識別技術
    語音識別已成為人與機器通過自然語言交互重要方式之一,本文將從語音識別的原理以及語音識別算法的角度出發為大家介紹語音識別的方案及詳細設計過程。語言作為人類的一種基本交流方式,在數千年歷史中得到持續傳承。近年來,語音識別技術的不斷成熟,已廣泛應用於我們的生活當中。語音識別技術是如何讓機器「聽懂」人類語言?
  • 排名 語音識別_語音識別技術排名 - CSDN
    該成果有望推動語音識別技術的大幅進步,已超越人類專業速記員的水平」的字眼令正在從事語音識別研究的科研工作者和技術提供商一陣錯愕,不明真相的群眾紛紛認為當前語音識別已經刷無可刷,語音識別技術已經沒有門檻,語音識別是已經解決的問題了……但是事實並不是這樣,在LibriSpeech這種簡單數據集上「刷」到詞錯誤率2.97%並不困難,語音識別領域仍存在大量的問題需要解決。
  • 科普丨一文看懂語音識別的技術原理
    簡要給大家介紹一下語音怎麼變文字的吧。希望這個介紹能讓所有同學看懂。首先,我們知道聲音實際上是一種波。常見的mp3、wmv等格式都是壓縮格式,必須轉成非壓縮的純波形文件來處理,比如Windows PCM文件,也就是俗稱的wav文件。wav文件裡存儲的除了一個文件頭以外,就是聲音波形的一個個點了。
  • 語音識別原理及其語音識別系統分類
    人類的聲道和發音器官,是具有非線性特徵的生物器官,不僅僅運行在有意識的控制下,而且受到性別及其成長因素情緒狀態的影響。因此,聲音會因為他們的口音、發音、清晰度、體積、速度等有著大幅的變動。人類希望能與機器進一步溝通,從而方便生產與生活,而在語音信號的傳輸過程中,我們不規則的語言行為方式會被背景噪聲和回聲,以及電特性(如話筒等電子設備)進一步扭曲。這一切可變性的聲音來源語音識別更加繁瑣複雜。
  • AI浪潮下,語音識別建模技術的演進 | 雷鋒網公開課
    也正是因為如此,語音識別的模型也層出不窮,其中語言模型包括了N-gram、RNNLM等,在聲學模型裡面又涵蓋了HMM、DNN、RNN等模型...簡單來說,聲學模型的任務就是描述語音的物理變化規律,而語言模型則表達了自然語言包含的語言學知識。
  • FinTech時代商業銀行智能語音識別技術應用與發展
    (1)早期實驗研究階段  20世紀50年代,世界上第一個能識別10個英文數字發音的實驗系統在貝爾實驗室誕生;20世紀60年代,出現了動態時間規整(DTW)算法以及將語音信號以幀為單位切分的技術,實現了有效的語音特徵提取;20世紀80年代,識別算法從基於標準模板的方法轉向基於統計模型的方法,產生了基於高斯混合隱馬爾可夫模型(GMM-HMM)的聲學模型和以N元語法為基礎的語言模型
  • 語音識別揭秘:你的手機究竟有多理解你?
    人和機器之間的交互也是相同的道理,讓機器人知道人類要做什麼、怎麼做。交互的方式有動作、文本或語音等等,其中語音交互越來越被重視,因為隨著網際網路上智能硬體的普及,產生了各種網際網路的入口方式,而語音是最簡單、最直接的交互方式,是最通用的輸入模式。在1952年,貝爾研究所研製了世界上第一個能識別10個英文數字發音的系統。
  • 基於DSP的漢字語音識別系統的實現方式解析
    語音識別是機器通過識別和理解過程把語音信號轉變為相應的文本文件或命令的高技術。作為專門的研究領域,語音識別又是一門交叉學科,它與聲學、語音學、語言學、數位訊號處理理論、資訊理論、計算機科學等眾多學科緊密相連。語音識別經過四十多年的發展,已經顯示出巨大的應用前景。本文從實現原理入手,介紹語音識別系統的實現方式。
  • 基於DSP的語音識別計算器電路設計
    語音識別過程主要包括語音信號前處理、特徵提取、模式匹配等部分。語音信號輸入之後,預處理和數位化是進行語音識別的前提條件。特徵提取是進行語音信號訓練和識別必不可少的步驟,本文採用的是提取每幀的Mel係數的倒譜參數作為語音信號的特徵值。模板匹配算法目前有DTW算法、HMM隱馬爾科夫模型、ANN人工神經網絡等。
  • 語音識別技術原理全面解析
    語音識別是以語音為研究對象,通過語音信號處理和模式識別讓機器自動識別和理解人類口述的語言。語音識別技術就是讓機器通過識別和理解過程把語 音信號轉變為相應的文本或命令的高技術。語音識別是一門涉及面很廣的交叉學科,它與聲學、語音學、語言學、信息理論、模式識別理論以及神經生物學等學科都 有非常密切的關係。
  • 智能音箱大戰全面開火,那麼問題來了:如何成為一名全棧語音識別...
    聲學模型: 聲學模型是語音識別中最為關鍵的部分,是將聲學和計算機學的知識進行整合,以特徵提取部分生成的特徵作為輸入,並為可變長的特徵序列生成聲學模型分數。聲學模型核心要解決特徵向量的可變長問題和聲音信號的多變性問題。事實上,每次所提到的語音識別進展,基本上都是指聲學模型的進展。
  • 基於語音識別的移動電子病歷應用探索
    語音識別是一門交叉學科,涉及生理學、聲學、語音學、計算機科學、信號處理等,儘管不同的語音識別系統,實現的細節不同,但原理大致相同,如圖1所示。圖1 語音識別原理語音識別技術主要分為前端處理與後端處理2個部分。前端處理主要包括端點檢測、降噪、特徵提取等。後端處理主要包括2個過程,分別是訓練與解碼。端點檢測從連續的語音流中檢測出有效的語音段。
  • 專注E2E語音識別,騰訊AILab開源語音處理工具包PIKA
    機器之心報導作者:魔王、杜偉PyTorch + Kaldi,騰訊 AI Lab 開源輕量級語音處理工具包 PIKA,專注於端到端語音識別任務。Kaldi 是一個開源的語音識別系統,由 Daniel Povey 主導開發,在很多語音識別測試和應用中廣泛使用。