從原理入手,解析基於DSP的漢字語音識別系統的實現方式

2021-01-08 電子產品世界

語音識別是機器通過識別和理解過程把語音信號轉變為相應的文本文件或命令的高技術。作為專門的研究領域,語音識別又是一門交叉學科,它與聲學、語音學、語言學、數位訊號處理理論、資訊理論、計算機科學等眾多學科緊密相連。語音識別經過四十多年的發展,已經顯示出巨大的應用前景。本文從實現原理入手,介紹語音識別系統的實現方式。

本文引用地址:http://www.eepw.com.cn/article/307429.htm

概述

本漢語語音識別系統是一個非特定人的、孤立音語音識別系統。其中孤立音至少包括漢語的400多個調音節(不考慮聲調)以及一些常用的詞組。識別系統主要用於手持設備,如手機、掌上電腦。這些設備的CPU一般是DSP,硬體資源十分有限,而且大多不支持浮點運算。那麼,對系統各個部分的設計首要考慮的是系統對硬體資源的開銷必須儘量的小,不能超過這些設備的限制。硬體資源的開銷包括存儲模型參數的開銷,以及識別過程中對內存、DSP的運行時間的開銷。

2 實現流程

一般的語音處理流程圖如圖1所示。

圖1 語音識別系統的處理流圖

在語音識別系統中,模擬的語音信號在完成A/D轉換後成為數位訊號,但時域上的語音信號很難直接用於識別,因此需要從語音信號中提取語音的特徵,一方面可以獲得語音的本質特徵,另一方面也起到數據壓縮的作用。輸入的模擬語音信號首先要進行預處理,包括預濾波、採樣和量化、加窗、端點檢測、預加重等。語音識別系統的模型通常由聲學模型和語言模型兩部分組成,分別對應於語音到半音節概率的計算和半音節到字概率的計算。

3 特徵提取

目前通用的特徵提取方法是基於語音幀的,即將語音信號分為有重疊的若干幀,對每一幀提取語音特徵。由於本技術方案採用的語音庫採樣率為8 kHz,因此採用幀長為256個採樣點(即32 ms),幀步長或幀移(即每一幀語音與上一幀語音不重疊的長度)為80個採樣點(即10 ms)。

現有語音識別系統採用的最主要的兩種語音特徵包括:

線性預測倒譜參數(Linear Prediction Cepstrum Coefficient,LPCC),該特徵是基於語音信號為自回歸信號的假設,利用線性預測分析獲得倒譜參數。LPCC參數的優點是計算量小,對元音有較好的描述能力,其缺點在於對輔音的描述能力較差,抗噪聲性能較差。

Mel 頻標倒譜參數(Mel Frequency Cepstrum Coefficient,MFCC),該特徵考慮了人耳的聽覺特性,將頻譜轉化為基於Mel頻標的非線性頻譜,然後轉換到倒譜域上。由於充分模擬了人的聽覺特性,而且沒有任何前提假設,MFCC參數具有識別性能和抗噪能力,實驗證明在漢語數碼語音識別中MFCC 參數的性能明顯優於LPCC參數,因此本技術方案採用MFCC參數為語音特徵參數。

求MFCC參數的大致過程為:

對輸入語音幀加Hamming窗後做快速傅立葉變換(Fast Fourier Transformation,FFT),將時域信號轉化為頻域信號。

將線性頻標轉化為Mel頻標。轉化方法是將頻域信號通過24個三角濾波器,其中中心頻率在1 000 Hz以上和以下的各12個。濾波器的中心頻率間隔特點是在1000Hz以下為線性分布,1 000 Hz以上為等比數列分布。三角濾波器的輸出為:

式中:Xk為頻譜上第k個頻譜點的能量;Yi為第i個濾波器的輸出;Fi為第i個濾波器的中心頻率。

用離散餘弦變換(Discrete Cosine Transformation,DCT)將濾波器輸出變換到倒譜域:

式中:p為MFCC參數的階數,這裡取p = 12。{Ck}k = 1,2,…,12即為所求的MFCC參數。

為體現語音的動態特性,在語音特徵中加入了一階差分倒譜,其計算方法如下式所示:

式中下標l與l - k表示第l與l - k幀;m表示第m維。

MFCC參數計算的要點是將線性功率譜S(n)轉換成為Mel頻率下的功率譜,這需要在計算之前先在語音的頻譜範圍內設置若干個帶通濾波器Hm(n),m= 0,1,2,…,M - 1,n = 0,1,2,…,N/2 - 1。M為濾波器個數,N為一幀語音信號的點數。每個濾波器具有三角形特性,其中心頻率為fm,它們在Mel頻率軸上是均勻分布的。在線性頻率上,當m 較小時相鄰的fm間隔很小,隨著m的增加相鄰的fm間隔逐漸拉開。Mel頻率和線性頻率的轉換關係如下:

這些帶通濾波器的參數是事先計算好的。圖2給出了濾波器組的分布圖,其中M 選擇為26,FFT點數N為256,語音信號的採樣頻率為8000 Hz。

圖2 利用人耳仿生學特性設計的Mel尺度濾波器組

4 測度估計

測度估計技術可以採用動態時間彎折DTW、隱馬爾可夫模型HMM或人工神經網ANN等算法,本項目採用國際上最先進的HMM,這樣能夠比較容易的實現非特定人,而且系統結構也比較靈活、一致。

根據描述的語音單位的大小,HMM可分為:基於整詞模型的HMM(Word based HMM)。其優點為可以很好地描述詞內音素協同發音的特點,建模過程也較為簡單。因此很多小詞彙量語音識別系統均採用整詞模型HMM。但在大詞彙量語音識別中由於所需建立的模型太多而無法使用。

基於子詞模型的HMM(Sub Word based HMM)。該類HMM描述的語音單位比詞小,如英語語音識別中的基本音素,漢語語音識別中的半音節等。其優點為模型總數少,所以在大詞彙量語音識別中得到了廣泛的應用。其缺點在於其描述詞內協同發音的能力劣於整詞模型,但由於子詞模型已經得到了非常充分的研究,所以近年來在很多小詞表應用識別系統中也用了子詞模型。本技術方案採用基於半音節(即聲、韻母)的語音建模方法,其識別模型拓撲結構如圖3 所示,其中靜音HMM採用1個狀態,每一聲母模型採用2個狀態,每一韻母模型採用4個狀態。

圖3 識別模型拓撲結構

根據輸出概率分布的不同,HMM(隱含馬爾科夫模型)可分為:

離散HMM(Discrete HMM,DHMM)。其輸出概率是基於一套碼本的離散概率分布,其優點在於由於實現了存儲量和計算量都較小,所需的訓練語音也較少,但其矢量量化的過程會造成性能的損失。

連續HMM(Continuous Density HMM,CDHMM)。其輸出概率是連續概率密度函數(一般是高斯混合密度函數)。其所需的訓練語音較多,模型參數存儲量和計算量都較大,在訓練語音足夠時,其性能優於DHMM。

半連續HMM(Semi Continuous HMM,SCHMM)。SCHMM是DHMM和CDHMM的折衷,與DHMM相似,其輸出為一套碼本,但每個碼字均為一個連續概率密度分布函數,這一點與CDHMM相近。其性能和所需的訓練語音等均介於DHMM和CDHMM之間。

考慮到漢語數碼語音所需的模型較少,很容易獲得足夠多的訓練語音,因此本技術方案採用了CDHMM為語音模型。

狀態輸出概率分布為混合高斯密度函數。其各分量計算如下:

總的概率輸出即為各分量的加權和:

式中:s表示當前狀態;M為混合分量數;u,Σ ,c分別為各混合分量的均值矢量、協方差矩陣和混合分量係數。

該算法利用Viterbi解碼的過程進行幀同步的搜索,易於實時實現,也容易納入語法信息。考慮到系統的實時實現性,本技術方案採用Viterbi解碼作為系統的搜索算法。

5 試驗結果

在漢語全音節與詞組混合的語音識別任務中,得到的初步實驗結果為:PC微機浮點算法條件下正確覆蓋率不低於98%,定點算法的正確覆蓋率不低於97%。DSP嵌入系統定點條件下正確覆蓋率不低於96%。系統的響應時間滿足實時識別的要求。通過測試組嚴格的檢查及抽樣測試,證明上述結果真實可靠,該輸入法基本達到實用化要求。

6 結語

語音漢字輸入技術的研發是具有重大經濟和社會意義的課題,該項目採用孤立語音的全音節和詞組的混合識別模式,使用連續概率分布非特定人的聲學模型,並輔以多候選的人機互動方式,較好地實現了在移動(可攜式)電子設備上資源有限的條件下方便快捷的漢字語音輸入。

相關焦點

  • 基於DSP的漢字語音識別系統的實現方式解析
    語音識別是機器通過識別和理解過程把語音信號轉變為相應的文本文件或命令的高技術。作為專門的研究領域,語音識別又是一門交叉學科,它與聲學、語音學、語言學、數位訊號處理理論、資訊理論、計算機科學等眾多學科緊密相連。語音識別經過四十多年的發展,已經顯示出巨大的應用前景。本文從實現原理入手,介紹語音識別系統的實現方式。
  • 基於DSP的語音識別系統的實現及分析
    尤其在會話任務上,自動語音識別系統遠不及人類。因此,語音識別技術的應用已成為一個極具競爭性和挑戰性的高新技術產業。  隨著DSP技術的快速發展及性能不斷完善,基於DSP的語音識別算法得到了實現,並且在費用、功耗、速度、精確度和體積等方面有著PC機所不具備的優勢,具有廣闊的應用前景。
  • 基於DSP和FPGA的機器人聲控系統設計與實現
    一個體積小、低功耗、高速度能完成特定範圍語音識別和動作指令的機器人系統的研製具有很大的實際意義。 2 系統硬體總體設計 系統的硬體功能是實現語音指令的採集和步進電機的驅動控制,為系統軟體提供開發和調試平臺。如圖1所示。
  • DSP開發板的語音識別系統的研究
    然而針對識別效果來說,ASR 系統則相對較差。尤其在會話任務上,自動語音識別系統遠不及人類。因此,語音識別技術的應用已成為一個極具競爭性和挑戰性的高新技術產業。  隨著DSP技術的快速發展及性能不斷完善,基於DSP的語音識別算法得到了實現,並且在費用、功耗、速度、精確度和體積等方面有著PC機所不具備的優勢,具有廣闊的應用前景。
  • 基於DSP的語音識別計算器電路設計
    但是其基本的操作沒有發生變化,依然是運用手指操作,對於需要進行實時數字計算的一些特殊人群(殘疾人士)或是在一些特殊場合在無法手動操作計算器的情況下,用加入了語音識別模塊的計算器來進行實時數字計算就有相當的必要。 語音識別技術是人機最自然、最簡潔的交流方式,它就是讓機器能夠自動識別並理解說話人要表達的意思,將語音信號轉變為正確的文本或者命令的高科技技術。
  • 語音識別技術原理全面解析
    1、語音識別的基本原理  語音識別系統本質上是一種模式識別系統,包括特徵提取、模式匹配、參考模式庫等三個基本單元,它的基本結構如下圖所示:    未知語音經過話筒變換成電信號後加在識別系統的輸入端,首先經過預處理,再根據人的語音特點建立語音模型,對輸入的語音信號進行分析,並抽取所需的特 徵,在此基礎上建立語音識別所需的模板。
  • 基於Julius的機器人語音識別系統構建
    語音識別技術的發展,使得這一理想得以實現,把語音識別技術與機器人控制技術相結合,正成為目前研究的熱點,不但具有較好的理論意義,而且有較大的實用價值。   語音識別技術應用於機器人系統大多是針對特定的環境,設計出語音命令來進行控制的。
  • 基於小波變換與DSP的實時音頻視頻處理系統
    本文介紹一種基於adv611,ct8021晶片同時結合ti公司的tms320c6201晶片實現音/視頻實時處理系統。在該實時系統中,dsp晶片作為控制核心、一方面要管理adv611,ct8021,存儲器和通信接口,另一方面要對adv611的圖像壓縮效果進行調解,對數據速率實時控制。系統實現方案原理圖如圖1所示。
  • 基於片上系統SoC的孤立詞語音識別算法設計
    引言本文引用地址:http://www.eepw.com.cn/article/190560.htm目前,嵌入式語音識別系統的實現主要通過單片機MCU和數位訊號處理器DSP來實現[1]。但是單片機運算速度慢,處理能力不高;雖然DSP處理速度很快,但是產品的成本很高,電源能量消耗也很大。
  • 語音識別原理及其語音識別系統分類
    一、語音識別原理語言交流是人類一種天然的溝通模式。從兒童時代開始我們對語言的相關學習都是自發的,語言交流始終貫穿於我們的生活。它是那麼的自然以至於我們根本沒有發現這是一種多麼複雜的現象。人類希望能與機器進一步溝通,從而方便生產與生活,而在語音信號的傳輸過程中,我們不規則的語言行為方式會被背景噪聲和回聲,以及電特性(如話筒等電子設備)進一步扭曲。這一切可變性的聲音來源語音識別更加繁瑣複雜。
  • 基於嵌入式Linux的語音識別系統硬軟體設計
    在嵌入式Linux作業系統下,運用多進程機制完成了對語音識別晶片、超聲波測距和雲臺的控制,並將語音識別技術應用於多角度超聲波測距系統中。通過測試,系統可以通過識別語音指令控制測量方向,無需手動幹預,最後將測量結果通過語音播放出來。
  • 基於語音識別的移動電子病歷應用探索
    在此背景下,需要將語音識別技術更好地應用於電子病歷信息錄入過程,構建更高質量、更高效率的電子病歷。語音識別基本原理語音識別是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的一種技術,也就是讓機器聽懂人類的語音,把用戶說的詞語逐字轉化為文字,並將此文字正確地顯示出來。
  • ZLG深度解析:語音識別技術
    語音識別已成為人與機器通過自然語言交互重要方式之一,本文將從語音識別的原理以及語音識別算法的角度出發為大家介紹語音識別的方案及詳細設計過程。語言作為人類的一種基本交流方式,在數千年歷史中得到持續傳承。近年來,語音識別技術的不斷成熟,已廣泛應用於我們的生活當中。語音識別技術是如何讓機器「聽懂」人類語言?
  • 基於HMM的連續小詞量語音識別系統的研究
    、小詞量的語音識別系統。實驗證明,該語音識別系統具有較高的識別率和一定程度的魯棒性,實驗室識別率和室外識別率分別達到95.6%,92.3%。關鍵詞:語音識別;嵌入式系統;Hidden Markov Models;ARM;Viterbi算法0 引言 嵌入式語音識別系統是應用各種先進的微處理器在板級或是晶片級用軟體或硬體實現的語音識別。
  • 基於非特定人車載音響語音控制系統的設計與實現
    本文首次提出了一種的以專用語音處理晶片UniSpeech-SDA80D51為核心組成非特定人車載音響語音控制系統的設計方案,並實現了系統樣機的研製。該系統在江淮同悅SL1102C1型車載音響上進行了語音控制實驗,實驗數據表明系統語音識別率可達到95%,為下一步項目產品化開發奠定了基礎。
  • 基於DL的中文語音識別系統ASRT開源
    2月11日消息,一套基於深度學習實現的語音識別系統ASRT(全稱Auto Speech Recognition Tool),由AI檸檬博主開發並在GitHub上開源(GPL 3.0 協議)。本項目聲學模型通過採用卷積神經網絡和連接性時序分類方法,使用大量中文語音數據集進行訓練,將聲音轉錄為中文拼音,並通過語言模型,將拼音序列轉換為中文文本。
  • 基於FPGA的語音智能操控系統
    基於FPGA實現語音智能操控系統具有:(一)設計靈活、操作方便、快捷(二)準確度高,工作範圍大(三)可隨時用語音操控帶有遙控裝置的用電器(四)可擴展性強,增強了系統的外接功能(五)便於更新和系統升級,可隨時嵌入更新系統程序
  • 第六講 DSP在雷達信號處理中的應用
    為了讓工程師在設計開發中完善和拓展基礎理論與系統知識,豐富應用經驗,《世界電子元器件》和中電網聯合清華大學等知名院校共同創辦了這個欄目,特約知名學者、教授以及著名半導體公司的應用工程師撰寫,以系列講座的方式對熱點ic技術進行全面而系統的介紹,涵蓋最新技術要點。最先開設的講座將圍繞三大課題:dsp、fpga和嵌入式系統,每個課題都將連載6期。
  • 基於DSP的數字掃描探針顯微鏡的硬體解決方案研究
    技術也已經廣泛地應用於通信、測量、多媒體、消費電子產品等領域,由於把dsp和spm結合在一起是spm儀器發展的必然方向,它能使spm性能更趨於完善,為此,本文介紹如何用tms320c5416來實現這一設想!
  • 基於FPGA的手勢語音轉換器
    我們的手語語音轉換器目的就是就是通過它提供一種有效的途徑將聾啞人的手勢識別出來,並轉換成我們普通人所習慣的語音信息,從而實現聾啞人與我們的有效溝通。目前手語識別可以分為基於視覺的識別系統和基於數據手套的識別系統。基於視覺的手勢識別系統採用常見的視頻採集設備作為手勢感知輸入設備,價格便宜、便於安裝。