解析基於DSP的漢字語音識別系統的實現方式

2020-12-25 電子產品世界

語音識別是機器通過識別和理解過程把語音信號轉變為相應的文本文件或命令的高技術。作為專門的研究領域,語音識別又是一門交叉學科,它與聲學、語音學、語言學、數位訊號處理理論、資訊理論、計算機科學等眾多學科緊密相連。語音識別經過四十多年的發展,已經顯示出巨大的應用前景。本文從實現原理入手,介紹語音識別系統的實現方式。

本文引用地址:http://www.eepw.com.cn/article/201610/309216.htm

概述

本漢語語音識別系統是一個非特定人的、孤立音語音識別系統。其中孤立音至少包括漢語的400多個調音節(不考慮聲調)以及一些常用的詞組。識別系統主要用於手持設備,如手機、掌上電腦。這些設備的CPU一般是DSP,硬體資源十分有限,而且大多不支持浮點運算。那麼,對系統各個部分的設計首要考慮的是系統對硬體資源的開銷必須儘量的小,不能超過這些設備的限制。硬體資源的開銷包括存儲模型參數的開銷,以及識別過程中對內存、DSP的運行時間的開銷。

2 實現流程

一般的語音處理流程圖如圖1所示。


圖1 語音識別系統的處理流圖

在語音識別系統中,模擬的語音信號在完成A/D轉換後成為數位訊號,但時域上的語音信號很難直接用於識別,因此需要從語音信號中提取語音的特徵,一方面可以獲得語音的本質特徵,另一方面也起到數據壓縮的作用。輸入的模擬語音信號首先要進行預處理,包括預濾波、採樣和量化、加窗、端點檢測、預加重等。語音識別系統的模型通常由聲學模型和語言模型兩部分組成,分別對應於語音到半音節概率的計算和半音節到字概率的計算。

3特徵提取

目前通用的特徵提取方法是基於語音幀的,即將語音信號分為有重疊的若干幀,對每一幀提取語音特徵。由於本技術方案採用的語音庫採樣率為8 kHz,因此採用幀長為256個採樣點(即32 ms),幀步長或幀移(即每一幀語音與上一幀語音不重疊的長度)為80個採樣點(即10 ms)。

現有語音識別系統採用的最主要的兩種語音特徵包括:

線性預測倒譜參數(Linear Prediction Cepstrum Coefficient,LPCC),該特徵是基於語音信號為自回歸信號的假設,利用線性預測分析獲得倒譜參數。LPCC參數的優點是計算量小,對元音有較好的描述能力,其缺點在於對輔音的描述能力較差,抗噪聲性能較差。

Mel 頻標倒譜參數(Mel Frequency Cepstrum Coefficient,MFCC),該特徵考慮了人耳的聽覺特性,將頻譜轉化為基於Mel頻標的非線性頻譜,然後轉換到倒譜域上。由於充分模擬了人的聽覺特性,而且沒有任何前提假設,MFCC參數具有識別性能和抗噪能力,實驗證明在漢語數碼語音識別中MFCC 參數的性能明顯優於LPCC參數,因此本技術方案採用MFCC參數為語音特徵參數。

求MFCC參數的大致過程為:

對輸入語音幀加Hamming窗後做快速傅立葉變換(Fast Fourier Transformation,FFT),將時域信號轉化為頻域信號。

將線性頻標轉化為Mel頻標。轉化方法是將頻域信號通過24個三角濾波器,其中中心頻率在1 000 Hz以上和以下的各12個。濾波器的中心頻率間隔特點是在1000Hz以下為線性分布,1 000 Hz以上為等比數列分布。三角濾波器的輸出為:

式中:Xk為頻譜上第k個頻譜點的能量;Yi為第i個濾波器的輸出;Fi為第i個濾波器的中心頻率。

用離散餘弦變換(Discrete Cosine Transformation,DCT)將濾波器輸出變換到倒譜域:

式中:p為MFCC參數的階數,這裡取p = 12。{Ck}k = 1,2,…,12即為所求的MFCC參數。

為體現語音的動態特性,在語音特徵中加入了一階差分倒譜,其計算方法如下式所示:

式中下標l與l - k表示第l與l - k幀;m表示第m維。

MFCC參數計算的要點是將線性功率譜S(n)轉換成為Mel頻率下的功率譜,這需要在計算之前先在語音的頻譜範圍內設置若干個帶通濾波器Hm(n),m= 0,1,2,…,M - 1,n = 0,1,2,…,N/2 - 1。M為濾波器個數,N為一幀語音信號的點數。每個濾波器具有三角形特性,其中心頻率為fm,它們在Mel頻率軸上是均勻分布的。在線性頻率上,當m 較小時相鄰的fm間隔很小,隨著m的增加相鄰的fm間隔逐漸拉開。Mel頻率和線性頻率的轉換關係如下:

這些帶通濾波器的參數是事先計算好的。圖2給出了濾波器組的分布圖,其中M 選擇為26,FFT點數N為256,語音信號的採樣頻率為8000 Hz。


圖2 利用人耳仿生學特性設計的Mel尺度濾波器組

4 測度估計

測度估計技術可以採用動態時間彎折DTW、隱馬爾可夫模型HMM或人工神經網ANN等算法,本項目採用國際上最先進的HMM,這樣能夠比較容易的實現非特定人,而且系統結構也比較靈活、一致。

根據描述的語音單位的大小,HMM可分為:基於整詞模型的HMM(Word based HMM)。其優點為可以很好地描述詞內音素協同發音的特點,建模過程也較為簡單。因此很多小詞彙量語音識別系統均採用整詞模型HMM。但在大詞彙量語音識別中由於所需建立的模型太多而無法使用。

基於子詞模型的HMM(Sub Word based HMM)。該類HMM描述的語音單位比詞小,如英語語音識別中的基本音素,漢語語音識別中的半音節等。其優點為模型總數少,所以在大詞彙量語音識別中得到了廣泛的應用。其缺點在於其描述詞內協同發音的能力劣於整詞模型,但由於子詞模型已經得到了非常充分的研究,所以近年來在很多小詞表應用識別系統中也用了子詞模型。本技術方案採用基於半音節(即聲、韻母)的語音建模方法,其識別模型拓撲結構如圖3 所示,其中靜音HMM採用1個狀態,每一聲母模型採用2個狀態,每一韻母模型採用4個狀態。


圖3 識別模型拓撲結構

根據輸出概率分布的不同,HMM(隱含馬爾科夫模型)可分為:

離散HMM(Discrete HMM,DHMM)。其輸出概率是基於一套碼本的離散概率分布,其優點在於由於實現了存儲量和計算量都較小,所需的訓練語音也較少,但其矢量量化的過程會造成性能的損失。

連續HMM(Continuous Density HMM,CDHMM)。其輸出概率是連續概率密度函數(一般是高斯混合密度函數)。其所需的訓練語音較多,模型參數存儲量和計算量都較大,在訓練語音足夠時,其性能優於DHMM。

半連續HMM(Semi Continuous HMM,SCHMM)。SCHMM是DHMM和CDHMM的折衷,與DHMM相似,其輸出為一套碼本,但每個碼字均為一個連續概率密度分布函數,這一點與CDHMM相近。其性能和所需的訓練語音等均介於DHMM和CDHMM之間。

考慮到漢語數碼語音所需的模型較少,很容易獲得足夠多的訓練語音,因此本技術方案採用了CDHMM為語音模型。

狀態輸出概率分布為混合高斯密度函數。其各分量計算如下:

總的概率輸出即為各分量的加權和:

式中:s表示當前狀態;M為混合分量數;u,Σ ,c分別為各混合分量的均值矢量、協方差矩陣和混合分量係數。

該算法利用Viterbi解碼的過程進行幀同步的搜索,易於實時實現,也容易納入語法信息。考慮到系統的實時實現性,本技術方案採用Viterbi解碼作為系統的搜索算法。

5 試驗結果

在漢語全音節與詞組混合的語音識別任務中,得到的初步實驗結果為:PC微機浮點算法條件下正確覆蓋率不低於98%,定點算法的正確覆蓋率不低於97%。DSP嵌入系統定點條件下正確覆蓋率不低於96%。系統的響應時間滿足實時識別的要求。通過測試組嚴格的檢查及抽樣測試,證明上述結果真實可靠,該輸入法基本達到實用化要求。

6 結語

語音漢字輸入技術的研發是具有重大經濟和社會意義的課題,該項目採用孤立語音的全音節和詞組的混合識別模式,使用連續概率分布非特定人的聲學模型,並輔以多候選的人機互動方式,較好地實現了在移動(可攜式)電子設備上資源有限的條件下方便快捷的漢字語音輸入。

相關焦點

  • 基於DSP的語音降噪系統設計
    本文所介紹的語音降噪系統能夠有效地實現數字降噪功能,由於降噪處理時不但要進行信號的採集與回放,還要進行降噪算法的實時處理,採用具有高速實時處理能力的DSP TMS320VC5509進行處理,能夠滿足日常生活中語音通信中的降噪要求。
  • 基於DSP和USB技術的數據採集與處理系統
    1.1 數位訊號處理器dsp  dsp晶片,又稱為數位訊號處理器,是一種特別適用於進行實時數位訊號處理的微處理器,採用它能滿足系統計算量大的要求。所連的外設通過主機調度和基於令牌的協議共享usb帶寬。usb的主要優點有:(1)速度快;(2)設備配置和安裝容易。
  • 基於聲紋識別的通用語音控制系統設計
    1.2.編寫目的進入21世紀以來,隨著科學技術的突飛進展,語音識別與確認技術也逐漸的走向成熟,基於語音識別技術的對話控制系統受到了越來越多的關注。直接用聲音來發出控制指令,讓機器能「聽懂」你的話,執行相應的命令。
  • 基於DSP的電容式指紋傳感器識別系統
    引言     指紋識別系統是日常生活中常見的一種識別方式,其廣泛應用於門禁、考勤和其他安防領域。本指紋識別系統,採用雙供電方式,既可與電腦聯機使用,也可作為可攜式設備使用。作為可攜式時,大約可存儲300~500枚指紋,同時系統有著很高的識別率。
  • 基於DSP CCS2.2實現指紋識別預處理系統設計
    DSP應用於指紋識別已經成為一個新的科技領域和獨立的學科體系,當前已形成了有潛力的產業和市場。   本文選定100MHz DSP TMS320VC5402作為指紋信號的處理器,利用其流水線編碼的操作特點,並結合指紋識別技術,實現基於DSP CCS2.2的指紋識別預處理系統。
  • 第六講 DSP在雷達信號處理中的應用
    為了讓工程師在設計開發中完善和拓展基礎理論與系統知識,豐富應用經驗,《世界電子元器件》和中電網聯合清華大學等知名院校共同創辦了這個欄目,特約知名學者、教授以及著名半導體公司的應用工程師撰寫,以系列講座的方式對熱點ic技術進行全面而系統的介紹,涵蓋最新技術要點。最先開設的講座將圍繞三大課題:dsp、fpga和嵌入式系統,每個課題都將連載6期。
  • 基於VoiceXML技術的可視化IVR系統設計和實現(三)
    查瑋 2009/12/29 基於VoiceXML技術的可視化IVR系統設計和實現(一) 基於VoiceXML技術的可視化IVR系統設計和實現(二)   在系統分析和系統總體設計之後,就進入了系統實現階段。
  • 論文分享:級聯式RNN-T—基於音節與音字轉換器的流式中文語音識別
    Recognition,ASR)是一種將語音轉化為文字的技術,語音識別是解放雙手、實現自然人機互動不可或缺的技術,也是人工智慧研究中舉足輕重的研究方向。傳統基於聲學與語言模型構圖的混合(hybrid)語音識別技術由於模型結構複雜且計算量大很難在端側(如手機、電視和音箱等)上進行離線使用,對模型進行剪裁優化後在端側部署會有較大的精度損失。近年來,基於深度神經網絡的端到端語音識別(End to End)架構大大簡化了識別系統結構,能夠較為便利的在端側設備上進行部署並且具有較高的準確率,甚至超越了傳統混合模型的識別精度。
  • 語音識別流程梳理
    以搜狗語音識別技術流程為例,語音信號經過前端信號處理、端點檢測等處理後,逐幀提取語音特徵,傳統的特徵類型包括MFCC、PLP、FBANK等特徵,提取好的特徵送至解碼器,在聲學模型、語言模型以及發音詞典的共同指導下,找到最為匹配的詞序列作為識別結果輸出,整體語音識別系統的流程如下:
  • 【技術揭秘】阿里達摩院通用Bi-lingual混合單元工業級語音識別系統
    導語:    近年來,隨著深度學習和大數據的集合,基於深度神經網絡的語音識別系統成為主流。各種不同的神經網絡模型和優化函數的使用進一步極大提升了語音識別系統的性能,語音識別開始走向實用化。對於工業級應用的語音識別系統,不僅需要考慮系統的識別率,還需要考慮解碼效率,不同場合的解碼延遲等等。我們提出的DFSMN-CTC-sMBR語音識別系統,很好的兼顧了工業級應用所需要的這些需求。本文我們將解析DFSMN-CTC-sMBR聲學,以為我們針對中文識別和中英文混讀識別進行的一些探索。
  • 基於人體動作識別與語音識別的舞蹈機器人
    基於人體動作識別與語音識別的舞蹈機器人 —— ——2008年英特爾杯大學生電子設計競賽嵌入式系統專題邀請賽作品簡介 作者:鄧磊,薛源海,代明月,吳瓊之 北京理工大學時間:2008-11-10來源:電子產品世界收藏
  • 乾貨 | 語音識別全面進入CNN時代:會讀「語譜圖」的全新語音識別框架
    而實現這一目標的重要前提是計算機能夠準確無誤的聽懂人類的話語,也就是說高度準確的語音識別系統是必不可少的。作為國內智能語音與人工智慧產業的佼佼者,科大訊飛一直引領中文語音識別技術不斷進步。通過進一步的研究,我們在FSMN的基礎之上,再次推出全新的語音識別框架,將語音識別問題創新性的重新定義為「看語譜圖」的問題,並通過引入圖像識別中主流的深度卷積神經網絡(CNN, Convolutional Neural Network)實現了對語譜圖的全新解析,同時打破了傳統深度語音識別系統對DNN和RNN等網絡結構的依賴,最終將識別準確度提高到了新的高度。
  • 語音識別技術概述
    語音識別的輸入與輸出如圖1所示。將語音片段輸入轉化為文本輸出的過程就是語音識別。一個完整的語音識別系統通常包括信息處理和特徵提取、聲學模型、語言模型和解碼搜索四個模塊。一個典型的語音識別系統如圖2所示。
  • 基於DSP的多路語音實時採集與壓縮處理系統
    因此,如一方面要求對多達8路的語音信號進行實時採集,另一方面又要求對各路的語音信號進行較高壓縮率的實時壓縮處理,對數據採集和處理系統提出了更高的要求。  由於VLSI技術的迅速發展,DSP(Digitalsig-nal processor數位訊號處理器)的性能價格比得到了很大的提高,使得利用DSP的高速數據管理能力和處理能力來實現高速數據採集和處理成為實時數據採集和處理的一個新的發展方向。基於此,本文介紹的多路語音實時採集與壓縮處理系統採用了高速DSP技術。
  • 模式識別學科發展報告丨七、語音語言信息處理重要研究進展
    正如前文所述,語音和文字是人類語言的兩個基本屬性,以語音為主要處理對象的語音識別、語音合成和說話人識別等通常稱為語音技術,而以文本(詞彙、句子、篇章等)為主要處理對象的研究,通常稱為「自然語言處理」。以下分別從自然語言處理和語音技術兩大方向闡述基礎資源建設方面的成果進展,以及語音語言技術方法、應用系統實現及未來挑戰。
  • 基於DeepSpeech2實現中文語音識別,實施全流程講解,拿來即用
    你是否在苦苦尋找能識別中文的語音識別模型?那認真看完本文,你也能實現,本文可能為您節省少則幾小時多則數天的工作時間。DeepSpeech2由百度矽谷AI實驗室在2015年發布,是一個採用PaddlePaddle深度學習框架實現的端到端自動語音識別系統,它能通過簡單學習算法較準確的識別英語和中文。
  • dsp處理器一般哪裡用_dsp處理器應用領域分析
    多媒體通信系統所需要的圖像壓縮(目前工業標準是JPEG、MPEG-1、MPEG-2,當然還會出現一些新的算法如小波變換等)、聲音壓縮(標準有G.711、G.722、G.728、G.729等)以及傳輸所需的高速數據機都和dsp有關。隨著dsp運算速度的進一步提高和軟體開發環境的改進,可編程dsp將會成為主流而取代某些專用晶片,或者用戶將自己開發的軟體,駐留在可編程dsp上而成為專用晶片。
  • 大熱的麥克風陣列語音識別系統的設計和輕鬆實現,提供軟硬體解決方案
    而本項目與傳統的麥克風陣進行語音識別的方法又有不同,它將語音接收端與語音識別部分組成一個反饋系統,通過優化接收端濾波器的係數,使跟語音識別密切相關的倒譜域似然比最大,來提高語音識別準確率。在進行Matlab仿真之後,將算法應用到FPGA中。FPGA開發板暫定為Xilinx公司的Nexys 3 Spartan-6 FPGA Board。
  • 被稱作"智障"的人工智慧 光語音識別就花了100年
    語音識別實現原理:資料庫概括的說,語音識別的原理其實並不難理解,大面上和指紋識別的原理相同:設備收集目標語音,然後對收集到的語音進行一系列處理,得到目標語音的特徵信息,然後讓特徵信息與資料庫中已存數據進行相似度搜索比對,評分高者即為識別結果。然後通過其他系統的接入來完成設備的語音識別功能。
  • Nuance語音識別技術
    語音識別概述本文引用地址:http://www.eepw.com.cn/article/268339.htm  語音識別技術,Automatic Speech Recognition,簡稱ASR,是一種讓機器聽懂人類語言的技術。語言是人類進行信息交流的最主要、最長用、最直接的方式。