0 引言
語音識別技術的目的是使機器能理解人類語言,最終使人機通信成為現實。在過去幾十年,自動語音識別(AutomaticSpeech Recognition,ASR)技術已經取得了非常重大的進步。
ASR系統已經能從處理像數字之類的小詞彙量到廣播新聞之類的大詞彙量。然而針對識別效果來說,ASR 系統則相對較差。尤其在會話任務上,自動語音識別系統遠不及人類。因此,語音識別技術的應用已成為一個極具競爭性和挑戰性的高新技術產業。
隨著DSP技術的快速發展及性能不斷完善,基於DSP的語音識別算法得到了實現,並且在費用、功耗、速度、精確度和體積等方面有著PC機所不具備的優勢,具有廣闊的應用前景。
1 系統參數選擇
一般情況下,語音識別系統按照不同的角度、不同的應用範圍、不同的性能要求有不同的分類方法。針對識別對象不同有孤立詞識別、連接詞識別、連續語音識別與理解和會話語音識別等。針對識別系統的詞彙量有小詞彙量語音識別(1~20個詞彙)、中詞彙量識別(20~1 000個詞彙)和大詞彙量(1 000以上個詞彙)語音識別。針對發音人範圍來分,分為特定人語音識別、非特定人語音識別、自適應語音識別。
本文主要研究非特定人小詞彙量連續語音實時識別系統。
1.1 語音識別系統
語音識別本質上是一種模式識別的過程,即未知語音的模式與已知語音的參考模式逐一進行比較,最佳匹配的參考模式被作為識別結果。語音識別系統一般包括前端處理、特徵參數提取、模型訓練和識別部分。圖1所示是基於模式匹配原理的語音識別系統框圖。
圖1 語音識別系統基本框圖
1.2 特徵參數
語音信號中含有非常豐富的信息,包括影響語音識別的重要信息,也包括對語音識別無關緊要甚至會降低識別率的冗餘信息。特徵提取則可以去除冗餘信息,將能準確表徵語音信號特徵的聲學參數提取出來用於後端的模型建立和匹配,大大減少了存儲空間、訓練和測試時間。對特定人語音識別來說,希望提取的特徵參數儘可能少的反映語義信息,儘可能多的反映說話人的個人信息,而對非特定人語音識別來說,則相反。
現在較常用的特徵參數有線性預測參數(LPCC)、線譜對(LSP)參數、Mel頻率倒譜參數(MFCC)、感覺加權的線性預測(PLP)參數、動態差分參數和高階信號譜類特徵等,尤其是LPCC和MFCC兩種參數最為常用。本文選擇MFCC作為特徵參數。
1.3 模型訓練及模式識別
在識別系統後端,從已知模式中獲取用以表徵該模式本質特徵的模型參數即形成模式庫,再將輸入的語音提取特徵矢量參數後與已建立的聲學模型進行相似度比較,同時根據一定的專家知識(如構詞規則,語法規則等)和判別規則決策出最終的識別結果。
目前,語音識別所應用模型匹配技術主要有動態時間規整(DTW)、隱馬爾可夫模型(HMM)、人工神經元網絡(ANN)和支持向量機(SVM)等。DTW 是基本的語音相似性或相異性的一種測量工具,僅僅適合於孤立詞語音識別系統中。在解決非特定人、大詞彙量、連續語音識別問題時較之HMM 算法相形見絀。HMM 模型是隨機過程的數學模型,它用統計方式建立語音信號的動態模型,將聲學模型和語言模型融入語音識別搜索算法中,被認為是語音識別中最有效的模型。
然而由Vapnik和co-workers提出來的SVM 基於結構風險最小化準則和非線性和函數,具有更好的泛化能力和分類精確度。目前,SVM 已經成功應用於語音識別與話者識別。
除此之外,Ganapathiraju等人已經將支持向量機成功運用到複雜的大詞表非特定人連續語音識別上來。因此本文選擇SVM結合VQ完成語音模式識別。