機器人聽覺系統主要是對人的聲音進行語音識別並做出判斷,然後輸出相應的動作指令控制頭部和手臂的動作,傳統的機器人聽覺系統一般是以pc機為平臺對機器人進行控制,其特點是用一臺計算機作為機器人的信息處理核心通過接口電路對機器人進行控制,雖然處理能力比較強大,語音庫比較完備,系統更新以及功能拓展比較容易,但是比較笨重,不利於機器人的小型化和複雜條件下進行工作,此外功耗大、成本高。
本文引用地址:http://www.eepw.com.cn/article/21345.htm本次設計採用了性價比較高的數位訊號處理晶片tms320vc5509作為語音識別處理器,具有較快的處理速度,使機器人在脫機狀態下,獨立完成複雜的語音信號處理和動作指令控制,fpga系統的開發降低了時序控制電路和邏輯電路在pcb板所佔的面積[1],使機器人的"大腦"的語音處理部分微型化、低功耗。一個體積小、低功耗、高速度能完成特定範圍語音識別和動作指令的機器人系統的研製具有很大的實際意義。
2 系統硬體總體設計
系統的硬體功能是實現語音指令的採集和步進電機的驅動控制,為系統軟體提供開發和調試平臺。如圖1所示。
fpga根據dsp輸入的動作指令產生正確的正反轉信號和準確的脈衝給步進電機驅動晶片,驅動晶片提供步進電機的驅動信號,控制步進電機的轉動。片外flash用於存儲系統程序和語音庫並完成系統的上電加載。jtag口用於與pc機進行聯機在線仿真,鍵盤則用於參數調整和功能的切換。 3 語音識別系統設計
3.1 語音信號的特點
語音信號的頻率成分主要分布在300~3400hz之間,根據採樣定理選擇信號的採樣率為8 khz。語音信號的一個特點在於他的"短時性",有時在一個短時段呈現隨機噪聲的特性,而另一段表現周期信號的特性,或二者兼而有之。語音信號的特徵是隨時間變化的,只有一段時間內,信號才表現穩定一致的特徵,一般來說短時段可取5~50 ms,因此語音信號的處理要建立在其"短時性"上[2],系統將語音信號幀長設為20 ms,幀移設為10 ms,則每幀數據為160×16 b。
3.2 語音信號的採集和播放
語音採集和播放晶片採用的是ti公司生產的tlv320aic23b,tlv320aic23b的模數轉換(adc)和數模轉換(dac)部件高度集成在晶片內部,晶片採用8 k採樣率,單聲道模擬信號輸入,雙聲道輸出。tlv320aic23具有可編程特性,dsp可通過控制接口來編輯該器件的控制寄存器,而且能夠編譯spi,i2c兩種規格的接口,tlv320aic23b與dsp5509的電路連接如圖2所示。
mcbsp串口通過6個引腳clkx,clkr,fsx,fsr,dr和cx與tlv320aic23相連。數據經mcbsp串口與外設的通信通過dr和dx引腳傳輸,控制同步信號則由clkx,clkr,fsx,fsr四個引腳實現。將mcbsp串口設置為dsp mode模式,然後使串口的接收器和發送器同步,並且由tlv320aic23的幀同步信號lrcin,lrcout啟動串口傳輸,同時將發送接收的數據字長設定為32 b(左聲道16 b,右聲道16 b)單幀模式。
3.3 語音識別程序模塊的設計
為了實現機器人對非特定人語音指令的識別,系統採用非特定人的孤立詞識別系統。非特定人的語音識別是指語音模型由不同年齡、不同性別、不同口音的人進行訓練,在識別時不需要訓練就可以識別說話人的語音[2]。系統分為預加重和加窗,短點檢測,特徵提取,與語音庫的模式匹配和訓練幾個部分。
3.3.1 語音信號的預加重和加窗
預加重處理主要是去除聲門激勵和口鼻輻射的影響,預加重數字濾波h(z)=1一kz-1,其中是為預加重係數,接近1,本系統中k取0.95。對語音序列x(n)進行預加重,得到預加重後的語音序列x(n):
x(n)=x(n)一kx(n一1) (1)
3.3.2 端點檢測
端點檢測在詞與詞之間有足夠時間間隙的情況下檢測出詞的首末點,一般採用檢測短時能量分布,方程為:
3.3.3特徵向量提取
特徵向量是提取語音信號中的有效信息,用於進一步的分析處理。目前常用的特徵參數包括線性預測倒譜係數lpcc、美爾倒譜係數mfcc等。語音信號特徵向量採用mel頻率倒譜係數mfcc(mel frequency cepstrum coeficient的提取,mfcc參數是基於人的聽覺特性的,他利用人聽覺的臨界帶效應[3],採用mel倒譜分析技術對語音信號處理得到mel倒譜係數矢量序列,用mel倒譜係數表示輸入語音的頻譜。在語音頻譜範圍內設置若干個具有三角形或正弦形濾波特性的帶通濾波器,然後將語音能量譜通過該濾波器組,求各個濾波器輸出,對其取對數,並做離散餘弦變換(dct),即可得到mfcc係數。mfcc係數的變換式可簡化為:
3.3.4 語音信號的模式匹配和訓練
模型訓練即將特徵向量進行訓練建立模板,模式匹配即將當前特徵向量與語音庫中的模板進行匹配得出結果。語音庫的模式匹配和訓練採用隱馬爾可夫模型hmm(hidden markov models),他是一種統計隨機過程統計特性的概率模型一個雙重隨機過程,因為隱馬爾可夫模型能夠很好地描述語音信號的非平穩性和可變性,因此得到廣泛的使用[4]。
hmm的基本算法有3種:viterbi算法,前向一後向算法,baum-welch算法。本次設計使用viterbi算法進行狀態判別,將採集語音的特徵向量與語音庫的模型進行模式匹配。baum-welch算法用來解決語音信號的訓練,由於模型的觀測特徵是幀間獨立的,從而可以使用baum-welch算法進行hmm模型的訓練。
3.4 語音識別程序的dsp開發
dsp的開發環境為ccs3.1及。dsp/bios,將語音識別和訓練程序分別做成模塊,定義為不同的函數,在程序中調用。定義語音識別器函數為int recognizer(int micin),識別結果輸出函數為int result(void),語音訓練器函數為int train(int tmode,int audiod),動作指令輸入函數為int keyin(int action[5])。
語音識別器的作用是將當前語音輸入變換成語音特徵向量,並對語音庫的模板進行匹配並輸出結果,語音應答輸出函數將獲取的語音識別結果對應的語音應答輸出,語音訓練是將多個不同年齡、不同性別、不同口音的人語音指令輸入轉化為訓練庫的模板。為防止樣本錯誤,每個人的語音指令需要訓練2次,對於2次輸入用用歐氏距離去進行模式匹配,若2次輸入相似度達到95%,則加入樣本集。語音應答輸入函數是為每個語音庫中模板輸入對立的語音輸出,以達到語言應答目的。系統工作狀態為執行語言識別子程序,訓練時執行外部中斷,執行訓練函數,取得資料庫模板,訓練完畢返回。程序框圖如圖3所示。
4.1 fpga邏輯設計
系統通過語音控制機器人頭部動作,頭部運動分為上下和左右運動2個自由度,需要2個步進電機控制,dsf完成語音識別以後,輸出相應的動作指令,動作執行結束後,dsp發出歸零指令,頭部回到初試狀態。fpga的作用是提供dsp接口邏輯,設置存儲dsp指令的ram塊,同時產生步進電機驅動脈衝控制步進電機轉動方向和角度。
fpga器件為動作指令控制單元,設計採用flexloke晶片,接收dsp數據後並行控制2路步進電機。fpga內部結構邏輯如圖4所示,fpga內部設置2個元件為電機脈衝發生器,控制電機的工作脈衝以及正反轉。ao~a7為dsp數據輸入埠,wr為數據寫埠,p1,p2為2個步進電機驅動晶片脈衝輸入口,l1,l2為電機正反轉控制口,enable為使能信號。
4.2 fpga邏輯仿真
fpga以max-plusⅱ開發平臺,用語言為vhdl語言對上述邏輯功能進行設計,並通過jtag接口進行了調試,flexl0ke晶片能夠根據dsp輸出指令輸出正確的正反轉信號和脈衝波形。
4.3 步進電機驅動設計
fpga通過p1,l1,p2,l2輸出控制控制步進電機驅動晶片。步進電機驅動採用的是東芝公司生產的單片正弦細分二相步進電機驅動專用晶片ta8435h,fpga與ta8435h電路連接如圖6。
5 結 語
系統充分利用了dsp的高處理速度和可擴展的片外存儲空間,具有高速、實時、識別率高的特點並支持大的語音庫,fpga的使用使系統電路獲得簡化,一片flexl0ke晶片可以完成2個步進電機的時序控制。雖然在處理速度和語音庫的存儲容量上與pc機系統具有一定的差距,但在機器人的微型化、低功耗和特定功能實現上,以dsp和fpga為核心的嵌入式系統無疑具有廣闊的前景。