基於Julius的機器人語音識別系統構建

2021-01-08 中國機器人網

  語音識別技術的發展,使得這一理想得以實現,把語音識別技術與機器人控制技術相結合,正成為目前研究的熱點,不但具有較好的理論意義,而且有較大的實用價值。
  語音識別技術應用於機器人系統大多是針對特定的環境,設計出語音命令來進行控制的。只需要對幾十個字或詞的命令行進語音識別,便可使得原本需要手工操作的工作由語音輕鬆完成。本文針對現有機器人平臺,設計一個非特定人的孤立詞語音識別系統。
  1 語音識別原理及JuliUS簡介
  1.1 基於HMM的語音識別原理
  語音識別系統是一種模式識別系統,系統首先對語音信號進行分析,得到語音的特徵參數,然後對這些參數進行處理,形成標準的模板。這個過程稱為訓練或學習。當有測試語音進入系統時,系統將對這些語音信號進行處理,然後進行參考模板的匹配,得出結果。此時便完成了語音識別的過程。
  目前,HMM作為語音信號的一種統計模型,是語音識別技術的主流建模方法,正在語音處理各個領域中獲得廣泛的應用。現在許多商用語音軟體,以及各種具有優良性能的語音識別系統,都是在此模型上開發的,已經形成了完整的理論框架。
  基於HMM模式匹配算法的語音識別系統表現為:在訓練階段,採用HMM訓練算法為每一個詞條建立一個HMM模型。詞條經過反覆訓練後,將得到的對應HMM模型加入HMM模型庫中以數據的形式保存。在匹配階段,也就是識別階段,採用HMM匹配算法將輸入的未知語音信號與訓練階段得到的模型庫中的模型進行匹配,輸出語音識別的結果。
  1.2 JuliUS簡介
  Julius是日本京都大學和日本IPA(Information-tech-nology Promotion Agency)聯合開發的一個實用高效雙通道的大詞彙連續語音識別引擎。目前已經能較好地應用於日語和漢語的大詞彙量連續的語音識別系統。Julius由純C語言開發,遵循GPL開源協議,能夠運行在Lin-ux、Windows、Mac:OS X、Solaris以及其他Unix平臺。Julius最新的版本採用模塊化的設計思想,使得各功能模塊可以通過參數配置。
  Julius的運行需要一個語言模型和一個聲學模型。利用Julius,通過結合語言模型和聲學模型,可以很方便地建立一個語音識別系統。語言模型包括一個詞的發音字典和語法約束。Julius支持的語言模型包括:N-gram模型,以規則為基礎的語法和針對孤立詞識別的簡單單詞列表。聲學模型必須是以分詞為單位且由HMM定義的。
  應用程式可以有兩種方式與Julius交互:一種是基於套接字的伺服器一客戶端通信方式,另一種是基於函數庫的嵌入方式。在這兩種情況下,要識別過程結束,識別結果就被送入應用程式中,應用程式就能得到Julius引擎的現有狀態和統計,並可以操作官。Julius概述如圖1所示。

  2 系統框架
  2.1 硬體結構
  在語音識別的機器狗控制系統中Atom Z510為訓練學習機大腦(1.1 GHz主頻的Intel Atom Z510嵌入式控制平臺),它主要完成語音識別的功能。PXA270控制器(Intel公司於2003年底推出的性能強勁的PXA27x系列嵌入式處理器,基於ARMv5E的XScale內核,最高頻率可達624MHz)作為機器狗本體上的核心智能控制器,接收Atom Z510識別後的結果,發出控制命令。ATmega128控制器(Atmel公司的8位系列單片機中的一種,運行頻率16 MHz)完成基於串行總線的數字舵機控制,完成對機器狗的前後腿以及尾巴等關節控制。機器狗硬體結構平臺如圖2所示。

  2.2 軟體結構
  整個機器人系統包括3個模塊:Julius語音識別模塊、GUI人機界面、機器人控制模塊。Julius將識別的語音命令提交給GUI模塊,並在GUI上顯示;同時GUI將語音命令轉化為動作控制命令並發給機器人控制模塊;GUI還可以控制Julius的啟動和停止。其中機器人控制模塊主要在PXA270上,而語音識別和GUI是在Atom Z510上。系統軟體模型如圖3所示。

  3 語音識別系統構建
  一個完整的語音識別系統一般包括3部分:聲學模型、語言模型和識別器。在本系統中只建立基於控制命令(動詞)的識別語法,其他詞忽略,因此沒有構建語言模型;識別器採用Julius開源平臺,此部分只用配置參數和相關文件。本文主要工作是聲學模型訓練和語音識別系統構建。
  3.1 聲學模型訓練
  聲學模型是識別系統的底層模型,是語音識別系統中最關鍵的一部分,它是每個聲學單元的聲學模型參數集合。本系統的聲學模型是使用HTK對採集的語音庫進行多次迭代訓練後提取的,基於詞的聲學特徵向量集。HTK(HMM Tools Kit)是由英國劍橋大學工程系的語音視覺和機器人技術工作組(Speech Vision and Robotics Group)開發,專門用於建立和處理HMM的實驗工具包,主要應用於語音識別領域,也可用於語音模型的測試和分析。其具體訓練步驟如下:
  (1)數據準備
  收集漢語標準普通話的語料庫,並將語料庫中的語音標記,創建語音識別單元元素列表文件。
  (2)特徵提取
  本系統採用MFCC進行語音的特徵參數提取,訓練中將每一個語音文件用工具HCopy轉換成MFCC格式。
  (3)HMM定義
  在訓練HMM模型時要給出模型的初始框架,本系統中的HMM模型選擇同一個結構,如圖4所示。該模型包含4個活動狀態{S2,S3,S4,S5),開始和結束(這裡是S1.S6),是非發散狀態。觀察函數bi是帶對角矩陣的高斯分布,狀態的可能轉換由aij表示。

  (4)HMM訓練
  本系統先使用HInit工具對HMM模型進行初始化,再用HCompv工具來對模型進行平坦初始化。HMM模型的每個狀態給定相同的平均向量和變化向量,在整個訓練集上全局計算而得。最後用HRest的多次估計迭代,估計出HMM模型參數的最佳值,經多次迭代,將訓練得到的單個HMM模型整合到一個hmmsdef.mmf文件中。聲學模型HTK訓練流程如圖5所示。

  3.2 Julius應用
  3.2.1 Julius部署
  在本系統中語音識別部分是部署在Atom Z510上,而Atom Z510上首先需要移植linux作業系統(本系統採用的是ubuntu8.10)以上步驟在此不詳細介紹,文獻中有詳細說明。語音識別的核心部分是Julius識別器,需要將Julius源碼編譯部署到Atom Z510平臺。其步驟如下:
  ①要確保linux系統中有以下支持庫:Zlib、flex、OSS音頻驅動接口、ESounD和libsndfile。
  ②從Julius官網下載原始碼Julius-4.1.5。
  ③解壓:tar-zxjf julius-4.1.5。
  ④編譯:%./configure,%make,%make install。
  3.2.2 Julius配置
  Julius全部採用C語言代碼實現,採用模塊化設計方式,而且各功能模塊可配置。在使用前需要將配置參數寫入jconf文件,此文件作為運行參數載入系統,系統掃描參數配置並啟動各功能塊。其中重點介紹以下幾個配置參數:
  ◆-dfa rtdog.dfa,指定語法文件rtdog.dfa;
  ◆-v rtdog.dict,指定字典文件;
  ◆-h rtdog.binhmm,指定HMM模型文件;
  ◆-lv 8000,設定音頻的閾值便於濾去噪音;
  ◆-rejectshort 600,設定最小的語音長度;
  ◆-input mic,設定語音的輸入方式為microphone。
  3.3 語音識別系統軟體設計
  3.3.1 GUI設計
  本系統為了方便測試,採用QT4的圖形庫來開發人機界面(GUI),同時加入了手動控制的按鈕。其總體功能如圖6所示。通信線程是本系統的數據傳輸樞紐,十分重要。在QT中通過對線程類QThread繼承來實現新的線程設計。該類提供了創建一個新線程以及控制線程運行的各種方法。線程是通過QThread::run()重載函數開始執行的。在本系統中設計了1個數據通信線程,用它來不斷地讀取共享內存中的語音命令� 然後將其轉化為控制命令傳給機器人控制模塊。

  3.3.2 模塊間通信
  由於系統的3個模塊不在同一個平臺上部署,運行過程中需要進行數據通信。GUI和Julius都部署在Atom Z510平臺上,但屬於2個進程,它們之間可以通過共享內存來交互數據。而GUI和機器人控制模塊就需要通過網絡通信來實現數據交互。這裡採用的是基於TCP的socket編程接口來實現模塊間的通信,模塊間通信流程如圖7所示。

 

  4 實驗測試
  演示系統界面如圖8所示。本文使用大量的語音樣本來完成HTK的訓練和模式構建,語音樣本採用16 kHz採樣,16位量化。獨立的語音識別測試中,將訓練集以及測試集中語音樣本和識別結果進行了對比分析。本文語音樣本的內容包括訓練集(語料庫中的語音成分)和測試集(本實驗中採集的語音)。由於本系統只用提取語音命令,不需要完整句子的識別,所以沒有針對句子做測試。


 

  本文對於訓練集基於詞的識別率為71.7%,測試集基於詞的識別率為56.5%,測試結果如表1所列。

  表中各符號所表示的意義如下所示:
  H,正確;S,替代錯誤;D,刪除錯誤;I,插入錯誤;N,標記文件中單元總數;SENT,句子,WORD:基本單元。  

  結語
  本文在給定的實驗室機器人平臺上,設計了基於語音控制的機器狗系統。其中,語音識別子系統通過HTK和Julius的開源平臺構建而成。經過測試分析,該系統能夠較好地識別人發出的語音命令,簡化了機器人的操作,使機器與人的交互更加智能化。

相關焦點

  • 基於DSP的語音識別系統的實現及分析
    尤其在會話任務上,自動語音識別系統遠不及人類。因此,語音識別技術的應用已成為一個極具競爭性和挑戰性的高新技術產業。  隨著DSP技術的快速發展及性能不斷完善,基於DSP的語音識別算法得到了實現,並且在費用、功耗、速度、精確度和體積等方面有著PC機所不具備的優勢,具有廣闊的應用前景。
  • 基於嵌入式Linux的語音識別系統硬軟體設計
    在嵌入式Linux作業系統下,運用多進程機制完成了對語音識別晶片、超聲波測距和雲臺的控制,並將語音識別技術應用於多角度超聲波測距系統中。通過測試,系統可以通過識別語音指令控制測量方向,無需手動幹預,最後將測量結果通過語音播放出來。
  • 基於DSP的漢字語音識別系統的實現方式解析
    語音識別是機器通過識別和理解過程把語音信號轉變為相應的文本文件或命令的高技術。作為專門的研究領域,語音識別又是一門交叉學科,它與聲學、語音學、語言學、數位訊號處理理論、資訊理論、計算機科學等眾多學科緊密相連。語音識別經過四十多年的發展,已經顯示出巨大的應用前景。本文從實現原理入手,介紹語音識別系統的實現方式。
  • 基於DL的中文語音識別系統ASRT開源
    2月11日消息,一套基於深度學習實現的語音識別系統ASRT(全稱Auto Speech Recognition Tool),由AI檸檬博主開發並在GitHub上開源(GPL 3.0 協議)。本項目聲學模型通過採用卷積神經網絡和連接性時序分類方法,使用大量中文語音數據集進行訓練,將聲音轉錄為中文拼音,並通過語言模型,將拼音序列轉換為中文文本。
  • 基於語音識別的移動電子病歷應用探索
    在此背景下,需要將語音識別技術更好地應用於電子病歷信息錄入過程,構建更高質量、更高效率的電子病歷。語音識別基本原理語音識別是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的一種技術,也就是讓機器聽懂人類的語音,把用戶說的詞語逐字轉化為文字,並將此文字正確地顯示出來。
  • 從原理入手,解析基於DSP的漢字語音識別系統的實現方式
    語音識別是機器通過識別和理解過程把語音信號轉變為相應的文本文件或命令的高技術。作為專門的研究領域,語音識別又是一門交叉學科,它與聲學、語音學、語言學、數位訊號處理理論、資訊理論、計算機科學等眾多學科緊密相連。語音識別經過四十多年的發展,已經顯示出巨大的應用前景。本文從實現原理入手,介紹語音識別系統的實現方式。
  • 橫評:五款免費開源的語音識別工具
    未來,我們希望以這些傳統模型為基礎,探索一些諸如與百度 Deep Speech 等最新的語音識別系統相結合的新技術。當然,目前網際網路上可以找到許多針對這些基礎模型進行解釋、匯總的文章和資料,但針對它們之間的差別和特點展開闡述的卻並不多。
  • 基於HMM的連續小詞量語音識別系統的研究
    、小詞量的語音識別系統。實驗證明,該語音識別系統具有較高的識別率和一定程度的魯棒性,實驗室識別率和室外識別率分別達到95.6%,92.3%。關鍵詞:語音識別;嵌入式系統;Hidden Markov Models;ARM;Viterbi算法0 引言 嵌入式語音識別系統是應用各種先進的微處理器在板級或是晶片級用軟體或硬體實現的語音識別。
  • 基於DSP與FPGA的機器人聲控系統設計方案
    1 引言本文引用地址:http://www.eepw.com.cn/article/273867.htm  機器人聽覺系統主要是對人的聲音進行語音識別並做出判斷,然後輸出相應的動作指令控制頭部和手臂的動作,傳統的機器人聽覺系統一般是以PC機為平臺對機器人進行控制,其特點是用一臺計算機作為機器人的信息處理核心通過接口電路對機器人進行控制,雖然處理能力比較強大,語音庫比較完備
  • DSP開發板的語音識別系統的研究
    然而針對識別效果來說,ASR 系統則相對較差。尤其在會話任務上,自動語音識別系統遠不及人類。因此,語音識別技術的應用已成為一個極具競爭性和挑戰性的高新技術產業。  隨著DSP技術的快速發展及性能不斷完善,基於DSP的語音識別算法得到了實現,並且在費用、功耗、速度、精確度和體積等方面有著PC機所不具備的優勢,具有廣闊的應用前景。
  • 基於DSP的語音識別計算器電路設計
    根據實際的應用,語音識別可以分為:特定人與非特定人的識別、孤立詞與連續詞的識別、中小詞彙量與無限詞彙量的識別。 考慮到成本及使用範圍因素,本文中應用的是基於TMS320VC5509 DSP的非特定人、孤立詞、小詞彙量的語音識別系統。
  • 語音識別揭秘:你的手機究竟有多理解你?
    人和機器之間的交互也是相同的道理,讓機器人知道人類要做什麼、怎麼做。交互的方式有動作、文本或語音等等,其中語音交互越來越被重視,因為隨著網際網路上智能硬體的普及,產生了各種網際網路的入口方式,而語音是最簡單、最直接的交互方式,是最通用的輸入模式。在1952年,貝爾研究所研製了世界上第一個能識別10個英文數字發音的系統。
  • 基於DSP和FPGA的機器人聲控系統設計與實現
    機器人聽覺系統主要是對人的聲音進行語音識別並做出判斷,然後輸出相應的動作指令控制頭部和手臂的動作,傳統的機器人聽覺系統一般是以pc機為平臺對機器人進行控制,其特點是用一臺計算機作為機器人的信息處理核心通過接口電路對機器人進行控制,雖然處理能力比較強大,語音庫比較完備,系統更新以及功能拓展比較容易,但是比較笨重,不利於機器人的小型化和複雜條件下進行工作,此外功耗大、成本高。
  • 語音識別原理及其語音識別系統分類
    YQ語音識別方案語音識別是一個多層模式識別任務。聲音信號經過考察,結構分為一個層次詞根單位(例如,音素)、詞、短語、句子。一個標準的語音識別系統如下圖所示。YQ5969語音識別二、語音識別系統分類語音識別系統根據對說話人說話方式的要求,可以分為孤立詞語音識別系統、連接字語音識別系統和連續語音識別系統;根據對說話人的依賴程度,可以分為特定人和非特定人語音識別系統
  • 嘉興雲哲智能人臉識別機器人人臉識別身份證比對系統安全可靠-節約...
    嘉興雲哲智能人臉識別機器人人臉識別身份證比對系統安全可靠-節約成本雲棽哲智能科技公司是以機器人技術和人工智慧技術為核心,致力於商務/政務機器人應用,人工智慧應用,機構專業性機器人定製、智慧城市建設的企業。雲棽哲-商務/政務機器人領域的領先企業。
  • 基於FPGA的語音智能操控系統
    語音智能操控系統可以取代多個遙控器,當需要控制某一家電時,只需說出所需調節的內容(如,空調開,溫度25℃),語音智能操控系統就能通過對操控者的語音識別,完成匹配並發出遙控信息完成相應的操作。功能描述:由FPGA實現語音智能操控系統的系統構架圖如圖2-1所示,它是以FPGA為主板,嵌入語音識別系統並結合紅外遙控系統完成的智能操控系統。
  • 一種基於服務機器人的視覺系統設計
    隨著計算機科學和自動控制技術的發展,越來越多的不同種類的智慧機器人出現在工廠、生活當中,機器人視覺系統作為智慧機器人系統中一個重要的子系統,也越來越受到人們的重視。它涉及了圖像處理、模式識別和視覺跟蹤等領域。不同種類的機器人由於工作的重點不一樣,它的視覺系統在軟體或硬體上都有著細微的差別。本文研究基於服務機器人的單目視覺系統。
  • 語音識別在生活中的七個經典應用
    本文引用地址:http://www.eepw.com.cn/article/201706/350998.htm基於聲紋識別的通用語音控制系統設計隨著物聯網的發展,對家庭電器的控制將會有更多的發展,而語音作為一種自然簡單的方法將是一種有效便捷的控制方式。如果可以把語音控制與安全控制結合起來,系統就變得更自然直接更人性化了。
  • 智能語音機器人工作原理解析,淺談VAD技術
    ,語音機器人(電話機器人、客服機器人、電銷機器人,……),在生活中很常見,表現都讓人驚喜。同時他們工作原理也大致相同。一般智能語音助理或語音機器人工作原理大致如下:第一階段:語音到文本的過程。信號源→設備(捕獲音頻輸入)→增強音頻輸入→檢測語音→轉換為其他形式(如文本)第二階段:響應過程。處理文本(如用NLP處理文本,識別意圖)→操作響應。
  • 基於片上系統SoC的孤立詞語音識別算法設計
    因此,為了滿足嵌入式交互系統的體積越來越小、功能越來越強的苛刻需求,語音識別片上系統SoC(System on Chip)應運而生。語音識別片上系統SoC本身就是一塊晶片,在單一晶片上集成了模擬語音模數轉換器ADC、數模轉換器DAC、信號採集和轉換、處理器、存儲器和I/O接口等,只要加上極少的電源就可以具有語音識別的功能,集成了聲音信息的採集、取樣、處理、分析和記憶。