DSP開發板的語音識別系統的研究

2021-01-08 OFweek維科網

  0 引言

  語音識別技術的目的是使機器能理解人類語言,最終使人機通信成為現實。在過去幾十年,自動語音識別(AutomaticSpeech Recognition,ASR)技術已經取得了非常重大的進步。

  ASR系統已經能從處理像數字之類的小詞彙量到廣播新聞之類的大詞彙量。然而針對識別效果來說,ASR 系統則相對較差。尤其在會話任務上,自動語音識別系統遠不及人類。因此,語音識別技術的應用已成為一個極具競爭性和挑戰性的高新技術產業。

  隨著DSP技術的快速發展及性能不斷完善,基於DSP的語音識別算法得到了實現,並且在費用、功耗、速度、精確度和體積等方面有著PC機所不具備的優勢,具有廣闊的應用前景。

  1 系統參數選擇

  一般情況下,語音識別系統按照不同的角度、不同的應用範圍、不同的性能要求有不同的分類方法。針對識別對象不同有孤立詞識別、連接詞識別、連續語音識別與理解和會話語音識別等。針對識別系統的詞彙量有小詞彙量語音識別(1~20個詞彙)、中詞彙量識別(20~1 000個詞彙)和大詞彙量(1 000以上個詞彙)語音識別。針對發音人範圍來分,分為特定人語音識別、非特定人語音識別、自適應語音識別。

  本文主要研究非特定人小詞彙量連續語音實時識別系統。

  1.1 語音識別系統

  語音識別本質上是一種模式識別的過程,即未知語音的模式與已知語音的參考模式逐一進行比較,最佳匹配的參考模式被作為識別結果。語音識別系統一般包括前端處理、特徵參數提取、模型訓練和識別部分。圖1所示是基於模式匹配原理的語音識別系統框圖。

圖1 語音識別系統基本框圖

  1.2 特徵參數

  語音信號中含有非常豐富的信息,包括影響語音識別的重要信息,也包括對語音識別無關緊要甚至會降低識別率的冗餘信息。特徵提取則可以去除冗餘信息,將能準確表徵語音信號特徵的聲學參數提取出來用於後端的模型建立和匹配,大大減少了存儲空間、訓練和測試時間。對特定人語音識別來說,希望提取的特徵參數儘可能少的反映語義信息,儘可能多的反映說話人的個人信息,而對非特定人語音識別來說,則相反。

  現在較常用的特徵參數有線性預測參數(LPCC)、線譜對(LSP)參數、Mel頻率倒譜參數(MFCC)、感覺加權的線性預測(PLP)參數、動態差分參數和高階信號譜類特徵等,尤其是LPCC和MFCC兩種參數最為常用。本文選擇MFCC作為特徵參數。

  1.3 模型訓練及模式識別

  在識別系統後端,從已知模式中獲取用以表徵該模式本質特徵的模型參數即形成模式庫,再將輸入的語音提取特徵矢量參數後與已建立的聲學模型進行相似度比較,同時根據一定的專家知識(如構詞規則,語法規則等)和判別規則決策出最終的識別結果。

  目前,語音識別所應用模型匹配技術主要有動態時間規整(DTW)、隱馬爾可夫模型(HMM)、人工神經元網絡(ANN)和支持向量機(SVM)等。DTW 是基本的語音相似性或相異性的一種測量工具,僅僅適合於孤立詞語音識別系統中。在解決非特定人、大詞彙量、連續語音識別問題時較之HMM 算法相形見絀。HMM 模型是隨機過程的數學模型,它用統計方式建立語音信號的動態模型,將聲學模型和語言模型融入語音識別搜索算法中,被認為是語音識別中最有效的模型。

  然而由Vapnik和co-workers提出來的SVM 基於結構風險最小化準則和非線性和函數,具有更好的泛化能力和分類精確度。目前,SVM 已經成功應用於語音識別與話者識別。

  除此之外,Ganapathiraju等人已經將支持向量機成功運用到複雜的大詞表非特定人連續語音識別上來。因此本文選擇SVM結合VQ完成語音模式識別。

相關焦點

  • 基於DSP和FPGA的機器人聲控系統設計與實現
    一個體積小、低功耗、高速度能完成特定範圍語音識別和動作指令的機器人系統的研製具有很大的實際意義。 2 系統硬體總體設計 系統的硬體功能是實現語音指令的採集和步進電機的驅動控制,為系統軟體提供開發和調試平臺。如圖1所示。
  • 基於DSP的語音識別系統的實現及分析
    1 系統參數選擇  一般情況下,語音識別系統按照不同的角度、不同的應用範圍、不同的性能要求有不同的分類方法。針對識別對象不同有孤立詞識別、連接詞識別、連續語音識別與理解和會話語音識別等。針對識別系統的詞彙量有小詞彙量語音識別(1~20個詞彙)、中詞彙量識別(20~1 000個詞彙)和大詞彙量(1 000以上個詞彙)語音識別。
  • 基於DSP的漢字語音識別系統的實現方式解析
    語音識別是機器通過識別和理解過程把語音信號轉變為相應的文本文件或命令的高技術。作為專門的研究領域,語音識別又是一門交叉學科,它與聲學、語音學、語言學、數位訊號處理理論、資訊理論、計算機科學等眾多學科緊密相連。語音識別經過四十多年的發展,已經顯示出巨大的應用前景。本文從實現原理入手,介紹語音識別系統的實現方式。
  • 從原理入手,解析基於DSP的漢字語音識別系統的實現方式
    語音識別是機器通過識別和理解過程把語音信號轉變為相應的文本文件或命令的高技術。作為專門的研究領域,語音識別又是一門交叉學科,它與聲學、語音學、語言學、數位訊號處理理論、資訊理論、計算機科學等眾多學科緊密相連。語音識別經過四十多年的發展,已經顯示出巨大的應用前景。本文從實現原理入手,介紹語音識別系統的實現方式。
  • 樂鑫發布 AI 語音麥克風陣列開發板 ESP32-Korvo
    樂鑫信息科技發布 AI 語音麥克風陣列開發板 ESP32-Korvo 。這是一款針對物聯網嵌入式設備的 AI 語音開發板,基於樂鑫的旗艦晶片 ESP32,搭載多麥克風陣列,能夠實現高性能、低功耗的遠場語音喚醒和命令詞識別功能。本文引用地址:http://www.eepw.com.cn/article/202004/411927.htm近年來,隨著人工智慧和物聯網的興起,語音逐漸成為我們與智能設備交互的一種典型方式。
  • 基於DSP的語音識別計算器電路設計
    根據實際的應用,語音識別可以分為:特定人與非特定人的識別、孤立詞與連續詞的識別、中小詞彙量與無限詞彙量的識別。 考慮到成本及使用範圍因素,本文中應用的是基於TMS320VC5509 DSP的非特定人、孤立詞、小詞彙量的語音識別系統。
  • 基於小波變換與DSP的實時音頻視頻處理系統
    目前,以遠程監控、視頻會議、可視電話及移動多媒體通信系統為代表的低比特率通信系統在實際中得到了重要應用。面對龐大的音/視頻數據量,作為語音及圖像處理的壓縮技術便在多媒體通信中顯得極為重要。
  • 鴻蒙HarmonyOS開發板訊飛平臺+語音控制開關燈
    ,我們可以實現語音控制開關燈。大致流程如下:1、創建應用,下載sdk,編譯demo可執行程序(本文採用的Linux SDK);2、通過應用的唯一APPID,登錄到訊飛開放平臺;3、用戶輸入語音,Linux SDK程序通過麥克風接收到語音數據,上傳到訊飛開放平臺;4、平臺返回語音翻譯的文字,由Linux SDK程序通過udp socket通信的方式發送給開發板;
  • 語音識別原理及其語音識別系統分類
    YQ語音識別方案語音識別是一個多層模式識別任務。聲音信號經過考察,結構分為一個層次詞根單位(例如,音素)、詞、短語、句子。一個標準的語音識別系統如下圖所示。YQ5969語音識別二、語音識別系統分類語音識別系統根據對說話人說話方式的要求,可以分為孤立詞語音識別系統、連接字語音識別系統和連續語音識別系統;根據對說話人的依賴程度,可以分為特定人和非特定人語音識別系統
  • 大熱的麥克風陣列語音識別系統的設計和輕鬆實現,提供軟硬體解決方案
    而本項目與傳統的麥克風陣進行語音識別的方法又有不同,它將語音接收端與語音識別部分組成一個反饋系統,通過優化接收端濾波器的係數,使跟語音識別密切相關的倒譜域似然比最大,來提高語音識別準確率。在進行Matlab仿真之後,將算法應用到FPGA中。FPGA開發板暫定為Xilinx公司的Nexys 3 Spartan-6 FPGA Board。
  • 使用STM32 的DSP庫進行FFT變換
    (void);void dsp_asm_init(void);#endif /* End of module include.>* Email:heroxx@163.com* Date:2010-08-11* Description:This file showes how to use the dsp library in mdk project.
  • 基於HMM的連續小詞量語音識別系統的研究
    、小詞量的語音識別系統。實驗證明,該語音識別系統具有較高的識別率和一定程度的魯棒性,實驗室識別率和室外識別率分別達到95.6%,92.3%。關鍵詞:語音識別;嵌入式系統;Hidden Markov Models;ARM;Viterbi算法0 引言 嵌入式語音識別系統是應用各種先進的微處理器在板級或是晶片級用軟體或硬體實現的語音識別。
  • 基於Julius的機器人語音識別系統構建
    語音識別技術的發展,使得這一理想得以實現,把語音識別技術與機器人控制技術相結合,正成為目前研究的熱點,不但具有較好的理論意義,而且有較大的實用價值。   語音識別技術應用於機器人系統大多是針對特定的環境,設計出語音命令來進行控制的。
  • 基於FPGA的語音智能操控系統
    語音智能操控系統可以取代多個遙控器,當需要控制某一家電時,只需說出所需調節的內容(如,空調開,溫度25℃),語音智能操控系統就能通過對操控者的語音識別,完成匹配並發出遙控信息完成相應的操作。功能描述:由FPGA實現語音智能操控系統的系統構架圖如圖2-1所示,它是以FPGA為主板,嵌入語音識別系統並結合紅外遙控系統完成的智能操控系統。
  • 語音識別是什麼 語音識別聲學特徵介紹【圖文】
    除了可以完成高精度的命令詞識別,東芝的嵌入式語音識別引擎支持大詞彙量的地址識別,結合在線文法生成功能和語音標籤功能,使得聲控的汽車導航成為現實。此外,該引擎還支持中文數字串識別和人名識別等,可以輕鬆完成聲控撥號/定位任務。引擎採用了高效的搜索算法和聲學模型壓縮等技術,可以在資源十分有限的條件下工作,目前已經應用到多款汽車導航系統中。  2. 語音對話系統和翻譯系統中的語音聽寫引擎。
  • 第六講 DSP在雷達信號處理中的應用
    引言 dsp是一種基於精簡指令集的可編程數學計算晶片,可以對數位訊號進行時頻域變換、頻譜分析、濾波、估值、增強、壓縮等處理,廣泛應用於家用電器、多媒體系統、雷達、衛星系統、移動通信、網絡會議、醫學儀器、實時圖像識別與處理、語音處理、自適應制導控制、模式識別、定位、導航、聯合戰術無線電系統和智能基站等領域。
  • 排名 語音識別_語音識別技術排名 - CSDN
    該成果有望推動語音識別技術的大幅進步,已超越人類專業速記員的水平」的字眼令正在從事語音識別研究的科研工作者和技術提供商一陣錯愕,不明真相的群眾紛紛認為當前語音識別已經刷無可刷,語音識別技術已經沒有門檻,語音識別是已經解決的問題了……但是事實並不是這樣,在LibriSpeech這種簡單數據集上「刷」到詞錯誤率2.97%並不困難,語音識別領域仍存在大量的問題需要解決。
  • 基於嵌入式Linux的語音識別系統硬軟體設計
    該設計運用三星公司的S3C2440,結合ICRoute公司的高性能語音識別晶片LD3320,進行了語音識別系統的硬體和軟體設計。
  • 基於DSP的數字掃描探針顯微鏡的硬體解決方案研究
    數字掃描探針顯微鏡(scanning probe microscope,spm)是研究納米的重要工具,它利用探針和樣品的不同互相作用來探測表面或界面在納米尺度上表現出的物理性質和化學性質,它的問世對表面科學、物理學、微電子學、電子材料學、先進材料和納米材料等研究領域技術重要的意義
  • 基於片上系統SoC的孤立詞語音識別算法設計
    因此,為了滿足嵌入式交互系統的體積越來越小、功能越來越強的苛刻需求,語音識別片上系統SoC(System on Chip)應運而生。語音識別片上系統SoC本身就是一塊晶片,在單一晶片上集成了模擬語音模數轉換器ADC、數模轉換器DAC、信號採集和轉換、處理器、存儲器和I/O接口等,只要加上極少的電源就可以具有語音識別的功能,集成了聲音信息的採集、取樣、處理、分析和記憶。