語音識別算法有哪些_語音識別特徵提取方法

2020-11-26 電子發燒友

語音識別算法有哪些_語音識別特徵提取方法

網絡整理 發表於 2020-04-01 09:24:49

  語音識別算法有哪些

  本文列舉了幾種不同的語音識別算法。

  第一種:基於動態時間規整(Dynamic Time Warping)的算法

  在連續語音識別中仍然是主流方法。

  該方法的運算量較大,但技術上較簡單,識別正確率高。

  在小詞彙量、孤立字(詞)識別系統中,也已有許多改進的DTW算法被提出。例如,利用頻率尺度的DTW算法進行孤立字(詞)識別的方法。

  第二種:基於參數模型的隱馬爾可夫模型(HMM)的方法

  該算法主要用於大詞彙量的語音識別系統,它需要較多的模型訓練數據,較長的訓練和識別時間,而且還需要較大的內存空間。

  一般連續隱馬爾可夫模型要比離散隱馬爾可夫模型計算量大,但識別率要高。

  第三種:基於非參數模型的矢量量化(VQ)的方法

  該方法所需的模型訓練數據,訓練和識別時間,工作存儲空間都很小。

  但是VQ算法對於大詞彙量語音識別的識別性能不如HMM好。

  在孤立字(詞)語音識別系統中得到了很好的應用。

  另外,還有基於人工神經網絡(ANN)的算法和混合算法,如ANN/HMM法,FSVQ/HMM法等。

  更多語音識別算法如下:

  卷積神經網絡

  深度學習神經網絡

  BP神經網絡

  RBF神經網絡

  模糊聚類神經網絡

  改進的T-S模糊神經網絡

  循環神經網絡

  小波神經網絡

  混沌神經網絡

  小波混沌神經網絡

  神經網絡和遺傳算法

  動態優化神經網絡

  K均值和神經網絡集成

  HMM與自組織神經網絡的結合

  正交基函數對向傳播過程神經網絡

  HMM和新型前饋型神經網絡

  特徵空間隨機映射

  SVM多類分類算法

  特徵參數歸一化

  多頻帶譜減法

  獨立感知理論

  分段模糊聚類算法VQ-HMM

  優化的競爭算法

  雙高斯GMM特徵參數

  MFCC和GMM

  MFCCs和PNN

  SBC和SMM

  MEL倒譜係數和矢量量化

  DTW

  LPCC和MFCC

  隱馬爾科夫模型HMM

  語音識別特徵提取方法

  語音識別對特徵參數有如下要求:

  1. 能將語音信號轉換為計算機能夠處理的語音特徵向量

  2. 能夠符合或類似人耳的聽覺感知特性

  3. 在一定程度上能夠增強語音信號、抑制非語音信號

  常用特徵提取方法有如下幾種:

  (1)線性預測分析(LinearPredictionCoefficients,LPC)

  擬人類的發聲原理,通過分析聲道短管級聯的模型得到的。假設系統的傳遞函數跟全極點的數字濾波器是相似的,通常用12-16個極點就可以描述語音信號的特徵。所以對於n時刻的語音信號,我們可以用之前時刻的信號的線性組合近似的模擬。然後計算語音信號的採樣值和線性預測的採樣值。並讓這兩者之間達到均方的誤差(MSE)最小,就可以得到LPC。

  (2)感知線性預測係數(PerceptualLinearPredictive,PLP)

  一種基於聽覺模型的特徵參數。該參數是一種等效於LPC的特徵,也是全極點模型預測多項式的一組係數。不同之處是PLP是基於人耳聽覺,通過計算應用到頻譜分析中,將輸入語音信號經過人耳聽覺模型處理,替代LPC所用的時域信號,這樣的優點是有利於抗噪語音特徵的提取。

  (3)Tandem特徵和Bottleneck特徵

  這是兩種利用神經網絡提取的兩類特徵。Tandem特徵是神經網絡輸出層節點對應類別的後驗概率向量降維並與MFCC或者PLP等特徵拼接得到。Bottleneck特徵是用一種特殊結構的神經網絡提取,這種神經網絡的其中一個隱含層節點數目比其他隱含層小的多,所以被稱之為Bottleneck(瓶頸)層,輸出的特徵就是Bottleneck特徵。

  (4)基於濾波器組的Fbank特徵(Filterbank)

  亦稱MFSC,Fbank特徵的提取方法就是相當於MFCC去掉最後一步的離散餘弦變換,跟MFCC特徵相比,Fbank特徵保留了更多的原始語音數據。

  (5)線性預測倒譜係數(LinearPredictiveCepstralCoefficient,LPCC)

  基於聲道模型的重要特徵參數。LPCC是丟棄了信號生成過程中的激勵信息。之後用十多個倒譜係數可以代表共振峰的特性。所以可以在語音識別中取得很好的性能。

  (6)梅爾頻率倒譜係數(MelFrequencyCepstrumCoefficient,MFCC)

  基於人耳聽覺特性,梅爾頻率倒譜頻帶劃分是在Mel刻度上等距劃分的,頻率的尺度值與實際頻率的對數分布關係更符合人耳的聽覺特性,所以可以使得語音信號有著更好的表示。1980年由Davis和Mermelstein搞出來的。從那時起。在語音識別領域,MFCC可謂是鶴立雞群,一枝獨秀。

  Q: MFCC為何一枝獨秀

  人通過聲道產生聲音,聲道的shape決定了發出怎樣的聲音。聲道的shape包括舌頭,牙齒等。如果我們可以準確的知道這個形狀,那麼我們就可以對產生的音素phoneme進行準確的描述。聲道的形狀在語音短時功率譜的包絡中顯示出來。而MFCC就是一種準確描述這個包絡的一種特徵。

  聲譜圖

  處理語音信號,如何去描述它很重要,因為不同的描述方式放映它不同的信息,而聲譜圖的描述方式是最利於觀測和理解的。

  由上圖可知,這段語音被分為很多幀,每幀語音都對應於一個頻譜(通過短時FFT計算),頻譜表示頻率與能量的關係。在實際使用中,頻譜圖有三種,即線性振幅譜、對數振幅譜、自功率譜(對數振幅譜中各譜線的振幅都作了對數計算,所以其縱坐標的單位是dB(分貝)。這個變換的目的是使那些振幅較低的成分相對高振幅成分得以拉高,以便觀察掩蓋在低幅噪聲中的周期信號)。

  先將其中一幀語音的頻譜通過坐標表示出來,如上圖(a)。旋轉90度,得到圖(b)。把這些幅度映射到一個灰度級表示,得到了圖(c)。這樣操作的原因是為了增加時間維度,,得到一個隨著時間變化的頻譜圖,這個就是描述語音信號的聲譜圖(spectrogram)。這樣就可以顯示一段語音而不是一幀語音的頻譜,而且可以直觀的看到靜態和動態的信息。

  倒譜分析(CepstrumAnalysis)

  下面是一個語音的頻譜圖。峰值就表示語音的主要頻率成分,我們把這些峰值稱為共振峰(formants),而共振峰就是攜帶了聲音的辨識屬性,用它就可以識別不同的聲音。因此,需要把它提取出來。要提取的不僅是共振峰的位置,還得提取它們轉變的過程。所以我們提取的是頻譜的包絡(SpectralEnvelope)。這包絡就是一條連接這些共振峰點的平滑曲線。

  由上圖可以看出,原始的頻譜由兩部分組成:包絡和頻譜的細節。因此需要把這兩部分分離開,就可以得到包絡了。按照下圖的方式進行分解,在給定logX[k]的基礎上,求得logH[k]和logE[k]滿足logX[k]=logH[k]+logE[k]。

  由上面這個圖我們可以看到,包絡主要是低頻成分,而高頻主要是頻譜的細節。把它倆疊加起來就是原來的頻譜信號了。即,h[k]是x[k]的低頻部分,因此將x[k]通過一個低通濾波器就可以得到h[k]了,也就是頻譜的包絡。

  以上解卷過程的專業術語叫做同態信號處理,(另一種方法為基於線性變換)。語音本身可以看成是聲道衝擊信息(包括話者個性信息、語義信息,表現為頻譜低頻成分)經過聲門激勵的一個響應函數,在時域上表現為卷積形式。為將二者分離開來,求得聲道共振特徵和基音周期,需要把這種非線性問題轉化為線性問題。第一步通過FFT將其變成了乘性信號(時域的卷積相當於頻域的乘積);第二步通過取對數將乘性信號轉化為加性信號;第三步進行逆變換,使其恢復為卷性信號。此時,雖然前後均是時域序列,但它們所處的離散時域顯然不同,所以後者稱為倒譜頻域。計算過程如下圖所示。

  更多精彩閱讀:

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • 應用、算法、晶片,「三位一體」淺析語音識別
    二、算法對於語音識別系統而言,第一步要檢測是否有語音輸入,即,語音激活檢測(VAD)。在低功耗設計中,相比於語音識別的其它部分,VAD採用always on的工作機制。當VAD檢測到有語音輸入之後,VAD便會喚醒後續的識別系統。識別系統總體流程如圖2所示,主要包括特徵提取、識別建模及模型訓練、解碼得到結果幾個步驟。
  • 語音識別是什麼 語音識別聲學特徵介紹【圖文】
    高魯棒性嵌入式語音識別引擎,可以應用到各種電子設備,從而利用語音來完成電子設備的自動控制等。特別在車載環境下,利用語音來控制各種設備的"hand-free"模式已經成為語音識別技術最重要的應用之一。  東芝的嵌入式語音識別引擎結合了高性能語音端點檢測技術、語音增強技術和特徵補償技術,並採用了噪聲免疫訓練,可以在各種噪聲環境下工作;特別針對汽車背景噪聲優化,在極低信噪比環境下仍可使用。
  • DSP開發板的語音識別系統的研究
    1 系統參數選擇  一般情況下,語音識別系統按照不同的角度、不同的應用範圍、不同的性能要求有不同的分類方法。針對識別對象不同有孤立詞識別、連接詞識別、連續語音識別與理解和會話語音識別等。針對識別系統的詞彙量有小詞彙量語音識別(1~20個詞彙)、中詞彙量識別(20~1 000個詞彙)和大詞彙量(1 000以上個詞彙)語音識別。
  • 基於片上系統SoC的孤立詞語音識別算法設計
    在訓練階段,用戶將每一個詞依次說一遍,並將計算得到的每一個詞所對應的特徵矢量序列作為模板存入模板庫中。在識別階段,將輸入語音的特徵矢量序列依次與模板庫中的每一模板進行相似度比較,將相似度最高者作為識別結果輸出。3. 針對片上系統SOC的孤立詞語音識別算法設計在SoC晶片中實現孤立詞語音識別系統,就要根據語音識別片上系統的特點,來進行SoC的語音識別算法的選擇和設計。
  • 語音識別技術原理全面解析
    而計算機在識別過程中要根據語音識別的模型,將計算機中存放的語音模板與輸入的語音信號的特徵進行比較,根據一定 的搜索和匹配策略,找出一系列最優的與輸入語音匹配的模板。然後根據此模板的定義,通過查表就可以給出計算機的識別結果。顯然,這種最優的結果與特徵的選 擇、語音模型的好壞、模板是否準確都有直接的關係。
  • 語音識別揭秘:你的手機究竟有多理解你?
    語音識別系統通常由聲學識別模型和語言理解模型兩部分組成,分別對應語音到音節和音節到字的計算。一個連續語音識別系統(如下圖)大致包含了四個主要部分:特徵提取、聲學模型、語言模型和解碼器等。(2)特徵提取在去除語音信號中對於語音識別無用的冗餘信息後,保留能夠反映語音本質特徵的信息進行處理,並用一定的形式表示出來。也就是提取出反映語音信號特徵的關鍵特徵參數形成特徵矢量序列,以便用於後續處理。
  • 語音識別原理及其語音識別系統分類
    人類的聲道和發音器官,是具有非線性特徵的生物器官,不僅僅運行在有意識的控制下,而且受到性別及其成長因素情緒狀態的影響。因此,聲音會因為他們的口音、發音、清晰度、體積、速度等有著大幅的變動。人類希望能與機器進一步溝通,從而方便生產與生活,而在語音信號的傳輸過程中,我們不規則的語言行為方式會被背景噪聲和回聲,以及電特性(如話筒等電子設備)進一步扭曲。這一切可變性的聲音來源語音識別更加繁瑣複雜。
  • 淺談自然場景中的語音情感識別技術
    語音是人類最基本、最便捷的交流工具,承載了複雜信息的語音信號不僅可以反映語義內容,還能夠傳遞說話人內在的情感狀態。語音情感識別是 建立在對語音信號的產生機制深入研究與分析的基礎上,對語音中反映個人情感信息的一些特徵參數進行提取,並利用這些參數採用相應的模式識別方法確定語音情感狀態的技術。
  • ZLG深度解析:語音識別技術
    語音識別已成為人與機器通過自然語言交互重要方式之一,本文將從語音識別的原理以及語音識別算法的角度出發為大家介紹語音識別的方案及詳細設計過程。語言作為人類的一種基本交流方式,在數千年歷史中得到持續傳承。近年來,語音識別技術的不斷成熟,已廣泛應用於我們的生活當中。語音識別技術是如何讓機器「聽懂」人類語言?
  • 基於DSP的語音識別計算器電路設計
    語音識別過程主要包括語音信號前處理、特徵提取、模式匹配等部分。語音信號輸入之後,預處理和數位化是進行語音識別的前提條件。特徵提取是進行語音信號訓練和識別必不可少的步驟,本文採用的是提取每幀的Mel係數的倒譜參數作為語音信號的特徵值。模板匹配算法目前有DTW算法、HMM隱馬爾科夫模型、ANN人工神經網絡等。
  • 基於DSP的語音識別系統的實現及分析
    1 系統參數選擇  一般情況下,語音識別系統按照不同的角度、不同的應用範圍、不同的性能要求有不同的分類方法。針對識別對象不同有孤立詞識別、連接詞識別、連續語音識別與理解和會話語音識別等。針對識別系統的詞彙量有小詞彙量語音識別(1~20個詞彙)、中詞彙量識別(20~1 000個詞彙)和大詞彙量(1 000以上個詞彙)語音識別。
  • 智能語音識別技術入門系列(上)
    下面展示的語音識別系統的典型結構,語音識別系統主要由圖中四個部分組成:信號處理和特徵提取、聲學模型、語言模型和解碼搜索部分。信號處理和特徵提取部分是以音頻信號作為輸入,通過消除噪聲和信道失真對語音進行增強,為後面的聲學模型提取合適的有代表性的特徵向量。
  • 玩人工智慧的你必須知道的語音識別技術原理
    訓練時對每個基元用前向後向算法獲得模型參數,識別時,將基元串接成詞,詞間加上靜音模型並引入語言模型作為詞間轉移概率,形成循環結構,用Viterbi算法進行解碼。針對漢語易於分割的特點,先進行分割再對每一段進行解碼,是用以提高效率的一個簡化方法。  對話系統:用於實現人機口語對話的系統稱為對話系統。
  • 基於Julius的機器人語音識別系統構建
    只需要對幾十個字或詞的命令行進語音識別,便可使得原本需要手工操作的工作由語音輕鬆完成。本文針對現有機器人平臺,設計一個非特定人的孤立詞語音識別系統。  1 語音識別原理及JuliUS簡介  1.1 基於HMM的語音識別原理  語音識別系統是一種模式識別系統,系統首先對語音信號進行分析,得到語音的特徵參數,然後對這些參數進行處理,形成標準的模板。這個過程稱為訓練或學習。
  • 語音識別技術簡史
    GMM-HMM時代70 年代,語音識別主要集中在小詞彙量、孤立詞識別方面,使用的方法也主要是簡單的模板匹配方法,即首先提取語音信號的特徵構建參數模板,然後將測試語音與參考模板參數進行一一比較和匹配,取距離最近的樣本所對應的詞標註為該語音信號的發音。該方法對解決孤立詞識別是有效的,但對於大詞彙量、非特定人連續語音識別就無能為力。
  • FinTech時代商業銀行智能語音識別技術應用與發展
    (1)早期實驗研究階段  20世紀50年代,世界上第一個能識別10個英文數字發音的實驗系統在貝爾實驗室誕生;20世紀60年代,出現了動態時間規整(DTW)算法以及將語音信號以幀為單位切分的技術,實現了有效的語音特徵提取;20世紀80年代,識別算法從基於標準模板的方法轉向基於統計模型的方法,產生了基於高斯混合隱馬爾可夫模型(GMM-HMM)的聲學模型和以N元語法為基礎的語言模型
  • 語音識別在生活中的七個經典應用
    語音識別技術就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高技術。 語音識別技術主要包括特徵提取技術、模式匹配準則及模型訓練技術三個方面。
  • 基於HMM的連續小詞量語音識別系統的研究
    摘要:為了提高語音識別效率及對環境的依賴性,文章對語音識別算法部分和硬體部分做了分析與改進,採用ARMS3C2410微處理器作為主控制模塊,採用UDA1314TS音頻處理晶片作為語音識別模塊,利用HMM聲學模型及Viterbi算法進行模式訓練和識別,設計了一種連續的
  • 專注E2E語音識別,騰訊AILab開源語音處理工具包PIKA
    機器之心報導作者:魔王、杜偉PyTorch + Kaldi,騰訊 AI Lab 開源輕量級語音處理工具包 PIKA,專注於端到端語音識別任務。Kaldi 是一個開源的語音識別系統,由 Daniel Povey 主導開發,在很多語音識別測試和應用中廣泛使用。
  • 從原理入手,解析基於DSP的漢字語音識別系統的實現方式
    圖1 語音識別系統的處理流圖在語音識別系統中,模擬的語音信號在完成A/D轉換後成為數位訊號,但時域上的語音信號很難直接用於識別,因此需要從語音信號中提取語音的特徵,一方面可以獲得語音的本質特徵,另一方面也起到數據壓縮的作用