語音識別算法有哪些_語音識別特徵提取方法

2020-12-25 電子發燒友

語音識別算法有哪些_語音識別特徵提取方法

網絡整理 發表於 2020-04-01 09:24:49

  語音識別算法有哪些

  本文列舉了幾種不同的語音識別算法。

  第一種:基於動態時間規整(Dynamic Time Warping)的算法

  在連續語音識別中仍然是主流方法。

  該方法的運算量較大,但技術上較簡單,識別正確率高。

  在小詞彙量、孤立字(詞)識別系統中,也已有許多改進的DTW算法被提出。例如,利用頻率尺度的DTW算法進行孤立字(詞)識別的方法。

  第二種:基於參數模型的隱馬爾可夫模型(HMM)的方法

  該算法主要用於大詞彙量的語音識別系統,它需要較多的模型訓練數據,較長的訓練和識別時間,而且還需要較大的內存空間。

  一般連續隱馬爾可夫模型要比離散隱馬爾可夫模型計算量大,但識別率要高。

  第三種:基於非參數模型的矢量量化(VQ)的方法

  該方法所需的模型訓練數據,訓練和識別時間,工作存儲空間都很小。

  但是VQ算法對於大詞彙量語音識別的識別性能不如HMM好。

  在孤立字(詞)語音識別系統中得到了很好的應用。

  另外,還有基於人工神經網絡(ANN)的算法和混合算法,如ANN/HMM法,FSVQ/HMM法等。

  更多語音識別算法如下:

  卷積神經網絡

  深度學習神經網絡

  BP神經網絡

  RBF神經網絡

  模糊聚類神經網絡

  改進的T-S模糊神經網絡

  循環神經網絡

  小波神經網絡

  混沌神經網絡

  小波混沌神經網絡

  神經網絡和遺傳算法

  動態優化神經網絡

  K均值和神經網絡集成

  HMM與自組織神經網絡的結合

  正交基函數對向傳播過程神經網絡

  HMM和新型前饋型神經網絡

  特徵空間隨機映射

  SVM多類分類算法

  特徵參數歸一化

  多頻帶譜減法

  獨立感知理論

  分段模糊聚類算法VQ-HMM

  優化的競爭算法

  雙高斯GMM特徵參數

  MFCC和GMM

  MFCCs和PNN

  SBC和SMM

  MEL倒譜係數和矢量量化

  DTW

  LPCC和MFCC

  隱馬爾科夫模型HMM

  語音識別特徵提取方法

  語音識別對特徵參數有如下要求:

  1. 能將語音信號轉換為計算機能夠處理的語音特徵向量

  2. 能夠符合或類似人耳的聽覺感知特性

  3. 在一定程度上能夠增強語音信號、抑制非語音信號

  常用特徵提取方法有如下幾種:

  (1)線性預測分析(LinearPredictionCoefficients,LPC)

  擬人類的發聲原理,通過分析聲道短管級聯的模型得到的。假設系統的傳遞函數跟全極點的數字濾波器是相似的,通常用12-16個極點就可以描述語音信號的特徵。所以對於n時刻的語音信號,我們可以用之前時刻的信號的線性組合近似的模擬。然後計算語音信號的採樣值和線性預測的採樣值。並讓這兩者之間達到均方的誤差(MSE)最小,就可以得到LPC。

  (2)感知線性預測係數(PerceptualLinearPredictive,PLP)

  一種基於聽覺模型的特徵參數。該參數是一種等效於LPC的特徵,也是全極點模型預測多項式的一組係數。不同之處是PLP是基於人耳聽覺,通過計算應用到頻譜分析中,將輸入語音信號經過人耳聽覺模型處理,替代LPC所用的時域信號,這樣的優點是有利於抗噪語音特徵的提取。

  (3)Tandem特徵和Bottleneck特徵

  這是兩種利用神經網絡提取的兩類特徵。Tandem特徵是神經網絡輸出層節點對應類別的後驗概率向量降維並與MFCC或者PLP等特徵拼接得到。Bottleneck特徵是用一種特殊結構的神經網絡提取,這種神經網絡的其中一個隱含層節點數目比其他隱含層小的多,所以被稱之為Bottleneck(瓶頸)層,輸出的特徵就是Bottleneck特徵。

  (4)基於濾波器組的Fbank特徵(Filterbank)

  亦稱MFSC,Fbank特徵的提取方法就是相當於MFCC去掉最後一步的離散餘弦變換,跟MFCC特徵相比,Fbank特徵保留了更多的原始語音數據。

  (5)線性預測倒譜係數(LinearPredictiveCepstralCoefficient,LPCC)

  基於聲道模型的重要特徵參數。LPCC是丟棄了信號生成過程中的激勵信息。之後用十多個倒譜係數可以代表共振峰的特性。所以可以在語音識別中取得很好的性能。

  (6)梅爾頻率倒譜係數(MelFrequencyCepstrumCoefficient,MFCC)

  基於人耳聽覺特性,梅爾頻率倒譜頻帶劃分是在Mel刻度上等距劃分的,頻率的尺度值與實際頻率的對數分布關係更符合人耳的聽覺特性,所以可以使得語音信號有著更好的表示。1980年由Davis和Mermelstein搞出來的。從那時起。在語音識別領域,MFCC可謂是鶴立雞群,一枝獨秀。

  Q: MFCC為何一枝獨秀

  人通過聲道產生聲音,聲道的shape決定了發出怎樣的聲音。聲道的shape包括舌頭,牙齒等。如果我們可以準確的知道這個形狀,那麼我們就可以對產生的音素phoneme進行準確的描述。聲道的形狀在語音短時功率譜的包絡中顯示出來。而MFCC就是一種準確描述這個包絡的一種特徵。

  聲譜圖

  處理語音信號,如何去描述它很重要,因為不同的描述方式放映它不同的信息,而聲譜圖的描述方式是最利於觀測和理解的。

  由上圖可知,這段語音被分為很多幀,每幀語音都對應於一個頻譜(通過短時FFT計算),頻譜表示頻率與能量的關係。在實際使用中,頻譜圖有三種,即線性振幅譜、對數振幅譜、自功率譜(對數振幅譜中各譜線的振幅都作了對數計算,所以其縱坐標的單位是dB(分貝)。這個變換的目的是使那些振幅較低的成分相對高振幅成分得以拉高,以便觀察掩蓋在低幅噪聲中的周期信號)。

  先將其中一幀語音的頻譜通過坐標表示出來,如上圖(a)。旋轉90度,得到圖(b)。把這些幅度映射到一個灰度級表示,得到了圖(c)。這樣操作的原因是為了增加時間維度,,得到一個隨著時間變化的頻譜圖,這個就是描述語音信號的聲譜圖(spectrogram)。這樣就可以顯示一段語音而不是一幀語音的頻譜,而且可以直觀的看到靜態和動態的信息。

  倒譜分析(CepstrumAnalysis)

  下面是一個語音的頻譜圖。峰值就表示語音的主要頻率成分,我們把這些峰值稱為共振峰(formants),而共振峰就是攜帶了聲音的辨識屬性,用它就可以識別不同的聲音。因此,需要把它提取出來。要提取的不僅是共振峰的位置,還得提取它們轉變的過程。所以我們提取的是頻譜的包絡(SpectralEnvelope)。這包絡就是一條連接這些共振峰點的平滑曲線。

  由上圖可以看出,原始的頻譜由兩部分組成:包絡和頻譜的細節。因此需要把這兩部分分離開,就可以得到包絡了。按照下圖的方式進行分解,在給定logX[k]的基礎上,求得logH[k]和logE[k]滿足logX[k]=logH[k]+logE[k]。

  由上面這個圖我們可以看到,包絡主要是低頻成分,而高頻主要是頻譜的細節。把它倆疊加起來就是原來的頻譜信號了。即,h[k]是x[k]的低頻部分,因此將x[k]通過一個低通濾波器就可以得到h[k]了,也就是頻譜的包絡。

  以上解卷過程的專業術語叫做同態信號處理,(另一種方法為基於線性變換)。語音本身可以看成是聲道衝擊信息(包括話者個性信息、語義信息,表現為頻譜低頻成分)經過聲門激勵的一個響應函數,在時域上表現為卷積形式。為將二者分離開來,求得聲道共振特徵和基音周期,需要把這種非線性問題轉化為線性問題。第一步通過FFT將其變成了乘性信號(時域的卷積相當於頻域的乘積);第二步通過取對數將乘性信號轉化為加性信號;第三步進行逆變換,使其恢復為卷性信號。此時,雖然前後均是時域序列,但它們所處的離散時域顯然不同,所以後者稱為倒譜頻域。計算過程如下圖所示。

  更多精彩閱讀:

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • 語音識別技術
    即從音頻信號到對應的文字,首先對聲音信號進行濾波、分幀等預處理工作,將需要分析的音頻信號從原始信號中合適地提取出來,並且通過一些方法從中提取出特徵向量,再根據聲學模型對特徵向量所可能表示的聲學特徵進行得分計算,得出可能的音素狀態序列,然後再通過語言模型,計算可能對應的詞組序列的概率,最後根據已有的字典對詞組序列進行解碼,得到最後的文本表示。
  • 應用、算法、晶片,「三位一體」淺析語音識別
    二、算法對於語音識別系統而言,第一步要檢測是否有語音輸入,即,語音激活檢測(VAD)。在低功耗設計中,相比於語音識別的其它部分,VAD採用always on的工作機制。當VAD檢測到有語音輸入之後,VAD便會喚醒後續的識別系統。識別系統總體流程如圖2所示,主要包括特徵提取、識別建模及模型訓練、解碼得到結果幾個步驟。
  • 【語音算法系列】聲紋識別助力身份認證
    從圖片上看,似乎圖1和圖2更相似一點,但實際上圖1和圖3來自同一個人,因為圖3承載了不同的語義信息,所以圖3和圖1,圖2有了明顯的差異。在語音識別中聲紋特徵有助於語音識別,而在聲紋識別中語義信息反而會影響聲紋特徵的提取,因此在這句話的聲紋識別中乾脆不要比較「小」和「貝」,直接都比較同一個字「貝」好了,這樣更容易分析出聲紋的差異。
  • 語音識別技術概述
    語音識別的輸入與輸出如圖1所示。將語音片段輸入轉化為文本輸出的過程就是語音識別。一個完整的語音識別系統通常包括信息處理和特徵提取、聲學模型、語言模型和解碼搜索四個模塊。一個典型的語音識別系統如圖2所示。
  • 語音識別流程梳理
    語音識別流程語音識別流程,就是將一段語音信號轉換成相對應的文本信息的過程,它主要包含語音輸入、VAD端點檢測、特徵提取、聲學模型、語言模型以及字典與解碼幾個部分。以搜狗語音識別技術流程為例,語音信號經過前端信號處理、端點檢測等處理後,逐幀提取語音特徵,傳統的特徵類型包括MFCC、PLP、FBANK等特徵,提取好的特徵送至解碼器,在聲學模型、語言模型以及發音詞典的共同指導下,找到最為匹配的詞序列作為識別結果輸出,整體語音識別系統的流程如下:
  • 語音識別技術原理概述!
    聲學特徵提取完成信號的預處理之後,隨後進行的就是整個過程中極為關鍵的特徵提取的操作。將原始波形進行識別並不能取得很好的識別效果,頻域變換後提取的特徵參數用於識別,而能用於語音識別的特徵參數必須滿足以下幾點:1、特徵參數能夠儘量描述語音的根本特徵;2、儘量降低參數分量之間的耦合,對數據進行壓縮;3、應使計算特徵參數的過程更加簡便,使算法更加高效。 基音周期、共振峰值等參數都可以作為表徵語音特性的特徵參數。
  • 語音識別揭秘:你的手機究竟有多理解你?
    一個連續語音識別系統(如下圖)大致包含了四個主要部分:特徵提取、聲學模型、語言模型和解碼器等。(2)特徵提取在去除語音信號中對於語音識別無用的冗餘信息後,保留能夠反映語音本質特徵的信息進行處理,並用一定的形式表示出來。也就是提取出反映語音信號特徵的關鍵特徵參數形成特徵矢量序列,以便用於後續處理。
  • 語音識別現狀與工程師必備技能
    但是從語音採集、信號處理、特徵提取、聲學模型、語音模型、解碼搜索整個鏈條都做到端到端的建模處理,難度非常大,因此現在常說的端到端的模型基本還是局限於聲學模型範疇,比如將DNN-HMM或者CNN/RNN-HMM模型進行端到端的優化,比如CTC準則和Attention-based模型等方法。
  • 語音識別的技術原理是什麼?
    常見的一種變換方法是提取MFCC特徵,根據人耳的生理特性,把每一幀波形變成一個多維向量,可以簡單地理解為這個向量包含了這幀語音的內容信息。這個過程叫做聲學特徵提取。實際應用中,這一步有很多細節,聲學特徵也不止有MFCC這一種,具體這裡不講。至此,聲音就成了一個12行(假設聲學特徵是12維)、N列的一個矩陣,稱之為觀察序列,這裡N為總幀數。
  • 語音識別技術的發展及難點分析
    語音識別技術難點 語音識別成為爭奪焦點 據悉,全球範圍人工智慧公司多專攻深度學習方向,而我國人工智慧方向的200家左右的創業公司有超過70%的公司主攻圖像或語音識別這兩個分類。全球都有哪些公司在布局語音識別?他們的發展情況又如何?
  • 語音是如何變為文字的?詳解語音識別技術原理
    常見的一種變換方法是提取MFCC特徵,根據人耳的生理特性,把每一幀波形變成一個多維向量,可以簡單地理解為這個向量包含了這幀語音的內容信息。這個過程叫做聲學特徵提取。實際應用中,這一步有很多細節,聲學特徵也不止有MFCC這一種,具體這裡不講。至此,聲音就成了一個12行(假設聲學特徵是12維)、N列的一個矩陣,稱之為觀察序列,這裡N為總幀數。
  • 語音識別基礎,總有一天你會用到
    這個過程有兩大塊,一個是生成機器能理解的聲音向量。第二個是通過模型算法識別這些聲音向量,最終給出識別結果。每一塊中間都有很多細小的步驟,我們後面會提到。a)信號處理和特徵提取:以音頻信號為輸入,通過消除噪聲和信道失真對語音進行增強,將信號從時域轉化到頻域,並為後面的聲學模型提取合適的有代表性的特徵向量。
  • 【C/Python】單詞語音識別-牛刀小試
    今天筆者簡單的實現了一下單詞的語音識別器,在訓練集(1060 個樣本)上,錯誤率壓到 1.2%,一學期的努力算是有了一個交代。        注意項目用 Python 3.5.x 和 C 語言開發,開發環境是 Visual Studio 2017。本項目主要參考 HTK 語音識別包,但中間掉進不少的坑,讀者參考 HTK 時也需謹慎。
  • 百度語音識別功能以及優勢
    百度語音識別是採用國際領先的流式端到端語音語言一體化建模算法,將語音快速準確識別為文字,支持手機應用語音交互、語音內容分析、機器人對話等多個場景。百度雲語音識別功能優勢:一、技術領先採用領先國際的流式端到端語音語言一體化建模方法,融合百度自然語言處理技術,近場中文普通話識別準確率達98%二、自助訓練專屬模型
  • 百度語音識別新算法準確率提升超30%,鴻鵠晶片彰顯AI落地新打法
    接收到目標聲音後,識別終端通過方位信息,增強目標信號並壓制幹擾信號,從而將增強後的信號,輸入到語音識別聲學建模模塊中。這一方法主要存在兩個問題。首先,語音增強算法大都是基於 mse 準則優化語音的聽覺感知,聽覺感知變得更清晰,並不一定對應識別率提升。其次,此方法需要首先喚醒語音識別終端,並要求說話者的位置保持固定。
  • 深度神經網絡——中文語音識別
    概述語音識別系統模型由聲學模型和語言模型兩個部分組成,聲學模型對應於語音到音素的概率計算,語言模型對應於音素到文字的概率計算。一個連續語音識別系統大致可以由四個部分組成:特徵提取,聲學模型,語言模型和解碼部分。具體過程是首先從語音數據中經過提取得到聲學特徵,然後經過模型訓練統計得到一個聲學模型,作為識別的模板,並結合語言模型經過解碼處理得到一個識別結果。
  • 玩人工智慧的你必須知道的語音識別技術原理
    訓練時對每個基元用前向後向算法獲得模型參數,識別時,將基元串接成詞,詞間加上靜音模型並引入語言模型作為詞間轉移概率,形成循環結構,用Viterbi算法進行解碼。針對漢語易於分割的特點,先進行分割再對每一段進行解碼,是用以提高效率的一個簡化方法。  對話系統:用於實現人機口語對話的系統稱為對話系統。
  • 解析基於DSP的漢字語音識別系統的實現方式
    圖1 語音識別系統的處理流圖在語音識別系統中,模擬的語音信號在完成A/D轉換後成為數位訊號,但時域上的語音信號很難直接用於識別,因此需要從語音信號中提取語音的特徵3特徵提取目前通用的特徵提取方法是基於語音幀的,即將語音信號分為有重疊的若干幀,對每一幀提取語音特徵。由於本技術方案採用的語音庫採樣率為8 kHz,因此採用幀長為256個採樣點(即32 ms),幀步長或幀移(即每一幀語音與上一幀語音不重疊的長度)為80個採樣點(即10 ms)。
  • 淺談語音識別技術的發展趨勢與應用前景
    運用隱馬爾可夫模型的方法,頻譜特徵的統計變差得以測量。文本無關語音識別方法的例子有平均頻譜法、矢量量化法和多變量自回歸法。   平均頻譜法使用有利的倒頻距離,語音頻譜中的音位影響被平均頻譜去除。使用矢量量化法,語者的一套短期訓練的特徵向量可以直接用來描繪語者的本質特徵。但是,當訓練向量的數量很大時,這種直接的描繪是不切實際的,因為存儲和計算的量變得離奇的大。
  • ...個離在線一體語音識別解決方案,自研AI降噪算法提高30%識別準確率
    在這一環節中,神經網絡模型所需的算力決定了模型的描述能力,同時也決定了模型處理能力和識別率的上限。在傳統的語音識別算法裡,用的最多的是全連接的操作,叫DNN/DTNN——目前,國內有多家語音識別晶片採用的都是DNN的方法。