語音識別算法有哪些_語音識別特徵提取方法

2020-12-09 電子發燒友

語音識別算法有哪些_語音識別特徵提取方法

網絡整理發表於 2020-04-01 09:24:49

　　語音識別算法有哪些

　　本文列舉了幾種不同的語音識別算法。

　　第一種：基於動態時間規整（Dynamic Time Warping）的算法

　　在連續語音識別中仍然是主流方法。

　　該方法的運算量較大，但技術上較簡單，識別正確率高。

　　在小詞彙量、孤立字（詞）識別系統中，也已有許多改進的DTW算法被提出。例如，利用頻率尺度的DTW算法進行孤立字（詞）識別的方法。

　　第二種：基於參數模型的隱馬爾可夫模型（HMM）的方法

　　該算法主要用於大詞彙量的語音識別系統，它需要較多的模型訓練數據，較長的訓練和識別時間，而且還需要較大的內存空間。

　　一般連續隱馬爾可夫模型要比離散隱馬爾可夫模型計算量大，但識別率要高。

　　第三種：基於非參數模型的矢量量化（VQ）的方法

　　該方法所需的模型訓練數據，訓練和識別時間，工作存儲空間都很小。

　　但是VQ算法對於大詞彙量語音識別的識別性能不如HMM好。

　　在孤立字（詞）語音識別系統中得到了很好的應用。

　　另外，還有基於人工神經網絡（ANN）的算法和混合算法，如ANN/HMM法，FSVQ/HMM法等。

　　更多語音識別算法如下：

　　卷積神經網絡

　　深度學習神經網絡

　　BP神經網絡

　　RBF神經網絡

　　模糊聚類神經網絡

　　改進的T-S模糊神經網絡

　　循環神經網絡

　　小波神經網絡

　　混沌神經網絡

　　小波混沌神經網絡

　　神經網絡和遺傳算法

　　動態優化神經網絡

　　K均值和神經網絡集成

　　HMM與自組織神經網絡的結合

　　正交基函數對向傳播過程神經網絡

　　HMM和新型前饋型神經網絡

　　特徵空間隨機映射

　　SVM多類分類算法

　　特徵參數歸一化

　　多頻帶譜減法

　　獨立感知理論

　　分段模糊聚類算法VQ-HMM

　　優化的競爭算法

　　雙高斯GMM特徵參數

　　MFCC和GMM

　　MFCCs和PNN

　　SBC和SMM

　　MEL倒譜係數和矢量量化

　　DTW

　　LPCC和MFCC

　　隱馬爾科夫模型HMM

　　語音識別特徵提取方法

　　語音識別對特徵參數有如下要求：

　　1. 能將語音信號轉換為計算機能夠處理的語音特徵向量

　　2. 能夠符合或類似人耳的聽覺感知特性

　　3. 在一定程度上能夠增強語音信號、抑制非語音信號

　　常用特徵提取方法有如下幾種：

　　（1）線性預測分析（LinearPredictionCoefficients，LPC）

　　擬人類的發聲原理，通過分析聲道短管級聯的模型得到的。假設系統的傳遞函數跟全極點的數字濾波器是相似的，通常用12-16個極點就可以描述語音信號的特徵。所以對於n時刻的語音信號，我們可以用之前時刻的信號的線性組合近似的模擬。然後計算語音信號的採樣值和線性預測的採樣值。並讓這兩者之間達到均方的誤差（MSE）最小，就可以得到LPC。

　　（2）感知線性預測係數（PerceptualLinearPredictive，PLP）

　　一種基於聽覺模型的特徵參數。該參數是一種等效於LPC的特徵，也是全極點模型預測多項式的一組係數。不同之處是PLP是基於人耳聽覺，通過計算應用到頻譜分析中，將輸入語音信號經過人耳聽覺模型處理，替代LPC所用的時域信號，這樣的優點是有利於抗噪語音特徵的提取。

　　（3）Tandem特徵和Bottleneck特徵

　　這是兩種利用神經網絡提取的兩類特徵。Tandem特徵是神經網絡輸出層節點對應類別的後驗概率向量降維並與MFCC或者PLP等特徵拼接得到。Bottleneck特徵是用一種特殊結構的神經網絡提取，這種神經網絡的其中一個隱含層節點數目比其他隱含層小的多，所以被稱之為Bottleneck（瓶頸）層，輸出的特徵就是Bottleneck特徵。

　　（4）基於濾波器組的Fbank特徵（Filterbank）

　　亦稱MFSC，Fbank特徵的提取方法就是相當於MFCC去掉最後一步的離散餘弦變換，跟MFCC特徵相比，Fbank特徵保留了更多的原始語音數據。

　　（5）線性預測倒譜係數（LinearPredictiveCepstralCoefficient，LPCC）

　　基於聲道模型的重要特徵參數。LPCC是丟棄了信號生成過程中的激勵信息。之後用十多個倒譜係數可以代表共振峰的特性。所以可以在語音識別中取得很好的性能。

　　（6）梅爾頻率倒譜係數（MelFrequencyCepstrumCoefficient，MFCC）

　　基於人耳聽覺特性，梅爾頻率倒譜頻帶劃分是在Mel刻度上等距劃分的，頻率的尺度值與實際頻率的對數分布關係更符合人耳的聽覺特性，所以可以使得語音信號有著更好的表示。1980年由Davis和Mermelstein搞出來的。從那時起。在語音識別領域，MFCC可謂是鶴立雞群，一枝獨秀。

　　Q： MFCC為何一枝獨秀

　　人通過聲道產生聲音，聲道的shape決定了發出怎樣的聲音。聲道的shape包括舌頭，牙齒等。如果我們可以準確的知道這個形狀，那麼我們就可以對產生的音素phoneme進行準確的描述。聲道的形狀在語音短時功率譜的包絡中顯示出來。而MFCC就是一種準確描述這個包絡的一種特徵。

　　聲譜圖

　　處理語音信號，如何去描述它很重要，因為不同的描述方式放映它不同的信息，而聲譜圖的描述方式是最利於觀測和理解的。

　　由上圖可知，這段語音被分為很多幀，每幀語音都對應於一個頻譜（通過短時FFT計算），頻譜表示頻率與能量的關係。在實際使用中，頻譜圖有三種，即線性振幅譜、對數振幅譜、自功率譜（對數振幅譜中各譜線的振幅都作了對數計算，所以其縱坐標的單位是dB（分貝）。這個變換的目的是使那些振幅較低的成分相對高振幅成分得以拉高，以便觀察掩蓋在低幅噪聲中的周期信號）。

　　先將其中一幀語音的頻譜通過坐標表示出來，如上圖（a）。旋轉90度，得到圖（b）。把這些幅度映射到一個灰度級表示，得到了圖（c）。這樣操作的原因是為了增加時間維度，，得到一個隨著時間變化的頻譜圖，這個就是描述語音信號的聲譜圖（spectrogram）。這樣就可以顯示一段語音而不是一幀語音的頻譜，而且可以直觀的看到靜態和動態的信息。

　　倒譜分析（CepstrumAnalysis）

　　下面是一個語音的頻譜圖。峰值就表示語音的主要頻率成分，我們把這些峰值稱為共振峰（formants），而共振峰就是攜帶了聲音的辨識屬性，用它就可以識別不同的聲音。因此，需要把它提取出來。要提取的不僅是共振峰的位置，還得提取它們轉變的過程。所以我們提取的是頻譜的包絡（SpectralEnvelope）。這包絡就是一條連接這些共振峰點的平滑曲線。

　　由上圖可以看出，原始的頻譜由兩部分組成：包絡和頻譜的細節。因此需要把這兩部分分離開，就可以得到包絡了。按照下圖的方式進行分解，在給定logX［k］的基礎上，求得logH［k］和logE［k］滿足logX［k］=logH［k］+logE［k］。

　　由上面這個圖我們可以看到，包絡主要是低頻成分，而高頻主要是頻譜的細節。把它倆疊加起來就是原來的頻譜信號了。即，h［k］是x［k］的低頻部分，因此將x［k］通過一個低通濾波器就可以得到h［k］了，也就是頻譜的包絡。

　　以上解卷過程的專業術語叫做同態信號處理，（另一種方法為基於線性變換）。語音本身可以看成是聲道衝擊信息（包括話者個性信息、語義信息，表現為頻譜低頻成分）經過聲門激勵的一個響應函數，在時域上表現為卷積形式。為將二者分離開來，求得聲道共振特徵和基音周期，需要把這種非線性問題轉化為線性問題。第一步通過FFT將其變成了乘性信號（時域的卷積相當於頻域的乘積）；第二步通過取對數將乘性信號轉化為加性信號；第三步進行逆變換，使其恢復為卷性信號。此時，雖然前後均是時域序列，但它們所處的離散時域顯然不同，所以後者稱為倒譜頻域。計算過程如下圖所示。

　　更多精彩閱讀：

打開APP閱讀更多精彩內容

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容圖片侵權或者其他問題，請聯繫本站作侵刪。侵權投訴

相關焦點

應用、算法、晶片,「三位一體」淺析語音識別

二、算法對於語音識別系統而言，第一步要檢測是否有語音輸入，即，語音激活檢測（VAD）。在低功耗設計中，相比於語音識別的其它部分，VAD採用always on的工作機制。當VAD檢測到有語音輸入之後，VAD便會喚醒後續的識別系統。識別系統總體流程如圖2所示，主要包括特徵提取、識別建模及模型訓練、解碼得到結果幾個步驟。
語音識別是什麼語音識別聲學特徵介紹【圖文】

特別在車載環境下，利用語音來控制各種設備的"hand-free"模式已經成為語音識別技術最重要的應用之一。　　東芝的嵌入式語音識別引擎結合了高性能語音端點檢測技術、語音增強技術和特徵補償技術，並採用了噪聲免疫訓練，可以在各種噪聲環境下工作;特別針對汽車背景噪聲優化，在極低信噪比環境下仍可使用。
語音識別設置能刪除嗎_語音識別系統工作流程

win7系統的操作方法如下：　　1、單擊開始，然後單擊控制面板雙擊「區域和語言選項」；　　2、單擊語言選項卡，然後單擊詳細信息；　　3、在「已安裝的服務」下，單擊語音識別，單擊刪除，然後單擊確定單擊確定，以應用所作的全部更改。　　通過上述步驟就可以刪除電腦語音識別功能。
Torch：從特徵提取到模型的語音識別

這篇文章中，我們探討從語音數據中提取的特徵，以及基於這些特徵構建模型的不同方法。在這裡，我們只關注識別口語數字。數據集可以按如下方式下載。這個特徵是一個大小為（20，）的NumPy數組。它從包含上述所有特徵的CSV文件中檢索。模型線性回歸模型共有1個輸入層、2個隱藏層和1個帶ReLu激活的輸出層。
語音識別揭秘:你的手機究竟有多理解你?

語音識別系統通常由聲學識別模型和語言理解模型兩部分組成，分別對應語音到音節和音節到字的計算。一個連續語音識別系統（如下圖）大致包含了四個主要部分：特徵提取、聲學模型、語言模型和解碼器等。（2）特徵提取在去除語音信號中對於語音識別無用的冗餘信息後，保留能夠反映語音本質特徵的信息進行處理，並用一定的形式表示出來。也就是提取出反映語音信號特徵的關鍵特徵參數形成特徵矢量序列，以便用於後續處理。（3）聲學模型訓練聲學模型可以理解為是對聲音的建模，能夠把語音輸入轉換成聲學表示的輸出，準確的說，是給出語音屬於某個聲學符號的概率。
語音識別原理及其語音識別系統分類

人類的聲道和發音器官，是具有非線性特徵的生物器官，不僅僅運行在有意識的控制下，而且受到性別及其成長因素情緒狀態的影響。因此，聲音會因為他們的口音、發音、清晰度、體積、速度等有著大幅的變動。人類希望能與機器進一步溝通，從而方便生產與生活，而在語音信號的傳輸過程中，我們不規則的語言行為方式會被背景噪聲和回聲，以及電特性（如話筒等電子設備）進一步扭曲。這一切可變性的聲音來源語音識別更加繁瑣複雜。
智能語音識別技術入門系列(上)

下面展示的語音識別系統的典型結構，語音識別系統主要由圖中四個部分組成：信號處理和特徵提取、聲學模型、語言模型和解碼搜索部分。信號處理和特徵提取部分是以音頻信號作為輸入，通過消除噪聲和信道失真對語音進行增強，為後面的聲學模型提取合適的有代表性的特徵向量。
語音識別技術原理全面解析

本文引用地址：http://www.eepw.com.cn/article/201710/368421.htm　　1、語音識別的基本原理　　語音識別系統本質上是一種模式識別系統，包括特徵提取、模式匹配、參考模式庫等三個基本單元，它的基本結構如下圖所示：
語音識別的技術原理及語音識別系統的分類

：遠場語音識別研究中心）語言交流是人類一種天然的溝通模式。人類的聲道和發音器官，是具有非線性特徵的生物器官，不僅僅運行在有意識的控制下，而且受到性別及其成長因素情緒狀態的影響。限制的最好方法是在所有較低的層次中利用概率相結合的決策，而只在最高層次中使用離散決策。語音識別系統根據對說話人說話方式的要求，可以分為孤立詞語音識別系統、連接字語音識別系統和連續語音識別系統；根據對說話人的依賴程度，可以分為特定人和非特定人語音識別系統；根據詞彙量大小，可分為小詞彙量、中等詞彙量、大詞彙量以及無限詞彙量語音識別系統。不同的語音識別系統。
國產離線語音識別晶片對比

特徵提取：圖中選的是主流的MFCC，其他還有LPCC,PLP等，選取後續可以匹配的特徵點。>指利用訓練好的「聲學模型」和「語言模型」對提取到的特徵向量進行識別，並輸出識別結果。，方法是簡單的模板匹配模板匹配：測試語音與參考語音分別進行特徵值提取後，直接整段比對吻合度。
語音識別技術的發展及難點分析

語音識別技術難點語音識別成為爭奪焦點據悉，全球範圍人工智慧公司多專攻深度學習方向，而我國人工智慧方向的200家左右的創業公司有超過70%的公司主攻圖像或語音識別這兩個分類。全球都有哪些公司在布局語音識別？他們的發展情況又如何？
國內外語音識別技術發展現狀探討

60年代末、70年代初的重要成果是提出了信號線性預測編碼(LPC)技術和動態時間規整(DTW)技術，有效地解決了語音信號的特徵提取和不等長語音匹配問題;同時提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。語音識別技術與語音合成技術結合使人們能夠擺脫鍵盤的束縛，取而代之的是以語音輸入這樣便於使用的、自然的、人性化的輸入方式，它正逐步成為信息技術中人機接口的關鍵技術。
深度神經網絡——中文語音識別

概述語音識別系統模型由聲學模型和語言模型兩個部分組成，聲學模型對應於語音到音素的概率計算，語言模型對應於音素到文字的概率計算。一個連續語音識別系統大致可以由四個部分組成：特徵提取，聲學模型，語言模型和解碼部分。具體過程是首先從語音數據中經過提取得到聲學特徵，然後經過模型訓練統計得到一個聲學模型，作為識別的模板，並結合語言模型經過解碼處理得到一個識別結果。
百度語音識別功能以及優勢

百度語音識別是採用國際領先的流式端到端語音語言一體化建模算法，將語音快速準確識別為文字，支持手機應用語音交互、語音內容分析、機器人對話等多個場景。百度雲語音識別功能優勢：一、技術領先採用領先國際的流式端到端語音語言一體化建模方法，融合百度自然語言處理技術，近場中文普通話識別準確率達98%二、自助訓練專屬模型支持在語音自訓練平臺上自助訓練模型，上傳詞彙文本即可零代碼完成訓練，精準提升業務領域詞彙識別率5-20%，並可專屬使用三、簡單快速支持API及多種
玩人工智慧的你必須知道的語音識別技術原理

訓練時對每個基元用前向後向算法獲得模型參數，識別時，將基元串接成詞，詞間加上靜音模型並引入語言模型作為詞間轉移概率，形成循環結構，用Viterbi算法進行解碼。針對漢語易於分割的特點，先進行分割再對每一段進行解碼，是用以提高效率的一個簡化方法。　　對話系統：用於實現人機口語對話的系統稱為對話系統。
淺談語音識別技術的發展趨勢與應用前景

運用隱馬爾可夫模型的方法，頻譜特徵的統計變差得以測量。文本無關語音識別方法的例子有平均頻譜法、矢量量化法和多變量自回歸法。　　平均頻譜法使用有利的倒頻距離，語音頻譜中的音位影響被平均頻譜去除。使用矢量量化法，語者的一套短期訓練的特徵向量可以直接用來描繪語者的本質特徵。但是，當訓練向量的數量很大時，這種直接的描繪是不切實際的，因為存儲和計算的量變得離奇的大。
語音識別揭秘:你的手機究竟有多理解你? - 專注金融科技與創新...

語音識別系統通常由聲學識別模型和語言理解模型兩部分組成，分別對應語音到音節和音節到字的計算。一個連續語音識別系統（如下圖）大致包含了四個主要部分：特徵提取、聲學模型、語言模型和解碼器等。（2）特徵提取在去除語音信號中對於語音識別無用的冗餘信息後，保留能夠反映語音本質特徵的信息進行處理，並用一定的形式表示出來。也就是提取出反映語音信號特徵的關鍵特徵參數形成特徵矢量序列，以便用於後續處理。
3G手機語音識別的兩種方法分析

語音識別的兩種方法 3G手機的ASR應用設計可分為兩類，即以終端為中心和以客戶/伺服器為中心的應用。如圖1所示為以終端為中心的設計方法，3G手機（終端）執行整個語音識別過程並送出識別結果。在圖2所示的客戶/伺服器方法中，終端只是執行預處理特徵提取，然後通過一個誤碼受保護的數據信道將這些參數發送給中心伺服器，中心伺服器最終完成語音識別。
語音識別領先企業專題及常見問題 - CSDN

本文主要包括以下幾個部分： ① 語音識別的基本概念 ② 語音識別深度學習方法 ③ 基於attention的語音識別相關方法 ④ 語音識別相關的任務 1. 語音識別的一般流程如上圖所示，根據輸入的語音信號，提取語音特徵，通過解碼器融合訓練好的語言模型和聲學模型，得到最終的詞序列結果。
人工智慧時代，如何看待語音識別技術的現狀？

到80年代，隨著神經網絡和BT算法概念的出現，語音識別的研究再次成為一項突破，並引發了第二波人工智慧浪潮。將人工神經網絡（ANN）的方法與非馬爾可夫算法相結合，在連續單詞識別系統的開發中使用長短語，這意味著研究方向發生了重大變化，這使得連續研究成為可能大量詞典中的語音識別。

語音識別算法有哪些_語音識別特徵提取方法

語音識別算法有哪些_語音識別特徵提取方法