MFCC概述及提取流程

2021-01-08 電子發燒友
打開APP
MFCC概述及提取流程

本站 發表於 2010-08-09 16:07:22

  概述

  MFCC:Mel頻率倒譜係數的縮寫。Mel頻率是基於人耳聽覺特性提出來的,它與Hz頻率成非線性對應關係。Mel頻率倒譜係數(MFCC)則是利用它們之間的這種關係,計算得到的Hz頻譜特徵。

  應用

  MFCC已經廣泛地應用在語音識別領域。由於Mel頻率與Hz頻率之間非線性的對應關係,使得MFCC隨著頻率的提高,其計算精度隨之下降。因此,在應用中常常只使用低頻MFCC,而丟棄中高頻MFCC。

  提取流程

  MFCC參數的提取包括以下幾個步驟:

   預濾波:CODEC前端帶寬為300-3400Hz的抗混疊濾波器。

   A/D變換:8kHz的採樣頻率,12bit的線性量化精度。

   預加重:通過一個一階有限激勵響應高通濾波器,使信號的頻譜變得平坦,不易受到有限字長效應的影響。

   分幀:根據語音的短時平穩特性,語音可以以幀為單位進行處理,實驗中選取的語音幀長為32ms,幀疊為16ms。

   加窗:採用哈明窗對一幀語音加窗,以減小吉布斯效應的影響。

   快速傅立葉變換(Fast Fourier Transformation, FFT):將時域信號變換成為信號的功率譜。

   三角窗濾波:用一組Mel頻標上線性分布的三角窗濾波器(共24個三角窗濾波器),對信號的功率譜濾波,每一個三角窗濾波器覆蓋的範圍都近似於人耳的一個臨界帶寬,以此來模擬人耳的掩蔽效應。

   求對數:三角窗濾波器組的輸出求取對數,可以得到近似於同態變換的結果。

   離散餘弦變換(Discrete Cosine Transformation, DCT):去除各維信號之間的相關性,將信號映射到低維空間。

   譜加權:由於倒譜的低階參數易受說話人特性、信道特性等的影響,而高階參數的分辨能力比較低,所以需要進行譜加權,抑制其低階和高階參數。

   倒譜均值減(Cepstrum Mean Subtraction, CMS):CMS可以有效地減小語音輸入信道對特徵參數的影響。

   差分參數:大量實驗表明,在語音特徵中加入表徵語音動態特性的差分參數,能夠提高系統的識別性能。在本系統中,我們也用到了MFCC參數的一階差分參數和二階差分參數。

   短時能量:語音的短時能量也是重要的特徵參數,本系統中我們採用了語音的短時歸一化對數能量及其一階差分、二階差分參數。

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • MFCC及提取流程概述
    概述 本文引用地址:http://www.eepw.com.cn/article/154929.htm  MFCC:Mel頻率倒譜係數的縮寫。Mel頻率是基於人耳聽覺特性提出來的,它與Hz頻率成非線性對應關係。
  • 梅爾頻率倒譜係數(MFCC)
    在任意一個Automatic speech recognition 系統中,第一步就是提取特徵。換句話說,我們需要把音頻信號中具有辨識性的成分提取出來,然後把其他的亂七八糟的信息扔掉,例如背景噪聲啊,情緒啊等等。搞清語音是怎麼產生的對於我們理解語音有很大幫助。人通過聲道產生聲音,聲道的shape(形狀?)決定了發出怎樣的聲音。
  • Linux GUI子系統概述 GUI子系統的構成及工作流程
    Linux GUI子系統概述 GUI子系統的構成及工作流程 Nick 發表於 2020-12-05 10:45:54 作者:Nick 開始前的幾點說明
  • 首屆微電影創作者大會(MFCC)今日京召開
    2013年11月17日,倍受矚目的首屆mfcc微電影創作者大會在北京車庫咖啡隆重舉行。這是自微電影風靡中國以來規模最大的一次微電影創作者集體盛會,也將是微電影發展歷程中,一次具有裡程碑意義的大會。
  • 在炒作為王的當下,MFCC為什麼值得長期持有?
    MFCC的INTERSTELLAR開曼星際集團(www.mfccbank.com)是一家專注於高科技農業的多元化板塊公司,其產業生態包括農業及生物科技研發、智能栽培硬體設施、餐飲門店、區塊鏈公鏈等等。集團對生態產業中的實體企業實行控股,通過海外基金會發行的MFCC對標集團股權並貫穿整個生態,真正做到區塊鏈賦能實體經濟。
  • 詳解有機溶劑提取CBD工藝步驟
    我們知道CBD廣泛用於護膚用品、沐浴油及食品飲料中,因此這些產品都涉及CBD的提取。那麼CBD的提取工藝是怎樣的呢?對於那些具有濃厚興趣、想了解他們正在使用的CBD產品的客戶,或正計劃進入這個領域的人來說,這都是一個必不可少的問題。 其實,大麻提取工藝流程的目的其實很簡單:就是從大麻植株中移走相應的化學成分。
  • 2018辭職提取公積金提取當天到帳嗎 提取公積金需要什麼材料
    對於公積金的交納,相信很多的朋友們都是了解的,如果要交納公積金的話,就要注意每個月都要及時的進行交納,但是不少的朋友們,在辦理辭職的時候,可能會有提取公積金的打算,那麼2018辭職提取公積金提取當天到帳嗎?提取公積金需要什麼材料?下面我們來具體的了解一下吧。
  • 人工智慧與自然語言處理概述:AI三大階段、NLP關鍵應用領域
    人工智慧概述AI 指代「人工智慧」,是讓機器能夠像人類一樣完成智能任務的技術。AI 使用智能完成自動化任務。NLP 流程如果要用語音產生文本,需要完成文本轉語音任務NLP 的機制涉及兩個流程:自然語言理解自然語言生成自然語言理解(NLU)NLU 是要理解給定文本的含義。文本內每個單詞的特性與結構需要被理解。
  • JavaScript運算符與流程控制
    使訣:先返回原值,後加js var num = 10; alert(10 + num++); // 201.4 較運算符- 較運算符概述概念:較運算符(關係運算符)是兩個數據進較時所使的運算符,較運算後,會返回個布爾值(true / false)作為較運算的結果。
  • 深度丨從零搭建推薦體系:概述及標籤體系搭建(上)
    全文結構為:上篇:第零章概述,第一章標籤體系搭建;中篇:第三章用戶體系,第四章項目體系,下篇:第五章推薦體系,第六章評估體系,第七章全文總結,第八章參考資料。內容相對全而深入,希望有推薦體系搭建意願的平臺或者產品經理,能夠給予一定的幫助就好。另,求工作。0.
  • |交接班|乙醇|常壓|提取液|值班長...
    事故概述時間:2019年6月26日地點:河南開封事件:燃爆傷亡情況:7死4傷2019年6月26日製造廠商在《2000升茶葉提取設備使用說明》中規定「本設備的整個提取過程是在密閉的循環系統內常壓狀態完成提取」,事故發生時,工人在沒有開啟1號提取罐上部破真空閥門,同時也沒有開啟冷凝接收罐下部閥門的情況下,加熱罐內物料乙醇和紅棗進行棗子酊提取操作,致使罐內超壓,放料蓋爆開,高溫乙醇液體從罐內大量洩出被靜電引燃,揮發的乙醇氣體遇明火發生爆炸
  • Mplus | 驗證性因素分析概述
    1 概述1.1 基本內容驗證性因素分析(Confirmatory
  • 集成電路用超純水設備系統概述
    一、集成電路超純水設備系統概述集成電路超純水設備系統常用於工業中半導體原材料和所用器皿的清洗、光刻掩膜版的製備和矽片氧化用的水汽源等。四、集成電路超純水設備系統工藝流程集成電路超純水設備系統採用預處理、反滲透技術、超純化處理以及後級處理四大步驟,多級過濾、高性能離子交換單元、超濾過濾器、紫外燈、除TOC裝置等多種處理方法,電阻率方可達18.25MΩ*cm1、採用離子交換方式,其流程如下
  • 語音合成方法概述與總結
    語音合成主要流程框架主要分為前端處理和後端處理:前端處理主要是根據先驗知識對文本進行語言及語法層面的分析。對於後端合成部分,主要是對波形拼接和參數合成。參數合成方法是從數位訊號處理,統計學等角度,對聲 碼器提取的聲學特徵參數進行統計建模,然後把模型預測得到的聲學特徵參數輸入聲碼器完 成語音合成。主流的框架有:百度的Deepvoice Google的tacotron 和Tacotron2, wavenet(直接對語音參數和波形之間進行建模,彌補傳統聲碼器損失語音細節信息的缺陷。
  • 行業應用|高分三號衛星水體自動提取應用
    針對洪澇災害監測、水資源管理等水利應用需求,基於可以常態化接收的國產雷達數據,實現水體的自動化提取,可以補充地面監測能力的不足,在提升我國水利監測能力方面發揮重要作用。常用的雷達水體提取技術包括目視解譯、監督分類、紋理特徵分析、動態輪廓模型、閾值分割等。