噪聲背景下環境聲音識別研究

2021-01-08 電子產品世界

  曾金芳,白冰,徐林濤(湘潭大學物理與光電工程學院,湖南 湘潭 411105)

本文引用地址:http://www.eepw.com.cn/article/201908/404222.htm

  摘 要:針對低信噪比下的環境聲音識別效果不佳的情況,提出一種不同信噪比背景下的環境聲音識別方法。

  以伽瑪通(Gammatone)變換的譜圖為對象提取特徵,生成灰度頻譜圖後映射成3種單色圖,分別提取各單色圖的扇形投影特徵,在對得到的各方向的投影特徵進行離散小波變換得到特徵矩陣,並結合改進的最小均方誤差(IMMSE)聲音增強算法作為前端處理以減小噪聲幹擾,最後,利用支持向量機對帶噪聲音進行分類識別。實驗結果表明:在-5dB的低噪背景下仍能取得較高識別率。

  關鍵詞:最小均方誤差;聲音識別;聲音增強;譜圖特徵;扇形投影;支持向量機

  *基金項目:湖南省自然科學基金(2018JJ3486);湘潭大學校級科研項目(16XZX02);湘潭大學博士啟動基金項目(15QDZ28)

  0 引言

  聲音信號與人類的生活密切相關,聲音信號不受光線和視野影響並且需要的存儲空間及處理難度低於視頻信號,通過對環境聲音信號進行識別可以獲取豐富的信息,公共場所的聲音事件識別可以有效地揭示該環境下的事件狀況,可以彌補光線不足、受遮擋情況下的監控效果,聲音識別技術廣泛應用於安全監控、聲音事件跟蹤定位等領域,提取魯棒性較好的聲音特徵 [1] ,有利於聲音識別技術在現實環境中的適用性,所以背景噪聲下的聲音識別研究具有較高的實用價值。

  在聲音識別過程中,提取合適的特徵向量對識別效果起關鍵的作用,聲音識別的大多數的特徵提取方法來源於語音識別 [2] ,常用的提取方法有Mel頻率倒譜參數(MFCC)、短時能量、線性預測倒譜係數(LPCC) [3]等。近期的環境聲音識別的研究主要有利用匹配追蹤(MP)算法獲得有效的時頻特徵,在MFCC特徵的基礎上利用原子字典進行特徵選擇,產生靈活、直觀的特徵向量然後用支持向量機(SVM)進行分類識別 [4] 。以上方法雖然簡單有效,但真實的環境中存在各種背景噪聲導致其識別效果明顯變差。Dennis等提出子帶功率分布(SPD)的特徵提取來進行聲音事件分類 [5] ,在聲譜圖的基礎上提出子帶能量分布對聲音事件和噪聲進行區分,利用圖像處理的方法進行偽著色處理提取譜圖的中心矩特徵 [5] ,該方法在背景噪聲下的識別具有一定有效性但在信噪比較低的情況下的識別效果有待提高。

  現實環境中普遍存在著各種背景噪聲,在前端處理中採用聲音增強算法能改善識別效果,本文提出聲譜圖的扇形投影特徵(Spectrogram Fan projection,SFP)算法。首先將環境聲音信號轉化為聲譜圖,然後將得到的聲譜圖進行扇形投影變換,得到各方向的投影係數組成特徵向量,最後利用SVM分類器對特徵向量進行分類識別。對於帶噪聲信號,提出改進的最小均方誤差估計(IMMSE)算法作為前端處理來達到聲信號的去噪效果。

  1 聲音增強算法

  1.1 改進的logM M SE算法

  考慮到環境聲音噪聲是非平穩的,傳統的對數譜最小均方誤差(Log-spectral AmplitudeMMSE,LSA-MMSE)能有針對性的減小噪聲,其關鍵在於能否準確地估計先驗信噪比, 本文採用改進的最小遞歸平均算法來估計噪聲方差,結合logMMSE來達到聲音增強效果,實驗證明該方法對聲音增強和消除「音樂噪聲」有較好的效果。

  建立加性噪聲模型,設帶噪聲信號為:

  式中,y(n)表示帶噪聲信號; x(n) 表示無噪聲信號;d(n) 表示噪聲信號;該算法從帶噪聲信號 y(n) 中估計出無噪聲信號 x(n) 。純淨信號經短時傅立葉變換得到第k個頻譜分量:Ak和Y(k) 。

  由文獻[6]中信號的估計可表示為帶噪信號與增益函數的乘積:

  式中, λx(k) 、 λd(k) 分別表示無噪信號和噪聲信號的第k個頻譜分量的方差; ξ k 、 γ k 分別表示先驗信噪比和後驗信噪比,先驗信噪比是第k個頻譜分量的實際信噪比,後驗信噪比是加入噪聲後第k個頻譜分量所測得的信噪比。

  1.2 IM M SE算法的實現

  本文利用改進的最小值約束的遞歸平均(IMCRA)算法估計噪聲方差。該算法利用平滑參數對噪聲方差進行連續估計,平滑參數是時變參數,該算法是聲信號中聲音存在的概率的遞歸平均算法。聲音不存在: H 0k 和聲音存在:H 1k 的噪聲估計表示為:

  式中,i、k分別表示幀數和頻點數,根據遞歸算法的通用形式 [7] ,可將噪聲估計表示為:

  式(6)中的噪聲估計表示為前一幀的噪聲估計與當前帶噪頻譜的加權平均,式中, αd(i,k)=α+(1-α)p^(i,k),表示時頻相關的平滑因子,利用存在聲音的條件概率 p∧( i,k ) 來計算平滑因子, 存在聲音的條件概率p(i,k) 利用聲信號功率譜與其局部最小值之比Sr (i,k) 作為閾值判斷,根據遞歸算法的通用形式同理可得聲信號的遞歸功率譜S(i ,k) 如下:

  聲音存在概率的估計利用時域平滑遞歸求得:

  因為所取聲音樣本頻率分布範圍較廣,故採用多閾值函數 δ ( k ) 採用頻率相關函數來表示:

  式中,fs為採樣頻率。結合公式所求得平滑因子α d ( i,k ) ,利用式(6),即可更新噪聲功率譜估計,得到更新的噪聲功率譜估計後,利用式(3)可求得增益函數,以此估計純淨聲信號。

  將 提 出 的 I M M S E 增 強 算 法 與 多 頻 帶 譜 減 法(Multiband Spectral Subtraction,MSS)對比,各增強算法的時域波形圖如圖1所示。其中橫縱坐標分別表示信號採樣點數和幅值。圖1可了解IMMSE算法去噪效果較好。

  為進一步檢驗不同增強算法的去噪效果,對各增強算法檢測其輸出信噪比,根據檢測帶噪聲音信號的指標定義:

  式中,計算出SNR的值越大,表示聲音的質量越高,去噪效果越好,各增強算法的輸出信噪比如表1所示。

  2 特徵提取

  2.1 提取子帶能量譜圖

  聲譜圖相比於傳統的時域特徵能表徵更加豐富的聲音信息,採用聲譜圖作為特徵能同時分析聲音的時域和頻域特徵,本文採用SPD譜圖並對其進行增強改進,使聲音的功率譜分布更明顯。採用 Gammatone濾波器組生成的聲譜圖作為時頻分析。參數設置為:100組中心頻率為50 Hz到fs/2 Hz。將SPD歸一化到對數域,表達式為:


  對數域的功率譜壓縮了譜圖的動態範圍,以增強SPD中的頻譜功率較高的像素點。譜圖G(t,f)中像素點值的範圍是固定的,SPD可表示為:

  式中,b表示頻譜功率;f表示頻率;t表示樣本的時間;實驗中取b的值為100,1 b 表示指示函數,基於「鍵盤敲擊聲」的SPD如圖2所示。

  2.2 扇形投影特徵

  扇形投影 [7] 特用於檢測物體圖像內部構造,計算圖像沿指定方向由一點發出點光束,發散成一個扇形區域的投影變換,投影變換是圖像沿x-y平面中指定方向的線積分。譜圖H(b,f)的扇形投影變換的原理如下:

  式中,g (ρ,θ) 表示經過扇形投影變換後重構的圖像。

  對每個聲音樣本的譜圖H(b,f)進行扇形投影變換,角度 α 表示扇形投影的旋轉角度,取值範圍為[0,360],規定旋轉角度從x軸按逆時針的方向旋轉每個角度的投影能將圖像轉換成一維的投影係數,圖像各方向的投影係數組成的特徵矩陣保留了圖像的信息的同時降低了圖像的參數大小,能夠提高識別效率。

  3 實驗設計與結果分析

  3.1 聲音數據集

  實驗採用16類環境聲音(鍵盤打字聲、腳步聲、鋸子聲等),為確保實驗數據的獨立性,同類聲音取自不同聲音片段,一類包括20個樣本,總共320個樣本,具有較高信噪比,實驗將其作為純淨聲音樣本,聲音樣本均來自於Freesound [16] 聲音資料庫,樣本採樣率為44.1kHz,量化精度為16 bit,單個樣本長度2~3 s。實驗中,隨機選取每類樣本的一半作為訓練樣本,另一半作為測試樣本,按照信噪比20 dB、10 dB、0 dB、-5 dB作為測試。

  3.2 實驗參數

  聲音樣本的預處理環節,對各聲音樣本分幀加窗處理,取幀長20 ms、幀移10 ms、窗函數採用漢明窗。

  1)本文提出的SFP算法,扇形投影的旋轉角度,在[0,360]中以15°為步長,取24個方向的投影變換。

  2) MFCC算法,採用32組Mel濾波器組,每一幀提取13個倒譜係數構成MFCC特徵。

  3)對於SPD [5] 算法,採用64組Gammatone濾波器,提取2、3階中心矩。

  4)正交匹配追蹤(OMP) [7] 算法,對聲音信號進行稀疏重構,信號重構後提取MFCC特徵,組成OMP的複合特徵。

  5)採用支持向量機(SVM)作為分類器,採用多分類的方式建立分類器。

  3.3 實驗結果與分析

  將SFP與SPD、MFCC、OMP、幾種常用的聲音識別算法進行實驗對比。4種聲音識別算法在不同噪聲背景下的識別率如表2所示。純淨背景下,識別率如表3所示。本文的SFP算法在4種噪聲下有較高識別率,特別是信噪比為-5 dB和0 dB的低噪條件下,在-5 dB的噪聲情況下,最高比SPD算法高17.51%,平均識別率最高高出7.9%,比OMP和MFCC高出27.63%以上,平均識別率如圖3所示。雖然文章算法在信噪比較高條件下的提升較少,但在低信噪比下相比其他算法能取得較高識別率。

  將提出的IMMSE增強算法與其他常用的聲音增強算法進行比較,在4種不同的背景噪聲的低噪條件下,信噪比分別取-5 dB、0 dB、5 dB、10 dB。

  如圖6所示為0dB的說話噪聲背景下不同聲音增強算法識別率。噪聲條件下,本文的IMMSE的識別率高於其他增強算法,在-5dB和0 dB的低信噪比條件下不增強方法的識別率比增強後的識別率低,所以低信噪比條件下採用增強算法是可行的,說明SFP算法本身具有較好的抗噪性,實驗證明SFP算法結合IMMSE增強算法在各種背景噪聲下能取得較好的識別效果,適用於真實環境下的聲音識別。

  4 結論

  針對真實環境的低噪條件下的聲音識別,提出SFP算法,將譜圖的扇形投影作為特徵提取方法結合IMMSE聲音增強算法,實驗表明,在無背景噪聲條件下,識別率達到96.72%;低噪條件下,平均識別率能達到73.05%;本文的方法噪聲條件下具有較好魯棒性,對比現有的SPD、OMP等算法,分類識別效果更好。

  參考文獻

  [1] REN J, JIANG X, YUAN J, et al. Sound-EventClassification Using Robust Texture Features for RobotHearing[J].IEEE Transactions on Multimedia,2017, (99):1-1.

  [2] BRADLOW A R, ALEXANDER J A. Semantic andphonetic enhancements for speech-in-noise recognition bynative and non-native listeners[J].Journal of the AcousticalSociety of America,2016,121(4):2339-49.

  [3] JIAN-Chao Y U, ZHANG R L. Speaker recognitionmethod using MFCC and LPCC features[J].ComputerEngineering & Design,2009,30(5):1189-1191.

  [4] CHU S, NARAYANAN S, KUO C CJ. Environmentalsound recognition with time-frequency audio features[M].

  Institute of Electrical and Electronics Engineers Inc. The,2009.

  [5] DENNIS J, TRAN H D, CHNG E S. ImageFeature Representation of the Subband PowerDistribution for Robust Sound Event Classification[J].IEEE Transactions on Audio Speech & LanguageProcessing,2012,21(2):367-377.

  [6] SHIH J L, CHEN L H. Colour image retrieval based onprimitives of colour moments[J].IEE Proceedings-Vision,Image and Signal Processing,2002,149(6):370-376.

  [7] NARASIMHADHAN A V, SHARMA A, MISTRY D. ImageReconstruction from Fan-Beam Projections without Back-Projection Weight in a 2-D Dynamic CT: Compensationof Time-Dependent Rotational, Uniform Scaling andTranslational Deformations[J].Open Journal of MedicalImaging, 2013, 3(4):136-143.

  [8] SOUSSEN C, GRIBONVAL R, IDIER J, et al.JointK-Step Analysis of Orthogonal Matching Pursuit andOrthogonal Least Squares[J].IEEE Transactions onInformation Theory,2013,59(5):3158-3174.

  本文來源於科技期刊《電子產品世界》2019年第9期第34頁,歡迎您寫論文時引用,並註明出處。

相關焦點

  • 環境噪聲汙染防治知識問答
    43.噪聲源的識別方法有哪些?   44.什麼是背景噪聲?   45.什麼是噪聲排放?   46.什麼是噪聲敏感建築物?   47.什麼是噪聲評價曲線?
  • 背景噪聲或影響人對咖啡味道感受
    原標題:背景噪聲或影響人對咖啡味道感受影響咖啡味道的可能不止咖啡豆產地以及烘焙程度。一項最新研究顯示,喝咖啡時的背景噪聲也可能影響人對咖啡味道的感受。由厄瓜多美洲大學、哥倫比亞安第斯大學和挪威商學院研究人員組成的研究團隊招募大約400名志願者,讓他們戴上耳機、在兩種不同音量背景噪聲下品嘗相同咖啡,然後評價咖啡味道,涉及咖啡酸度、苦度、甜度和香味強度等。耳機中播放的是美食街背景噪聲,一組聽到的音量約85分貝,另一組音量低20分貝。
  • 汽車噪聲的測量以及噪聲源的識別,值得收藏!
    這些噪聲一般在中高頻範圍內,由於車外噪聲直接構成了對周圍環境的汙染排放,因此各國都有嚴格的限值和測試方法。   B、汽車定置噪聲測量:它實際上是整車無負荷狀態下對發動機和排氣噪聲的評價,一般作為對車外噪聲評價的補充,其方法和限值標準也是作為車外加速噪聲測量標準的附件。
  • 噪聲地圖在環境噪聲監測中的應用
    因此,本文以以青島理工大學新校區為例,採用變網格劃分法,研究了基於 GIS 方法的噪聲地圖在區域環境噪聲評價方面的應用。1.試驗 1.1研究方法對國內外主要的噪聲預測模型作對比和分析,選取最優的噪聲預測模型。
  • 噪聲地圖——讓聲音看得見
    噪聲地圖技術是一種將噪聲預測技術與地理信息系統緊密結合的技術,它將一定區域範圍內的環境噪聲分布狀況圖像化、可視化和地圖化,十分有利於公眾諮詢和參與,對城市噪聲的管理、控制和規劃決策等起到相當大的推動作用,也稱為策略性噪聲地圖。
  • 白噪聲不是噪音!
    (該部分主要參考了知乎)        白噪聲不是噪音,相反,當周圍嘈雜,而你想靜靜,你可以選用白噪聲來加以遮蔽。        為了減弱內部空間中分散人注意力並且不希望出現的噪聲(如人的交談),使用持續的低強度噪聲作為背景聲音。白噪聲充滿整個人類耳朵可以聽到的振動頻率(20~20000 Hz),可以幫助一個人放鬆或睡眠。為啥?
  • 美國研究人員發現要想做一個更好傳感器只需添加背景噪聲
    添加噪聲來增強微弱信號是動物界常見的傳感現象,但在人造傳感器中卻不常見。現在,賓夕法尼亞州立大學的研究人員在光源太暗而無法感應的情況下,加入少量的背景噪聲來增強非常微弱的信號。對於大多數傳感器來說,噪聲是一個應該被抑制的問題,現在研究人員發現,加入恰到好處的背景噪聲實際上可以增強一個太弱的信號,達到可以檢測的水平。
  • 噪聲聲強測量分析和應用
    噪聲聲強測量分析和應用北極星環境監測網訊:摘要:系統闡述了聲強法測量再生的原理、方法和關鍵程序。以變流器的噪聲測試為例,重點說明包絡面的劃分、聲強探頭的設置和測試結果分析。引言傳統的聲壓法測量噪聲,需要消聲室等特殊、昂貴的聲學環境,而且很多測試品因結構、重量、尺寸及運轉、安裝條件的限制,不能在消聲室內去測量。對於聲源定位、聲源排隊等工作,使用聲壓法有很大的困難。
  • 語音識別原理及其語音識別系統分類
    人類的聲道和發音器官,是具有非線性特徵的生物器官,不僅僅運行在有意識的控制下,而且受到性別及其成長因素情緒狀態的影響。因此,聲音會因為他們的口音、發音、清晰度、體積、速度等有著大幅的變動。人類希望能與機器進一步溝通,從而方便生產與生活,而在語音信號的傳輸過程中,我們不規則的語言行為方式會被背景噪聲和回聲,以及電特性(如話筒等電子設備)進一步扭曲。這一切可變性的聲音來源語音識別更加繁瑣複雜。
  • 噪聲也有顏色,你知道麼?
    噪聲泛指一切不恰當或者不舒服的聽覺刺激,它是由許多頻率、強度和相位不同的聲音無規律組合,使人產生厭煩甚至幹擾。馬路上汽車的喇叭聲、建築工地轟隆的機器聲,安靜的圖書館裡的小聲說話聲都可稱為噪聲,噪聲是相對的,對我們不需要的聲音,都認為是噪聲。但是噪聲也有顏色,我們一起來認識下吧!
  • 麥克風相陣列氣動噪聲測量技術
    麥克風相陣列氣動噪聲測量技術是氣動噪聲研究的重要技術手段。
  • 研究提出從地震噪聲提取微弱體波信號探測下地幔散射體的方法
    下地幔佔地球體積近60%,在各種尺度上都表現出強烈的不均勻性。對下地幔不均勻體特別是小尺度散射體的分布、形態和性質的研究,可以為認識地球深部物質組成及相變、地幔流變性、地幔對流尺度、地幔混合效率等提供重要制約。傳統研究方法主要有S-P轉換波法和反射前驅波法。
  • 聯合國計劃研究海洋噪聲汙染
    新華社巴黎8月19日電(記者舒適)聯合國教科文組織19日說,將啟動一項為期10年的實驗項目,研究噪聲汙染對海洋生物可能產生的影響。  聯合國教科文組織發表聲明說,許多海洋生物都是通過聲音獲取環境信息,就像人類對眼睛的依賴一樣。但海洋工業化正加劇海洋噪聲汙染,而科學家對此領域卻不甚了解,因此決定啟動「寧靜的海洋國際實驗」研究項目。  聲明說,海洋研究人員、私營部門和一些軍事機構的代表將於8月30日至9月1日在教科文組織巴黎總部舉行會議,為「寧靜的海洋國際實驗」項目出謀劃策。
  • ...基於密集臺陣的背景噪聲成像研究新疆喀拉通克礦區淺部地殼結構
    杜培笑等-Minerals:基於密集臺陣的背景噪聲成像研究新疆喀拉通克礦區淺部地殼結構新疆北部喀拉通克礦區位於阿爾泰造山帶北緣,是中亞造山帶內的大型巖漿銅鎳硫化物礦床,硫化物礦產資源豐富,在國民經濟發展中佔有重要地位
  • 浦項科技大學開發用於精確語音識別的可穿戴式振動傳感器
    曾經有人做出預計,10年之內語音識別技術將進入日常生活中的各個領域,比如家電,通信,醫療和家庭服務等等。尤其是現在,語音識別更加融入到我們的生活當中,如現在廣泛普及的智慧型手機中都能看到它們的身影。  但是,由於周圍環境中存在的障礙物和其他噪聲,語音識別的表現總是有些不穩定,有時甚至會發生錯誤識別,這是因為手機中檢測聲音普遍使用的是麥克風。
  • Minerals:基於密集臺陣的背景噪聲成像研究新疆喀拉通克礦區淺部地殼結構
    杜培笑等-Minerals:基於密集臺陣的背景噪聲成像研究新疆喀拉通克礦區淺部地殼結構前人應用重-磁-電-人工源地震勘探等方法對礦區結構進行研究後,尚不能得到喀拉通克礦區精細的地下結構和清晰的礦/巖體分布,因此開展礦區精細地下結構探測具有重要意義。近年來發展的地震背景噪聲成像方法被廣泛運用到淺層結構的研究工作中。
  • 語音識別揭秘:你的手機究竟有多理解你?
    在1952年,貝爾研究所研製了世界上第一個能識別10個英文數字發音的系統。1960年英國的Denes等人研製了世界上第一個語音識別(ASR)系統。大規模的語音識別研究始於70年代,並在單個詞的識別方面取得了實質性的進展。上世紀80年代以後,語音識別研究的重點逐漸轉向更通用的大詞彙量、非特定人的連續語音識別。90年代以來,語音識別的研究一直沒有太大進步。
  • 風力發電機組噪聲測量方法探討
    文章針對在風力發電機發展過程中產生的噪聲影響進行分析,同時列舉偏航部位產生的噪音並進行研究、改進,使風力發電機組更加完善,對風機改進有一定的影響作用。隨著人類社會的發展和科技的進步,人們越來越關注噪聲給生活帶來的影響。在人們周圍有多種多樣的噪聲源:汽車、火車開過的聲音,建築工地的轟鳴聲等等。切切實實地解決噪聲問題,降低噪聲,是提高環境質量的重要方面。
  • 車牌識別系統中車牌定位方法的研究
    在此基礎上發展的車牌照識別lpr(license plate recognition)系統是智能交通系統的重要組成部分,在交通管理中佔有重要地位。lpr系統主要由三部分組成:車牌定位、字符分割、字符識別,其中車牌定位的成功與否直接影響是否能夠進入車牌識別以及車牌識別的準確率。
  • 是時候來談談海洋噪聲汙染了
    當下海洋噪聲汙染對海洋生物造成的負面影響已經不能小覷。本文作者Christine Erbe將從聲音傳播方式和生態影響的角度討論海洋噪聲汙染。關鍵字:海洋噪聲;汙染;海洋生物說起汙染,大多數人一般會提及垃圾、塑料、原油、煙塵以及化學用品。經過一番深思熟慮,他們大概也會提及噪聲汙染。