一文帶你全面熟悉智能語音之麥克風陣列技術的原理

2020-12-04 電子發燒友

一文帶你全面熟悉智能語音之麥克風陣列技術的原理

佚名 發表於 2017-12-13 14:06:22

 麥克風陣列(Microphone Array),從字面上,指的是麥克風的排列。也就是說由一定數目的聲學傳感器(一般是麥克風)組成,用來對聲場的空間特性進行採樣並處理的系統。

  早在20世紀70、80年代,麥克風陣列已經被應用於語音信號處理的研究中,進入90年代以來,基於麥克風陣列的語音信號處理算法逐漸成為一個新的研究熱點。而到了「聲控時代」,這項技術的重要性顯得尤為突出。

  麥克風陣列能幹什麼?

  任何一項技術的發生發展都伴隨著問題的提出及解決,麥克風陣列也是如此。那麼它主要應用在哪些場景下呢?又有著怎樣的功能!

  ◆【噪聲環境怎麼破?】—— 語音增強(Speech Enhancement)

  語音增強是指當語音信號被各種各樣的噪聲(包括語音)幹擾甚至淹沒後,從含噪聲的語音信號中提取出純淨語音的過程。所以DingDong在嘈雜環境下,也能準確識別語音指令。

  通過麥克風陣列波束形成進行語音增強示意圖

  從20世紀60年代開始,Boll等研究者先後提出了針對使用一個麥克風的語音增強技術,稱為單通道語音增強。因為它使用的麥克風個數最少,並且充分考慮到了語音譜和噪聲譜的特性,使得這些方法在某些場景下也具有較好的噪聲抑制效果,並因其方法簡單、易於實現的特點廣泛應用於現有語音通信系統與消費電子系統中。

  但是,在複雜的聲學環境下,噪聲總是來自於四面八方,且其與語音信號在時間和頻譜上常常是相互交疊的,再加上回波和混響的影響,利用單麥克風捕捉相對純淨的語音是非常困難的。而麥克風陣列融合了語音信號的空時信息,可以同時提取聲源並抑制噪聲。

  目前科大訊飛已經實現了基於線性陣列、平面陣列以及空間立體陣列的波束形成和降噪技術,效果均達到業界一流水平。

  2013年科大訊飛車載降噪產品和國際競爭對手效果對比

  ◆【說話人老是變幻位置怎麼破?】——聲源定位(Source Localization)

  現實中,聲源的位置是不斷變化的,這對於麥克風收音來說,是個障礙。麥克風陣列則可以進行聲源定位,聲源定位技術是指使用麥克風陣列來計算目標說話人的角度和距離,從而實現對目標說話人的跟蹤以及後續的語音定向拾取,是人機互動、音視頻會議等領域非常重要的前處理技術。所以麥克風陣列技術不限制說話人的運動,不需要移動位置以改變其接收方向,具有靈活的波束控制、較高的空間解析度、高的信號增益與較強的抗幹擾能力等特點,因而成為智能語音處理系統中捕捉說話人語音的重要手段。

  混響產生原因示意圖

  ◆【室內回聲太大怎麼破?】——去混響(Dereverberation)

  一般我們聽音樂時,希望有混響的效果,這是聽覺上的一種享受。合適的混響會使得聲音圓潤動聽、富有感染力。混響(Reverberation)現象指的是聲波在室內傳播時,要被牆壁、天花板、地板等障礙物形成反射聲,並和直達聲形成疊加,這種現象稱為混響。

  但是,混響現象對於識別就沒有什麼好處了。由於混響則會使得不同步的語音相互疊加,帶來了音素的交疊掩蔽效應(Phoneme Overlap Effect),從而嚴重影響語音識別效果。

  影響語音識別的部分一般是晚期混響部分,所以去混響的主要工作重點是放在如何去除晚期混響上面,多年來,去混響技術抑制是業界研究的熱點和難點。利用麥克風陣列去混響的主要方法有以下幾種:

  1、基於盲語音增強的方法(Blind signal enhancement approach),即將混響信號作為普通的加性噪聲信號,在這個上面應用語音增強算法。

  2、基于波束形成的方法(Beamforming based approach),通過將多麥克風對收集的信號進行加權相加,在目標信號的方向形成一個拾音波束,同時衰減來自其他方向的反射聲。

  3、基於逆濾波的方法(An inverse filtering approach),通過麥克風陣列估計房間的房間衝擊響應(Room Impulse Response, RIR),設計重構濾波器來補償來消除混響。

  現在科大訊飛實現的基於麥克風陣列的去混響技術能很好的對房間的混響情況進行自適應的估計,從而很好的進行純淨信號的還原,顯著的提升了語音聽感和識別效果,在測試對比中,多種混響時間下識別效果接近手機近講水平。

  混響語音信號頻譜

  經過去混響後的語音信號頻譜

  ◆【說話人太多怎麼破?】——聲源信號提取(分離)

  家裡人說話太多,DingDong聽誰的呢。這個時候就需要DingDong聰明的辨別出哪個聲音才是指令。而麥克風陣列可以實現聲源信號提取,聲源信號的提取就是從多個聲音信號中提取出目標信號,聲源信號分離技術則是將需要將多個混合聲音全部提取出來。

  通過麥克風陣列波束形成做語音提取和分離

  利用麥克風陣列做信號的提取和分離主要有以下幾種方式:

  1、基于波束形成的方法,即通過向不同方向的聲源分別形成拾音波束,並且抑制其他方向的聲音,來進行語音提取或分離:

  2、基於傳統的盲源信號分離(Blind Source Separation)的方法進行,主要包括主成分分析(Principal Component Analysis,PCA)和基於獨立成分分析(Independent Component Analysis,ICA)的方法。

  進擊的麥克風陣列

  麥克風陣列技術雖然已經可以達到相當的技術水平,但是總體上還是存在一些問題的,比如當麥克風和信號源距離太遠時(比如10m、20m距離),錄製信號的信噪比會很低,算法處理難度很大;對於便攜設備來說,受設備尺寸以及功耗的限制,麥克風的個數不能太多,陣列尺寸也不能太大。而分布式麥克風陣列技術則是解決當前問題的一個可能途徑。所謂分布式陣列就是將子陣元或子陣列布局到更大的範圍內,相互之間通過有線或者無線的方式進行數據的交換和共享,並在此基礎上進行廣義上的聲源定位、波束形成等技術實現信號處理。

  相對於目前集中式的麥克風陣列,分布式陣列的優勢也是非常明顯的。首先分布式麥克風陣列(尤其無線傳輸)的尺寸的限制就不存在了;另外,陣列的節點可以覆蓋很大的面積——總會有一個陣列的節點距離聲源很近,錄音信噪比大幅度提升,算法處理難度也會降低,總體的信號處理的效果也會有非常顯著的提升,因此分布式陣列有可能是未來智能家居和會議系統中的主流方案。

  在萬物互聯的今天,麥克風陣列技術已經深刻的走進了我們的日常生活。在智能車載、智能家居、機器人、可穿戴設備等應用熱潮正興起的時代,語音交互由於其便捷性,成了人機互動入口的第一選擇,麥克風陣列自然也成為其中非常重要的前端技術。

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • 智能語音技術中麥克風陣列的原理
    通過麥克風陣列波束形成進行語音增強示意圖  從20世紀60年代開始,Boll等研究者先後提出了針對使用一個麥克風的語音增強技術,稱為單通道語音增強。麥克風陣列則可以進行聲源定位,聲源定位技術是指使用麥克風陣列來計算目標說話人的角度和距離,從而實現對目標說話人的跟蹤以及後續的語音定向拾取,是人機互動、音視頻會議等領域非常重要的前處理技術。所以麥克風陣列技術不限制說話人的運動,不需要移動位置以改變其接收方向,具有靈活的波束控制、較高的空間解析度、高的信號增益與較強的抗幹擾能力等特點,因而成為智能語音處理系統中捕捉說話人語音的重要手段。
  • 利用MEMS麥克風陣列定位並識別音頻或語音信源的技術方案
    特別是基於微機電系統(MEMS) 的麥克風陣列出現後,麥克風陣列音頻定位方案引起科研企業和開發人員的廣泛關注。麥克風陣列可捕捉從不同方向傳來的聲音,通過算法運算使麥克風指向某一個特定方向,放大從該方向捕捉到的音頻信號,同時衰減從其它方向捕捉的音頻信號,整個動作就像一個智能麥克風。
  • 盤點麥克風技術及市場,遠場語音交互如何選型麥克風?
    智能語音交互市場的火熱逐漸輻射到產業鏈的供應商,其中最直接受益就是作為聲音的傳感設備——麥克風。特別是麥克風陣列的興起,未來可以讓麥克風廠家的銷量翻倍增長。在此之前,由於受制於智慧型手機和平板電腦的增長速度下滑,樓氏、歌爾和瑞聲的股票相繼在2016年中旬左右創下了低谷。2017年的語音交互局勢趨於明朗,資本市場專注研究智能語音交互的投資機構也明顯多了起來。
  • 樂鑫發布 AI 語音麥克風陣列開發板 ESP32-Korvo
    樂鑫信息科技發布 AI 語音麥克風陣列開發板 ESP32-Korvo 。這是一款針對物聯網嵌入式設備的 AI 語音開發板,基於樂鑫的旗艦晶片 ESP32,搭載多麥克風陣列,能夠實現高性能、低功耗的遠場語音喚醒和命令詞識別功能。本文引用地址:http://www.eepw.com.cn/article/202004/411927.htm近年來,隨著人工智慧和物聯網的興起,語音逐漸成為我們與智能設備交互的一種典型方式。
  • 基於MEMS麥克風陣列的四通道語音採集系統設計
    單個孤立麥克風作為傳統的語音拾取工具,在噪聲處理、聲源定位和跟蹤,語音增強等方面存在不足,在噪聲環境下會嚴重影響語音質量。一些文章探討了多通道麥克風的降噪技術,在理論上提高了噪聲環境下語音的信噪比。但是實際應用中,多通道的語音實時採集是一個尚待解決的問題。
  • 廣播百科 麥克風陣列
    從字面上,指的是麥克風的排列。也就是說由一定數目的聲學傳感器(一般是麥克風)組成,用來對聲場的空間特性進行採樣並處理的系統。早在20世紀70、80年代,麥克風陣列已經被應用於語音信號處理的研究中,進入90年代以來,基於麥克風陣列的語音信號處理算法逐漸成為一個新的研究熱點。而到了「聲控時代」,這項技術的重要性顯得尤為突出。
  • 1+4麥克風陣列+智能主動式降噪?科大訊飛AI智能錄音筆SR301測評
    而我一直都在使用的這款科大訊飛AI智能錄音筆SR301就非常不錯,不僅外觀纖薄,而且識音準確,下面就為大家深度測評一下,看看它到底有哪些過人之處。語音實時轉文字+先錄音後轉寫首先,這款科大訊飛AI智能錄音筆SR301能夠真正支持語音實時轉文字,文字可以通過3.0英寸觸摸大屏幕顯示出來,清晰明了,同時,它還支持多語言轉寫,包括12種中文方言、2種少數民族語言、以及8種外語轉寫,讓你在提升工作效率之餘,告別語言障礙。
  • 語音應用多元化,MEMS麥克風走向高效能
    遠場語音識別日趨重要,帶動MEMS麥克風走向高效能  語音控制應用逐漸多元化,讓使用者能透過最直覺方式達到目的;另一方面,也讓使用者能夠空出雙手進行其他活動,若MEMS麥克風效能不佳,將導致語音難以識別,進而造成使用者體驗不佳。
  • 詳解麥克風陣列的基本原理、結構組成及聲學效果
    陣列(Array):數學定義——有限個相同資料形態之元素組成之集合麥克風陣列具有對遠場幹擾噪聲很強的抑制作用,應用於便攜IT設備如PDA、GPS、NB、手機等在較大噪聲環境中使用時表現出較好的效果。小型麥克風陣列由一組麥克風單元在一個小範圍內按照一定空間分布組合而成,由於它在噪聲環境下具有良好的信號採集性,因此越來越受到聲學應用領域的關注。
  • 麥克風陣列的基本原理、結構組成及聲學效果簡介
    陣列(Array):數學定義——有限個相同資料形態之元素組成之集合 麥克風陣列具有對遠場幹擾噪聲很強的抑制作用,應用於便攜IT設備如PDA、GPS、NB、手機等在較大噪聲環境中使用時表現出較好的效果。小型麥克風陣列由一組麥克風單元在一個小範圍內按照一定空間分布組合而成,由於它在噪聲環境下具有良好的信號採集性,因此越來越受到聲學應用領域的關注。
  • 智能音箱大戰全面開火,那麼問題來了:如何成為一名全棧語音識別...
    這是一篇將知識縱橫連接,並能結合實踐深入淺出的文章,對於全面了解語音識別很有幫助。其後,AI 科技大本營就幾個問題略作追訪,希望對你有所幫助。語音識別基礎知識 數學與統計學數學是所有學科的基礎,其中的高等數學、數理方程、泛函分析等課程是必要的基礎知識,概率論與數理統計也是語音識別的基礎學科。
  • 數字麥克風和陣列拾音技術的應用
    技術的電子產品越來越多。首先,行動裝置向小型化數位化發展,急需數字拾音器件和技術;第二,設備包含的功能單元越來越多,如筆記本電腦,集成了藍牙和WiFi無線功能,麥克風距離這些幹擾源很近,設備對抗擾要求越來越高;第三,三網合一的發展,需要上網,視頻和語音通信可以同時進行,這在行動裝置中通常會遇到環境噪聲和回聲的影響;第四,從提高生產效率角度,希望對麥克風採用SMT焊接。
  • 人工智慧電視遠場語音設計
    摘要:本文介紹一種服務於人工智慧電視,實現遠場語音應用的麥克風陣列設計方案,闡述系統框架和硬體設計,同時介紹軟體設計的部分要點。通過麥克風陣列,協助語音增強算法的實現,達到遠距離拾音、回聲消除、聲源定位,滿足當前智能語音應用的需求。
  • MEMS麥克風市場持續增長,智能音箱促進作用明顯
    語音助理早已不是新鮮事物,但是近來搭載AI語音助理的智能音箱卻成為了國內外科技巨頭爭相推出的智能家居新品,這無疑將帶動語音識別中必不可少的傳感器——麥克風市場的增長,不過增長並非包括所有類型的麥克風。MEMS麥克風憑藉微型化、一致性好、低功耗等特性更好滿足智能音箱、智能耳機、機器人等應用的語音交互需求將受惠最大,但麥克風陣列的應用也將帶來技術挑戰。
  • 使用雲端麥克風陣列,音頻轉錄精度提升22.4%
    導語:微軟利用人工智慧轉錄會議音頻,新系統使用雲端麥克風陣列。智東西9月16日消息,微軟語音和對話研究小組的科學家最近研發了一個系統,利用內置於智慧型手機、筆記本電腦和平板電腦中的麥克風來提高音頻質量。這個系統通過智能硬體連接網際網路,在雲端形成臨時的麥克風陣列,可以實時高精度轉錄音頻。
  • 麥克風相陣列氣動噪聲測量技術
    麥克風相陣列氣動噪聲測量技術是氣動噪聲研究的重要技術手段。
  • ZLG深度解析:語音識別技術
    語音識別已成為人與機器通過自然語言交互重要方式之一,本文將從語音識別的原理以及語音識別算法的角度出發為大家介紹語音識別的方案及詳細設計過程。語言作為人類的一種基本交流方式,在數千年歷史中得到持續傳承。近年來,語音識別技術的不斷成熟,已廣泛應用於我們的生活當中。語音識別技術是如何讓機器「聽懂」人類語言?
  • 語音識別技術原理全面解析
    語音識別是以語音為研究對象,通過語音信號處理和模式識別讓機器自動識別和理解人類口述的語言。語音識別技術就是讓機器通過識別和理解過程把語 音信號轉變為相應的文本或命令的高技術。語音識別是一門涉及面很廣的交叉學科,它與聲學、語音學、語言學、信息理論、模式識別理論以及神經生物學等學科都 有非常密切的關係。
  • 麥克風陣列的概念簡介
    1 麥克風陣列        麥克風陣列,是一組位於空間不同位置的全向麥克風按一定的形狀規則布置形成的陣列,是對空間傳播聲音信號進行空間採樣的一種裝置,採集到的信號包含了其空間位置信息。根據聲源和麥克風陣列之間距離的遠近,可將陣列分為近場模型和遠場模型。根據麥克風陣列的拓撲結構,則可分為線性陣列、平面陣列、體陣列等。
  • 富迪科技推出MEMS麥克風傳感器和晶片套片提供語音接口整合方案
    富迪科技專注於語音技術開發應用已有15年以上,不僅在降噪算法上領先,而且在語音信號處理上有著舉足輕重的地位。全球領先五大手機廠商和主要筆記本廠商都認可富迪科技在語音處理技術上的品質,大而穩定的出貨量說明大廠對富迪的信賴。