智能語音技術中的麥克風陣列是什麼?

2021-02-13 電子產品世界

麥克風陣列(Microphone Array),從字面上,指的是麥克風的排列。也就是說由一定數目的聲學傳感器(一般是麥克風)組成,用來對聲場的空間特性進行採樣並處理的系統。

  

早在20世紀70、80年代,麥克風陣列已經被應用於語音信號處理的研究中,進入90年代以來,基於麥克風陣列的語音信號處理算法逐漸成為一個新的研究熱點。而到了「聲控時代」,這項技術的重要性顯得尤為突出。

  

語音增強是指當語音信號被各種各樣的噪聲(包括語音)幹擾甚至淹沒後,從含噪聲的語音信號中提取出純淨語音的過程。所以在嘈雜環境下,也能準確識別語音指令。

  

  

從20世紀60年代開始,Boll等研究者先後提出了針對使用一個麥克風的語音增強技術,稱為單通道語音增強。因為它使用的麥克風個數最少,並且充分考慮到了語音譜和噪聲譜的特性,使得這些方法在某些場景下也具有較好的噪聲抑制效果,並因其方法簡單、易於實現的特點廣泛應用於現有語音通信系統與消費電子系統中。

  

但是,在複雜的聲學環境下,噪聲總是來自於四面八方,且其與語音信號在時間和頻譜上常常是相互交疊的,再加上回波和混響的影響,利用單麥克風捕捉相對純淨的語音是非常困難的。而麥克風陣列融合了語音信號的空時信息,可以同時提取聲源並抑制噪聲。

  

現實中,聲源的位置是不斷變化的,這對於麥克風收音來說,是個障礙。麥克風陣列則可以進行聲源定位,聲源定位技術是指使用麥克風陣列來計算目標說話人的角度和距離,從而實現對目標說話人的跟蹤以及後續的語音定向拾取,是人機互動、音視頻會議等領域非常重要的前處理技術。

所以麥克風陣列技術不限制說話人的運動,不需要移動位置以改變其接收方向,具有靈活的波束控制、較高的空間解析度、高的信號增益與較強的抗幹擾能力等特點,因而成為智能語音處理系統中捕捉說話人語音的重要手段。

  

一般我們聽音樂時,希望有混響的效果,這是聽覺上的一種享受。合適的混響會使得聲音圓潤動聽、富有感染力。混響(Reverberation)現象指的是聲波在室內傳播時,要被牆壁、天花板、地板等障礙物形成反射聲,並和直達聲形成疊加,這種現象稱為混響。

  

但是,混響現象對於識別就沒有什麼好處了。由於混響則會使得不同步的語音相互疊加,帶來了音素的交疊掩蔽效應(Phoneme OverlapEffect),從而嚴重影響語音識別效果。

  

影響語音識別的部分一般是晚期混響部分,所以去混響的主要工作重點是放在如何去除晚期混響上面,多年來,去混響技術抑制是業界研究的熱點和難點。利用麥克風陣列去混響的主要方法有以下幾種:

1.基於盲語音增強的方法,即將混響信號作為普通的加性噪聲信號,在這個上面應用語音增強算法。

2.基于波束形成的方法,通過將多麥克風對收集的信號進行加權相加,在目標信號的方向形成一個拾音波束,同時衰減來自其他方向的反射聲。

3.基於逆濾波的方法,通過麥克風陣列估計房間的房間衝擊響應,設計重構濾波器來補償來消除混響。

  

家裡人說話太多,聽誰的呢?這個時候就需要辨別出哪個聲音才是指令。而麥克風陣列可以實現聲源信號提取,聲源信號的提取就是從多個聲音信號中提取出目標信號,聲源信號分離技術則是將需要將多個混合聲音全部提取出來。

智能語音的歷史

1952年,貝爾實驗室(Bell Labs)製造一臺6英尺高自動數字識別機「Audrey」,它可以識別數字0~9的發音,且準確度高達90%以上。並且它對熟人的精準度高,而對陌生人則偏低。  

1956年,普林斯頓大學RCA實驗室開發了單音節詞識別系統,能夠識別特定人的十個單音節詞中所包含的不同音節。

1959年,MIT的林肯實驗室開發了針對十個元音的非特定人語音識別系統。

1964年的世界博覽會上,IBM向世人展示了數字語音識別的「shoe box recognizer」。

1971年,美國國防部研究所(Darpa)贊助了五年期限的語音理解研究項目,希望將識別的單詞量提升到1000以上。參與該項目的公司和學術機構包括IBM、卡內基梅隆大學(CMU)、斯坦福研究院。就這樣,Harpy在CMU誕生了。不像之前的識別器,Harpy可以識別整句話。

1984年,IBM發布的語音識別系統在5000個詞彙量級上達到了95%的識別率。

1985年AT&T貝爾實驗室建造了第一個智能麥克風系統,用來研究大室內空間的聲源位置追蹤問題。

1987年開始,國家開始執行963計劃後,國家863智能計算機主題專家組為語音識別研究立項,每兩年一次。

1987年12月,李開復開發出世界上第一個「非特定人連續語音識別系統」。

1988年,卡耐基梅隆大學結合矢量量化技術(VQ),用VQ/HMM方法開發了世界上第一個非特定人大詞彙量連續語音識別系統SPHINX,能夠識別包括997個詞彙的4200個連續語句。同年,清華大學和中科院聲學所在大詞庫漢語聽寫機的研製上取得了突破性進展。

1992年,IBM引入了它的第一個聽寫系統,稱為「IBM Speech Server Series」。

1992年研發的Sphinx-II在美國國防部先進技術研究計劃署(DARPA)資助的語音基準評測中獲得了最高的識別準確度,這主要得益於其在高斯混合和馬爾可夫狀態層次上用栓連參數平衡了可訓練性和高效性。

↓↓↓↓點擊閱讀原文,查看更多新聞

相關焦點

  • 麥克風陣列原理及應用
    什麼是麥克風陣列麥克風陣列是由一定數目的麥克風組成,對聲場的空間特性進行採樣並濾波的系統。
  • 廣播百科 麥克風陣列
    從字面上,指的是麥克風的排列。也就是說由一定數目的聲學傳感器(一般是麥克風)組成,用來對聲場的空間特性進行採樣並處理的系統。早在20世紀70、80年代,麥克風陣列已經被應用於語音信號處理的研究中,進入90年代以來,基於麥克風陣列的語音信號處理算法逐漸成為一個新的研究熱點。而到了「聲控時代」,這項技術的重要性顯得尤為突出。
  • 麥克風陣列能幹這麼多事你知道嗎?
    早在20世紀70、80年代,麥克風陣列已經被應用於語音信號處理的研究中,進入90年代以來,基於麥克風陣列的語音信號處理算法逐漸成為一個新的研究熱點。而到了「聲控時代」,這項技術的重要性顯得尤為突出。任何一項技術的發生發展都伴隨著問題的提出及解決,麥克風陣列也是如此。那麼它主要應用在哪些場景下呢?又有著怎樣的功能!◆【噪聲環境怎麼破?】
  • 技術 | 解密汽車風洞麥克風陣列系統
    麥克風陣列測試技術也稱為波束成形(Beamforming)技術,這是一種在遠場識別聲源的技術。在聲場中,質點振動速度和聲壓存在平面波的簡單關係的區域稱遠場。在遠場,可以認為聲波是以平面波的形式傳播。在遠場放置一個麥克風陣列,聲源的聲波以平面波或者球面波的形式傳遞到陣列的每個麥克風上。聲源與每個麥克風的距離和相對位置不同,每個麥克風接收到聲波的時間不同。
  • 全球MEMS麥克風出貨將逾50億顆
    音頻產業中MEMS裸晶∕麥克風、音頻放大器主要供應商等業者均積極搶進智能音響及其相關語音助理領域,顯見具語音對話功能的智能音響漸受市場重視。以蘋果於2017年7月所發表智能型音響裝置HomePod為例,為強化Siri語音助理的辨識精確度,其內建6個麥克風陣列,以提升收音品質,往後隨智能音響性能提升與市場擴大,將漸成MEMS麥克風新興應用。除需提升運算能力外,智能音響亦要求更好的收音品質,含MEMS麥克風、音頻IC、微型揚聲器在內的音頻零組件,將於強化智能音響收音品質上扮演重要角色。
  • 視頻專訪:樓氏電子,你想知道的智能麥克風的秘密都在這裡
    樓氏智能音頻事業部最想給大家什麼價值?樓氏電子希望能夠給大家提供一個更加便捷、高效地接入語音服務的硬體平臺。智能麥克風技術的應用與開發最近幾年智能語音一路走來,智能耳機、智能音箱等諸多便攜產品都帶有智能語音服務。樓氏為這些產品提供了低功耗的智能語音服務方案。
  • 一體化MCA500讓麥克風和揚聲器產生「化學反應」
    圖:指向性麥克風拾音效果示意同時陣列麥克風能夠實現360度全向拾音與雜音抑制,理想情況下6米半徑內擁有良好的拾音效果,能完全覆蓋40平米以內的中小型會議室MCA500擁有出色的噪聲抑制能力,在普通的會議室環境可在降噪的同時擁有超高清晰度的音頻體驗;在大噪聲環境下自動切換高等級降噪,大幅降低噪聲幹擾、提信噪比,保證語音清晰穩定,在降噪的同時保留更多聲音細節。當講話者距離麥克風較遠時,傳統的麥克風通常只能採集到很小的聲音,發言人之間對話時,音量通常會忽高忽低。
  • 新型麥克風給會議和活動參與者帶來方便
    如今最普遍的硬體是智慧型手機。人們不僅習慣使用行動裝置,他們也了解這些設備能多大程度上滿足他們的需求。在活動空間中,我們在麥克風解決方案中正是利用了這種熟悉程度。  系統允許多達1000名觀眾在不離開座位的情況下與主持人直接交流。如果有人想提問,可以通過這個應用程式舉起一隻虛擬的手。
  • ConferencingSpeech: Interspeech2021遠場多通道語音增強挑戰賽正式啟動
    隨著音視頻會議技術的不斷發展,我們可以隨時隨地和世界各個角落的人進行遠程溝通。疫情期間,諸如騰訊會議在內的在線會議系統應用廣泛。
  • 1.科大訊飛六麥環形陣列板快速上手
    聲源定位是指利用麥克風陣列計算聲源距離陣列的角度和距離,基於TDOA(Time Difference Of Arrival,到達時間差)實現對目標聲源的跟蹤;信號的提取與分離是指在期望方向上有效地形成一個波束,僅拾取波束內的信號,從而達到同時提取聲源和抑制噪聲的目的;此外利用麥克風陣列提供的信息基於深度神經網絡可實現有效的混響去除,從而極大程度上提升了真實應用場景中語音交互的效果。
  • 專業分享 | 麥克風波束成形的基本原理
    寬邊陣列寬邊麥克風陣列是指一系列麥克風的排列方向與要拾取的聲波方向垂直(見圖3)。圖中,d是陣列中兩個麥克風元件的間距。來自陣列寬邊的聲音通常就是要拾取的聲音。寬邊陣列中的麥克風數量越多,對來自陣列側邊的聲音的衰 減就越強。圖7顯示了間距75 mm的三麥克風寬邊陣列的響應。該陣列中,來自側邊的聲音衰減6 dB,而在雙麥克風寬邊陣列中,聲音只衰減3 dB。然而,發生混疊(立體交叉型)的頻率現在更低,因為所有麥克風之間的總距離已從75 mm增加到150 mm。
  • 基礎知識分享:麥克風波束成形的基本原理
    圖中,d是陣列中兩個麥克風元件的間距。來自陣列寬邊的聲音通常就是要拾取的聲音。寬邊陣列中的麥克風數量越多,對來自陣列側邊的聲音的衰 減就越強。圖7顯示了間距75 mm的三麥克風寬邊陣列的響應。該陣列中,來自側邊的聲音衰減6 dB,而在雙麥克風寬邊陣列中,聲音只衰減3 dB。然而,發生混疊(立體交叉型)的頻率現在更低,因為所有麥克風之間的總距離已從75 mm增加到150 mm。
  • 高塔半導體和GMEMS聯合宣布量產MEMS麥克風
    為了滿足真無線立體聲(TWS)耳機和智慧型手機對MEMS麥克風的苛刻要求,「量身定製」的GMEMS先進MEMS麥克風比競爭對手的產品要小得多,並且利用高塔半導體的先進位造設施和平臺可以提供大批量MEMS製造和產能保證,從而能夠滿足這些快速增長市場的供貨需求。根據麥姆斯諮詢介紹,自從MEMS麥克風首次亮相以來,該市場保持較快的增長勢頭。
  • CURV 500 SERIES —— 可攜式陣列系統
    重新定義陣列CURV 500® 是 LD Systems® 推出的首款真正意義上的可攜式線陣列系統,該系統採用 WaveAhead® 技術,可實現功率強勁且均衡的高清晰度音效。該系統的垂直和水平覆蓋範圍均十分寬廣,且具有較強的可擴展性,最多支持將 4 個內部鎖定的的線陣列音箱連接到低音音箱底座上,同時 LD Systems® 獨有的SmartLink® 即插即用型適配器可提供多種安裝選項。為了使用戶享受到一體式設備帶來的便利,CURV 500® 低音音箱中集成了一款帶有數字效果模塊的4通道混音器,且帶有 Bluetooth® 無線藍牙技術。
  • 人工智慧簡史
    三、數據1、無四、典型應用1、智能問答:1966年,美國軍方委託麻省理工學院的人工智慧學院編寫了ELIZA智能問答系統。這是自然語言對話技術的開端。2、視覺識別和聽覺識別應用於機器人:1967年,日本早稻田大學發明WABOT-1機器人原型,有攝像頭視覺和麥克風聽覺裝置。這是視覺識別和聽覺識別的開端。
  • 新興智能蒙皮天線技術
    因此,經典的陣列綜合方法失效,可通過採用優化算法(如交錯投影法、遺傳算法等)來獲得期望的輻射特性。2.2 垂直互聯技術高密度垂直互聯是智能蒙皮天線可實現性的核心技術,目前相關的基礎理論研究較少,急需進行新材料和新技術的探索。因此,探索並研究高密度集成的智能蒙皮天線垂直互聯,並解決彎曲結構狀態下互聯一致性的工藝成型問題極為關鍵。
  • EAIDK 人工智慧套件介紹--ROS無人駕駛教學與實踐套件
    EAIDK, 助力600+所高校人工智慧專業建設(見推文)(EAIDK ROS智能車 視頻演示)(一)產品簡介EAIDK ROS 智能車教學與實踐套件以軟硬體一體的嵌入式人工智慧開發套件EAIDK-610為核心,搭載ROS Kinetic系統,集成雷射雷達、深度相機、4Mic陣列板,不僅可以在ROS系統下實現各種SLAM
  • Tensorflow官方語音識別入門教程 | 附Google新語音指令數據集
    這個數據集由Google TensorFlow團隊和AIY團隊共同推出的,AIY就是之前推出樹莓派DIY智能音箱的那個團隊:所以說,也別指望用這個數據集訓練模型然後做個App什麼的,它其實和那個DIY的音箱差不多,主要供初學者/愛好者練手用。
  • BOSE A20航空耳機的降噪麥克風方案分析
    BOSE A20是一款飛機直升機專用的航空耳機,憑藉BOSE的專利消噪技術,A20航空耳機的消噪效能更勝過往型號,即使在更嘈雜的環境,也能體驗全音域的消噪效果