大牛講堂 | 語音專題第一講,麥克風陣列的語音信號處理技術

2021-01-21 雷鋒網

雷鋒網按:徐榮強(Kevin),地平線硬體音頻工程師。2011年11月畢業於英國愛丁堡大學通信與信號處理專業,曾任諾基亞,聯想,微軟高級音頻工程師。現在Horizon-Robotics負責語音相關硬體系統設計,涉及遠場高靈敏度麥克風陣列設計,高精度音頻硬體編解碼器評估驗證,遠場語音前處理算法的評估驗證,涉及聲源定位,波束形成,盲信號分離,回聲抑制及平穩降噪等相關技術算法。

麥克風陣列的語音信號處理技術

熟悉人工智慧的朋友一定明白,語音交互對於人機對話交互的重要意義,而一個完整的語音交互涉及到人的語音、語義,機器的麥克風、處理器、核心算法等多個部分,是一項看似簡單,實則複雜的龐大工程!當然這是以小編的粗淺理解寫成的總結,技術講解咱還得靠大牛!

前言

隨著人工智慧與人們的生活越來越近,語音技術的發展也備受關注。傳統的近場語音已經無法滿足人們的需求,人們希望可以在更遠的距離,更複雜的環境中語音控制智能設備。因此,陣列技術成為遠場語音技術的核心。

陣列麥克風對人工智慧的意義

1.空間選擇性:通過電掃陣列等空間定位技術可以獲取聲源的有效位置,智能設備在獲取精準的聲源位置信息,讓我們的語音更加智能,通過算法獲取高品質的語音信號質量。


2.麥克風陣列可以自動檢測聲源位置,跟蹤說話人,同時可以獲取多聲源和跟蹤移動聲源的優勢,無論你走到任何位置,智能設備都會對你的位置方向進行語音增強。


3.陣列麥克風增加了空域處理,對多信號空時頻三維的處理彌補單信號在噪聲抑制,回聲抑制,混響抑制,聲源定位,語音分離方面的不足,讓我們的智能設備在複雜的環境中都可以獲取高質量的語音信號,提供更好的智能語音體驗。

麥克風陣列技術的技術難點

傳統的陣列信號處理技術直接應用到麥克風陣列處理系統中往往效果不理想,其原因在於麥克風陣列處理有不同的處理特點:

1.陣列模型的建立

麥克風主要應用處理語音信號,拾音範圍有限,且多用於近場模型,使得常規的陣列處理方法如雷達,聲吶等平面波遠場模型不再適用,在近場模型中,需要更加精準的球面波,需要考慮傳播路徑不同引起的幅度衰減不同。

2.寬帶信號處理

通常的陣列信號處理多為窄帶,即不同陣元在接受時延與相位差主要體現在載波頻率,而語音信號未經過調製也沒有載波,且高低頻之比較大,不同陣元的相位延時與聲源本身的特性關係很大—頻率密切相關,使得傳統的陣列信號處理方法不再完全適用。

3.非平穩信號處理

傳統陣列處理中,多為平穩信號,而麥克風陣列的處理信號多是非平穩信號,或者短時平穩信號,因此麥克風陣列一般對信號做短時頻域處理,每個頻域均對應一個相位差,將寬帶信號在頻域上分成多個子帶,每個子帶做窄帶處理,再合併成寬帶譜。

4.混響

聲音傳播受空間影響較大,由於空間反射,衍射,麥克風收到的信號除了直達信號以外,還有多徑信號疊加,使得信號被幹擾,即為混響。在室內環境中,受房間邊界或者障礙物衍射,反射導致聲音延續,極大程度的影響語音的可懂度。

聲源定位

聲源定位技術在人工智慧領域應用廣泛,利用麥克風陣列來形成空間笛卡爾坐標系,根據不同的線性陣列,平面陣列和空間陣列,來確定聲源在空間中的位置。智能設備首先可以對聲源的位置做進一步的語音增強,當智能設備獲取你的位置信息可以結合其他的傳感器進行進一步的智能體驗,比如機器人會聽到你的呼喚走到你的身邊,視頻設備會聚焦鎖定說話人等等。了解聲源定位技術之前,我們需要了解近場模型和遠場模型。

近場模型和遠場模型

通常麥克風陣列的距離為1~3m,陣列處於近場模型,麥克風陣列接受的是球面波而不是平面波,聲波在傳播的過程中會發生衰減,而衰減因子與傳播的距離成正比,因此聲波從聲源到達陣元時候的幅度也各不相同。而遠場模型中,聲源到陣元的距離差相對較小,可以忽略。通常,我們定義2L²/λ為遠近場臨界值,L為陣列孔徑,λ為聲波波長,因此陣元接受信號不僅有相位延時還有幅度衰減。

聲源定位技術

聲源定位的方法包括電掃陣列,超分辨譜估計和TDOA,分別將聲源和陣列之間的關係轉變為空間波束,空間譜和到達時間差,並通過相應的信息進行定位。

1.電掃陣列

通過陣列形成的波束在空間掃描,根據不同角度的抑制不同來判斷方向。通過控制各個陣元的加權係數來控制陣列的輸出指向,進行掃描。當系統掃描到輸出信號功率最大時所對應的波束方向就是認為是聲源的DOA方向,從而可以聲源定位。電掃陣列的方式存在一定的局限,僅僅適用於單一聲源。若多聲源在陣列方向圖的同一主波束內,則無法區分。而這種定位精度和陣列寬度有關—在指定頻率下,波束寬度和陣列孔徑成反比,所以大孔徑的麥克風陣列在很多場合的硬體上很難實現。

2.超分辨譜估計

如MUSIC,ESPRIT等,對其協方差矩陣(相關矩陣)進行特徵分解,構造空間譜,關於方向的頻譜,譜峰對應的方向即為聲源方向。適合多個聲源的情況,且聲源的解析度與陣列尺寸無關,突破了物理限制,因此成為超分辨譜方案。這類方法可以拓展到寬帶處理,但是對誤差十分敏感,如麥克風單體誤差,通道誤差,適合遠場模型,矩陣運算量巨大。

3.TDOA

TDOA是先後估計聲源到達不同麥克風的時延差,通過時延來計算距離差,再利用距離差和麥克風陣列的空間幾何位置來確定聲源的位置。分為TDOA估計和TDOA定位兩步:

(1) TDOA估計

常用的有廣義互相關GCC,Generalized Cross Correlation和LMS自適應濾波

(1)  廣義互相關

基於TDOA的聲源定位方法中,主要用GCC來進行延時估計。GCC計算方法簡單,延時小,跟蹤能力好,適用於實時的應用中,在中等嘈雜強度和低混響噪聲情況下性能較好,在嘈雜非穩態噪聲環境下定位精度會下降。

(2) LMS自適應濾波

在收斂的狀態下給出TDOA的估值,不需要噪聲和信號的先驗信息,但是對混響較為敏感。該方法將兩個麥克風信號作為目標信號和輸入信號,用輸入信號去逼近目標信號,通過調整濾波器係數得到TDOA。

(2)TDOA定位

TDOA估值進行聲源定位,三顆麥克風陣列可以確定空間聲源位置,增加麥克風會增高數據精度。定位的方法有MLE最大似然估計,最小方差,球形差值和線性相交等。TDOA相對來講應用廣泛,定位精度高,且計算量最小,實時性好,可用於實時跟蹤,在目前大部分的智能定位產品中均採用TDOA技術做為定位技術。

波束形成

波束形成可分為常規的波束形成CBF,Conventional Beam Forming和自適應波束形成ABF,Adaptive Beam Forming。CBF是最簡單的非自適應波束形成,對各個麥克風的輸出進行加權求和得到波束,在CBF中,各個通道的權值是固定的,作用是抑制陣列方向圖的旁瓣電平,以濾除旁瓣區域的幹擾和噪聲。

ABF在CBF的基礎之上,對幹擾和噪聲進行空域自適應濾波。ABF中,採用不同的濾波器得到不同的算法,即不同通道的幅度加權值是根據某種最優準則進行調整和優化。如LMS,LS,最大SNR,LCMV(線性約束最小方差,linearly constrained Minimum Variance)。採用LCMV準則得到的是MVDR波束形成器(最小方差無畸變響應,Minimum Variance Distortionless Response)。LCMV的準則是在保證方向圖主瓣增益保持不變的情況下,使陣列的輸出功率最小,表明陣列輸出的幹擾加噪聲功率最小,也可以理解為是最大SINR準則,從而能最大可能的接收信號和抑制噪聲和幹擾。

CBF-傳統的波束形成

延時求和的波束形成方法用於語音增強,對麥克風的接收信號進行延時,補償聲源到每個麥克風的時間差,使得各路輸出信號在某一個方向同相,使得該方向的入射信號得到最大的增益,使得主波束內有最大輸出功率的方向。形成了空域濾波,使得陣列具有方向選擇性。

CBF + Adaptive Filter 增強型波束形成

結合Weiner濾波來改善語音增強的效果,帶噪語音經過Weiner濾波得到基於LMS準則的純淨語音信號。而濾波器係數可以不斷更新迭代,與傳統的CBF相比,可以更有效的去除非穩態噪聲。

ABF-自適應波束形成

GSLC是一種基於ANC主動噪聲對消的方法,帶噪信號同時通過主通道和輔助通道,而輔助通道的阻塞矩陣將語音信號濾除,得到僅包含多通道噪聲的參考信號、各通道根據噪聲信號得到一個最優信號估計,得到純淨語音信號估計。

陣列技術的未來發展

麥克風陣列技術相對於單麥克風系統有很多優點,已成為語音增強及語音信號處理的重要部分。語音增強和聲源定位已經成為陣列技術中不可缺少的部分,在視頻會議,智慧機器人,助聽器,智能家電,通信,智能玩具,車載領域都需要聲源定位和語音增強。各種信號處理技術,陣列信號處理技術都陸續結合到麥克風陣列的語音處理系統當中,並逐漸得到算法改進和進一步的廣泛應用。在複雜的噪聲環境,混響環境,聲學環境下,強大的硬體處理能力也使得複雜算法實時處理語音增強成為了可能。在未來,語音和圖像的緊密結合會成為人工智慧領域的新的突破口,在人工智慧的風口浪尖,是誰能將語音識別,語音理解,陣列信號處理,遠場語音,圖像識別,人臉識別,虹膜識別,聲紋識別的技術巧妙並有機的結合在一起,並將技術的本質和與人為本的宗旨完美的結合,讓我們拭目以待。

以上就是Kevin的精彩分享,讓我們期待下一場語音盛宴!

雷鋒網(公眾號:雷鋒網)註:本文由大牛講堂授權雷鋒網發布,如需轉載請聯繫原作者並註明作者和出處,不得刪減內容。如有興趣可關注公號地平線機器人技術,了解最新消息。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 小米如何挖到語音大牛Daniel Povey?
    上周AI圈的一則重磅新聞是Daniel Povey宣布將加盟小米,這位語音界的大牛、Kaldi 之父先是被任教的約翰霍普金斯大學開除,後收到Facebook的橄欖枝,結果他選擇拒絕Facebook的offer,來中國工作。
  • 將加入小米,語音識別大牛Daniel Povey宣布年底前來中國工作
    機器之心報導參與:鄭麗慧、張倩昨天,國際語音識別大牛、前約翰霍普金斯大學(Jonhs Hopkins University)教授、 語音識別開源工具 Kaldi 之父 Daniel Povey 在 Twitter 上表示,他將很快與小米籤訂一項工作協議,工作地點位於北京。
  • 專訪阿里 iDST 語音組總監鄢志傑:智能語音交互從技術到產品,有...
    我們一開始團隊做的就是客服的任務,把語音轉成文字,後續有很多好玩的東西可以來做,像發掘用戶的心聲,還有知道小二的服務質量有沒有保證。很有意思,像這樣的能力建設出來以後,從阿里的角度講一定是要放到更大的平臺上去幫助別人成功的。我們總是講說阿里主要是個平臺公司,所以說這樣的能力一旦放出去,我們生態裡的合作夥伴就可以在別人的客服當中去搭建這樣一個東西。
  • 關於數字 MEMS 麥克風,你了解多少?
    六支 MEMS 麥克風組成的陣列由於語音識別類應用的高速增長,數字 MEMS 麥克風通常以陣列的形式出現。為了確保完美無瑕的運行,麥克風的絕對技術指標,以及更重要的,陣列中所有麥克風相互協同的性能都必須嚴格測試。數字 MEMS 麥克風特性 主流 MEMS 麥克風輸出 1/2 周期的 PDM(脈衝密度調製)數位訊號。
  • 中文語音合成最高水平,百度語音技術打造全球首款地圖語音定製產品
    現場,百度語音首席架構師賈磊揭秘了這背後的技術:「百度地圖語音定製功能基於百度獨創的風格遷移技術 Meitron 模型,其特點主要體現在音色轉換、多情感朗讀和韻律遷移三個方面,從而讓語音合成的門檻大大降低,相信百度語音技術在 AI 時代擁有無限可能。」
  • 聲網Agora陳若非:你還在靠「喂喂喂」來測語音通話質量嗎
    另外它有三個麥克風:位於設備底部的麥克風,主要收取說話人的聲音;位於背部的麥克風,用來拾取背景噪聲,給主麥克風做參考,從而更好對人聲做降噪處理,讓對方聽得更清楚;位於聽筒附近的麥克風,用來感知聽筒附近的噪聲,從而生成一個反相位的波從聽筒裡播放出來抵消這部分噪聲,讓你聽對方也可以聽的更清楚。  但是,設備的問題在安卓機上就非常碎片化。所有和安卓打過交道的開發者都沒少聽過適配這兩字。
  • 對抗觸摸 蘋果Siri語音將改變顯示器?
    我們這裡暫時不拿十幾年前的東西舉例,就以Windows 7作業系統而言,其在內就加入了語音識別技術;而Google在自己的Android行動作業系統以及手機輸入法中加入了語音搜索和輸入技術(甚至能支持粵語),這些都是通過語音進行人機互動的案例。
  • 快手的AI寵物:小快語音助手
    小快可以幫你活躍直播現場的氣氛,比如,你可以命令它會放音樂、講笑話、講故事等,甚至還會發快手平臺的虛擬幣「快幣」紅包。也可以直接讓小快找人連麥或PK,你也可以看到其他用戶的小快。而對觀眾而言,進入直播間的時候,主播的小快會專門來歡迎你,送禮物之後也有答謝,更有互動的感覺。
  • 舒爾MV5麥克風+SE215耳機測評:這對搭檔能讓你在語音會議中擲地有聲
    在家遠程辦公與學習的過程中,遇到最令人頭疼的問題莫過於在語音會議通話時,你說的對方聽不清,對方說的你聽不清,大大降低了工作學習的效率。現在大多數手機或者電腦自帶的麥克風與耳機音響都表現一般,所以難以提供給我們優異的體驗。如何解決這個尷尬的難題呢?這時候我們就需要外接耳機與麥克風,以實現更佳的效果。
  • 黑客可通過超聲波輕鬆入侵你的智能語音助手
    ,使人們能夠通過語音與機器進行全新的交互。如今,用戶可以與語音助手如Bixby、Siri、Google助手等進行對話,設置鬧鐘、打電話給朋友、安排日程等等。 智能語音助手的普及應用,除了提高改善人們的生活水平,同時這些新技術還改變了網絡威脅的格局。最近,科學家研究證明了這些語音助手系統很容易在人耳無法識別的頻率下注入信號。而且,除空氣外,聲波還會通過其他可能傳播振動的材料傳播信號。
  • 日均調用量超100億次 百度大腦正在用語音喚醒一個AI時代
    11月28日,百度大腦宣布語音能力引擎日均調用量已經超過100億次,應用規模業界第一,為開發者提供了覆蓋雲、端、芯的全棧全場景語音開放能力,推動智能語音技術在各行業落地應用。現場,百度語音首席架構師賈磊正式提出基於複數CNN網絡的語音增強和語音識別一體化端到端建模技術,該方法拋棄了數位訊號處理學科和語音識別學科的各種先驗假設,消除學科間壁壘,直接端到端進行一體化建模。相較於傳統基於數位訊號處理的麥克陣列算法, 錯誤率降低超過30%。目前該方法已經被集成到百度最新發布的百度鴻鵠晶片中。
  • QQ無法語音不能正常語音聊天怎麼辦
    QQ中比較受歡迎的功能中,語音肯定佔有很重的席位,它能讓我們很方便在網上進行語音交流,不用再花費高昂的話費,只要我們的電腦連接上網絡就可以。QQ語音一旦出現問題了,相信有些朋友會很著急,下面小編就跟大家介紹一下,QQ無法語音怎麼辦?沒又出現問題的朋友也可以做一下參考。檢查我們的音效卡驅動是否正常。點擊任務欄右下角的小喇叭圖標,看看我們是不是把聲音給靜音可。
  • 聲智Cimon為華為Sound X提供核心技術支持
    聲智科技為華為Sound X獨家提供的降噪喚醒技術,以聲源定位、波束形成、噪聲抑制、混響消除等算法為核心,在嘈雜環境下依然可以準確識別用戶指令。通過優化波束形成、聲源定位等核心算法以提供優質的定向拾音技術,屏蔽來自環境中的噪聲幹擾,提高語音信號處理質量。因此,保障了華為Sound X在各種複雜場景下,依然具有很高的喚醒率和識別率,其遠場拾音性能達到業內領先水平,具有很好的場景適應性。
  • 《冬日計劃》麥克風語音/大廳無響應/聯機掉線問題解決辦法匯總
    針對「冬日計劃」貼吧反饋得比較多的問題:麥克風語音、大廳無響應、聯機掉線卡死問題,筆者親測了解決辦法,以下都是最簡單有效的方案,希望對各位有幫助:一、麥克風語音沒聲音、有雜音或是別人聽不見自己的聲音不少玩家反映得麥克風語音問題和電腦本身無關,原因是玩其他遊戲是正常的,玩這款遊戲就出現問題,筆者總結了以下優化方法,請大家挨個嘗試:1.
  • 百度輸入法深耕AI技術,極致語音輸入體驗隨時隨地「聽懂你」
    (圖:2019年初百度輸入法「AI新輸入·全感官輸入2.0」發布會)2019年1月,百度宣布語音技術取得一項對全球學術界和工業界都具備重大意義的技術突破——流式截斷的多層注意力建模(SMLTA)將在線語音識別精度提升了15%,並在世界範圍內首次實現了基於Attention技術的在線語音識別服務大規模上線應用。
  • 語音識別準確率行業第一,中英、方言混輸百度輸入法都沒在怕的!
    這時候就該「動口不凍手」的語音輸入來「大展拳腳」了,打開百度輸入法語音輸入,分分鐘就能幫你搞定各種輸入需求。最近,艾媒諮詢發布《中國第三方手機輸入法市場年度專題研究報告》(以下簡稱《報告》),指出了百度輸入法2019年在語音輸入領域的重大突破。
  • 各路大咖共探:智能語音技術如何與家電產品深度融合?
    中心旨在推動智能家電行業的前瞻性、基礎性關鍵共性技術創新,促進行業內企業的協同發展,提升廣東省智能家電產業整體競爭力。 9月23日,由廣東省智能家電創新中心主辦,中國電器科學研究院股份有限公中國電研和CVC威凱承辦的「第一屆語音識別及交互技術研討會(閉門會議)」在廣州順利召開。
  • 衝刺科創板AI語音第一股,雲知聲的底氣何在
    11月3日,成立8年,總部位於北京的雲知聲正式遞交了招股書,擬募資9.1億,如果順利上市,將成為AI語音賽道裡的第一股。目前,雲知聲自主研發三類晶片IP(深度學習處理器晶片IP、數位訊號處理器晶片IP、圖像處理晶片IP),都已經投入使用,並在持續優化中。
  • 語音大牛Daniel Povey將亮相小米開發者大會
    早前小米已經官宣,全球AI語音識別專家、前約翰霍普金斯大學教授Daniel Povey將加入小米。最新消息顯示,Daniel Povey將首次在MIDC上亮相。今日,小米集團創始人雷軍在社交媒體上宣布,國際語音識別和AI領域的天才教授、語音識別開源工具Kaldi 之父Daniel Povey將出任小米集團語音首席科學家,他將在北京組建獨立研發團隊,匯報給集團副總裁、技術委員會主席崔寶秋,Daniel Povey將在2019年小米開發者大會首次公開亮相。