基於麥克風陣列的聲源跟蹤系統

2020-12-13 電子產品世界

作者 / 王宇威 雍洋 孫新 西安交通大學 信息與通信工程系(陝西 西安 710000)

本文引用地址:http://www.eepw.com.cn/article/201811/395037.htm

*本項目獲得「2018年瑞薩杯」信息科技前沿專題邀請賽的最高獎「瑞薩杯」獎。

摘要:隨著科技的發展,聲源定位技術在越來越多的地方發揮著重要的作用,在多個領域有著廣泛的應用。聲源目標跟蹤技術可以應用在視頻錄製、安防監控、鳴笛抓拍等場景中,在這些場景中,針對目標對象的語音信號,可以應用陣列信號處理的知識,將麥克風按照特定陣列放置在空域中,利用空間不同位置點的聲源對麥克風陣列響應的時延相位誤差,對聲源進行測向,實現低成本的聲源定位跟蹤功能。

  本作品便是基於麥克風陣列的聲源跟蹤系統,將6路麥克風按照線型排列,並接入瑞薩SK-S7G2單片機的6路ADC中,單片機將採樣值通過陣列信號處理中波達方向(DOA)估計等算法,獲得聲源的來波方向。然後用單片機去驅動雲臺,上面搭載攝像頭或者高指向性麥克風,可以實現用戶特定的跟蹤需求。

  我們結合瑞薩單片機的性能與實際測試效果,選用了周期圖法進行角度估計,利用頻率採樣型的FIR濾波器實現了對人聲信號的切片,並對得到的角度結果進行低通濾波、設定閾值、非線性約束等處理,解決了環境噪聲、室內混響等因素帶來的問題。此外,我們將陣列置於雲臺上,進一步提高了跟蹤的精度,雲臺的驅動採用步進方式,實現了實時跟蹤。最後,我們將所有算法移植到瑞薩單片機上,製作了GUI界面,並添加了噪聲訓練功能,使之成為一個完整的系統。

0 引言

  當今社會,人們對自動控制的需求越來越高,而其中一個重要的分支就是目標跟蹤技術。伴隨著人工智慧的熱潮,通過圖像識別來進行目標跟蹤是現在的主流做法,但是神經網絡算法的複雜度極高,不可能在普通的MCU上實現,只能藉助於一些高性能的晶片如FPGA,這樣就會需要較高的成本。其實在一些特定場合,可以通過或者只能通過聲源定位的方法進行目標跟蹤,而其中用到的陣列信號處理技術經過改進和優化之後,可以將算法移植到普通的MCU中進行實現,從而可以保證跟蹤效果的同時降低產品的成本。

  現在隨著網絡的普及,網絡公開課越來越受歡迎,而網絡公開課的錄製就需要對講課的教師進行攝像跟蹤,在這種場景下,就可以利用陣列信號處理中的DOA技術對聲源進行估計,從而使雲臺轉動,跟蹤攝像目標。除此之外,現在的城市中,為了減少噪音汙染,有不少的禁止鳴笛區。在這些鳴笛區中,為了精確地抓拍到違章鳴笛的車輛,就必須要用到聲源定位,這裡就需要陣列麥克風進行波達方向估計,才能精確地找到違章車輛。在這些場景下使用DOA估計來實現目標跟蹤是完全可以滿足要求的,而且可以在單片機上實現,並且可以最大限度地節省計算資源。

1 作品設計與實現

  1.1 系統方案

  先用六陣元線陣的陣列麥克風進行拾音,然後使用Renesas(瑞薩)SK-S7G2單片機的ADC進行採樣,採樣率8000Hz,採樣結束之後對採樣數據進行DOA估計(波達方向估計),把估計出來的角度與當前雲臺的角度比較,來確定是否轉動雲臺以及轉動方向,從而使攝像頭或者高指向性麥克風對準聲源,實現聲源跟蹤的目的。

  1.2 理論分析及計算

  1.2.1 陣列信號處理基本模型

  陣列信號處理(Array Signal Processing)作為信號處理的一個重要內容,其含義是指將一批傳感器按照特定陣列流型放置在空域中,對空域信號進行採樣,得到信源的空域採樣數據並進行處理。

  在傳統的陣列信號處理中,主要處理的是窄帶信號,窄帶信號是指帶寬遠遠小於中心頻率的信號,並且假設信號源位於陣列的遠場,因此可以使用平面波傳播理論,認為信號平行入射,各陣元接收到的信號之間沒有幅度差異,只存在傳播延時造成的相位差異。最常用的是均勻線陣,其遠場模型如圖2所示。

  其中θ為信號入射方向角,d為陣元間距。為「避免混疊」,陣元間距一般取入射信號的半波長。記信號波長為λ,陣元個數為N ,陣列等效孔徑為:

  可以將麥克風陣列和單片機ADC結合起來看作進行空間採樣的裝置,陣列每接收一次數據就是在空間的一次採樣或者快拍(snapshot),陣列信號就是由快拍組成的向量序列。均勻線陣是在空間的一條直線上均勻採樣,它對應於時間序列的均勻採樣。由於陣元間距 為空間採樣間隔, 即為空間採樣頻率,而為陣列信號的空間頻率。與奈奎斯特採樣定理相似,為避免空域混疊,對空間採樣頻率有一定的要求:

  (3)

  12.2 頻率切片

  傳統陣列信號處理的模型與算法都是建立在窄帶信號的條件下,可是語音信號的頻率範圍為300~3400 Hz,帶寬較大,所以不能對語音信號直接進行處理,要先通過頻率採樣型的FIR濾波器進行頻率切片,然後對切片之後的數據進行處理。頻率採樣濾波器由一個梳狀濾波器和一個諧振器組成。 

 

  頻率採樣型結構中諧振器的極點恰好各自抵消梳狀濾波器的零點,其係數就是濾波器在處的響應。為了防止濾波器不穩定,可以將梳狀濾波器的零點和諧振器的極點同時向圓內移一點,就可以保證濾波器的穩定,即:

  (7)

  頻率採樣型結構的作用就是一個「濾波器櫃」,想要濾出信號的某個頻率分量,只需在對應的那一路後面接抽頭,輸出即為該頻率分量的時域信號。所以只要把語音信號以200 Hz為間隔切片,得到各個頻率分量的窄帶信號,對窄帶信號進行處理之後再相加即可。

  1.2.3 DOA(波達方向估計)

  (1)DOA估計的基本模型

  在前面模型的基礎上,在只有一個聲源的情況下,陣列麥克風各個陣元接收到的信號為:

  

  實現DOA的算法有很多種,有周期圖法,Capon算法,Music算法等等,其中,周期圖法是在角度和頻率方向的二維搜索,相對穩健,即使在有混響的情況下也能找到方向,並且該算法可以移植到單片機中進行實現,而Music算法的仿真效果較好,其主瓣窄,旁瓣小,但算法複雜度較高,且極易受到混頻幹擾的影響。在進行了實際實驗驗證之後,綜合樓室內混響帶來的誤差,我們選擇了相對穩健的周期圖法,下面簡單介紹一下周期圖法。

  (2)周期圖法

  

  周期圖法是通過算出每個角度入射信號的功率,然後找出最大值所對應的角度,就是聲音信號入射的角度。做法是先對採集的N次快拍求平均估計自相關矩陣:

 

  這種方法較為穩健,從仿真結果來看,雖然主瓣較寬,但在精度要求不是十分嚴格的情況下可以應用,尤其在有混頻幹擾的情況下,周期圖法也能較為準確地估計出角度。且該算法的複雜度較低,易於在單片機上實現,所以我們就選擇了周期圖法,並且選用了6陣元的線陣,由於聲速v=340 m/s,人聲頻率在300~3400 Hz之間,其中f=1700 Hz對應的半波長λ = 0.5*v/f = 0.1 m = 10 cm,陣元間距為10 cm。

  1.3 系統優化

  1.3.1 頻率切片

  傳統陣列信號處理的模型與算法都是建立在窄帶信號的條件下,可是語音信號的頻率範圍為300 Hz-3400 Hz,帶寬較大,所以不能對語音信號直接進行處理,要先進行切片。但是各個頻率分量的功率有很大區別,如果對300 Hz~3400 Hz都進行切片的話會造成計算資源的浪費,我們在實驗過後發現正常人聲在600 Hz~1200 Hz內頻率分量的功率最大,所以我們在這個範圍內進行切片,以200 Hz為間隔,共切四片。

  1.3.2 結果濾波

  為了提高系統的穩定性和準確性,我們進行了結果濾波,分為兩個階段:適應噪聲和線性約束濾波。

  (1)噪聲自適應

  在開始進行DOA估計且雲臺跟蹤之前,需要先對電路噪聲及環境噪聲進行適應。進入噪聲適應模式之後,通過麥克風採集當前的電路及環境噪聲,計算其功率,然後設定一個合適的閾值。在之後的計算中,若功率大於閾值,則視為有用的聲音,否則視為噪聲,不計算角度。這樣可以有效地濾除底噪的幹擾,當人停止說話時,攝像頭不會因為噪聲的幹擾而隨意擺動。

  (2)線性約束

  為了提高系統的穩定性以及減小放射徑的影響,我們採用了線性約束的方法,這樣能有效地減小突變以及放射徑的影響,即:

  最終角度=0.8 上次角度+0.2 當前計算角度

  由於每一秒會計算出15次結果,所以難免會有一些計算出來的結果不太準確,這樣使用了線性約束之後,即使有一些角度不太準確也不會造成較大的影響,大大地提高了系統的穩定性。

  1.3.3 雲臺目標跟蹤

  雲臺的控制是通過單片機串口給解碼器發指令來完成的,並且採用了步進的方法控制。在雲臺和麥克風陣列擺放關係的問題上,我們採取的方案是陣列固定在雲臺上面,跟隨雲臺一起轉動,雲臺根據DOA的估計結果不斷向0°方向靠攏。

2 參賽感受

  本次比賽我們的作品得到了不少評委老師的肯定與認可,並且摘得了本次比賽的最高獎瑞薩杯獎,我認為是因為我們作品的以下一些亮點:首先,我們的作品的處理器只使用了組委會提供的開發板,在我們的不斷改進與優化下,全部的算法與控制都在瑞薩單片機上實現,把單片機的計算資源、內存都運用到了極致。這樣就大大降低了成本,增加了把該作品變成產品推向市場的可能性。其次,我們的系統的穩定性很好,我們使用了噪聲自適應、線性約束、結果濾波等方法增加了系統的穩定性,並且在不同的環境下都進行了測試。還有一點,就是實際應用價值較高,現在的市場對聲源定位的需求越來越高,可以在網絡視頻自動錄製、鳴笛抓拍等場景中有廣泛的應用。

  這次的比賽,我們收穫的不僅僅是瑞薩杯這個獎項,更多的是在比賽過程中能力的提升。在這個過程中,我們不僅在理論知識上得到了提高,動手能力也有了很大的進步,解決問題的能力也得到了很大的提升,意志力也得到了鍛鍊,在即將升入大四,開始更多地接觸科研任務之際,這次比賽也給了我們很多前行的動力和信心。

  參考文獻:

  [1]McCowan I A.,Robust Speech Recognition using Microphone Arrays[D]. Queensland University of Technology,Australia,2001.

  [2]梁玉傑. 基於超格點DOA的室內無線傳感器網絡定位技術研究[D]. 上海:上海交通大學,2015-4-7.

  [3]Jacob Benesty,Jingdong Chen,Yiteng Huang,Microphone Array Signal Processing[M]. 北京:國防工業出版社,2015.

  [4]張小飛,陳華偉,仇小鋒. 陣列信號處理及MATLAB實現[M].北京:電子工業出版社,2014.

  [5]姚天任. 數位訊號處理[M]. 北京:清華大學出版社,2011.

  本文來源於《電子產品世界》2018年第12期第48頁,歡迎您寫論文時引用,並註明出處。

相關焦點

  • 大牛講堂 | 語音專題第一講,麥克風陣列的語音信號處理技術
    2.麥克風陣列可以自動檢測聲源位置,跟蹤說話人,同時可以獲取多聲源和跟蹤移動聲源的優勢,無論你走到任何位置,智能設備都會對你的位置方向進行語音增強。聲源定位聲源定位技術在人工智慧領域應用廣泛,利用麥克風陣列來形成空間笛卡爾坐標系,根據不同的線性陣列,平面陣列和空間陣列,來確定聲源在空間中的位置。
  • 一文帶你全面熟悉智能語音之麥克風陣列技術的原理
    也就是說由一定數目的聲學傳感器(一般是麥克風)組成,用來對聲場的空間特性進行採樣並處理的系統。   早在20世紀70、80年代,麥克風陣列已經被應用於語音信號處理的研究中,進入90年代以來,基於麥克風陣列的語音信號處理算法逐漸成為一個新的研究熱點。而到了「聲控時代」,這項技術的重要性顯得尤為突出。   麥克風陣列能幹什麼?
  • 關於五麥克風環形陣列的分析
    【麥克風陣列】就充當了助聽器這樣的角色。可以說,麥克風陣列猶如遠場識別的心臟。有了這顆「機器之心」, 在遠場場景中,就可以一舉解決在了遠場識別中遇到的背景噪聲、其他人聲幹擾、回聲、混響等核心問題。 智能交互,與聲俱來 訊飛開放平臺智能硬體產品總監張良春則從人機互動的三大痛點談起,介紹了訊飛在這些問題的看法以及解決之道。「咬耳朵」不是智能交互,讓機器人可以遠場對話,需要使用麥克風陣列。現在訊飛推出有最新的環形五麥克風陣列,遠場拾音距離可達5米。相比以往線性麥克風單維180°覆蓋,環形五麥是360°全平面拾音角度,而且去噪效果更好,抗環境噪音的能力更強。
  • 語音交互:先從麥克風陣列聊起
    簡單理解為一個麥克風就是麥克風,多個麥克風就是麥克風陣列。麥克風陣列是由一定數目的聲學傳感器(麥克風)按照一定規則排列的多麥克風系統,對聲場的空間特性進行採樣並濾波的系統。麥克風陣列除了看到的麥克風數量以外,還有一系列的前端算法,兩者結合的系統才是完整的麥克風陣列。
  • 麥克風陣列的概念簡介
    1 麥克風陣列        麥克風陣列,是一組位於空間不同位置的全向麥克風按一定的形狀規則布置形成的陣列,是對空間傳播聲音信號進行空間採樣的一種裝置,採集到的信號包含了其空間位置信息。根據聲源和麥克風陣列之間距離的遠近,可將陣列分為近場模型和遠場模型。根據麥克風陣列的拓撲結構,則可分為線性陣列、平面陣列、體陣列等。
  • 聊一聊麥克風陣列技術:語音交互應該選用怎樣的方案?|深度
    而這篇文章講到的麥克風陣列是其中一個狹義概念,特指應用於語音處理的按一定規則排列的多個麥克風系統,也可以簡單理解為2個以上麥克風組成的錄音系統。麥克風陣列一般來說有線形、環形和球形之分,嚴謹的應該說成一字、十字、平面、螺旋、球形及無規則陣列等。至於麥克風陣列的陣元數量,也就是麥克風數量,可以從2個到上千個不等。
  • 聊一聊麥克風陣列技術:語音交互應該選用怎樣的方案?深度
    而這篇文章講到的麥克風陣列是其中一個狹義概念,特指應用於語音處理的按一定規則排列的多個麥克風系統,也可以簡單理解為2個以上麥克風組成的錄音系統。麥克風陣列一般來說有線形、環形和球形之分,嚴謹的應該說成一字、十字、平面、螺旋、球形及無規則陣列等。至於麥克風陣列的陣元數量,也就是麥克風數量,可以從2個到上千個不等。
  • 基於聲陣列定位系統的時差信息提取方法的研究
    摘要:基於地震動信號的可穿戴式被動聲探測系統具備體積小巧、方便攜帶等優點。該研究採用地面走動信號的目標定位技術設計了鞋底聲傳感器探測陣列及其數據採集系統。利用數據採集系統完成了陣列信號的獲取、分析和處理,介紹了目標定位的方法及時延估計方法,並設計了數據的預處理與時延估計的Matlab程序實現,實現了陣列延時的檢測,針對時延估計不準確的問題,從系統、算法精度以及頻域分析等方面做了分析,提出了改進的方向。
  • 關於聲智科技Spartan-6系列麥克風陣列介紹
    打開APP 關於聲智科技Spartan-6系列麥克風陣列介紹 聲智科技 發表於 2019-08-13 10:43:15 這款麥克風陣列適用性廣泛、操作開發便捷,並擁有全方向喚醒、聲源測向、定向拾音、噪聲抑制、混響消除、回聲抵消、異常聲音檢測識別、聲紋識別、情緒識別等多項技術功能,可以滿足用戶在語音交互領域的全部需求。
  • ...410c實現科大訊飛麥克風陣列模塊的語音喚醒控制及US-100超聲波...
    科大訊飛麥克風陣列模塊 XFM10411它是一款基於4麥克風陣列的語音硬體前端方案, 利用麥克風陣列的空域濾波特性,在目標說話人方向形成拾音波束,抑制波束之外的噪聲和反射聲。模塊主要功能是完成 4 麥克風陣列、降噪、回聲消除、語音喚醒等語音前端處理,輸出降噪後的音頻信號、聲源角度數據、喚醒觸發信號、通訊等。本模塊有 3 個接口器件 J26、 J21 和 J22;其中 J26 上包括電源接口、 I² C 通訊接口、喚醒信號、音頻輸出等。 J21 是麥克風陣列的接入接口, J22 是回聲消除參考信號的接入接口。
  • 詳解麥克風陣列的基本原理、結構組成及聲學效果
    陣列(Array):數學定義——有限個相同資料形態之元素組成之集合麥克風陣列具有對遠場幹擾噪聲很強的抑制作用,應用於便攜IT設備如PDA、GPS、NB、手機等在較大噪聲環境中使用時表現出較好的效果。小型麥克風陣列由一組麥克風單元在一個小範圍內按照一定空間分布組合而成,由於它在噪聲環境下具有良好的信號採集性,因此越來越受到聲學應用領域的關注。
  • 麥克風陣列的基本原理、結構組成及聲學效果簡介
    一、波束的形成麥克風陣列是指按一定距離排列放置的一組麥克風,通過聲波抵達陣列中每個麥克風之間的微小時差的相互作用,麥克風陣列可以得到比單個的麥克風更好地指向性。在麥克風陣列的設計中首要的改進是引入了波束成形、陣列指向性與波束寬度的概念。
  • 麥克風陣列信號採集系統的設計
    作為傳統的語音拾取工具,單個孤立麥克風在噪聲處理、聲源定位和跟蹤,語音提取和分離等方面存在不足,嚴重影響了語音通信質量。如果使用多個麥克風組成陣列,在時頻域的基礎上增加一個空間域,對來自空間不同方向的信號進行實時處理,就可以彌補上述不足。
  • 「科技戰疫」智能咳嗽聲監控系統
    其高科技的工程師們基於在聲源定位領域的長期耕耘,開發出針對咳嗽聲的定位識別技術。咳嗽聲定位通過下面這個小視頻,我們看看在典型場景中的咳嗽聲定位效果。可以看出,咳嗽聲的音頻特徵非常明顯,即便是戴上口罩在有幹擾的環境中,也可以精準定位到。
  • 聲學可視化之聲學照相機技術:1 消除空間相干聲源(Clean-SC)
    下面列舉了應用於聲學照相機技術的一些算法:1、消除空間相干聲源(Clean-SC)2、3D聲學成像(3DMapping)3、風洞中的聲學照相機技術(WindTunnel)……今天就給大家分享一下,消除空間相干聲源(Clean-SC)是怎麼回事?
  • 麥克風在語音交互產品中的使用,測試評估與優化
    它可以將命令和問題形式的信息傳輸到具有或不具有雲連接的電子系統。VUI已在許多消費者應用程式中實現,例如智慧型手機,智能電視和智能家居設備(例如Amazon Echo或Google Home)。VUI的概念基於使用單個麥克風或陣列捕獲音頻信號的情況–見圖1。
  • 微軟研究院展示虛擬麥克風陣列技術 藉助多設備實現高精度語音轉錄
    在《蝙蝠俠》系列的《黑暗騎士》影片中,布魯斯·韋恩通過攻擊數百萬部手機,打造了一套基於麥克風陣列的龐大監聽網絡(SONAR)。不過本周,微軟研究院展示了一項類似的技術,它就是 Project Denmark 。
  • 基於GPS結合電子羅盤實現天線自動跟蹤系統的設計
    基於GPS結合電子羅盤實現天線自動跟蹤系統的設計 劉新良,馮奎勝,田 發表於 2020-04-30 09:27:32 1、引 言 具有跟蹤能力的中等增益圓極化天線是中繼通信衛星和衛星移動通信這兩種通信系統的關鍵部件之一
  • 樂鑫發布 AI 語音麥克風陣列開發板 ESP32-Korvo
    樂鑫信息科技發布 AI 語音麥克風陣列開發板 ESP32-Korvo 。這是一款針對物聯網嵌入式設備的 AI 語音開發板,基於樂鑫的旗艦晶片 ESP32,搭載多麥克風陣列,能夠實現高性能、低功耗的遠場語音喚醒和命令詞識別功能。本文引用地址:http://www.eepw.com.cn/article/202004/411927.htm近年來,隨著人工智慧和物聯網的興起,語音逐漸成為我們與智能設備交互的一種典型方式。