麥克風陣列(Microphone Array),從字面上,指的是麥克風的排列。也就是說由一定數目的聲學傳感器(一般是麥克風)組成,用來對聲場的空間特性進行採樣並處理的系統。
早在20世紀70、80年代,麥克風陣列已經被應用於語音信號處理的研究中,進入90年代以來,基於麥克風陣列的語音信號處理算法逐漸成為一個新的研究熱點。而到了「聲控時代」,這項技術的重要性顯得尤為突出。
語音增強是指當語音信號被各種各樣的噪聲(包括語音)幹擾甚至淹沒後,從含噪聲的語音信號中提取出純淨語音的過程。所以在嘈雜環境下,也能準確識別語音指令。
從20世紀60年代開始,Boll等研究者先後提出了針對使用一個麥克風的語音增強技術,稱為單通道語音增強。因為它使用的麥克風個數最少,並且充分考慮到了語音譜和噪聲譜的特性,使得這些方法在某些場景下也具有較好的噪聲抑制效果,並因其方法簡單、易於實現的特點廣泛應用於現有語音通信系統與消費電子系統中。
但是,在複雜的聲學環境下,噪聲總是來自於四面八方,且其與語音信號在時間和頻譜上常常是相互交疊的,再加上回波和混響的影響,利用單麥克風捕捉相對純淨的語音是非常困難的。而麥克風陣列融合了語音信號的空時信息,可以同時提取聲源並抑制噪聲。
現實中,聲源的位置是不斷變化的,這對於麥克風收音來說,是個障礙。麥克風陣列則可以進行聲源定位,聲源定位技術是指使用麥克風陣列來計算目標說話人的角度和距離,從而實現對目標說話人的跟蹤以及後續的語音定向拾取,是人機互動、音視頻會議等領域非常重要的前處理技術。
所以麥克風陣列技術不限制說話人的運動,不需要移動位置以改變其接收方向,具有靈活的波束控制、較高的空間解析度、高的信號增益與較強的抗幹擾能力等特點,因而成為智能語音處理系統中捕捉說話人語音的重要手段。
一般我們聽音樂時,希望有混響的效果,這是聽覺上的一種享受。合適的混響會使得聲音圓潤動聽、富有感染力。混響(Reverberation)現象指的是聲波在室內傳播時,要被牆壁、天花板、地板等障礙物形成反射聲,並和直達聲形成疊加,這種現象稱為混響。
但是,混響現象對於識別就沒有什麼好處了。由於混響則會使得不同步的語音相互疊加,帶來了音素的交疊掩蔽效應(Phoneme OverlapEffect),從而嚴重影響語音識別效果。
影響語音識別的部分一般是晚期混響部分,所以去混響的主要工作重點是放在如何去除晚期混響上面,多年來,去混響技術抑制是業界研究的熱點和難點。利用麥克風陣列去混響的主要方法有以下幾種:
1.基於盲語音增強的方法,即將混響信號作為普通的加性噪聲信號,在這個上面應用語音增強算法。
2.基于波束形成的方法,通過將多麥克風對收集的信號進行加權相加,在目標信號的方向形成一個拾音波束,同時衰減來自其他方向的反射聲。
3.基於逆濾波的方法,通過麥克風陣列估計房間的房間衝擊響應,設計重構濾波器來補償來消除混響。
家裡人說話太多,聽誰的呢?這個時候就需要辨別出哪個聲音才是指令。而麥克風陣列可以實現聲源信號提取,聲源信號的提取就是從多個聲音信號中提取出目標信號,聲源信號分離技術則是將需要將多個混合聲音全部提取出來。
智能語音的歷史
1952年,貝爾實驗室(Bell Labs)製造一臺6英尺高自動數字識別機「Audrey」,它可以識別數字0~9的發音,且準確度高達90%以上。並且它對熟人的精準度高,而對陌生人則偏低。
1956年,普林斯頓大學RCA實驗室開發了單音節詞識別系統,能夠識別特定人的十個單音節詞中所包含的不同音節。
1959年,MIT的林肯實驗室開發了針對十個元音的非特定人語音識別系統。
1964年的世界博覽會上,IBM向世人展示了數字語音識別的「shoe box recognizer」。
1971年,美國國防部研究所(Darpa)贊助了五年期限的語音理解研究項目,希望將識別的單詞量提升到1000以上。參與該項目的公司和學術機構包括IBM、卡內基梅隆大學(CMU)、斯坦福研究院。就這樣,Harpy在CMU誕生了。不像之前的識別器,Harpy可以識別整句話。
1984年,IBM發布的語音識別系統在5000個詞彙量級上達到了95%的識別率。
1985年AT&T貝爾實驗室建造了第一個智能麥克風系統,用來研究大室內空間的聲源位置追蹤問題。
1987年開始,國家開始執行963計劃後,國家863智能計算機主題專家組為語音識別研究立項,每兩年一次。
1987年12月,李開復開發出世界上第一個「非特定人連續語音識別系統」。
1988年,卡耐基梅隆大學結合矢量量化技術(VQ),用VQ/HMM方法開發了世界上第一個非特定人大詞彙量連續語音識別系統SPHINX,能夠識別包括997個詞彙的4200個連續語句。同年,清華大學和中科院聲學所在大詞庫漢語聽寫機的研製上取得了突破性進展。
1992年,IBM引入了它的第一個聽寫系統,稱為「IBM Speech Server Series」。
1992年研發的Sphinx-II在美國國防部先進技術研究計劃署(DARPA)資助的語音基準評測中獲得了最高的識別準確度,這主要得益於其在高斯混合和馬爾可夫狀態層次上用栓連參數平衡了可訓練性和高效性。
↓↓↓↓點擊閱讀原文,查看更多新聞