蝙蝠使用生物聲吶,為夜晚在叢林中飛行導航。他們的超聲波脈衝,可以比人造聲吶裝置更精確地對聲音進行定位。為複製、駕馭這種能力,IBM學院獎獲得者Rolf Müller教授協同他在維吉尼亞理工學院(Virginia Tech)的團隊,設計了一種人造蝙蝠耳。
Rolf Müller的研究引起了IBM的注意。IBM專家韓金萍(音譯)的神經計算團隊,和IBM Watson語音專家崔曉東(音譯)和他的同事,看到了Müller教授人造「動態外耳」(dynamic peripheral,蝙蝠可轉動的外耳使它們的生物聲吶更加準確)的潛力,並希望藉此提高人類語音理解的能力。他們把Müller的博士生Anupam Gupta納入團隊,一同他們探索人造蝙蝠仿生耳在語音處理的應用。
他們發現,這些仿生耳不僅是很有效的聲吶裝置,對語音識別同樣能起到作用。
模仿菊頭蝠的人造耳
研究團隊根據蝙蝠改變耳朵形狀的能力,仿製了一個動態接收系統。它能提高自動語音識別系統(ASR)的精確度,還能更準確地對談話者定位。韓金萍將在他們的論文《受菊頭蝠啟發的接收動力學把動態特點加入語音信號》,及本周美國聲學協會第172屆會議上展示了這一發現。
這些動態系統有潛力發展成讓使用者「像蝙蝠那樣聆聽」的語音接收設備。這會改進現有的助聽器和指向性傳聲器。並可應用於任何需要對聲音來源進行定位、理解的場景。
設想你身處一個忙碌、吵鬧的集市。聽清楚你旁邊的人在說什麼都可能是一項挑戰。有了這項技術,同伴的聲音就能被一個可變形的助聽器識別,然後翻譯成你能聽懂的話。它還可以過濾掉鬧市的雜音,和其他人嗡嗡的說話聲。
仿生蝙蝠耳的生物聲吶算法蝙蝠的超聲波具有10–200 kHz的頻率,而人耳只能識別20 Hz–20 kHz的聲音。因此對我們來說它聲調太高,大多數是聽不到的。為了駕馭蝙蝠的生物聲吶頻率和精度,Gupta加入韓金萍團隊編寫能夠把語音訊號轉化為超聲波脈衝的代碼——然後再把超聲波轉化為我們能夠聽到的正常語言。
這首先需要建立一個資料庫。為了儘可能地簡化,韓金萍團隊使用了卡內基梅隆大學開源資料庫中,11個美式英語朗讀者的英語字母和數字的發音。
舉例子,以字母「A」或者數字「1」形式出現的數據,被麥克風接收,然後轉化為超聲波信號。超聲波揚聲器播放該信號。隨後,具有「動態外耳」的人造蝙蝠耳接收信號。最後,軟體把超聲波信號轉化為原始數據——字母「A」或者數字「1」。
現實(鬧市)中的人造耳朵雖然只包含字母和數字的聲音信號資料庫有較大限制,但通過分析它,韓金萍團隊表示人造耳用「動態、方向性的的時間頻率模型」豐富了語音信號。下一步,研究人員把人造耳處理後的聲音與原始語音進行對比,來衡量人造耳的精度。因此,他們把原始語音數據和經人造耳處理的聲音數據,放入分類器(classifier)中進行識別。67%的語音信號能被成功識別出來。而在沒有動態外耳的對照組中,只有35%的聲音數據被識別。
有了更多的可用分析數據後,研究員們將著手用行業基準來對該系統進行測試,並開發仿生學習算法。再或者,將來他們可能會開發一個「聆聽」app,把智慧型手機麥克風變成接入物聯網的指向性麥克風,來幫助使用者選擇現實中他想要聽到的聲音。IBM研究人員認為,實現它並不是太遙遠。