語音識別新方向:仿生蝙蝠耳能用聲納精準「聆聽」

2020-12-03 IT之家

蝙蝠使用生物聲吶,為夜晚在叢林中飛行導航。他們的超聲波脈衝,可以比人造聲吶裝置更精確地對聲音進行定位。為複製、駕馭這種能力,IBM學院獎獲得者Rolf Müller教授協同他在維吉尼亞理工學院(Virginia Tech)的團隊,設計了一種人造蝙蝠耳。

Rolf Müller的研究引起了IBM的注意。IBM專家韓金萍(音譯)的神經計算團隊,和IBM Watson語音專家崔曉東(音譯)和他的同事,看到了Müller教授人造「動態外耳」(dynamic peripheral,蝙蝠可轉動的外耳使它們的生物聲吶更加準確)的潛力,並希望藉此提高人類語音理解的能力。他們把Müller的博士生Anupam Gupta納入團隊,一同他們探索人造蝙蝠仿生耳在語音處理的應用。

他們發現,這些仿生耳不僅是很有效的聲吶裝置,對語音識別同樣能起到作用。

模仿菊頭蝠的人造耳

研究團隊根據蝙蝠改變耳朵形狀的能力,仿製了一個動態接收系統。它能提高自動語音識別系統(ASR)的精確度,還能更準確地對談話者定位。韓金萍將在他們的論文《受菊頭蝠啟發的接收動力學把動態特點加入語音信號》,及本周美國聲學協會第172屆會議上展示了這一發現。

這些動態系統有潛力發展成讓使用者「像蝙蝠那樣聆聽」的語音接收設備。這會改進現有的助聽器和指向性傳聲器。並可應用於任何需要對聲音來源進行定位、理解的場景。

設想你身處一個忙碌、吵鬧的集市。聽清楚你旁邊的人在說什麼都可能是一項挑戰。有了這項技術,同伴的聲音就能被一個可變形的助聽器識別,然後翻譯成你能聽懂的話。它還可以過濾掉鬧市的雜音,和其他人嗡嗡的說話聲。

仿生蝙蝠耳的生物聲吶算法蝙蝠的超聲波具有10–200 kHz的頻率,而人耳只能識別20 Hz–20 kHz的聲音。因此對我們來說它聲調太高,大多數是聽不到的。為了駕馭蝙蝠的生物聲吶頻率和精度,Gupta加入韓金萍團隊編寫能夠把語音訊號轉化為超聲波脈衝的代碼——然後再把超聲波轉化為我們能夠聽到的正常語言。

這首先需要建立一個資料庫。為了儘可能地簡化,韓金萍團隊使用了卡內基梅隆大學開源資料庫中,11個美式英語朗讀者的英語字母和數字的發音。

舉例子,以字母「A」或者數字「1」形式出現的數據,被麥克風接收,然後轉化為超聲波信號。超聲波揚聲器播放該信號。隨後,具有「動態外耳」的人造蝙蝠耳接收信號。最後,軟體把超聲波信號轉化為原始數據——字母「A」或者數字「1」。

現實(鬧市)中的人造耳朵雖然只包含字母和數字的聲音信號資料庫有較大限制,但通過分析它,韓金萍團隊表示人造耳用「動態、方向性的的時間頻率模型」豐富了語音信號。下一步,研究人員把人造耳處理後的聲音與原始語音進行對比,來衡量人造耳的精度。因此,他們把原始語音數據和經人造耳處理的聲音數據,放入分類器(classifier)中進行識別。67%的語音信號能被成功識別出來。而在沒有動態外耳的對照組中,只有35%的聲音數據被識別。

有了更多的可用分析數據後,研究員們將著手用行業基準來對該系統進行測試,並開發仿生學習算法。再或者,將來他們可能會開發一個「聆聽」app,把智慧型手機麥克風變成接入物聯網的指向性麥克風,來幫助使用者選擇現實中他想要聽到的聲音。IBM研究人員認為,實現它並不是太遙遠。

相關焦點

  • 以耳「視」物是其高超本領 蝙蝠鼻葉之謎破解
    >    以耳「視」物是蝙蝠的高超本領。    近日,來自德國和中國的研究人員發現,許多蝙蝠鼻孔周圍這些令人稱奇的複雜皺紋和凹槽,能明顯幫助它們調節發出的聲納,讓它們在黑暗中「看」得更清楚明白。    蝙蝠「鼻葉」的百年之謎,終於被解開     大多數蝙蝠從嘴裡發出聲納,但大約有300種蝙蝠卻從鼻腔裡發出聲納,包括具有最複雜聲納的蹄鼻蝠和葉鼻蝠,它們也是最具奇特面孔的蝙蝠中的兩種。     這些蝙蝠鼻孔周圍通常有特別精細而雜亂的折皺,形象地被稱為「鼻葉」。     「鼻葉」有什麼用?
  • 擎天柱、機械蛇、仿生蝙蝠,一大波奇葩機器人來襲!
    [video width="960" height="544" mp4="http://zhidx.com/wp-content/uploads/2018/08/df3f0c00960a1785d788d5302f2b5288.mp4"][/video] 相比去年的仿生蜻蜓,BionicFlyingFox基於蝙蝠的肌肉屈伸和空氣動力學原理,能在空中進行更快更穩定的飛行。
  • 語音識別算法有哪些_語音識別特徵提取方法
    語音識別算法有哪些_語音識別特徵提取方法 網絡整理 發表於 2020-04-01 09:24:49   語音識別算法有哪些   本文列舉了幾種不同的語音識別算法
  • 科學家發現蝙蝠聲納新用途:幹擾競爭對手
    騰訊科學訊 在完全黑暗的環境中,蝙蝠會藉助回聲定位(或者說生物聲納)來尋找並追蹤昆蟲獵物。在蝙蝠的夜晚捕食中,它們會與多達百萬的飢餓同伴們互相競爭。當蝙蝠聽到有競爭對手準備捕食時,它會發出一種專門的幹擾聲納來阻止對手捕食。它們通常會彼此互相干擾,直到其中一方放棄。
  • 像蝙蝠一樣感知--中國數字科技館
    因此,斯帕蘭贊尼提出了在當時看似荒謬的結論:蝙蝠能用耳朵「看東西」。他利用「聲納探測器」對蝙蝠的飛行進行監控,發現蝙蝠能快速有力地收縮咽喉肌,從而產生超聲波,即蝙蝠在飛行中產生頻率在2萬赫茲以上超出人類聽覺範圍之外的超聲波脈衝,這就是我們所說的蝙蝠的「回聲定位聲波」。  並不是所有的蝙蝠都由嘴發出超聲波,有些是用鼻孔,有的兩者兼有。超聲波以發出點為延長線,形成一個圓錐體,當它遇到環境中的物體後就會以聲波的形式返回。
  • 逆天的仿生科技,機器人界的動物世界!
    它內置的3D聲納系統,可以依靠聲波,感知到其他企鵝的位置,防止與它們撞在一起。和那隻仿生水母一樣,它也能飛上天!Festo還發布了兩款仿生機器人,其中一隻,是模仿世界上最大的蝙蝠狐蝠,製成的蝙蝠機器人BionicFlyingFox。
  • 飛蛾披著隱形聲學鬥篷躲避蝙蝠聲納
    飛蛾可以利用其聲學偽裝的翅膀躲避蝙蝠的聲納。它們進化出的隱身適應能力是由於它們的翼膜上附著了一系列的鱗片,這些鱗片可以吸收獵食蝙蝠發出的超聲波頻率,是自然界中首次發現的聲學超材料。英國布里斯托大學的一個團隊發現,蝙蝠發出的聲波擊中兩種飛蛾身上的叉形鱗片,會使它們彎曲和扭曲,消散能量。
  • 非晶合金材料在仿生領域中能否「展翅高翔」?看德國仿生機械
    最近又研發出機器蝙蝠,難分真假。它的原型是世界上最大的蝙蝠:狐蝠,關節與翼膜與真狐蝠的身體構造一模一樣。仿生機器蝙蝠視頻↓↓↓機器蝙蝠兩翼展開寬度228釐米,體長87釐米,非常大。在運動追蹤系統的輔助下,可以規劃飛行軌跡,在特定空間內自由飛行。
  • 蝙蝠醜陋面部使它們"看"得更清楚(圖)
    蝙蝠醜陋面部使它們"看"得更清楚(圖) 央視國際 www.cctv.com  2006年12月01日 14:09 來源:     據國外媒體11月29日報導,中國科學家發現,許多蝙蝠鼻孔周圍令人稱奇的複雜皺紋和凹槽能明顯幫助它們調節它們的聲納
  • 動物仿生學有多強大?
    蝙蝠本領:蝙蝠發射出的超聲波碰到飛舞的昆蟲能立刻反射回來,這時,蝙蝠就知道:周圍有吃的了。 仿生運用:根據蝙蝠發明的雷達能及時探測出敵機的方位和距離,以便發出警報,然後進行狙擊。 仿生運用:根據蒼蠅複眼原理髮明的「蠅眼」航空照相機一次能拍攝1000多張高清照片。天文學也有能在無月光的夜晚探測到空氣簇射光線的 「蠅眼」光學儀器。
  • 德國逆天的仿生機械,這才是真正的黑科技!
    狐蝠是世界上最大的蝙蝠,它主要通過揮舞翅膀來推動身體在空中飛行。它的翼膜在飛行過程中起到了關鍵的作用,這種翼膜由輕質彈性物質構成,與鳥的羽毛有許多的相似特徵。為了達到精細的程度,工程師們用炭棒創建了它的整體結構,並且採用高彈性的材料成功3D列印製作了它的機械結構。
  • 北京:2018世界機器人大會 「仿生蝙蝠」「仿生魚」機器人同臺競技
    服務型機器人通過自主識別環境完成攀爬梯子遊戲。服務型機器人通過視覺識別進行踢足球遊戲。服務型機器人通過視覺識別進行踢足球遊戲。服務型機器人通過視覺識別進行踢足球遊戲。家庭語音服務機器人。姚明高仿真投籃機器人。新松公司的蛇形臂機器人。仿犬爬行機器人「機械狗」。
  • 仿生蝙蝠機器人Bat Bot
    美國加利福尼亞理工學院 (California Institute of Technology) 研發出了一款仿生蝙蝠機器人Bat
  • 語音識別是什麼 語音識別聲學特徵介紹【圖文】
    語音識別,什麼是語音識別  語音識別  與機器進行語音交流,讓機器明白你說什麼,這是人們長期以來夢寐以求的事情。語音識別技術就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高技術。語音識別是一門交叉學科。近二十年來,語音識別技術取得顯著進步,開始從實驗室走向市場。
  • 語音識別的痛點在哪,從交互到精準識別如何做? | 雷鋒網公開課
    以前的語音交互產品,包括訊飛在內,大家提供的都是單點的能力,比如語音合成、語音喚醒、語音識別、語義理解,另外還有人臉識別、聲紋識別等。大家拿到這麼多產品和能力,需要花很大的工作量,去開發人機互動功能。只有明確說話人的方位後,才可以定向的拾音,做降噪處理,同時對說話人進行語音增強。這個聲源定位和語音增強主要是用麥克風陣列的相關技術,下面會有詳細解釋。在語音識別這個重要模塊中,首先要解決的就是遠場識別,通過上面提到的麥克風陣列和聲源定位,可以較好的實現遠距離拾音,解決噪聲、混響、回聲帶來的影響。
  • 瀋陽農業大學等發現所有蝙蝠曾經都能回聲定位—新聞—科學網
    瀋陽農業大學張樹義、王喆與愛爾蘭都柏林大學學院Emma Teeling等合作完成的一項研究認為,所有蝙蝠物種,包括無法回聲定位的蝙蝠的內耳在演化之初都有回聲定位的能力
  • 排名 語音識別_語音識別技術排名 - CSDN
    作為一名關注語音識別技術發展的業內人士,希望能通過本文還原語音研究和產業的真實情況。語音識別技術(Automatic Speech Recognition,簡稱ASR)是指讓機器可以自動將人的語音轉化為文字的一種AI技術。語音識別研究最早開始於20世紀50年代,在早期,有科學家甚至把這項技術和「將水轉化為汽油,從海裡提取金子,治療癌症」等並列為不可完成的任務。
  • 蝙蝠與夜蛾,為什麼蝙蝠「絞盡腦汁」也捕食不到夜蛾?
    蝙蝠擁有動物世界中最美妙和最完美的聲吶系統。它們頭部的口鼻具有「鼻葉」結構,周圍有複雜的特殊皮膚皺褶。這種特殊的裝置具有傳輸超聲波的功能。蝙蝠有很高的靈敏度和解析度。根據回聲,它們不僅能分辨方向,定位自己的飛行路線,還能識別不同的昆蟲或障礙物,從而有效地躲避或追擊。
  • 基於DSP的漢字語音識別系統的實現方式解析
    語音識別是機器通過識別和理解過程把語音信號轉變為相應的文本文件或命令的高技術。作為專門的研究領域,語音識別又是一門交叉學科,它與聲學、語音學、語言學、數位訊號處理理論、資訊理論、計算機科學等眾多學科緊密相連。語音識別經過四十多年的發展,已經顯示出巨大的應用前景。本文從實現原理入手,介紹語音識別系統的實現方式。
  • 語音識別技術原理全面解析
    2、語音識別技術的發展歷史及現狀  1952年,AT&TBell實驗室的Davis等人研製了第一個可十個英文數字的特定人語音增強系統一Audry系統1956年,美國普林斯 頓大學RCA實驗室的Olson和Belar等人研製出能10個單音節詞的系統,該系統採用帶通濾波器組獲得的頻譜參數作為語音增強特徵。