萬物互聯,作為人類最自然、便捷的溝通方式,語音正成為所有智能設備至關重要的入口,但入口的關鍵——拾音,效果往往差強人意。就智能家居來說,它們的拾音範圍多集中於近場環境,約為2-3米,且拾取效果欠佳,需多次喚醒。
如果把攝像機比作「眼睛」,拾音器便是「耳朵」。眼睛看到的圖像和耳朵聽到的聲音組合構成一個基本的影音記錄系統。然而這隻靈活的耳朵在應用過程中會受到諸如拾音距離、室內混響、環境噪音等諸多因素的影響,這對拾音來說是不小的挑戰。
如何真正「耳聽八方」?深耕智能語音與人工智慧領域多年的科大訊飛,近期推出了全新拾音品牌——諦聽,在超小音量拾取和降噪方面再下一城。其實,訊飛在早前推出的訊飛錄音筆、智能滑鼠、阿爾法蛋等產品均涉及語音交互。基於產品應用的技術積累,這次在拾音領域發力深耕,令人欣喜。
據了解,科大訊飛諦聽系列配備了32路麥克風,主打全自動聲源定位、自適應波束形成和混響抑制技術以及基於深度學習的噪聲抑制和語音自動增益調節算法,可實現室內說話人自動定位、噪聲與混響抑制、音量自動調節等功能,從而達到精準拾音的目的。
近日,某科技博主的一支關於拾音器的評測視頻引發關注。視頻中,科大訊飛的諦聽系列產品和德國森海塞爾、美國舒爾的同類產品「同臺競技」,訊飛表現出彩。
在模擬30分貝人耳都無法聽見的超小的音量環境下,森海塞爾拾音穩定,內容清晰,舒爾拾取的聲音小且難以分辨說話內容,訊飛諦聽拾取的內容清晰,且音質聽感較好的。
這主要由於科大訊飛採用了自主研發的全自動聲源定位技術,只要有輕微的聲音,它便如聚光燈一樣迅速定位聲源,並對來自其他方位的混響和噪音進行抑制。在實際應用中,32個麥克風組成的陣列可做到7×24小時全天候、全方位、無死角拾音,精準拾取低至30分貝的超小音量。
眾所周知,聲音在傳播過程中會發生衰減,不同方位的聲源會導致所拾取語音音量和效果差異較大,全自動聲源定位和自適應波束形成技術還使得訊飛諦聽在拾取運動的聲源方面表現出色。波束如同槍手槍擊獵物一樣,可自動「瞄準」運動的聲源方位。這意味著,對於那些仍需要預設和限制區域才能拾音的設備來說,訊飛這是一大突破。不僅如此,通過對不同音量自動調整,訊飛諦聽使得拾取的聲音更符合人耳聽覺效果。
聲學環境比想像中更為複雜,環境噪音、幹擾噪音、電流噪音等噪聲與語音信號在時間和頻譜上常常相互交疊,再加上回波和混響的影響,想要捕捉相對純淨的語音非常困難。在評測視頻中,評測者分別模擬了環境噪音為70分貝和90分貝的情況,結果顯示即使是90分貝的極端噪音環境,諦聽都抑制了噪音,對話內容依舊清晰。
面對噪音這一挑戰,訊飛諦聽依據時域、頻域和空域的信息,能有效增強語音並顯著抑制噪音對目標語音的影響。它首先通過聲音定位技術拾取語音,進行語音增強,實現初步的降噪效果。然後通過波束形成和基於深度學習的語音增強算法和對非方向性和方向性的噪聲進行抑制,最後輸出時,對音量大小自動增益並根據人耳的聽覺特點優化,使聲音更加飽滿。
萬物智聯的時代已然來臨,A.I.賦能IOT將激發無限可能,前端拾取的音質高低無疑會為影響後期的語音處理的水平。
諦聽系列產品,是科大訊飛21年來始終堅持源頭核心技術自主創新的體現。憑藉「中文語音技術應由中國人做到最好」的信念,2018年至今,科大訊飛已獲得30項人工智慧國際競賽的冠軍,涵蓋語音識別、語音合成、機器閱讀理解、手勢識別、圖像識別等諸多領域。隨著一項項技大關術的突破,科大訊飛也為拾音器的多樣化應用場景落地提供了強而有力的技術支撐。以往的拾音設備成本高、音質差、指向性強,無法在大面積推廣,諦聽的推出,或許將打破這一現象。
據悉,諦聽系列產品未來可廣泛應用安防、交通、高質量會議等關鍵場所和重點部位,其實用性應用而言,可以說大有可為。以公共場所為例,以往的視頻大多無法精準拾取聲音,音頻與視頻的有效結合,全向採集視聽解決了單純視頻的圖像死角,有利於防止群體性和違規事件的發生,滿足更多現實的需求。
當今世界正經歷百年未有之大變局,而人工智慧正是引領新一輪科技革命和產業變革的戰略性技術,對於推動社會生產力的整體躍升有著重大意義。劉慶峰不止一次表示,「只有佔據核心技術的高點,才能在產業發展中贏得主動,在國際競爭中擁有話語權。」訊飛諦聽或許正是其20多年專注於人工智慧核心技術的最佳體現。
雷鋒網雷鋒網(公眾號:雷鋒網)
雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。