邊策 發自 凹非寺
近日,全球語音頂級會議Interspeech 2020公布了「深度降噪挑戰賽」(Deep Noise Suppression Challenge)的比賽成績,搜狗聯合西北工業大學音頻語音與語言處理研究組(以下稱搜狗-西工大聯合團隊)擊敗了亞馬遜、微軟、Facebook、中科院聲學所、CMU等國內外頂尖高校和機構摘得桂冠。
在這場面向語音增強任務的競賽中,搜狗-西工大聯合團隊提出的新的複數增強網絡結構DCCRN(Deep Complex Convolution Recurrent Network)在實時降噪賽道以顯著優勢擊敗多路強手最終脫穎而出。
奪冠技術降噪效果究竟如何,讓我們先來聽一段語音:
DCCRN處理前來自量子位00:0000:10
經過搜狗-西工大聯合團隊的技術處理後,背景嘈雜的聲音已經完全去除,仿佛置身於安靜的錄音室。
DCCRN處理後來自量子位00:0000:10
但降噪效果好不是DNS挑戰賽唯一的要求,背後還有許多我們「聽不見」的艱難。
大賽難點與團隊創新
為了考驗各家技術的實用性,DNS挑戰賽對語音降噪的硬體和延時提出了非常苛刻的要求。
在實時賽道上幾乎等於是要求降噪處理的聲音與原音同步,具體規則如下:
對於一幀長度為T毫秒的語音來說,在2.4Ghz的Core i5 四核CPU上處理時長不能超過T/2毫秒。使用的未來幀信息不超過40毫秒。
也就是說,參賽者要在(T/2+40)毫秒延時內消滅掉音頻裡的背景噪聲。
而搜狗工程師表示,他們和西工大聯合開發的模型可以將延時控制在60毫秒以內。如果視頻聊天裡用上這項技術,那麼用戶基本不會感受到音畫不同步。
為了防止作弊,微軟的DNS挑戰賽對參賽者還有一項要求,那就是不能用盲測數據集繼續訓練調試模型,而且必須使用被Interspeech 2020收錄的論文裡的技術。
搜狗-西工大聯合團隊使用的技術來自於他們被大會收錄的論文:DCCRN: Deep Complex Convolution Recurrent Network for Phase-Aware Speech Enhancement。
這篇論文的創新點在於:使用複數的卷積循環網絡(CRN)來處理頻域信號。
傳統的語音處理方法主要通過基本的卷積神經網絡(CNN)或循環神經網絡(RNN)來預測頻譜。
但是在頻域處理信號會面臨一個問題:時域信號經過短時傅立葉變換到時頻域後成為複數,這個複數包含了信號的幅度和相位。
過去雖然也有人使用複數頻譜作為訓練目標,但卻是在實值網絡中進行訓練,將實部和虛部視為兩個輸入通道,用一個共享權值卷積核分別對實部虛部進行處理。
這種方法不受複數乘法規則限制,等於把兩個相關量割裂開來。
為了解決這個問題,搜狗-西工大聯合團隊設計了一種用於複數運算的新網絡結構,稱為深度複數卷積循環網絡(DCCRN),其中CNN和RNN結構都可以處理複數值運算。
CRN集成了卷積編碼器-解碼器(CED)結構和長短期記憶(LSTM),而且還用複數LSTM代替了傳統的LSTM。
簡而言之,DCCRN由一個卷積核處理實部、一個卷積核處理虛部,再使用複數乘法規則將其相連。複數模塊通過複數乘法建立幅度和相位之間的相關性,從而有效地提升了實部和虛部估計精確度。
僅憑藉370萬個參數,搜狗-西工大聯合團隊最終提交模型的MOS初賽得分與亞馬遜並列第一,複賽時還高出亞馬遜0.03分(overall)。
搜狗為何能刷榜
有亞馬遜、Facebook等科技巨頭參與,搜狗為什麼能夠擊敗眾多強大對手,獲得語音降噪技術的第一?
這與搜狗過往長期的技術積累有關。
除了這次發表的DCCRN外,搜狗過去多次有技術成果被國際頂級學術會議收錄。
比如去年搜狗被ICASSP收錄的論文《基於模態注意力的端到端音視覺語音識別》,就是搜狗多模態思路在降噪技術上的一種應用。
這項技術利用語音+唇語的方式,將信噪比為0dB(語音信號與噪聲大小相當)時的識別將準確率提高了30%。
搜狗大力投入語音技術,也有在公司業務上的考量。
搜狗的語音輸入法,搜索、翻譯等業務,都在越來越廣泛地使用語音識別。搜狗近年來大力投入的硬體業務,也在AI底層技術的加持下收穫了不錯的口碑。
在這次比賽前,其自研另一個PureVoicePureVoice深度降噪算法已經應用到自家產品,比如AI錄音筆中。
前不久,羅永浩在第一次直播中,與搜狗CEO王小川聯合推薦的搜狗高端AI錄音筆S1,向觀眾展示了搜狗強大的降噪能力。即使現場有吹風機這樣的強噪聲,搜狗錄音筆S1也能清晰還原人聲。
雖然其售價2000多,高於市場上大多數競品,但因為有AI降噪技術加持,這款旗艦產品很快一售而空,獲得了用戶認可,也證明了AI技術才是錄音筆的核心競爭力。
另一邊,搜狗積極探索將AI基礎技術作為服務提供給產業使用,不局限於自家使用。
去年,搜狗向索尼、愛國者、紐曼等錄音筆品牌開放了「搜狗聽寫」服務,作為基礎AI服務佔領錄音筆市場。
作為一家技術驅動的公司,搜狗將不斷讓新技術注入到產品裡,大賽中奪冠的DCCRN技術已經「在路上」,未來也會嘗試將其部署在錄音筆中。
語音降噪前景幾何
除了搜狗現有業務外,語音降噪的應用場景遠不止於此。
今年在疫情驅使下,在線辦公軟體成為大公司「必爭之地」。國外微軟谷歌、國內BAT今年都在快速迭代升級在線會議功能。
而複雜的家庭辦公環境給在線會議帶來很大挑戰。如何用AI技術消除背景噪音,是各大科技公司在努力解決的問題。
最近,英偉達發布了視頻會議的降噪工具,可以去除像敲擊鍵盤、喝水這樣的噪聲,提高視頻會議質量。但是這項技術需要用到英偉達的RTX中高端顯卡,大大限制它的使用人群。
如果能在算力更低、價格更便宜的設備上實現降噪,無疑會讓更多用戶受益。這也是搜狗技術團隊努力的方向。
搜狗工程師表示,DCCRN降噪技術能適配不同規格的硬體,上到手機電腦,下到小小的錄音筆晶片,有著更廣闊的應用空間。
前面提到,搜狗-西工大聯合團隊開發的技術延時不超過60毫秒。超低的延時意味著什麼?
一般藍牙耳機的音頻延時大多在200毫秒以上,聯機遊戲畫面的延時也在100毫秒以上。
也許我們今後用到的無線降噪耳機、遊戲語音對講都會因為這項技術而受益。
搜狗語音技術頻繁刷榜背後,應該是搜狗對於AI降噪在語音行業的「基石」地位的思考。至於今後搜狗會在產業裡扮演怎樣的角色,讓我們拭目以待。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺「網易號」用戶上傳並發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.