錄音降噪哪家強?搜狗西工大聯合團隊DNS挑戰賽奪冠

2021-01-16 網易

  

邊策 發自 凹非寺
量子位 報導 | 公眾號 QbitAI

  近日,全球語音頂級會議Interspeech 2020公布了「深度降噪挑戰賽」(Deep Noise Suppression Challenge)的比賽成績,搜狗聯合西北工業大學音頻語音與語言處理研究組(以下稱搜狗-西工大聯合團隊)擊敗了亞馬遜、微軟、Facebook、中科院聲學所、CMU等國內外頂尖高校和機構摘得桂冠。

  

  在這場面向語音增強任務的競賽中,搜狗-西工大聯合團隊提出的新的複數增強網絡結構DCCRN(Deep Complex Convolution Recurrent Network)在實時降噪賽道以顯著優勢擊敗多路強手最終脫穎而出。

  

  

  奪冠技術降噪效果究竟如何,讓我們先來聽一段語音:

  DCCRN處理前來自量子位00:0000:10

  經過搜狗-西工大聯合團隊的技術處理後,背景嘈雜的聲音已經完全去除,仿佛置身於安靜的錄音室。

  DCCRN處理後來自量子位00:0000:10

  但降噪效果好不是DNS挑戰賽唯一的要求,背後還有許多我們「聽不見」的艱難。

  大賽難點與團隊創新

  為了考驗各家技術的實用性,DNS挑戰賽對語音降噪的硬體和延時提出了非常苛刻的要求。

  在實時賽道上幾乎等於是要求降噪處理的聲音與原音同步,具體規則如下:

  

對於一幀長度為T毫秒的語音來說,在2.4Ghz的Core i5 四核CPU上處理時長不能超過T/2毫秒。使用的未來幀信息不超過40毫秒。

  也就是說,參賽者要在(T/2+40)毫秒延時內消滅掉音頻裡的背景噪聲。

  而搜狗工程師表示,他們和西工大聯合開發的模型可以將延時控制在60毫秒以內。如果視頻聊天裡用上這項技術,那麼用戶基本不會感受到音畫不同步。

  

  為了防止作弊,微軟的DNS挑戰賽對參賽者還有一項要求,那就是不能用盲測數據集繼續訓練調試模型,而且必須使用被Interspeech 2020收錄的論文裡的技術。

  搜狗-西工大聯合團隊使用的技術來自於他們被大會收錄的論文:DCCRN: Deep Complex Convolution Recurrent Network for Phase-Aware Speech Enhancement。

  這篇論文的創新點在於:使用複數的卷積循環網絡(CRN)來處理頻域信號。

  傳統的語音處理方法主要通過基本的卷積神經網絡(CNN)或循環神經網絡(RNN)來預測頻譜。

  但是在頻域處理信號會面臨一個問題:時域信號經過短時傅立葉變換到時頻域後成為複數,這個複數包含了信號的幅度和相位。

  過去雖然也有人使用複數頻譜作為訓練目標,但卻是在實值網絡中進行訓練,將實部和虛部視為兩個輸入通道,用一個共享權值卷積核分別對實部虛部進行處理。

  

  這種方法不受複數乘法規則限制,等於把兩個相關量割裂開來。

  為了解決這個問題,搜狗-西工大聯合團隊設計了一種用於複數運算的新網絡結構,稱為深度複數卷積循環網絡(DCCRN),其中CNN和RNN結構都可以處理複數值運算。

  

  CRN集成了卷積編碼器-解碼器(CED)結構和長短期記憶(LSTM),而且還用複數LSTM代替了傳統的LSTM。

  簡而言之,DCCRN由一個卷積核處理實部、一個卷積核處理虛部,再使用複數乘法規則將其相連。複數模塊通過複數乘法建立幅度和相位之間的相關性,從而有效地提升了實部和虛部估計精確度。

  僅憑藉370萬個參數,搜狗-西工大聯合團隊最終提交模型的MOS初賽得分與亞馬遜並列第一,複賽時還高出亞馬遜0.03分(overall)。

  搜狗為何能刷榜

  有亞馬遜、Facebook等科技巨頭參與,搜狗為什麼能夠擊敗眾多強大對手,獲得語音降噪技術的第一?

  這與搜狗過往長期的技術積累有關。

  除了這次發表的DCCRN外,搜狗過去多次有技術成果被國際頂級學術會議收錄。

  比如去年搜狗被ICASSP收錄的論文《基於模態注意力的端到端音視覺語音識別》,就是搜狗多模態思路在降噪技術上的一種應用。

  這項技術利用語音+唇語的方式,將信噪比為0dB(語音信號與噪聲大小相當)時的識別將準確率提高了30%。

  搜狗大力投入語音技術,也有在公司業務上的考量。

  搜狗的語音輸入法,搜索、翻譯等業務,都在越來越廣泛地使用語音識別。搜狗近年來大力投入的硬體業務,也在AI底層技術的加持下收穫了不錯的口碑。

  在這次比賽前,其自研另一個PureVoicePureVoice深度降噪算法已經應用到自家產品,比如AI錄音筆中。

  前不久,羅永浩在第一次直播中,與搜狗CEO王小川聯合推薦的搜狗高端AI錄音筆S1,向觀眾展示了搜狗強大的降噪能力。即使現場有吹風機這樣的強噪聲,搜狗錄音筆S1也能清晰還原人聲。

  雖然其售價2000多,高於市場上大多數競品,但因為有AI降噪技術加持,這款旗艦產品很快一售而空,獲得了用戶認可,也證明了AI技術才是錄音筆的核心競爭力。

  另一邊,搜狗積極探索將AI基礎技術作為服務提供給產業使用,不局限於自家使用。

  去年,搜狗向索尼、愛國者、紐曼等錄音筆品牌開放了「搜狗聽寫」服務,作為基礎AI服務佔領錄音筆市場。

  作為一家技術驅動的公司,搜狗將不斷讓新技術注入到產品裡,大賽中奪冠的DCCRN技術已經「在路上」,未來也會嘗試將其部署在錄音筆中。

  語音降噪前景幾何

  除了搜狗現有業務外,語音降噪的應用場景遠不止於此。

  今年在疫情驅使下,在線辦公軟體成為大公司「必爭之地」。國外微軟谷歌、國內BAT今年都在快速迭代升級在線會議功能。

  而複雜的家庭辦公環境給在線會議帶來很大挑戰。如何用AI技術消除背景噪音,是各大科技公司在努力解決的問題。

  最近,英偉達發布了視頻會議的降噪工具,可以去除像敲擊鍵盤、喝水這樣的噪聲,提高視頻會議質量。但是這項技術需要用到英偉達的RTX中高端顯卡,大大限制它的使用人群。

  如果能在算力更低、價格更便宜的設備上實現降噪,無疑會讓更多用戶受益。這也是搜狗技術團隊努力的方向。

  搜狗工程師表示,DCCRN降噪技術能適配不同規格的硬體,上到手機電腦,下到小小的錄音筆晶片,有著更廣闊的應用空間。

  前面提到,搜狗-西工大聯合團隊開發的技術延時不超過60毫秒。超低的延時意味著什麼?

  一般藍牙耳機的音頻延時大多在200毫秒以上,聯機遊戲畫面的延時也在100毫秒以上。

  也許我們今後用到的無線降噪耳機、遊戲語音對講都會因為這項技術而受益。

  搜狗語音技術頻繁刷榜背後,應該是搜狗對於AI降噪在語音行業的「基石」地位的思考。至於今後搜狗會在產業裡扮演怎樣的角色,讓我們拭目以待。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺「網易號」用戶上傳並發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關焦點

  • 搜狗奪得interspeech 2020 DNS挑戰賽實時降噪第一名
    搜狗聯合西工大擊敗眾多名校名企,勇奪實時降噪第一  據悉,INTERSPEECH是微軟組織的國際語音領域頂級會議,每年一屆,設置論文徵集和挑戰賽環節。作為全球最具影響力的語音行業大會之一,深受行業關注,來自全球各地學校、研究機構、技術廠商都會積極踴躍投稿論文,以彰顯自身科研實力。
  • 科大訊飛-中科大聯合團隊DCASE挑戰賽奪冠
    在DCASE 2020挑戰賽的Task3任務中,科大訊飛-中科大聯合團隊脫穎而出,在聲音事件檢測F-score、檢測錯誤率、定位錯誤率三項指標中均取得較大優勢並最終奪冠。科大訊飛A.I.研究院聯合中科大語音及語言信息處理國家工程實驗室(USTC-NELSLIP)在Task 3任務中奪冠
  • 智能錄音筆哪家好?搜狗錄音筆E1你值得擁有
    由於工作的原因,小編經常要和文字打交道,會議記錄,採訪記錄每一個都要準確完整的記錄下來,實在太考驗小編的記憶能力和打字速度了,所以錄音筆就成為了小編必不可少的辦公用品,大大小小的品牌錄音筆都有使用過,最近也有很多人在問哪家的錄音筆可以種草,正好今天小編就和大家說說最近剛入手的搜狗錄音筆E1的開箱使用體驗吧。
  • 高端錄音筆選哪家?搜狗AI錄音筆S1,錄音筆世界的扛把子
    AI錄音筆就是一個非常好的高效率輔助工具,因為它可以隨時隨地使用,可以將各種音頻內容以錄音的方式保存下來再轉化成文字,畢竟「看」比「聽」可是快多了。市場上這麼多類型的AI錄音筆,要怎麼來選擇呢?今天我們就來說說搜狗的旗艦產品—搜狗AI錄音筆S1。
  • 搜狗斬獲ICPR 2020挑戰賽冠軍,計算機視覺技術持續領先
    近日,在第25屆國際模式識別大會(ICPR 2020)舉辦的人臉106關鍵點檢測挑戰賽中,搜狗AI團隊榮獲冠軍,彰顯其在計算機視覺領域的核心技術實力。AI 團隊在預賽驗證和決賽測試兩階段均取得第一,擊敗OPPO研究院、美團視覺中心、東南大學、西安交大等多支強隊,最終一舉摘得桂冠。
  • 搜狗斬獲ICPR 2020人臉關鍵點檢測挑戰賽冠軍 計算機視覺技術持續...
    近日,在第25屆國際模式識別大會(ICPR 2020)舉辦的人臉106關鍵點檢測挑戰賽中,搜狗AI團隊榮獲冠軍,彰顯其在計算機視覺領域的核心技術實力。ICPR 2020大會是模式識別領域的頂級國際會議,由國際權威學術組織---國際模式識別協會(The International Association for Pattern Recognition,IAPR)主辦,在本屆大會組織的人臉識別領域競賽單元-人臉106關鍵點檢測比賽中,搜狗AI 團隊在預賽驗證和決賽測試兩階段均取得第一,擊敗OPPO研究院、美團視覺中心、東南大學、西安交大等多支強隊
  • 智能錄音筆哪家強:訊飛SR701和搜狗S1對比試用
    帶著這個疑問,最近小編找來了目前炙手可熱的兩款智能錄音筆產品——訊飛智能錄音筆SR701(下文簡稱訊飛SR701)和搜狗AI錄音筆S1(下文簡稱搜狗S1),看看它們到底有什麼「能耐」,能讓自己的售價接近3000元?
  • 西工大的人工智慧專業究竟在幹什麼?
    4.無人系統智能視覺感知無人機對地大場景三維重建研發新一代智能無人系統是國家重大戰略需求,西工大無人系統智能視覺感知團隊通過計算機視覺、人工智慧、導航控制等跨學科交叉,開展前瞻性、基礎性、集成性科技創新,突破無人系統智能視覺感知重大科學問題和關鍵核心技術群,確保我國無人系統智能視覺感知技術領先、自主、可控,是無人系統創新體系的中堅力量之一
  • 職場進階的必備神器,首選搜狗AI錄音筆E2
    為了讓自己在996的工作節奏中遊刃有餘,很多高階的打工人都在使用各種方式為自己的工作減負,搜狗AI錄音筆E2就是其中之一。當錄音筆擁有了「眼睛」——800萬像素攝像頭,你猜會發生什麼?接下來,小編揭曉這款自帶「視覺」的搜狗AI錄音筆E2,相比之前的錄音筆帶來了哪些驚喜。
  • 搜狗奪食科大訊飛語音識別
    在今年舉辦的INTERSPEECH 2020 DNS挑戰賽中,搜狗以4.01的MOS評分奪得冠軍。AI降噪技術取得的喜人成績,讓搜狗在語音識別技術的商業化推進中有了更足的底氣。在推出S1錄音筆產品中,搜狗就將AI降噪技術應用其中,並獲得了不錯的用戶評價。不過,同樣身居AI錄音筆市場的科大訊飛也在不斷發力,和搜狗展開競爭。
  • 搜狗出品的糖貓詞典筆,錄音+翻譯+詞典,對比網易有道哪家強?
    搜狗近日發布了旗下針對兒童學習的新品——糖貓詞典筆,這款詞典筆的發布,引起了一大波英語學習詞典筆哪家強的討論。英語詞典筆憑藉英語單詞即掃即學的產品特點一經推出就讓無數的家長朋友種草。這個類目內,過往網易有道詞典筆一家獨大。糖貓詞典筆發布之後,魚池又添一員悍將。
  • 降噪錄音和語音轉寫神器,搜狗AI錄音筆E1,一筆在手,世界你有
    自去年發布搜狗C1產品問世,搜狗即開創了「語音轉文字」的智能錄音筆先河,智能錄音筆像一種潮流一樣,我們越來越多地看到它出現在白領的桌面上、學生的書包裡。搜狗AI錄音筆E1所表現出的專業性能主要得益於兩方面,一是擁有強悍的硬體配置,具備靈敏的微聲拾音和頂尖的降噪能力;二是憑藉出色的算法和搜狗獨家知音引擎,達到更為精準的轉寫能力。硬體配置上令人印象深刻的是clairVoice 8麥陣列設計。
  • 實時轉寫率達98%,搜狗新款錄音筆首創AI降噪功能,可自動提煉錄音...
    在搜狗CEO王小川看來,搜狗關注AI的初衷就是:讓表達和獲取信息更簡單。為此,基於其輸入法以及巨大的搜索用戶數量,搜狗近年來以AI錄音筆為切入口參與到智能語音、智能硬體市場的布局當中,陸續推出了以語音識別、轉寫和翻譯為核心訴求的多款智能錄音筆。26日,搜狗就推出了S1、E1兩款錄音新品,還與故宮宮廷文化合作推出了S1和C1 Pro兩款產品的故宮宮廷聯名款。
  • 錄音+翻譯雙管齊下,搜狗AI錄音筆S1讓你從容面對各種會議
    在國際化的經濟發展環境下,職場精英不僅要參加國內的大型會議,還會參加跨國商務會議甚至境外出差,對錄音筆的要求也不再滿足於中文。因此,搜狗錄音筆也在語言方面精心鑽研,將多種語言內置在搜狗AI錄音筆S1中,大大解決了職場精英在錄音和交流過程中遇到的難題,讓這款錄音筆在錄音轉寫強大的基礎上,優化了語言功能,使其與國際化接軌,符合現代化職場精英的辦公需求。
  • 搜狗AI錄音筆S1實力出道,錄音+轉寫+翻譯樣樣出色
    如果只是單純的錄音,也許手機就行,但手機的錄音功能遠遠做不到深度降噪和遠距離拾音,而專業的AI錄音筆就能完美解決這些問題。強拾音和AI降噪恰恰是搜狗AI錄音筆S1的強項,它搭載了2顆哈曼10mm指向麥,以及6顆全向麥,360°拾音無死角,從源頭上保證了清晰度、拾音距離遠、高保真的優質錄音效果;再加上pureVoice AI降噪算法和clairVoice 8麥陣列算法的雙重降噪加持,可過濾4萬餘種真實噪音,讓雜音統統消音。
  • 讓打工人效率翻倍的工作神器 還是搜狗AI錄音筆E2最好用
    為了讓自己在996的工作節奏中遊刃有餘,很多高階的打工人都在使用各種方式為自己的工作減負,搜狗AI錄音筆E2就是其中之一。當錄音筆擁有了「眼睛」——800萬像素攝像頭,你猜會發生什麼?接下來,小編揭曉這款自帶「視覺」的搜狗AI錄音筆E2,相比之前的錄音筆帶來了哪些驚喜。
  • 打破降噪壁壘,又搶了翻譯機飯碗,搜狗旗艦AI錄音筆S1首發實測
    外觀與搜狗AI錄音筆C1的小巧簡潔不同,搜狗AI智能錄音筆S1定位於旗艦錄音筆市場,不僅外觀有高顏值,在語音識別、降噪、快速轉寫、文件傳送、多語言翻譯等方面都處於業內翹楚,強悍性能足以滿足工作、學習領域中對錄音轉寫的專業化需求。
  • 搜狗錄音翻譯
    搜狗錄音翻譯筆,是一款既能錄音又能翻譯的智能硬體產品。通過將搜狗速記翻譯筆與手機APP連接,可實現遠比手機出色的遠距離拾音。                                         應用介紹 搜狗錄音助手APP,是一款專業的錄音筆管理、手機錄音以及音頻轉寫文字應用,支持連接搜狗,愛國者等品牌AI錄音筆,配合錄音筆硬體產品,能夠實現高清多模式錄音,實時轉寫文字,區分講話人,同聲傳譯等功能。
  • 搜狗發布AI錄音筆新品,傳統錄音設備成過去時了?
    2月26日,搜狗公司舉辦了名為&34;的AI錄音筆新品線上發布會。此次發布會,搜狗除了正式發布S1、E1兩款AI錄音筆新品外,還與故宮宮廷文化合作推出了S1和C1 Pro兩款產品的故宮宮廷聯名款。新發布的兩款核心產品以行業領先的AI技術再次對錄音筆產品體驗進行了升級,持續推動錄音筆行業的AI化進程。
  • 搜狗發布了更強大的AI錄音筆 轉寫準確率高達98%
    2月26日,搜狗公司舉辦了名為「同舟共記「的AI錄音筆新品線上發布會。此次發布會,搜狗除了正式發布S1、E1兩款AI錄音筆新品外,還與故宮宮廷文化合作推出了S1和C1 Pro兩款產品的故宮宮廷聯名款。新發布的兩款核心產品以行業領先的AI技術再次對錄音筆產品體驗進行了升級,持續推動錄音筆行業的AI化進程。