回顧微軟30年沉浸式3D音頻、聲學領域的研究歷程

2021-01-10 砍柴網

來源:映維網 作者 顏昳華

對於自然用戶界面,遊戲,虛擬實境和混合現實,以及普適計算(ubiquitous computing)而言,獲取正確的聲音是一個關鍵因素。音頻在盲人或低視力人群的輔助技術中同樣扮演著重要的角色。儘管過去數十年間的計算機已經能夠播放和處理高保真音頻,但語言或沉浸式聲場的計算識別、分析和渲染方面依然存在一系列有待探索的前言。

自微軟研究院於1991年成立以來,音頻一直是團隊重要的研究領域。在成立的第一年裡,研究人員就利用音頻數據和其他線索探索視聽演示文稿的自動摘要。

多年來,微軟研究院在語音識別、自然用戶界面、捕捉和再現聲音、空間音頻、聲學模擬和音頻分析等方面都取得了穩定而顯著的進展,而且大部分都有應用於諸如Windows10、Kinect、HoloLens和Teams的微軟產品和服務,以及福特的同步車載信息娛樂系統,Polycom的視頻會議設備,諸如《戰爭機器》和《盜賊之海》等遊戲。

在下面的時間線裡,微軟將與我們回顧團隊在音頻和聲學研究方面的歷史進程:

1. 語言識別和自然用戶界面

2002年:微軟的研究人員建立了「Sound Capture and Speech Enhancement/聲音捕捉和語音增強」項目,並開始始探索諸如減少回聲、麥克風陣列處理和降噪等領域。

相關論文:Gain Self-Calibration Procedure for Microphone Arrays

相關論文:A New Beamformer Design Algorithm for Microphone Arrays

相關論文:Reverberation Reduction for Better Speech Recognition

相關論文:Microphone Array Post-Processor Using Instantaneous Direction of Arrival

2007年:福特發布了第一個版本的車內信息娛樂系統SYNC,其中語音增強音頻管道最初是由微軟的研究人員設計。

相關視頻:Natural Language Moves In-Car Infotainment Forward

相關論文:Unified Framework for Single Channel Speech Enhancement

2007年:Windows增加對麥克風陣列的支持。微軟發布了WindowsVista,包括對四種預選麥克風陣列幾何結構的支持,以及對USB麥克風陣列的標準化支持。之後,Windows 10已經能夠支持任意幾何形狀的麥克風陣列。

相關論文:Sound Capture and Processing: Practical Approaches

2010年:微軟為Xbox360發布了Kinect,其中包括首個免手操作開放式麥克風命令和帶有環繞聲回音消除功能的控制產品。

相關論文:Beamformer Design Using Measured Microphone Directivity Patterns: Robustness to Modelling Error

相關論文:Optimal 3D Beamforming Using Measured Microphone Directivity Patterns

相關論文:Data Driven Suppression Rule for Speech Enhancement

相關論文:Kinect Development Kit: A Toolkit for Gesture- and Speech-Based Human-Machine Interaction

2016年:微軟在這一年發布了HoloLens,它包含一個四元麥克風陣列和一個複雜的聲音捕捉和語音增強系統,可用於捕捉用戶的聲音和周圍的環境聲音。

2017年:研究人員開始探索用於語音增強的神經網絡。微軟在這一年建立了「Neural Networks-Based Speech Enhancement/基於神經網絡的語音增強」項目,並旨在實現更精確、更可靠的語音處理,尤其是在行動裝置、可穿戴設備、智能家居和物聯網設備。與以前的設備不同,所述設備帶來了全新的挑戰,如噪音更大的背景環境,更大的揚聲器與麥克風距離,以及有限的邊緣處理能力。

相關論文:A Causal Speech Enhancement Approach Combining Data-driven Learning and Suppression Rule Estimation

相關論文:A Hybrid Approach to Combining Conventional and Deep Learning Techniques for Single-channel Speech Enhancement and Recognition

相關論文:Convolutional-Recurrent Neural Networks for Speech Enhancement

相關論文:Constrained Convolutional-recurrent Networks to Improve Speech Quality with Low Impact on Recognition Accuracy

相關論文:Limiting Numerical Precision of Neural Networks to Achieve Real-time Voice Activity Detection

2019年:微軟發布HoloLens 2。這款設備包含一個五元麥克風陣列和複雜的聲音捕捉和語音增強系統。同時,研究人員在2020年初開始探索其語音增強技術的關鍵組件。

相關論文:Weighted Speech Distortion Losses for Neural-Network-Based Real-Time Speech Enhancement

相關論文:Acoustic Localization using Spatial Probability in Noisy and Reverberant Environments

2020年:Microfoft Teams的語音增強。微軟執行長薩蒂亞·納德拉(Satya Nadell)在這一年宣布,Microfoft Teams的優化將包括基於神經網絡的語音增強算法。

2. 支持協作和生產力的音頻

1991年:微軟的研究人員發表了第一篇與音頻相關的論文,其主要是關於多媒體演示文稿的自動摘要。

相關論文:Auto-Summarization of Audio-Video Presentations

1996年:微軟的研究人員探索了在交互式環境中使用視覺數據捕捉和渲染聲音的方法。

相關論文:Vision-Steered Audio for Interactive Environments

1999年:在這一年裡,微軟團隊在音頻檢測和分類方面取得了長足的進步。

相關論文:Detection of target speakers in audio databases

相關論文:A Robust Audio Classification and Segmentation Method

2001年:微軟在這一年建立了RingCam項目,並旨在探索360度視頻會議。

相關論文:Distributed Meetings: A Meeting Capture and Broadcasting System

2007年:微軟RoundTable在這一年提供了揚聲器檢測技術,由微軟研究人員開發的言語檢測技術成為了微軟RoundTable系統的一部分。這項技術後來賣給了Polycom,並作為Polycom CX5000的一部分發布。

3. 捕捉和再現聲音

1998年:微軟研究人員開始試驗麥克風陣列,他們建造了第一個麥克風陣列。

2005年:微軟的研究人員建立了「Audio Devices /音頻設備」項目,並構建和評估了兩個USB麥克風陣列原型:一個四元線性陣列和一個八元圓形陣列。

2007年:微軟雷德蒙德研究中心搬進了Building 99的新家。這個建築包括公司的第一個消聲室。

相關論文:Robust Design of Wideband Loudspeaker Arrays

相關論文:Sound Capture System and Spatial Filter for Small Devices

2009年:團隊對Building 99的消聲室進行了改造,使其可以自動測量3D方向性和輻射模式,包括人類的空間聽覺。它使用亞毫米精度的三維掃描儀測量頭部和軀幹。除此之外,這使得能夠實現更逼真空間音頻的頭相關傳遞函數(HRTFs)的開發成為可能。

2012年:為了使用球形和圓柱形函數來研究聲場,微軟研究人員建立了一個16通道球形麥克風陣列和一個16通道圓柱形麥克風陣列。值得一提的是,團隊在2016年構建了一個64通道球形麥克風陣列。

2017年:微軟研究人員提出了一種使用超聲波來進行手勢識別的新方法。這種方法的功耗顯著低於光學系統。

相關論文:Ultrasound-based Gesture Recognition

相關論文:Hardware and Algorithms for Ultrasonic Depth Imaging

相關論文:Multimodal Gesture Recognition

2018年:微軟研究人員開始探索實況360度音頻和視頻流式傳輸。

相關視頻:Live 360 audio and video streaming

2019年:微軟的研究人員建立了Denmark項目,其旨在利用由諸如智慧型手機和筆記本電腦等普通消費者設備成的虛擬麥克風陣列來實現會議對話的高質量捕捉。

4. 空間音頻

2012年:微軟的研究人員開始探索空間音頻的新方向,開始研究與頭相關傳遞函數(HRTFs)的新方法。這項工作的一個潛在成果是實現更為真實的空間音頻。

相關論文:HRTF Magnitude Modeling Using a Non-Regularized Least-Squares Fit of Spherical Harmonics Coefficients on Incomplete Data

相關論文:HRTF Magnitude Synthesis via Sparse Representation of Anthropometric Features

相關論文:HRTF Phase Synthesis via Sparse Representation of Anthropometric Features

相關博文:Microsoft 3D audio tech makes virtual sounds sound real

相關視頻:3-D Audio Demo

2015年:微軟發布了支持虛擬環繞聲的Windows 10:Windows Sonic。這個空間音頻渲染系統後來集成到HoloLens之中。

相關論文:Estimation of Multipath Propagation Delays and Interaural Time Differences from 3-D Head Scans

相關論文:Applications of 3D Spherical Transforms To Personalization Of Head-Related Transfer Functions

2016年:微軟發布了HoloLens。這個設備配備了一個音頻渲染系統,可對用戶的空間聽覺進行動態個性化設置。

2016年:微軟發布Windows Mixed Reality平臺。Windows10支持其他公司生產的虛擬實境頭顯和混合現實頭顯。這個平臺包含空間音頻引擎的擴展和改進版本。

相關論文:Head-related transfer function personalization for the needs of spatial audio in mixed and virtual reality

2017年:微軟發布了Soundscape(與Guide Dogs U合作),這是一個針對視力受損人群的輔助應用程式,其包括一個空間音頻渲染系統。

相關論文:Blind reverberation time estimation using a convolutional neural network

相關項目:Project Soundscape

相關視頻:Microsoft Soundscape: A Map Delivered in 3D Sound

2018年:Ivan Tashev博士通過播客概述了對更好的聲音處理和語音增強技術的追求,並描述了3D音頻的最新創新。他同時解釋了為什麼由於人類感知能力的變化,音頻處理技術背後的研究是科學、藝術和工藝的平衡整合。

相關播客:Podcast: Hearing in 3D with Dr. Ivan Tashev

2018年:微軟研究團隊在這一年發布了一系列的重要論文。

相關論文:A Sparsity Measure for Echo Density Growth in General Environments

相關論文:Blind Room Volume Estimation from Single-channel Noisy Speech

相關論文:Capture, representation, and rendering of 3D audio for virtual and augmented reality

相關論文:Improving Binaural Ambisonics Decoding by Spherical Harmonics Domain Tapering and Coloration Compensation

相關論文:Spectral manipulation improves elevation perception with non-individualized head-related transfer functions

5. 聲學模擬

2010年:在2010年之前,交互式音頻的一個關鍵挑戰是在複雜的遊戲場景中快速建模波浪效果。在2010年,微軟的研究人員提出了預先計算物理精確的波形模擬的概念,並證明這是交互式音頻和遊戲的可行途徑。

Triton項目探索了一種基於物理的虛擬環境建模方法,其旨在實現更為真實的遊戲內音頻。

相關論文:Precomputed Wave Simulation for Real-Time Sound Propagation of Dynamic Sources in Complex Scenes

相關項目:Project Triton

2012年:微軟研究人員開始與遊戲工作室合作。如與The Coalition Studio 合作,並將上述的聲學模擬研究納入《戰爭機器》。通過這樣的方式,團隊開始從探索性研究過渡到注重性能和靈活性的重新設計。

2013年:Project Triton的首個工作原型在內部演示。

2014年:團隊發布了一份描述了Triton項目的核心設計的論文,以及如何將感知編碼、空間壓縮和參數化繪製相結合。所述設計解決了系統資源的使用問題,並能方便地集成到現有的音頻工具中。後來的研究正是建立在這個核心設計之上,並進行了各種改進。

相關論文:Parametric Wave Field Coding for Precomputed Sound Propagation

2015年:微軟研究院的暑期實習生研究了一種新的自適應採樣方法,並旨在解決Triton項目中的一個關鍵魯棒性問題。

相關論文:Adaptive Sampling For Sound Propagation

2016年:Project Triton成為《戰爭機器4》的一部分。這是由精確基物模擬提供的首個遊戲聲學實例。

相關視頻:GDC 2017 talk on Gears of War integration

2017年:Project Triton開始支持混合現實體驗,並作為Windows10 Fall Creator更新的一部分。它在「懸崖屋」空間中提供了一種自然的聲學體驗,包含新的定向聲學特性。這一體驗同時結合了前面所述的HRTFs進步。

2018年,Project Triton成為《盜賊之海》的一部分,這是第二款採用這項技術的遊戲。

相關論文:Parametric Directional Coding for Precomputed Sound Propagation

2019年:Nikunj Raghuvanshi博士通過播客介紹了聲音是如何傳播,以及Project Triton的相關事項。

相關播客:Podcast: Project Triton and the Physics of Sound with Dr. Nikunj Raghuvanshi

2019年:Project Triton作為Project Acoustics向所有開發者開放,其包括Unity和Unreal插件,以便開發者輕鬆將其集成到遊戲和研究原型中。

相關視頻:Project Acoustics: Making Waves with Triton

相關視頻:Project Acoustics | Game Developers Conference 2019

2019年:《無主之地 3》發行。這是微軟之外第一家使用Project Triton的遊戲工作室。

2020年:Project Triton集成到HoloLens。這一裡程碑標誌著物理聲學在增強現實中的首次演示。

相關視頻:Using Project Acoustics with HoloLens 2

相關論文:Cloud-Enabled Interactive Sound Propagation for Untethered Mixed Reality

2020年:微軟首席研究員Nikunj Raghuvanshi博士在網絡研討會中介紹了創建實用、高質量聲音模擬的來龍去脈。它包括聲音模擬的三個組成部分:合成、傳播和空間化。對於每一個問題,他將回顧基礎物理,研究技術,實際考慮,和開放的研究問題。

相關視頻:Interactive Sound Simulation:Rendering immersive soundscapes in games and virtual reality

6. 音頻分析

2010年:微軟研究人員建立了「Audio Analytics/音頻分析」項目,並旨在探索從人類語音中提取非語言線索,檢測特定的音頻事件和背景噪聲,以及音頻搜索和檢索等主題。這項技術的潛在應用包括客服電話的客戶滿意度分析、媒體內容分析和檢索、醫療診斷輔助設備和患者監控、聽力障礙患者輔助技術以及公共安全音頻分析等等。

相關論文:A New Speaker Identification Algorithm for Gaming Scenarios

相關論文:Speech Emotion Recognition Using Deep Neural Network and Extreme Learning Machine

相關論文:High-level Feature Representation using Recurrent Neural Network for Speech Emotion Recognition

2015年:「Hey, Cortana」支持人話識別。微軟發布了包含揚聲器識別功能的Windows10,並將其作為「Hey, Cortana」喚醒功能的一部分。

相關論文:Learning Utterance-level Representations for Speech Emotion and Age/Gender Recognition Using Deep Neural Networks

相關論文:A Cross-modal Audio Search Engine based on Joint Audio-Text Embeddings

相關論文:Supervised Deep Hashing for Efficient Audio Event Retrieval

原文連結:https://yivian.com/news/77116.html

相關焦點

  • 回顧微軟30年沉浸式3D音頻、聲學領域的研究歷程
    音頻在盲人或低視力人群的輔助技術中同樣扮演著重要的角色。儘管過去數十年間的計算機已經能夠播放和處理高保真音頻,但語言或沉浸式聲場的計算識別、分析和渲染方面依然存在一系列有待探索的前言。自微軟研究院於1991年成立以來,音頻一直是團隊重要的研究領域。在成立的第一年裡,研究人員就利用音頻數據和其他線索探索視聽演示文稿的自動摘要。
  • 微軟研發沉浸式3D瀏覽器 可將內容融入牆壁
    最近,微軟研究院部門又推出了一項可以在用戶客廳中發揮作用的新成果。這是一項名為SurroundWeb的3D網絡瀏覽器,它可以允許網頁內容在房間中的多個牆面上顯示,為用戶帶來身臨其境的效果。微軟希望瀏覽器能夠進一步地得到改進,能夠為用戶帶來真正身臨其境的效果。SurroundWeb技術使用Kinect景深攝像頭去掃描整個房間,創建「房間框架」。這一框架確定了房間中的布局,例如桌子、椅子和牆壁等。SurroundWeb隨後將了解房間中有何顯示設備,包括投影儀、顯示器和手機。
  • 沉浸式視頻雲,金山雲怎麼做?
    從整個沉浸式視頻產業的演變過程來看,2014-2016年處於市場培育期,圖像處理能力提升,一時間,VR/AR一度被譽為最值得投資的朝陽產業之一。2014年3月,Facebook宣布以20億美元收購虛擬實境設備Rift VR的製造商Oculus,豪賭VR;2015年1月,微軟發布了一款MR頭顯產品Hololens,入局混合現實領域;不過,VR產業經過了野蠻生長期的市場狂熱後,因為難以落地等種種原因,從2017年開始其發展速度逐漸慢了下來,進入低谷;但一些大廠仍在這個行業繼續蓄力,彼時Apple
  • 谷歌宣布沉浸式VR音頻SDK Resonance Audio
    谷歌宣布了一套沉浸式音頻開發軟體工具SDK,該套件名為Resonance Audio能夠為360環景視頻、VR/AR提供內嵌的高保真立體音效,支持桌面及移動平臺,兼容多種VR平臺設備,兼容網頁端至Unity等3D遊戲引擎,甚至能夠作為虛擬工作室技術(VST)軟體接口的音頻插件使用,嵌入多種多媒體音樂製作程序中使用
  • 3D列印聲學特性的幾何形狀在建築領域大有用途
    通過物體形狀的設計來為各種空間創建聲學解決方案的應用前景十分廣闊。而3D列印,非常適合針對這方面的問題創造出獨特和定製化解決方案。聲學深刻影響了我們對於空間的有意識意識或無意識的看法,並在同時構成了建築的重要性能指標。辦公室、禮堂、房屋、公共空間,所有種類的空間設置都提供並需要擁有自己的一套獨特聲學參數。
  • 3D全息投影沉浸式空間,身臨其境也就是如此~
    該系統可為多個參與者提供房間大小的四面(或六面)立方體投影顯示空間,所有參與者完全沉浸在由立體投影圖像包圍的高級虛擬模擬環境中,從而獲得外觀高解析度三維立體視聽圖像和6自由度互動體驗。由於投影表面可以覆蓋用戶的所有視野,因此CAVE系統可以為用戶提供前所未有的沉浸式沉浸式體驗。
  • 歌爾聲學收購丹拿
    而就在北京時間2014年10月21日下午,這個傳奇的音響行業霸主正式易主,新東家變成了來自於中國山東的歌爾聲學股份有限公司。歌爾聲學股份有限公司披露2014年三季度業績,同時發布公告,宣布收購在音樂發燒友和專業音響工作室中享有盛名的丹麥著名音響製造商Dynaudio Holding A/S。它意味著歌爾聲學如期打開一個新的市場領域。
  • 言過其實的「空間音頻」,意義非凡的「計算音頻」
    到了9月份,iOS 14終於也如期發布,蘋果也像先前允諾的那樣為AirPods Pro推送了空間音頻功能,但小雷在試用完之後,似乎更迷惑了……「空間音頻」體驗首先介紹一下蘋果對空間音頻的說法:只要你更新了AirPods Pro,AIrPods就會自動記住根據你頭部的擺動而隨時調整聲音的發出方向。
  • 微軟3D瀏覽器:打造科幻客廳
    微軟的3D瀏覽器SurroundWeb研究項目將這一理念發揮至極致:使整個房間布滿顯示屏。在近期發表的一篇研究論文中,微軟研究院表示,通過SurroundWeb技術,一臺或多臺投影儀可以將地圖、視頻和其他圖像投影至房間的多個不同表面。其中的軟體還可以探測實際顯示屏,例如電視機和手機屏幕,用於與內容的互動。
  • 音頻鑑黃是如何做到的?深度解析音頻檢測背後的技術
    網絡直播行業經歷了過去兩年的井噴式爆發後,到現在依舊保持著持續火熱的態勢。但這一市場火爆的背後也一直暴露了一些問題,低俗內容屢見不鮮。顯然,要解決這一問題就必須要有比人工鑑黃效率更高的手段,用人工智慧技術來鑑黃就是現在直播平臺通用的手段。 雖然不少企業都把目光聚焦在視頻鑑黃上,但音頻審核也是人工智慧鑑黃技術的一部分,二者缺一不可。
  • 聲學最高水準技術盛會!沈勇教授專訪
    他是 AES(音頻工程學會)的會士,榮獲 AES 論文獎、AES 銀質獎章和 AES 金質獎章。Small 擁有多倫多大學音樂專業的學士學位、麥吉爾大學錄音專業的碩士及博士學位。    Olive博士撰寫了30餘篇關於重放聲的感知及測量的學術論文,兩次獲得 AES(音頻工程學會)論文獎,1996年榮獲AES會士稱號。
  • 歌爾聲學的氣壓傳感器發展之路
    先給大家分享一下一個資料,2014年全球前30名MEMS傳感器廠商排名中國內有兩家MEMS麥克風公司,其中一家是我們歌爾聲學。主持人:真棒!好的,我們接下來就開始我們的訪談吧。請先簡單介紹下歌爾聲學的發展歷程(主要業務、發展現狀)及團隊構成情況。
  • 微軟HoloLens光學架構師詳述AR/VR/MR數字光學元件和技術
    介紹 國防一直是增強現實和虛擬實境的首批應用領域,這最早可以追溯至上世紀50年代。接下來,第一個消費者VR/AR浪潮於90年代開始興起,但因為過於超前,尚未成熟,沉浸式領域的熱度開始淡化萎縮。
  • 3D全息投影打造景區夜遊經濟,沉浸式的旅遊模式
    色彩數目10.7億色輸入接口1×視頻輸入(D-sub 15針)1×視頻輸入(5 BNC)1×HDMI1×DVI-D1×HD-BaseT3×音頻輸入輸出接口1×視頻輸出(D-sub 15針)1×音頻輸出控制接口1×USB(A型)1×USB(B型)1×RJ-45
  • 旅遊景區動態3d投影秀,沉浸式投影燈光盛宴
    適用環境工作溫度:40-104℃工作溼度:10-80%(非冷凝)保修政策全國聯保,享受三包服務質保時間3年科視3片DLP投影機的整個產品線都享有3年標準質保。質保中包括廣泛用於數字電影機、屢獲行業褒獎的CDXL高性能氙氣燈,在2400小時全生命周期內,享受100%物超所值的周到服務。我們的維修中心維修周期短,LCD或DLP產品質保外服務收費低廉。我們還提供保養服務,延長投影機壽命。
  • 音頻工程師和聲學工程師的區別?
    這 個 世 界 上像你這樣熱愛建築聲學的人都 在 關 注 我
  • MEMS麥克風重塑音頻領域,人工智慧(AI)將引領音頻市場的發展和轉型
    MEMS麥克風重塑音頻領域,人工智慧(AI)將引領音頻市場的發展和轉型 與非網 發表於 2020-03-15 15:02:00 據麥姆斯諮詢介紹,多年前,MEMS麥克風的興起重塑了音頻領域
  • 2020中國科學院語言聲學與內容理解重點實驗室特別研究助理崗位...
    2020中國科學院語言聲學與內容理解重點實驗室特別研究助理崗位招聘公告 2020-12-30 09:39:12| 中國科學院聲學研究所 為貫徹落實中科院「率先行動」計劃,推進聲學所科技發展,吸引和凝聚優秀人才,本著「按需設崗,按崗聘任,競爭擇優」及「公開、公平、公正
  • Fraunhofer IIS向三星授權MPEG-H音頻專利許可
    2020年8月3日,德國埃朗根市——Fraunhofer IIS宣布向三星授權MPEG-H音頻專利許可,允許其生產具備MPEG-H音頻功能的產品。 近期,MPEG-H音頻成功入選巴西ISDB-Tb,致力於為其用戶帶來沉浸式和互動式的音頻體驗。 在歐洲,許多廣播電視商和流媒體服務供應商在重大體育賽事和音樂類節目中完成了對MPEG-H音頻的測試。
  • 深度解析音頻檢測背後的技術 | 雷鋒網公開課
    針對說話內容有語音識別、關鍵詞檢索等;針對語種的判別有語種識別的技術;針對說話人的識別有聲紋識別技術;針對說話內容無關的通常採用音頻比對的技術來進行檢測。語音識別的關鍵技術——聲學模型語音識別的聲學模型主要有以下兩種:混合聲學模型和端到端的聲學模型。