來源:映維網 作者 顏昳華
對於自然用戶界面,遊戲,虛擬實境和混合現實,以及普適計算(ubiquitous computing)而言,獲取正確的聲音是一個關鍵因素。音頻在盲人或低視力人群的輔助技術中同樣扮演著重要的角色。儘管過去數十年間的計算機已經能夠播放和處理高保真音頻,但語言或沉浸式聲場的計算識別、分析和渲染方面依然存在一系列有待探索的前言。
自微軟研究院於1991年成立以來,音頻一直是團隊重要的研究領域。在成立的第一年裡,研究人員就利用音頻數據和其他線索探索視聽演示文稿的自動摘要。
多年來,微軟研究院在語音識別、自然用戶界面、捕捉和再現聲音、空間音頻、聲學模擬和音頻分析等方面都取得了穩定而顯著的進展,而且大部分都有應用於諸如Windows10、Kinect、HoloLens和Teams的微軟產品和服務,以及福特的同步車載信息娛樂系統,Polycom的視頻會議設備,諸如《戰爭機器》和《盜賊之海》等遊戲。
在下面的時間線裡,微軟將與我們回顧團隊在音頻和聲學研究方面的歷史進程:
1. 語言識別和自然用戶界面
2002年:微軟的研究人員建立了「Sound Capture and Speech Enhancement/聲音捕捉和語音增強」項目,並開始始探索諸如減少回聲、麥克風陣列處理和降噪等領域。
相關論文:Gain Self-Calibration Procedure for Microphone Arrays
相關論文:A New Beamformer Design Algorithm for Microphone Arrays
相關論文:Reverberation Reduction for Better Speech Recognition
相關論文:Microphone Array Post-Processor Using Instantaneous Direction of Arrival
2007年:福特發布了第一個版本的車內信息娛樂系統SYNC,其中語音增強音頻管道最初是由微軟的研究人員設計。
相關視頻:Natural Language Moves In-Car Infotainment Forward
相關論文:Unified Framework for Single Channel Speech Enhancement
2007年:Windows增加對麥克風陣列的支持。微軟發布了WindowsVista,包括對四種預選麥克風陣列幾何結構的支持,以及對USB麥克風陣列的標準化支持。之後,Windows 10已經能夠支持任意幾何形狀的麥克風陣列。
相關論文:Sound Capture and Processing: Practical Approaches
2010年:微軟為Xbox360發布了Kinect,其中包括首個免手操作開放式麥克風命令和帶有環繞聲回音消除功能的控制產品。
相關論文:Beamformer Design Using Measured Microphone Directivity Patterns: Robustness to Modelling Error
相關論文:Optimal 3D Beamforming Using Measured Microphone Directivity Patterns
相關論文:Data Driven Suppression Rule for Speech Enhancement
相關論文:Kinect Development Kit: A Toolkit for Gesture- and Speech-Based Human-Machine Interaction
2016年:微軟在這一年發布了HoloLens,它包含一個四元麥克風陣列和一個複雜的聲音捕捉和語音增強系統,可用於捕捉用戶的聲音和周圍的環境聲音。
2017年:研究人員開始探索用於語音增強的神經網絡。微軟在這一年建立了「Neural Networks-Based Speech Enhancement/基於神經網絡的語音增強」項目,並旨在實現更精確、更可靠的語音處理,尤其是在行動裝置、可穿戴設備、智能家居和物聯網設備。與以前的設備不同,所述設備帶來了全新的挑戰,如噪音更大的背景環境,更大的揚聲器與麥克風距離,以及有限的邊緣處理能力。
相關論文:A Causal Speech Enhancement Approach Combining Data-driven Learning and Suppression Rule Estimation
相關論文:A Hybrid Approach to Combining Conventional and Deep Learning Techniques for Single-channel Speech Enhancement and Recognition
相關論文:Convolutional-Recurrent Neural Networks for Speech Enhancement
相關論文:Constrained Convolutional-recurrent Networks to Improve Speech Quality with Low Impact on Recognition Accuracy
相關論文:Limiting Numerical Precision of Neural Networks to Achieve Real-time Voice Activity Detection
2019年:微軟發布HoloLens 2。這款設備包含一個五元麥克風陣列和複雜的聲音捕捉和語音增強系統。同時,研究人員在2020年初開始探索其語音增強技術的關鍵組件。
相關論文:Weighted Speech Distortion Losses for Neural-Network-Based Real-Time Speech Enhancement
相關論文:Acoustic Localization using Spatial Probability in Noisy and Reverberant Environments
2020年:Microfoft Teams的語音增強。微軟執行長薩蒂亞·納德拉(Satya Nadell)在這一年宣布,Microfoft Teams的優化將包括基於神經網絡的語音增強算法。
2. 支持協作和生產力的音頻
1991年:微軟的研究人員發表了第一篇與音頻相關的論文,其主要是關於多媒體演示文稿的自動摘要。
相關論文:Auto-Summarization of Audio-Video Presentations
1996年:微軟的研究人員探索了在交互式環境中使用視覺數據捕捉和渲染聲音的方法。
相關論文:Vision-Steered Audio for Interactive Environments
1999年:在這一年裡,微軟團隊在音頻檢測和分類方面取得了長足的進步。
相關論文:Detection of target speakers in audio databases
相關論文:A Robust Audio Classification and Segmentation Method
2001年:微軟在這一年建立了RingCam項目,並旨在探索360度視頻會議。
相關論文:Distributed Meetings: A Meeting Capture and Broadcasting System
2007年:微軟RoundTable在這一年提供了揚聲器檢測技術,由微軟研究人員開發的言語檢測技術成為了微軟RoundTable系統的一部分。這項技術後來賣給了Polycom,並作為Polycom CX5000的一部分發布。
3. 捕捉和再現聲音
1998年:微軟研究人員開始試驗麥克風陣列,他們建造了第一個麥克風陣列。
2005年:微軟的研究人員建立了「Audio Devices /音頻設備」項目,並構建和評估了兩個USB麥克風陣列原型:一個四元線性陣列和一個八元圓形陣列。
2007年:微軟雷德蒙德研究中心搬進了Building 99的新家。這個建築包括公司的第一個消聲室。
相關論文:Robust Design of Wideband Loudspeaker Arrays
相關論文:Sound Capture System and Spatial Filter for Small Devices
2009年:團隊對Building 99的消聲室進行了改造,使其可以自動測量3D方向性和輻射模式,包括人類的空間聽覺。它使用亞毫米精度的三維掃描儀測量頭部和軀幹。除此之外,這使得能夠實現更逼真空間音頻的頭相關傳遞函數(HRTFs)的開發成為可能。
2012年:為了使用球形和圓柱形函數來研究聲場,微軟研究人員建立了一個16通道球形麥克風陣列和一個16通道圓柱形麥克風陣列。值得一提的是,團隊在2016年構建了一個64通道球形麥克風陣列。
2017年:微軟研究人員提出了一種使用超聲波來進行手勢識別的新方法。這種方法的功耗顯著低於光學系統。
相關論文:Ultrasound-based Gesture Recognition
相關論文:Hardware and Algorithms for Ultrasonic Depth Imaging
相關論文:Multimodal Gesture Recognition
2018年:微軟研究人員開始探索實況360度音頻和視頻流式傳輸。
相關視頻:Live 360 audio and video streaming
2019年:微軟的研究人員建立了Denmark項目,其旨在利用由諸如智慧型手機和筆記本電腦等普通消費者設備成的虛擬麥克風陣列來實現會議對話的高質量捕捉。
4. 空間音頻
2012年:微軟的研究人員開始探索空間音頻的新方向,開始研究與頭相關傳遞函數(HRTFs)的新方法。這項工作的一個潛在成果是實現更為真實的空間音頻。
相關論文:HRTF Magnitude Modeling Using a Non-Regularized Least-Squares Fit of Spherical Harmonics Coefficients on Incomplete Data
相關論文:HRTF Magnitude Synthesis via Sparse Representation of Anthropometric Features
相關論文:HRTF Phase Synthesis via Sparse Representation of Anthropometric Features
相關博文:Microsoft 3D audio tech makes virtual sounds sound real
相關視頻:3-D Audio Demo
2015年:微軟發布了支持虛擬環繞聲的Windows 10:Windows Sonic。這個空間音頻渲染系統後來集成到HoloLens之中。
相關論文:Estimation of Multipath Propagation Delays and Interaural Time Differences from 3-D Head Scans
相關論文:Applications of 3D Spherical Transforms To Personalization Of Head-Related Transfer Functions
2016年:微軟發布了HoloLens。這個設備配備了一個音頻渲染系統,可對用戶的空間聽覺進行動態個性化設置。
2016年:微軟發布Windows Mixed Reality平臺。Windows10支持其他公司生產的虛擬實境頭顯和混合現實頭顯。這個平臺包含空間音頻引擎的擴展和改進版本。
相關論文:Head-related transfer function personalization for the needs of spatial audio in mixed and virtual reality
2017年:微軟發布了Soundscape(與Guide Dogs U合作),這是一個針對視力受損人群的輔助應用程式,其包括一個空間音頻渲染系統。
相關論文:Blind reverberation time estimation using a convolutional neural network
相關項目:Project Soundscape
相關視頻:Microsoft Soundscape: A Map Delivered in 3D Sound
2018年:Ivan Tashev博士通過播客概述了對更好的聲音處理和語音增強技術的追求,並描述了3D音頻的最新創新。他同時解釋了為什麼由於人類感知能力的變化,音頻處理技術背後的研究是科學、藝術和工藝的平衡整合。
相關播客:Podcast: Hearing in 3D with Dr. Ivan Tashev
2018年:微軟研究團隊在這一年發布了一系列的重要論文。
相關論文:A Sparsity Measure for Echo Density Growth in General Environments
相關論文:Blind Room Volume Estimation from Single-channel Noisy Speech
相關論文:Capture, representation, and rendering of 3D audio for virtual and augmented reality
相關論文:Improving Binaural Ambisonics Decoding by Spherical Harmonics Domain Tapering and Coloration Compensation
相關論文:Spectral manipulation improves elevation perception with non-individualized head-related transfer functions
5. 聲學模擬
2010年:在2010年之前,交互式音頻的一個關鍵挑戰是在複雜的遊戲場景中快速建模波浪效果。在2010年,微軟的研究人員提出了預先計算物理精確的波形模擬的概念,並證明這是交互式音頻和遊戲的可行途徑。
Triton項目探索了一種基於物理的虛擬環境建模方法,其旨在實現更為真實的遊戲內音頻。
相關論文:Precomputed Wave Simulation for Real-Time Sound Propagation of Dynamic Sources in Complex Scenes
相關項目:Project Triton
2012年:微軟研究人員開始與遊戲工作室合作。如與The Coalition Studio 合作,並將上述的聲學模擬研究納入《戰爭機器》。通過這樣的方式,團隊開始從探索性研究過渡到注重性能和靈活性的重新設計。
2013年:Project Triton的首個工作原型在內部演示。
2014年:團隊發布了一份描述了Triton項目的核心設計的論文,以及如何將感知編碼、空間壓縮和參數化繪製相結合。所述設計解決了系統資源的使用問題,並能方便地集成到現有的音頻工具中。後來的研究正是建立在這個核心設計之上,並進行了各種改進。
相關論文:Parametric Wave Field Coding for Precomputed Sound Propagation
2015年:微軟研究院的暑期實習生研究了一種新的自適應採樣方法,並旨在解決Triton項目中的一個關鍵魯棒性問題。
相關論文:Adaptive Sampling For Sound Propagation
2016年:Project Triton成為《戰爭機器4》的一部分。這是由精確基物模擬提供的首個遊戲聲學實例。
相關視頻:GDC 2017 talk on Gears of War integration
2017年:Project Triton開始支持混合現實體驗,並作為Windows10 Fall Creator更新的一部分。它在「懸崖屋」空間中提供了一種自然的聲學體驗,包含新的定向聲學特性。這一體驗同時結合了前面所述的HRTFs進步。
2018年,Project Triton成為《盜賊之海》的一部分,這是第二款採用這項技術的遊戲。
相關論文:Parametric Directional Coding for Precomputed Sound Propagation
2019年:Nikunj Raghuvanshi博士通過播客介紹了聲音是如何傳播,以及Project Triton的相關事項。
相關播客:Podcast: Project Triton and the Physics of Sound with Dr. Nikunj Raghuvanshi
2019年:Project Triton作為Project Acoustics向所有開發者開放,其包括Unity和Unreal插件,以便開發者輕鬆將其集成到遊戲和研究原型中。
相關視頻:Project Acoustics: Making Waves with Triton
相關視頻:Project Acoustics | Game Developers Conference 2019
2019年:《無主之地 3》發行。這是微軟之外第一家使用Project Triton的遊戲工作室。
2020年:Project Triton集成到HoloLens。這一裡程碑標誌著物理聲學在增強現實中的首次演示。
相關視頻:Using Project Acoustics with HoloLens 2
相關論文:Cloud-Enabled Interactive Sound Propagation for Untethered Mixed Reality
2020年:微軟首席研究員Nikunj Raghuvanshi博士在網絡研討會中介紹了創建實用、高質量聲音模擬的來龍去脈。它包括聲音模擬的三個組成部分:合成、傳播和空間化。對於每一個問題,他將回顧基礎物理,研究技術,實際考慮,和開放的研究問題。
相關視頻:Interactive Sound Simulation:Rendering immersive soundscapes in games and virtual reality
6. 音頻分析
2010年:微軟研究人員建立了「Audio Analytics/音頻分析」項目,並旨在探索從人類語音中提取非語言線索,檢測特定的音頻事件和背景噪聲,以及音頻搜索和檢索等主題。這項技術的潛在應用包括客服電話的客戶滿意度分析、媒體內容分析和檢索、醫療診斷輔助設備和患者監控、聽力障礙患者輔助技術以及公共安全音頻分析等等。
相關論文:A New Speaker Identification Algorithm for Gaming Scenarios
相關論文:Speech Emotion Recognition Using Deep Neural Network and Extreme Learning Machine
相關論文:High-level Feature Representation using Recurrent Neural Network for Speech Emotion Recognition
2015年:「Hey, Cortana」支持人話識別。微軟發布了包含揚聲器識別功能的Windows10,並將其作為「Hey, Cortana」喚醒功能的一部分。
相關論文:Learning Utterance-level Representations for Speech Emotion and Age/Gender Recognition Using Deep Neural Networks
相關論文:A Cross-modal Audio Search Engine based on Joint Audio-Text Embeddings
相關論文:Supervised Deep Hashing for Efficient Audio Event Retrieval
原文連結:https://yivian.com/news/77116.html