微軟研究院展示虛擬麥克風陣列技術 藉助多設備實現高精度語音轉錄

2020-12-12 cnBeta

在《蝙蝠俠》系列的《黑暗騎士》影片中,布魯斯·韋恩通過攻擊數百萬部手機,打造了一套基於麥克風陣列的龐大監聽網絡(SONAR)。不過本周,微軟研究院展示了一項類似的技術,它就是 Project Denmark 。其允許使用手機和筆記本電腦中的麥克風,創建出一個虛擬的麥克風陣列,並用於高精度地收聽和會議轉錄。

(圖自:Microsoft Research)

虛擬麥克風陣列可將現有設備(如配備普通麥克風的手機或筆記本電腦等),動態組合成一個更大的陣列。

具體說來是,該系統基於連續音頻流對齊、盲波束成形、語音識別、分割聚類(Diarization)、以及系統融合等技術來實現。

(截圖 via MSPU)

藉助七組音頻流輸入,微軟研究院已實現 22.3% 的錯字率。在近距離麥克風的非重疊語段上,更是可以將錯字率控制在 3% 以內。

至於系統支持的用戶數量,則取決於區域內配備的麥克風數量。微軟指出,該技術可方便客戶隨時隨地地輕鬆轉錄會話內容,而不論其是否擁有專屬的麥克風陣列。

相關焦點

  • 大牛講堂 | 語音專題第一講,麥克風陣列的語音信號處理技術
    2011年11月畢業於英國愛丁堡大學通信與信號處理專業,曾任諾基亞,聯想,微軟高級音頻工程師。現在Horizon-Robotics負責語音相關硬體系統設計,涉及遠場高靈敏度麥克風陣列設計,高精度音頻硬體編解碼器評估驗證,遠場語音前處理算法的評估驗證,涉及聲源定位,波束形成,盲信號分離,回聲抑制及平穩降噪等相關技術算法。
  • 微軟新專利:包含魚眼鏡頭和麥克風陣列的AI設備
    近年來微軟不斷強調人工智慧的重要性,甚至預測其各種應用將會在未來幾年為全球GDP增長貢獻5萬億美元。在過去數月裡微軟已經增強了和很多合作夥伴的合作關係,共同探索和推動AI領域的發展。本月微軟提交申請的一項專利被美國商標和專利局(USPTO)收錄,展示帶有單個魚眼攝像頭和多個麥克風陣列的人工智慧系統。魚眼攝像頭具備特殊的鏡頭可以監控360度全景。儘管該技術並不新鮮,但微軟計劃以不同的方式和其他周圍環境傳感設備配合使用。這種環境捕獲系統通常具有多個攝像機以擴展其視野。這需要複雜的設計,並且還需要額外的硬體來融合多個視頻數據流。
  • 語音交互:先從麥克風陣列聊起
    隨著智能音箱、智能家居等智能硬體的普及,語音交互熱度也不斷飆升。想要了解語音交互,第一步是了解麥克風陣列,本文從概念、分類、作用幾個方面對麥克風陣列展開了說明,與大家分享。語音交互從亞馬遜音箱(Echo)誕生的那一刻,就逐步走進了人們的視野,越來越多的人開始接觸到語音交互的設備。
  • 一文帶你全面熟悉智能語音之麥克風陣列技術的原理
    而麥克風陣列融合了語音信號的空時信息,可以同時提取聲源並抑制噪聲。   目前科大訊飛已經實現了基於線性陣列、平面陣列以及空間立體陣列的波束形成和降噪技術,效果均達到業界一流水平。——聲源定位(Source Localization)   現實中,聲源的位置是不斷變化的,這對於麥克風收音來說,是個障礙。麥克風陣列則可以進行聲源定位,聲源定位技術是指使用麥克風陣列來計算目標說話人的角度和距離,從而實現對目標說話人的跟蹤以及後續的語音定向拾取,是人機互動、音視頻會議等領域非常重要的前處理技術。
  • 聊一聊麥克風陣列技術:語音交互應該選用怎樣的方案?|深度
    但是好多朋友私信諮詢,因此這裡想稍微深入談談麥克風陣列技術,以及智能語音交互設備到底應該選用怎樣的方案。什麼是麥克風陣列技術?學術上有個概念是「傳聲器陣列」,主要由一定數目的聲學傳感器組成,用來對聲場的空間特性進行採樣並處理的系統。
  • 聊一聊麥克風陣列技術:語音交互應該選用怎樣的方案?深度
    但是好多朋友私信諮詢,因此這裡想稍微深入談談麥克風陣列技術,以及智能語音交互設備到底應該選用怎樣的方案。什麼是麥克風陣列技術?學術上有個概念是「傳聲器陣列」,主要由一定數目的聲學傳感器組成,用來對聲場的空間特性進行採樣並處理的系統。
  • ...410c實現科大訊飛麥克風陣列模塊的語音喚醒控制及US-100超聲波...
    前言:本文主要是針對沒有接觸過Dragonboard 410c開發板的朋友,教大家如何從裸板搭建平臺以及通過這個平臺如何去實現科大訊飛麥克風陣列模塊的語音喚醒控制以及US-100超聲波的實際應用,總而言之通過這個過程我相信大家可以更進一步的體驗到Dragonboard 410c開發板的樂趣了。
  • 關於五麥克風環形陣列的分析
    自2015年3月和8月,訊飛相繼對外發布四麥、二麥麥克風陣列解決方案。今天在深圳阿基米網際網路公社舉辦的「訊飛核心技術開發日——麥入雲端,引領智能交互新主義」沙龍活動中,更重磅發布了打破語音交互瓶頸的利器——4+1環形五麥克風陣列,再次引領智能交互新主義!
  • 樂鑫發布 AI 語音麥克風陣列開發板 ESP32-Korvo
    樂鑫信息科技發布 AI 語音麥克風陣列開發板 ESP32-Korvo 。這是一款針對物聯網嵌入式設備的 AI 語音開發板,基於樂鑫的旗艦晶片 ESP32,搭載多麥克風陣列,能夠實現高性能、低功耗的遠場語音喚醒和命令詞識別功能。本文引用地址:http://www.eepw.com.cn/article/202004/411927.htm近年來,隨著人工智慧和物聯網的興起,語音逐漸成為我們與智能設備交互的一種典型方式。
  • 訊飛聽見 M1 評測:也許是目前體驗最好的語音轉錄助手
    和傳統錄音筆設備不同,訊飛聽見 M1 的外觀之所以如此特別,首先在於內部的 7+1 環形麥克風陣列。前面說到,受限於外形設計,錄音筆設備一般採用雙麥克風設計,在正常一對一交談錄音中使用起來沒有問題,但如果放在容納十幾人的會議廳,從四面八方收錄聲音,效果就大打折扣。
  • 盤點麥克風技術及市場,遠場語音交互如何選型麥克風?
    智能語音交互市場的火熱逐漸輻射到產業鏈的供應商,其中最直接受益就是作為聲音的傳感設備——麥克風。特別是麥克風陣列的興起,未來可以讓麥克風廠家的銷量翻倍增長。在此之前,由於受制於智慧型手機和平板電腦的增長速度下滑,樓氏、歌爾和瑞聲的股票相繼在2016年中旬左右創下了低谷。2017年的語音交互局勢趨於明朗,資本市場專注研究智能語音交互的投資機構也明顯多了起來。
  • 微軟研究院:智能揚聲器超聲波束可生成房間圖像
    IT之家1月3日消息 微軟研究院一直在研究智能揚聲器中常見的揚聲器和麥克風陣列。他們發現一組揚聲器可用于波束成形,允許它們將聲音引導到房間中的特定位置。這使得研究人員可以使用遠程揚聲器來創建虛擬耳機。
  • 雙麥克風VS多麥克風,哪種更適合人工智慧語音機器人?
    根據聲波傳導理論,利用多個麥克風收集到的信號可以將某一方向傳來的聲音增強或抑制,因而採用麥克風陣列方法可以將噪聲環境中的特定聲音信號有效的增強,具有很好的抑制噪聲和語音增強的能力,又不需要麥克風時刻指向聲源方向,因此在語音處理領域具有非常好的前景
  • 微軟展示實時語音翻譯軟體 可互譯26種語言
    騰訊科技訊(清雨)北京時間3月14日消息,據國外媒體報導,微軟研究院日前展示了一款語音翻譯軟體,可將用戶所說的話翻譯成另一種語言播放出來,並保留用戶自己說話時所具有的口音、音色和語調,聽起來就像本人親自說的一樣。
  • 微軟展示最新語音翻譯機 支持中文等26種語言
    微軟上周日在微軟研究院科技節(TechFest 2012)上展示了最新開發的語音翻譯器。和其它翻譯器一樣,微軟研究院新開發的軟體允許用戶使用母語對其講話,然後使用揚聲器設備以另外一種語言輸出,比如西班牙語、法語、中文等。不過揚聲器輸出語言並不像電腦機器人替代聲音,而是近似於人類所發出聲音。
  • 關於聲智科技Spartan-6系列麥克風陣列介紹
    隨著語音交互行業發展的如火如荼,全球領先的可編程邏輯解決方案供應商賽靈思也開始布局語音交互市場,此次聯合聲智科技發布了Spartan-6系列麥克風陣列。 最先上線的SAI_MICA_60C_UI 遠場語音交互通用型麥克風陣列,搭載賽靈思Spartan-6系列FPGA晶片、採用6顆高靈敏度遠場拾音專用麥克風,通用USB埠輸出以及高集成度模塊化設計,是北京聲智科技有限公司以十多年聲學技術積累,融合人工智慧技術,面向企業用戶和技術發燒友發布的,一款可靈活快速集成的遠場語音交互解決方案。
  • 微軟全球技術院士黃學東:「超人」語音識別模型
    9 月 8 日,我們專訪了機器之心的「老朋友」——微軟全球技術院士黃學東,共同探討了語音領域這一年裡技術方法的變遷,關注重點的轉移,以及從高精度模型到好用產品的轉化之路。雖然微軟有錢有人力,但是我們希望與其他研究人員站在同樣的起跑線上交流系統研發成果,並且做到最好。從 5.9% 到 5.1% 是如何實現的呢?調整結構亦或調整參數?我們跑了一千多個實驗,評估了上百個不同的模型,幾乎把所有的排列組合試了一遍,可以說是「粒粒皆辛苦」了。
  • 思必馳 CTO 周偉達:語音技術優先服務於 AIoT | CCF-GAIR 2019
    峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智慧與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智慧和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智慧領域極具實力的跨界交流合作平臺。當下,智能語音技術成為下一代人機互動新模式已經得到了業界的認可,智能交互、就近喚醒、全雙工成為當下語音技術中前沿技術探討點。
  • 麥克風在語音交互產品中的使用,測試評估與優化
    VUI可以使用語音作為通信手段來實現人與設備之間的交互。它可以將命令和問題形式的信息傳輸到具有或不具有雲連接的電子系統。VUI已在許多消費者應用程式中實現,例如智慧型手機,智能電視和智能家居設備(例如Amazon Echo或Google Home)。VUI的概念基於使用單個麥克風或陣列捕獲音頻信號的情況–見圖1。
  • 基於麥克風陣列的聲源跟蹤系統
    摘要:隨著科技的發展,聲源定位技術在越來越多的地方發揮著重要的作用,在多個領域有著廣泛的應用。聲源目標跟蹤技術可以應用在視頻錄製、安防監控、鳴笛抓拍等場景中,在這些場景中,針對目標對象的語音信號,可以應用陣列信號處理的知識,將麥克風按照特定陣列放置在空域中,利用空間不同位置點的聲源對麥克風陣列響應的時延相位誤差,對聲源進行測向,實現低成本的聲源定位跟蹤功能。