微軟最新AI系統!使用雲端麥克風陣列,音頻轉錄精度提升22.4%

2021-01-09 手機鳳凰網

導語:微軟利用人工智慧轉錄會議音頻,新系統使用雲端麥克風陣列。

智東西9月16日消息,微軟語音和對話研究小組的科學家最近研發了一個系統,利用內置於智慧型手機、筆記本電腦和平板電腦中的麥克風來提高音頻質量。

這個系統通過智能硬體連接網際網路,在雲端形成臨時的麥克風陣列,可以實時高精度轉錄音頻。研究小組計劃在Interspeech 2019年會議上發表相關的研究論文。

會議室的音頻無法及時可靠地傳達給遠程參加會議的各方時,總會令人感到非常無奈。音響效果的差異和幹擾總是導致線路另一端接收的音頻清晰度降低。

接下來我們一起了解一下,微軟設計的雲端麥克風系統,是如何提高音頻轉錄的精度和效率的。

一、雲端麥克風陣列提高音頻精度

微軟團隊的解決方案是一個端到端系統,首先從不同的麥克風收集聲音信號,然後進行波束成形,這種技術能使麥克風陣列對來自特定方向的聲音更加敏感。

該系統的主要研究人員Takuya Yoshioka在博客中寫道:「我們方法背後的核心思想是利用與會者通常攜帶到會議現場的筆記本電腦和智慧型手機等任何與網際網路相連的設備,虛擬地在雲端形成一個臨時的麥克風陣列。」

由一個識別信號之間關係的模型進行編排。在波束形成過程中,信號被反饋到下遊的語音識別模塊,然後對它們進行合併、注釋並發送回與會者。

據研究團隊介紹,通過他們的方法,使用雲端麥克風陣列,參加會議時人們可以使用已經帶到會議現場的手機、筆記本電腦和平板電腦實時高精度轉錄音頻,無需專用的硬體設備。

Takuya Yoshioka指出,這種方法在理論上要比執行上簡單,因為不同設備之間的音頻保真度存在很大差異,不同麥克風捕捉到的語音信號彼此並不一致。設備的數量及其相對位置在每次會議之間的不一致也增加了麥克風陣列的設計難度。

二、語音轉錄系統仍需進一步完善

研究人員報告說,在定性測試中,他們的人工智慧系統在使用3個麥克風和7個麥克風的情況下,其性能分別比單設備系統高出14.8%和22.4%。

研發團隊表示,他們的系統還不完善,偶爾會因為重疊的語音而出錯。測試中,有10%的錄音中包含不止一個說話者,這時語音轉錄的錯誤率為13.6%。

論文中Takuya Yoshioka和他的同事寫道:「我們將設備分布在放假各處,獲得了更好的空間覆蓋率,研究顯示了多個異步麥克風在真實場景中滿足轉錄的有效性。」

結語:語音轉錄技術提升還需加大研發投入

微軟在語音轉錄方面的研究迎合了市場的需求。去年夏天,微軟在語音轉錄方面的研究已經應用在了微軟365上,可以自主將語音轉換為文本,與會者還能通過視頻記錄轉換文本,使錄音文件的文本轉錄變得更加簡單便捷。

幾個月後,微軟在又OneDrive和SharePoint中推出了音頻和視頻文件的自動轉錄功能,進一步提升了文本轉換的效率。

語音文本的實時轉錄,在辦公和學習場景中都有很強的實用性。目前,語音轉錄系統還不完善,轉錄的準確性還有待提升,在數據、算法等方面還需要更多的研發投入,以滿足消費者在不同場景下的需求。

論文連結:https://www.microsoft.commeetingtranscriptionsusingvirtualmicrophonearrays.pdf

原文來自:VentureBeat

相關焦點

  • 微軟新專利:包含魚眼鏡頭和麥克風陣列的AI設備
    近年來微軟不斷強調人工智慧的重要性,甚至預測其各種應用將會在未來幾年為全球GDP增長貢獻5萬億美元。在過去數月裡微軟已經增強了和很多合作夥伴的合作關係,共同探索和推動AI領域的發展。本月微軟提交申請的一項專利被美國商標和專利局(USPTO)收錄,展示帶有單個魚眼攝像頭和多個麥克風陣列的人工智慧系統。魚眼攝像頭具備特殊的鏡頭可以監控360度全景。儘管該技術並不新鮮,但微軟計劃以不同的方式和其他周圍環境傳感設備配合使用。這種環境捕獲系統通常具有多個攝像機以擴展其視野。這需要複雜的設計,並且還需要額外的硬體來融合多個視頻數據流。
  • 利用MEMS麥克風陣列定位並識別音頻或語音信源的技術方案
    特別是基於微機電系統(MEMS) 的麥克風陣列出現後,麥克風陣列音頻定位方案引起科研企業和開發人員的廣泛關注。麥克風陣列可捕捉從不同方向傳來的聲音,通過算法運算使麥克風指向某一個特定方向,放大從該方向捕捉到的音頻信號,同時衰減從其它方向捕捉的音頻信號,整個動作就像一個智能麥克風。
  • 回顧微軟30年沉浸式3D音頻、聲學領域的研究歷程
    微軟發布了WindowsVista,包括對四種預選麥克風陣列幾何結構的支持,以及對USB麥克風陣列的標準化支持。之後,Windows 10已經能夠支持任意幾何形狀的麥克風陣列。捕捉和再現聲音1998年:微軟研究人員開始試驗麥克風陣列,他們建造了第一個麥克風陣列。2005年:微軟的研究人員建立了「Audio Devices /音頻設備」項目,並構建和評估了兩個USB麥克風陣列原型:一個四元線性陣列和一個八元圓形陣列。2007年:微軟雷德蒙德研究中心搬進了Building 99的新家。這個建築包括公司的第一個消聲室。
  • 回顧微軟30年沉浸式3D音頻、聲學領域的研究歷程
    微軟發布了WindowsVista,包括對四種預選麥克風陣列幾何結構的支持,以及對USB麥克風陣列的標準化支持。之後,Windows 10已經能夠支持任意幾何形狀的麥克風陣列。捕捉和再現聲音1998年:微軟研究人員開始試驗麥克風陣列,他們建造了第一個麥克風陣列。2005年:微軟的研究人員建立了「Audio Devices /音頻設備」項目,並構建和評估了兩個USB麥克風陣列原型:一個四元線性陣列和一個八元圓形陣列。2007年:微軟雷德蒙德研究中心搬進了Building 99的新家。這個建築包括公司的第一個消聲室。
  • 數字麥克風和陣列拾音技術的應用
    數字麥克風和陣列拾音技術的應用 葉子 發表於 2011-07-28 10:05:53     隨著數位訊號處理技術的發展,使用數字音頻
  • 詳解麥克風陣列的基本原理、結構組成及聲學效果
    陣列(Array):數學定義——有限個相同資料形態之元素組成之集合麥克風陣列具有對遠場幹擾噪聲很強的抑制作用,應用於便攜IT設備如PDA、GPS、NB、手機等在較大噪聲環境中使用時表現出較好的效果。小型麥克風陣列由一組麥克風單元在一個小範圍內按照一定空間分布組合而成,由於它在噪聲環境下具有良好的信號採集性,因此越來越受到聲學應用領域的關注。
  • 麥克風陣列的基本原理、結構組成及聲學效果簡介
    通過對所有麥克風信號的綜合處理,麥克風陣列可以組合成為所要求的強指向性麥克風,形成被稱為「波束」的指向特性。麥克風陣列的波束可以經由特殊電路或程序算法軟體控制,使其指向聲源方向而加強音頻採集效果。陣列算法處理後的指向性波束形成技術能精確的形成一個錐狀窄波束,只接受說話人的聲音同時抑制環境中的噪音與幹擾。
  • MEMS麥克風重塑音頻領域,人工智慧(AI)將引領音頻市場的發展和轉型
    它們基於音頻編解碼器、麥克風、微型揚聲器以及音頻放大器等音頻系統的傳統組件,並利用人工智慧技術來計算和分析語音數據。人工智慧計算可以實現複雜的音頻功能,例如語音識別和音源定位等。這些計算可以在雲端或在消費電子產品邊緣進行。在雲端執行的數據分析需要較高的數據處理能力和大量的數據交換。
  • 基於麥克風陣列的聲源跟蹤系統
    本作品便是基於麥克風陣列的聲源跟蹤系統,將6路麥克風按照線型排列,並接入瑞薩SK-S7G2單片機的6路ADC中,單片機將採樣值通過陣列信號處理中波達方向(DOA)估計等算法,獲得聲源的來波方向。然後用單片機去驅動雲臺,上面搭載攝像頭或者高指向性麥克風,可以實現用戶特定的跟蹤需求。
  • 基於MEMS麥克風陣列的四通道語音採集系統設計
    本文基於此出發點,採用四個ADMP441 MEMS 數字麥克風,使用BF533 DSP 作為主控,組成一個4 聲道的語音實時採集系統,在時頻域的基礎上增加一個空間域,以便對來自空間不同方向的信號進行實時處理,彌補了傳統單聲道的缺陷。
  • 大熱的麥克風陣列語音識別系統的設計和輕鬆實現,提供軟硬體解決方案
    使用麥克風陣進行語音識別的好處是通過提高信噪比來提高語音識別率。而本項目與傳統的麥克風陣進行語音識別的方法又有不同,它將語音接收端與語音識別部分組成一個反饋系統,通過優化接收端濾波器的係數,使跟語音識別密切相關的倒譜域似然比最大,來提高語音識別準確率。在進行Matlab仿真之後,將算法應用到FPGA中。FPGA開發板暫定為Xilinx公司的Nexys 3 Spartan-6 FPGA Board。
  • MEMS麥克風技術滿足音頻市場的性能要求
    還希望在進一步捕捉麥克風的聲音時有好的音頻質量。這些趨勢需要更高性能的麥克風,一些手機還具有噪聲消除或視頻模式下的3D聲音,通過使用兩個或兩個以上的麥克風。此外,對用戶聲音作出反應的智能數字助理的出現正改變人們與計算機進行交互的方式,可以推動高性能的音頻子系統到更多的產品,如可穿戴、智能音箱和未來的物聯網 ( IoT ) 設備。
  • 智能語音技術中麥克風陣列的原理
    麥克風陣列(Microphone Array),從字面上,指的是麥克風的排列。也就是說由一定數目的聲學傳感器(一般是麥克風)組成,用來對聲場的空間特性進行採樣並處理的系統。本文引用地址:http://www.eepw.com.cn/article/201807/383049.htm
  • 浪潮擁有全球領先的AI伺服器陣列
    NeurIPS舉辦的AutoDL系列賽是自動機器學習領域的全球頂級賽事,吸引了包括清華大學、北京大學、南京大學、卡內基梅隆大學、首爾大學、弗萊堡大學、漢諾瓦大學等著名前沿科研院校以及Google、微軟、阿里、騰訊、浪潮等領先AI科技公司參加。 而AutoDL 2019-2020總決賽作為系列賽的收官之戰,其難度進一步加大。
  • 廣播百科 麥克風陣列
    (Microphone Array):其實就是一個聲音採集的系統,該系統使用多個麥克風採集來自於不同空間方向的聲音。從字面上,指的是麥克風的排列。也就是說由一定數目的聲學傳感器(一般是麥克風)組成,用來對聲場的空間特性進行採樣並處理的系統。早在20世紀70、80年代,麥克風陣列已經被應用於語音信號處理的研究中,進入90年代以來,基於麥克風陣列的語音信號處理算法逐漸成為一個新的研究熱點。而到了「聲控時代」,這項技術的重要性顯得尤為突出。
  • 百度推出AI音頻轉錄工具SwiftScribe,讓你20分鐘搞定1小時的錄音 |...
    百度在近年一直在持續改善其新一代深度語音識別系統DeepSpeech2。DeepSpeech2系統由百度矽谷人工智慧實驗室(SVAIL)研發,並在去年被麻省理工科技評論評為2016年十大突破技術。 「百度在語音技術領域不斷進步,語音接口更為實用和有效。用戶可以愈加便利地與身邊的設備進行互動。
  • 樂鑫發布 AI 語音麥克風陣列開發板 ESP32-Korvo
    樂鑫信息科技發布 AI 語音麥克風陣列開發板 ESP32-Korvo 。這是一款針對物聯網嵌入式設備的 AI 語音開發板,基於樂鑫的旗艦晶片 ESP32,搭載多麥克風陣列,能夠實現高性能、低功耗的遠場語音喚醒和命令詞識別功能。本文引用地址:http://www.eepw.com.cn/article/202004/411927.htm近年來,隨著人工智慧和物聯網的興起,語音逐漸成為我們與智能設備交互的一種典型方式。
  • 一文帶你全面熟悉智能語音之麥克風陣列技術的原理
    一文帶你全面熟悉智能語音之麥克風陣列技術的原理 佚名 發表於 2017-12-13 14:06:22  麥克風陣列(Microphone Array
  • 微軟語音 AI 技術與微軟聽聽文檔小程序實踐|AI ProCon 2019
    大家聽聽這個數據集的例子:電話上有兩個人在交流,語音具有不連續性、噪音、口音,所以識別難度對機器來講是非常大的,微軟使用10個神經網絡技術,比如:CNN、ResNet、VGG等,多模型輸出打分、多系統融合,得到了這個了不起的突破。
  • EPOS攜企業級高端耳機及全向麥克風亮相,開創音頻新體驗
    因此,也對遠程辦公與協作所需的音頻通信解決方案提出了更高要求。近日,丹麥領先的音頻解決方案公司EPOS Group A/S(簡稱:EPOS)品牌發布會在京舉行,面向中國市場發布了六款企業級高端耳機及最新發布的EXPAND 80全向麥克風產品。EPOS企業解決方案部門副總裁謝宏傑表示:「中國市場對EPOS來說至關重要。