前沿 MIT研發語音關聯的圖像識別系統,一次破解所有語言

2021-01-14 機器之心


將錄音語音與圖像相關聯的系統可以達到完全自動語音識別。MIT 研究人員研發了一種新的訓練語音識別系統的方法,它不依賴於轉錄抄本(transcription)。相反,這個系統的工作方式是分析圖像間的關聯和圖像的語言描述,而這些語言描述是在大量的音頻記錄中捕獲的。點擊閱讀原文查看論文。


語音識別系統,如手機上將語音轉換為文本的軟體,通常是機器學習的產物。計算機通過研究數以百萬的音頻文件和它們的轉錄,學習得到音頻的聲學特徵與詞語類型的對應關係。


但目前轉錄是一項昂貴、費時的工作,因此語音識別的研究只限於少數經濟發達國家的語言。


在本周的神經信息處理系統會議(Neural Information Processing Systems conference)上,MIT 計算機科學與人工智慧實驗室(CSAIL)的研究人員提出了一種新的方法來訓練語音識別系統,使其不依賴於轉錄。相反,這個系統的工作方式是分析圖像間的關聯和圖像的語言描述,而這些語言描述是在大量的音頻記錄中捕獲的。該系統會學習錄音中的聲學特徵與圖像特性之間的對應關係。


「該研究的目標是讓機器學習語言的方式更像人類,」CSAIL 的高級研究員 Jim Glass 說,他也是闡述此系統的論文的合著者。「當前用來訓練語音識別的方法是完全的有監督學習。一段聲音會被標記為對應的意思。這種被標記的數據量是非常大的。」


「我們已經取得了巨大進步——我們有了 Siri 和 Google assistant——但是對語音標註是昂貴的,因此它們大多用於世界主要語言。世界上有 7000 種語言,我認為只有不到 2% 具有自動語音識別(ASR)的能力,我們可能無暇解決其它語言的語音識別問題。因此,如果你在思考技術怎樣造福整個社會,那麼思考為了改變現狀我們可以做什麼也是很有趣的。我們多年來一直在探索的方法是怎樣在減少監督的情況下實現機器學習。」Glass 說道。


與 Glass 合作論文的有第一作者 David Harwath,MIT 電氣工程和計算機科學(EECS)研究生,以及 EECS 教授 Antonio Torralba。


視覺語義


論文中描述的系統類型不同於傳統的將語音與標籤文本對應的系統; 相反,它將語音與一組主題相關的圖像關聯起來。這種關聯可以作為其它系統的基礎。


例如,如果一段語音與特定類別的圖像相關聯,並且圖像具有與其相關聯的文本標籤,則可以找到這段語音可能的轉錄,而所有環節都不需要人工參與。類似,一組具有各種語言文本標籤的圖像可以為自動翻譯提供解決方法。


相反,與類似內容的圖像集(如「暴風雨」和「雲」)所相關的標籤文本詞語可以被推斷為具有相關含義。因為從某種意義上該系統在學習詞的意義——與它們相關聯的圖像——而不僅僅是它們的聲音,所以它比標準語音識別系統具有更廣泛的潛在應用。


為了測試該系統,研究人員使用了數據大小為 1000 的圖像集,每一張圖像帶有一段相關的語音描述。研究人員可以將其中的一段語音傳入系統,並讓系統返回 10 張最符合的圖像。這一個 10 張圖像的集合能以 31% 的概率含有一張正確的圖像。


「我一直在強調我們正在像嬰兒一樣學步,未來仍然有很長的路要走,」Glass 說。「但是這是一個振奮人心的開始。」


研究人員從海量資料庫中取得圖像來訓練該系統,這個資料庫是由 Torralba;CSAIL 的首席研究員 Aude Oliva;以及他們的學生建造的。他們在亞馬遜 Mechanical Turk 眾包網站上僱人使用語音描述圖像,這些語音可以是任何腦海裡蹦出的短語,大概持續 10 到 20 秒。


作為研究方法的初步論證,這種裁剪的數據對於保證預測結果是很必要的。但是該研究的最終目的是使用數字視頻來訓練系統,最大程度的減少人工參與。「自然而然地,我認為它可以發展到完全使用視頻,」Glass 說。


融合形態


為了建立這種系統,研究人員使用了神經網絡,一種模仿大腦結構的機器學習系統。神經網絡由多個處理節點組成,每個節點像單個神經元一樣,處理節點僅能夠進行非常簡單的計算,但是它們在密集網絡中彼此連接。需要處理的數據被輸送到網絡的輸入節點,節點進行一步處理並且將其傳遞到其它節點,再由下一個節點進一步處理,這一過程在神經網絡中會不斷繼續。當神經網絡被數據集訓練時,它不斷地修改由其節點執行的操作流程,以便改進其在特定任務上的性能。


研究人員的神經網絡被分為兩個單獨的網絡:一個將圖像作為輸入;另一個採用頻譜圖,代表音頻信號作為幅度隨時間變化的分量頻率。每個網絡的頂層的輸出是 1024 維向量——1024 個數字的序列。


網絡中的最終節點採用兩個向量的點積。也就是說,它將向量中的對應項相乘在一起,並將它們全部相加以產生單個輸出。在訓練期間,當音頻信號對應於圖像時,網絡必須嘗試使點積最大化,並且當音頻信號不對應時使網絡輸出最小化。


研究人員系統的每個譜圖可以識別點積峰。在實驗中,這些峰值可靠地挑選出了解釋圖像的詞語標籤——例如給棒球投手的照片標記「棒球」,或為草地圖像標記「草地」和「場地」。


在目前的研究中,研究人員正在繼續完善該系統,使它可以挑選出單個詞的譜圖並且僅識別與它們相對應的圖像的那些區域。


「一個嬰兒在學會形容周遭環境的過程中,大部分需要處理的信息可能都來自於視覺,」臺灣大學電機工程和資訊工程系教授李琳山說道。「今天,機器已經開始模仿這樣的學習過程了。這項研究是這一方向最早的探索,令人印象深刻。」


「也許更令人興奮的是,我們能以此探究深層神經網絡可以學到多少,」芝加哥大學豐田技術學院助理教授 Karen Livescu 說道。「研究人員在這方面的工作越多,我們從大數據中挖掘出的潛力就越大。我們一直難以標記體量巨大的數據集,所以這項研究備受矚目,Harwath 等人可以讓系統從未標記的數據集中學習。我對此非常期待,想看看他們能走多遠。」


下面是相關研究論文




摘要 :人類在學會讀寫之前就可以說話了,為什麼計算機不能同樣如此? 在本研究中,我們提出了一個深層神經網絡模型,能夠使用未經轉錄的音頻訓練數據進行基本的口語語言學習,其唯一的監督來自於上下文相關的圖像形式。我們描述了由12萬多個語音音頻標記的圖像數據集,並評估了我們的模型在圖像搜索和注釋任務的表現。我們同時提供了一些可視化結果,以證明我們的模型是在學習從字幕譜圖中識別有意義的單詞。



原文連結:http://news.mit.edu/2016/recorded-speech-images-automated-speech-recognition-1206



©本文為機器之心編譯文章,轉載請聯繫本公眾號獲得授權

✄---

加入機器之心(全職記者/實習生):hr@almosthuman.cn

投稿或尋求報導:editor@almosthuman.cn

廣告&商務合作:bd@almosthuman.cn

相關焦點

  • 前沿| MIT研發語音關聯的圖像識別系統,一次破解所有語言
    選自MIT機器之心編譯參與:Jane W、李澤南將錄音語音與圖像相關聯的系統可以達到完全自動語音識別。MIT 研究人員研發了一種新的訓練語音識別系統的方法,它不依賴於轉錄抄本(transcription)。相反,這個系統的工作方式是分析圖像間的關聯和圖像的語言描述,而這些語言描述是在大量的音頻記錄中捕獲的。點擊閱讀原文查看論文。
  • 包括的領域有計算機視覺,語音識別,自然語言處理,圖像識別等
    現在人工智慧已經包括的領域有計算機視覺,語音識別,自然語言處理,圖像識別等。人工智慧的步驟人工智慧基本步驟包括,信息提取->信息分析->假設建模->學習->泛化,具體步驟。如果說計算機視覺是讓計算機看到一張黑白的二維圖像,那麼它可以識別字符串,可以通過圖像獲取某個標註的信息,它具有特定的識別圖像,可以從圖像分析出某個基本的結構。
  • 語音識別原理及其語音識別系統分類
    一、語音識別原理語言交流是人類一種天然的溝通模式。從兒童時代開始我們對語言的相關學習都是自發的,語言交流始終貫穿於我們的生活。它是那麼的自然以至於我們根本沒有發現這是一種多麼複雜的現象。限制的最好方法是在所有較低的層次中利用概率相結合的決策,而只在最高層次中使用離散決策。一個標準的語音識別系統如下圖所示。
  • 谷歌驗證碼系統被破解 機器語音驗證準確率高達85%
    美國馬裡蘭大學的四位研究員開源了一個名為UnCaptcha的工具,能夠破解谷歌的驗證碼系統ReCaptcha,其進行語音驗證的準確率高達85%。與眾多驗證機制一樣,早期的ReCaptcha系統通過數字驗證碼進行識別,以此確保操作方是人類而非機器人。但是,2012年一個谷歌研究團隊幾乎百分之百破解了其文本驗證碼系統。
  • 語音識別技術簡史
    但是,我們一般理解的語音識別其實都是狹義的語音轉文字的過程,簡稱語音轉文本識別( Speech To Text, STT )更合適,這樣就能與語音合成(Text To Speech, TTS )對應起來。語音識別是一項融合多學科知識的前沿技術,覆蓋了數學與統計學、聲學與語言學、計算機與人工智慧等基礎學科和前沿學科,是人機自然交互技術中的關鍵環節。
  • 語音識別 AI 挑戰賽上線:用深度學習三種結構,對 50 種環境聲音...
    從而實現對輸入的複雜數據的高效處理,使機器可以像人一樣智能地學習不同的知識,並且有效地解決多類複雜的智能問題;例如:語音識別、圖像視頻識別、語言處理和信息檢索等領域。根據深層神經網絡的構造方式、訓練方法等因素,我們將深度學習分為了 3 大類別:生成深層結構、判別深層結構以及混合深層結構。
  • ...為什麼說聲紋深度編碼把聲紋識別和其他語音關聯任務有機聯繫...
    8 月 8 日上午,崑山杜克大學大數據研究中心 SMIP 實驗室李明博士為前沿語音專場做了題為《基於深度編碼的聲紋識別及其關聯任務》的主題演講分享。語音交互日趨成為人機互動的重要入口。語言自帶指令屬性,是人類最自然、最日常的溝通方式之一。從通過按鍵、觸控與機器交互過渡到語音人機互動,無疑是一大飛躍。
  • 基於DSP的語音識別系統的實現及分析
    0 引言  語音識別技術的目的是使機器能理解人類語言,最終使人機通信成為現實。在過去幾十年,自動語音識別(AutomaticSpeech Recognition,ASR)技術已經取得了非常重大的進步。  ASR系統已經能從處理像數字之類的小詞彙量到廣播新聞之類的大詞彙量。然而針對識別效果來說,ASR 系統則相對較差。
  • 百度大腦產品上新&技術升級:圖像處理、智能寫作平臺、語音識別
    百度大腦一月一次的最新技術&產品盤點來了。在這裡,與百度大腦一起成長,見證 AI 的力量。您可以從 PC 端訪問百度 AI 開放平臺(ai.baidu.com)申請邀測,或使用最新產品。新開放 AI 技術能力語音識別語音識別極速版支持60秒內音頻使用 REST API 方式進行調用,簡單易用。
  • 華裔MIT博士開發新系統,快速解密
    ,該系統可以在不知道丟失的語言與其他語言的關係的情況下,對其進行解密。,語音的差異通過對應向量之間的距離反映出來。字符映射首先在已知語言的音標上執行。根據這些映射,已知詞彙表y中的一個標記y根據潛在對齊變量a被轉換為丟失語言中的標記x。最後,所有生成的標記以及未匹配的跨越中的字符被連接起來,形成丟失的碑文。
  • 語音識別 AI 挑戰賽上線:用深度學習三種結構,對 50 種環境聲音分類!
    從而實現對輸入的複雜數據的高效處理,使機器可以像人一樣智能地學習不同的知識,並且有效地解決多類複雜的智能問題;例如:語音識別、圖像視頻識別、語言處理和信息檢索等領域。語言按一定的短語規則和句子規則生成深層結構 (語義介入),而深層結構經轉換規則處理後變成表層結構 (語音介入),於是轉換為了人類看得見聽得懂的話語。而生成深層結構則是使得機器能夠通過學習觀測數據高階相關性,或觀測數據和關聯類別之間的統計特徵分布來實現模式分類,從而轉換為機器可以識別語言的一類深層結構。
  • 語音識別是什麼 語音識別聲學特徵介紹【圖文】
    到八十年代,語音識別技術開始了從實驗室到產品的轉移。  東芝在語音識別技術領域的研發,開始於上世紀七十年代,目前已經形成了以東京-劍橋-北京為中心的全球研發體系,開發出了包括中、日、英、法、德等十四種以上語言的語音識別系統。
  • 五位機器聽覺領域大咖,論道語音前沿 | CCF-GAIR 2020
    在未來展望上,宋輝博士表示,希望不斷提升神經網絡的泛化能力,使得各種分離網絡在真實的環境中可以取得滿意的結果;希望未來可以挖掘出更多語音分離的場景和應用。崑山杜克大學電子與計算機工程副教授李明:基於深度編碼的聲紋識別及其關聯任務緊接著登場的是崑山杜克大學電子與計算機工程副教授李明,其演講的題目為《基於深度編碼的聲紋識別及其關聯任務》。
  • DSP開發板的語音識別系統的研究
    0 引言  語音識別技術的目的是使機器能理解人類語言,最終使人機通信成為現實。在過去幾十年,自動語音識別(AutomaticSpeech Recognition,ASR)技術已經取得了非常重大的進步。  ASR系統已經能從處理像數字之類的小詞彙量到廣播新聞之類的大詞彙量。
  • 排名 語音識別_語音識別技術排名 - CSDN
    經過半個世紀的發展,語音識別技術在2011年之後迎來了黃金髮展時期:前微軟研究院俞棟和鄧力研究員首次將DNN在大詞彙量語音識別上成功應用,基於神經網絡的語音識別技術迅速成為了研究和產業上的投入密集地,在工業界Google和國內的訊飛成為了最早上線基於DNN的語音識別系統的兩家公司。經過接近10年的發展,語音識別技術取得了空前的進步,在多個場景下已經達到了實用水平。
  • 基於Julius的機器人語音識別系統構建
    只需要對幾十個字或詞的命令行進語音識別,便可使得原本需要手工操作的工作由語音輕鬆完成。本文針對現有機器人平臺,設計一個非特定人的孤立詞語音識別系統。  1 語音識別原理及JuliUS簡介  1.1 基於HMM的語音識別原理  語音識別系統是一種模式識別系統,系統首先對語音信號進行分析,得到語音的特徵參數,然後對這些參數進行處理,形成標準的模板。這個過程稱為訓練或學習。
  • 英科學家研發新型計算機系統識別人類語言
    不久的將來,高智慧機器人或許就將進入我們的生活,但是科學家們還需要開發智能語音系統
  • 從不溫不火到炙手可熱:語音識別技術簡史
    但是,我們一般理解的語音識別其實都是狹義的語音轉文字的過程,簡稱語音轉文本識別( Speech To Text, STT )更合適,這樣就能與語音合成(Text To Speech, TTS )對應起來。語音識別是一項融合多學科知識的前沿技術,覆蓋了數學與統計學、聲學與語言學、計算機與人工智慧等基礎學科和前沿學科,是人機自然交互技術中的關鍵環節。
  • 平安科技羅冬日:如何用RNN實現語音識別?| 分享總結
    但是,網上目前關於RNNs的基礎介紹很少,本文便是介紹RNNs的基礎知識,原理以及在自然語言處理任務重是如何實現的。文章內容根據雷鋒網AI研習社線上分享視頻整理而成。在近期雷鋒網AI研習社的線上分享會上,來自平安科技的人工智慧實驗室的算法研究員羅冬日為大家普及了RNN的基礎知識,分享內容包括其基本機構,優點和不足,以及如何利用LSTM網絡實現語音識別。
  • 反手一個AI搞定7000種語言
    語音、圖像一「鍵」搞定但乍看起來,這個系統好像也沒啥特別厲害的。語音識別、圖像識別不都是 AI 的常規操作嘛…沒錯,這倆都是常規,可加在一起就超常規了。所以,以往遇到這個問題時,語音和圖片之間是無法直接關聯的,而需要通過手動的轉錄或者注釋。比如 Siri,它需要先將數千個小時的語音記錄轉錄下來,通過這些數據,學會將語音信號與特定單詞相匹配。一旦人們發了什麼新詞,這種方法就不好用了,系統也得從頭練。