將錄音語音與圖像相關聯的系統可以達到完全自動語音識別。MIT 研究人員研發了一種新的訓練語音識別系統的方法,它不依賴於轉錄抄本(transcription)。相反,這個系統的工作方式是分析圖像間的關聯和圖像的語言描述,而這些語言描述是在大量的音頻記錄中捕獲的。點擊閱讀原文查看論文。
語音識別系統,如手機上將語音轉換為文本的軟體,通常是機器學習的產物。計算機通過研究數以百萬的音頻文件和它們的轉錄,學習得到音頻的聲學特徵與詞語類型的對應關係。
但目前轉錄是一項昂貴、費時的工作,因此語音識別的研究只限於少數經濟發達國家的語言。
在本周的神經信息處理系統會議(Neural Information Processing Systems conference)上,MIT 計算機科學與人工智慧實驗室(CSAIL)的研究人員提出了一種新的方法來訓練語音識別系統,使其不依賴於轉錄。相反,這個系統的工作方式是分析圖像間的關聯和圖像的語言描述,而這些語言描述是在大量的音頻記錄中捕獲的。該系統會學習錄音中的聲學特徵與圖像特性之間的對應關係。
「該研究的目標是讓機器學習語言的方式更像人類,」CSAIL 的高級研究員 Jim Glass 說,他也是闡述此系統的論文的合著者。「當前用來訓練語音識別的方法是完全的有監督學習。一段聲音會被標記為對應的意思。這種被標記的數據量是非常大的。」
「我們已經取得了巨大進步——我們有了 Siri 和 Google assistant——但是對語音標註是昂貴的,因此它們大多用於世界主要語言。世界上有 7000 種語言,我認為只有不到 2% 具有自動語音識別(ASR)的能力,我們可能無暇解決其它語言的語音識別問題。因此,如果你在思考技術怎樣造福整個社會,那麼思考為了改變現狀我們可以做什麼也是很有趣的。我們多年來一直在探索的方法是怎樣在減少監督的情況下實現機器學習。」Glass 說道。
與 Glass 合作論文的有第一作者 David Harwath,MIT 電氣工程和計算機科學(EECS)研究生,以及 EECS 教授 Antonio Torralba。
視覺語義
論文中描述的系統類型不同於傳統的將語音與標籤文本對應的系統; 相反,它將語音與一組主題相關的圖像關聯起來。這種關聯可以作為其它系統的基礎。
例如,如果一段語音與特定類別的圖像相關聯,並且圖像具有與其相關聯的文本標籤,則可以找到這段語音可能的轉錄,而所有環節都不需要人工參與。類似,一組具有各種語言文本標籤的圖像可以為自動翻譯提供解決方法。
相反,與類似內容的圖像集(如「暴風雨」和「雲」)所相關的標籤文本詞語可以被推斷為具有相關含義。因為從某種意義上該系統在學習詞的意義——與它們相關聯的圖像——而不僅僅是它們的聲音,所以它比標準語音識別系統具有更廣泛的潛在應用。
為了測試該系統,研究人員使用了數據大小為 1000 的圖像集,每一張圖像帶有一段相關的語音描述。研究人員可以將其中的一段語音傳入系統,並讓系統返回 10 張最符合的圖像。這一個 10 張圖像的集合能以 31% 的概率含有一張正確的圖像。
「我一直在強調我們正在像嬰兒一樣學步,未來仍然有很長的路要走,」Glass 說。「但是這是一個振奮人心的開始。」
研究人員從海量資料庫中取得圖像來訓練該系統,這個資料庫是由 Torralba;CSAIL 的首席研究員 Aude Oliva;以及他們的學生建造的。他們在亞馬遜 Mechanical Turk 眾包網站上僱人使用語音描述圖像,這些語音可以是任何腦海裡蹦出的短語,大概持續 10 到 20 秒。
作為研究方法的初步論證,這種裁剪的數據對於保證預測結果是很必要的。但是該研究的最終目的是使用數字視頻來訓練系統,最大程度的減少人工參與。「自然而然地,我認為它可以發展到完全使用視頻,」Glass 說。
融合形態
為了建立這種系統,研究人員使用了神經網絡,一種模仿大腦結構的機器學習系統。神經網絡由多個處理節點組成,每個節點像單個神經元一樣,處理節點僅能夠進行非常簡單的計算,但是它們在密集網絡中彼此連接。需要處理的數據被輸送到網絡的輸入節點,節點進行一步處理並且將其傳遞到其它節點,再由下一個節點進一步處理,這一過程在神經網絡中會不斷繼續。當神經網絡被數據集訓練時,它不斷地修改由其節點執行的操作流程,以便改進其在特定任務上的性能。
研究人員的神經網絡被分為兩個單獨的網絡:一個將圖像作為輸入;另一個採用頻譜圖,代表音頻信號作為幅度隨時間變化的分量頻率。每個網絡的頂層的輸出是 1024 維向量——1024 個數字的序列。
網絡中的最終節點採用兩個向量的點積。也就是說,它將向量中的對應項相乘在一起,並將它們全部相加以產生單個輸出。在訓練期間,當音頻信號對應於圖像時,網絡必須嘗試使點積最大化,並且當音頻信號不對應時使網絡輸出最小化。
研究人員系統的每個譜圖可以識別點積峰。在實驗中,這些峰值可靠地挑選出了解釋圖像的詞語標籤——例如給棒球投手的照片標記「棒球」,或為草地圖像標記「草地」和「場地」。
在目前的研究中,研究人員正在繼續完善該系統,使它可以挑選出單個詞的譜圖並且僅識別與它們相對應的圖像的那些區域。
「一個嬰兒在學會形容周遭環境的過程中,大部分需要處理的信息可能都來自於視覺,」臺灣大學電機工程和資訊工程系教授李琳山說道。「今天,機器已經開始模仿這樣的學習過程了。這項研究是這一方向最早的探索,令人印象深刻。」
「也許更令人興奮的是,我們能以此探究深層神經網絡可以學到多少,」芝加哥大學豐田技術學院助理教授 Karen Livescu 說道。「研究人員在這方面的工作越多,我們從大數據中挖掘出的潛力就越大。我們一直難以標記體量巨大的數據集,所以這項研究備受矚目,Harwath 等人可以讓系統從未標記的數據集中學習。我對此非常期待,想看看他們能走多遠。」
下面是相關研究論文
摘要 :人類在學會讀寫之前就可以說話了,為什麼計算機不能同樣如此? 在本研究中,我們提出了一個深層神經網絡模型,能夠使用未經轉錄的音頻訓練數據進行基本的口語語言學習,其唯一的監督來自於上下文相關的圖像形式。我們描述了由12萬多個語音音頻標記的圖像數據集,並評估了我們的模型在圖像搜索和注釋任務的表現。我們同時提供了一些可視化結果,以證明我們的模型是在學習從字幕譜圖中識別有意義的單詞。
原文連結:http://news.mit.edu/2016/recorded-speech-images-automated-speech-recognition-1206
©本文為機器之心編譯文章,轉載請聯繫本公眾號獲得授權。
✄---
加入機器之心(全職記者/實習生):hr@almosthuman.cn
投稿或尋求報導:editor@almosthuman.cn
廣告&商務合作:bd@almosthuman.cn