谷歌語音轉錄背後的神經網絡

2021-02-13 CSDN雲計算

【編者按】由於「記憶單元」的優勢,LSTM RNNs已經應用於Google、百度、科大訊飛的語音處理之中。最近,Google在其技術博客中自述了使用LSTM模型取代GMM模型實現語音轉錄的過程。文章尚未披露訓練模型的具體步驟,但介紹了數據源的解決、建模的思想,並對目前尚未解決的問題進行解析,如錯認「噪音」和轉錄標點符號,對希望嘗試LSTM的團隊有借鑑意義。

在過去的幾年中,深度學習在世界計算機科學難題中表現出了卓越的成就,從圖像分類、字幕添加到機器翻譯,再到可視化模型技術。最近,我們宣布了在谷歌語音轉錄上使用長短期記憶遞歸神經網絡(LSTM RNNs)所取得的成就(然而其他神經網絡也在提升服務性能)。我們想更詳細地講述我們是怎麼做到這些的。

從2009年上線以來,谷歌語音轉錄一直使用高斯混合模型(GMM)的聲音模型,30多年來,它們在語音識別領域獨佔鰲頭。用複雜的技術(比如將模型運用於人聲)增廣相對簡單的建模方法。

到了2012年左右,深度神經網絡(DNNs)徹底改變了語音識別領域。這些多層的網絡可以比GMMs更好地分辨聲音,它們採用了「判別訓練」的方式,將各個語音單位區分開而不是單獨對某個進行建模。

2012年5月份,谷歌語音轉錄第一次在安卓的語音識別上使用,使用遞歸神經網絡(RNNs)的確可以迅速提高性能,特別是LSTM RNNs。和DNNs相比,LSTM RNNs有額外的遞歸連接和記憶單元,可以讓神經元「記住」它們已經處理過的數據,跟你在聽到一句話然後口譯時候記住的單詞數目相當

連結:深入淺出LSTM神經網絡

但是,仍在使用GMMs的谷歌舊版語音信箱系統已經遠遠落後了。所以我們決定利用我們使用LSTM RNNs所積累的經驗,從頭開始設計它。但現在我們面臨著一些挑戰。


一個LSTM的記憶單元。顯示了它存儲、交流信息的閘門機制。供圖:Alex Graves

在音頻處理中,語音識別比識別單個聲音要考慮更多的因素:聲音序列需要匹配現有的文字,文字序列需要有現實意義。這叫做「語言建模」。語言模型通常用超大語料庫進行訓練,它們通常比語音數據要多出幾個數量級。找到大量的文本信息很容易,但是要找到與自然語言匹配的數據源卻並非易事。17世紀莎士比亞的戲劇中使用的英語不會對開發語音信箱系統有所幫助。

現在我們決定重新訓練聲音和語言模型,並且用現有的語音郵件來訓練。我們已經收集了一小部分由用戶捐贈用於研究的語音郵件,我們將用這些數據對轉錄進行訓練和測試,但重新訓練語言模型則需要更多的數據。所以我們要求用戶捐贈大量的語音郵件,並且向他們保證這些消息不會被任何人閱讀和竊聽,它們只被計算機及其學習算法使用。然而,在沒有人為確認和手工轉錄的情況下,我們又該怎樣來訓練模型呢?

我們不能單單使用舊版的轉錄模塊,因為它們已經用識別錯誤——無用數據輸入輸出——進行訓練了。恰恰相反我們開發了一套精巧的迭代管道來訓練模型。使用改進的聲音模型,我們能夠在離線情況下識別現有的語音郵件,得到更新的、更好的轉錄信息,這些信息將作為重新訓練語言模型的數據,有了更好的語言模型之後,我們就可以重新識別同樣的數據,然後重複上述過程。經過多步之後,識別錯誤率降低了,最終在原始系統的基礎上將識別錯誤率降低將近一半。這確實是個意外的驚喜。

但也存在其他的「驚喜」(不是那麼好的)。比如,有時候識別器會跳過整個語音片段;就好像是睡著了一樣,幾秒過後又醒來了。結果表明這個聲音模型偶爾會碰到bug,它會認為用戶接下來不會繼續說話了,然後將它聽到的作為噪聲,所以停止輸出。當我們重新訓練那些相同的數據的時候,我們會認為這些語音的確應該被忽略,這樣會強化模型繼續使用這種做法。將這種處理方式從識別器中剝離出來需要謹慎微調。

同樣,正確轉錄標點符號也是件困難的工作。老系統依賴於手動配置的規則或者語法,這種做法不能正確理解文本語境。比如,在之前的測試中,我們使用的算法將「I got the message you left me」(我收到了你留給我的信息)轉錄成了「I got the message, You left me」(我收到了信息,你離開了我)。為了修正這點,我們再次挖掘神經網絡,教LSTM在正確的位置插入標點符號。雖然結果並不是很完美,但是我們不斷嘗試各種方法來增加準確性。

在語音識別中,和其他許多複雜服務一樣,神經網絡正在迅速的替代以前的技術。當然神經網絡也有改進的餘地,而且我們正在研究更優越性能的新型網絡!

原文連結:The neural networks behind Google Voice transcription(譯者/劉翔宇 審校/劉帝偉、朱正貴 責編/周建丁)

關於譯者: 劉翔宇,中通軟開發工程師,關注機器學習、神經網絡、模式識別。

本文為CSDN編譯整理,未經允許不得轉載,如需轉載請聯繫market#csdn.net(#換成@)


相關焦點

  • 神經網絡立功勞 谷歌:翻譯誤字率下降超30%
    Conference大會上發表講話,期間披露了公司語音識別軟體在準確性上的最新狀況。據科技網站Mashable的卡麗莎·貝爾(Karissa Bell)發布的推文稱,迪恩說,谷歌語音識別軟體的誤字率(即轉錄單詞的錯誤率)已經下降超過30%。谷歌發言人後在電子郵件中向VentureBeat證實了這一數據。根據貝爾的推文,迪恩將這一改進歸功於「神經網絡的加入」。神經網絡屬於谷歌等公司應用於深度學習技術的系統。
  • 谷歌翻譯推出實時語音轉錄功能
    IT之家3月18日消息 據XDA報導,谷歌於幾個月前開始測試一項名為「持續翻譯(Continuous Translation)」的新功能,該功能於今年1月面向公眾,目前該功能名為「轉錄(Transcribe)」,未來幾天將向所有安卓用戶推送。
  • 外媒:谷歌Gboard翻譯模式增加了實時語音轉錄功能
    【手機中國新聞】據外媒AndroidPolice消息,谷歌的鍵盤應用程式通過9.7 beta版進行了另一項重大升級。谷歌現在已經推出了新的實時語音轉錄和翻譯功能。轉錄和翻譯文本對於Gboard來說並不是新功能,但現在已經合為一體。
  • 谷歌翻譯的新實時轉錄功能上線
    谷歌有限責任公司今天宣布了一個新的,人工智慧驅動和接近實時轉錄功能的谷歌翻譯應用程式的普遍可用性。今年1月首次披露,這一轉錄功能目前正在Android設備上推出。 谷歌翻譯將能夠支持任何一對八種語言之間的轉錄翻譯,包括英語、法語、印地語、葡萄牙語、俄語、西班牙語和泰語。
  • 谷歌發布Translatotron直接語音翻譯系統
    傳統上,語音翻譯系統通常有3個獨立的部分:自動語音識別將源語音轉錄為文本,機器翻譯將轉錄的文本翻譯成目標語言,最後,文本到語音合成(TTS)系統將翻譯文本轉換成目標語言的語音。  許多商業語音到語音翻譯的產品都採用這樣的系統,包括Google Translate。但是,這類系統依賴於中間文本,準確率不高,而且效率較低。
  • 谷歌開源Live Transcribe語音識別轉文字工具
    中關村在線消息:谷歌在其開源博客中宣布開源 Android語音識別轉錄工具——Live Transcribe的語音引擎,它可以將語音或對話實時轉錄為文字,還能夠為聽障人士提供幫助。谷歌開源Live Transcribe語音識別轉文字工具Live Transcribe 是谷歌於今年2月推出的一款Android應用程式,它的語音識別由谷歌最先進的Cloud Speech API提供。
  • 谷歌圖像識別神經網絡製造幻景
    今天36氪的一篇報導說:Faebook的AI技術可以自主生成一些含有飛機、汽車、小鳥等東西在內的場景圖像樣本,令受試者在40%的時間把計算機生成的圖樣當作是真的照片。 今後,我們在網絡上看到的圖片,哪些是人類的創造,哪些是機器的夢想?虛擬和現實之間,還會有明確的邊界麼?
  • 語音直接翻語音!谷歌語音翻譯新突破,不再需要中間文本
    這些系統通常被分成三個獨立的部分:自動語音識別將源語音轉錄為文本,機器翻譯將轉錄文本翻譯成目標語言,文本語音合成(TTS)(從翻譯文本生成目標語言的語音)。將任務劃分為這樣的級聯繫統非常成功,為許多商業語音翻譯產品提供了支持,包括谷歌翻譯。
  • 谷歌發布神經網絡翻譯系統
    谷歌發布神經網絡翻譯系統 Google今天宣布發布Google神經網路機器翻譯系統(Google Neural Machine Translation),簡稱GNMT,使用當前最先進的訓練技術,能夠實現到迄今為止機器翻譯質量的最大提升。
  • 重建「巴別塔」:谷歌推出全新端到端語音翻譯系統
    它還利用了另外兩個單獨訓練的組件:一個神經語音編碼器(vocoder),可以將輸出聲譜轉化為時間域波形;以及一個揚聲器編碼器(speaker encoder)(可選),可用於在合成翻譯語音中保持源語音的聲音特徵,如下圖所示。Translatotron 的模型架構。
  • 教程| 如何使用TensorFlow構建、訓練和改進循環神經網絡
    選自SVDS作者:Matthew Rubashkin、Matt Mollison機器之心編譯參與:李澤南、吳攀來自 Silicon Valley Data Science 公司的研究人員為我們展示了循環神經網絡(RNN)探索時間序列和開發語音識別模型的能力。
  • 深度神經網絡——中文語音識別
    這個過程主要採用了 3 種技術,即自動語音識別(automatic speech recognition,ASR)、自然語言處理(natural language processing,NLP)和語音合成(speech synthesis,SS)。語音識別技術的目的是讓機器能聽懂人類的語音,是一個典型的交叉學科任務。2.
  • 谷歌申請神經網絡翻譯專利,專家表示淡定,Facebook呢?
    兩周以前,谷歌宣布把自己的語義分析程序開源,現在,基於語義分析的神經網絡翻譯系統專利被公諸於世。2015 年十月,谷歌提交了這份專利申請,名為「神經機器關鍵字處理翻譯系統「,在 2016 年四月 28 日發布,谷歌為這項技術的具體實現方式申請了專利。谷歌將這項神經網絡MT(機器翻譯)系統的技術定義為「一個將兩種自然語言相互映射的神經網絡系統」。這項專利的關注點主要集中在具體映射的方法上,然而,專利中包含了大量侵權索賠條款。
  • 谷歌翻譯正在為演講提供實時轉錄模式
    在未來,谷歌翻譯將能夠轉錄長篇演講內容,同時將實時翻譯成另一種語言。這家科技巨頭在舊金山的一個活動上展示了即將推出的這一功能,並在會上演示了它的一些人工智慧項目。谷歌之前為這款應用引入了一種解釋器模式,但這一模式是為對話而設計的,而這一模式更多的是為長格式語音而設計的。
  • 當神經網絡遇上量子計算:谷歌證明量子神經網絡可訓練圖像分類
    谷歌已經證明了量子計算也能解決傳統機器學習中的圖像分類問題,而且隨著技術發展,量子計算機將在在學習能力上超越經典的神經網絡。另外量子計算還能解決經典網絡中一些棘手問題,比如預防出現模型訓練中的梯度消失問題。量子神經網絡在第一篇論文中,谷歌構建一個神經網絡的量子模型,研究如何在量子處理器上執行神經網絡的分類任務。
  • 谷歌翻譯推出實時語音翻譯功能 支持翻譯口述內容
    據XDA報導,谷歌於幾個月前開始測試一項名為「持續翻譯(Continuous Translation)」的新功能,該功能於今年1月面向公眾,目前該功能名為「轉錄(Transcribe)」,未來幾天將向所有安卓用戶推送。
  • 神經網絡加持!有它出國不再找翻譯 谷歌翻譯上手體驗
    六、翻譯實測對比 神經網絡加持的谷歌表現如何?2016年9月份,谷歌正式發布了Google神經網路機器翻譯系統(Google Neural Machine Translation),簡稱GNMT,簡單的說,就是谷歌翻譯擁有了神經網絡。神經網絡是什麼意思呢?傳統計算只包含了輸入、計算、輸出三個部分。
  • 中國AI同傳遭質疑之時,谷歌實時翻譯也被吐槽了
    另一方面,神經網絡則將句子作為一個整體來考慮,並根據之前訓練過的大量文本數據來猜測正確的輸出結果。通過機器學習,這些系統能夠考慮句子的上下文,從而提供更準確的翻譯。整合機器學習是Google Brain團隊的任務,該團隊是谷歌專門致力於深度學習研發的部門。Google Brain還將神經網絡應用到另一個工具上,這是實時翻譯的關鍵,但這似乎也導致其容易在語音識別上犯錯。
  • 神經網絡是怎樣理解圖片的?谷歌大腦研究員詳解特徵可視化
    這些圖像識別技術背後,通常是深度神經網絡。本文引用地址:http://www.eepw.com.cn/article/201711/371232.htm  不過,神經網絡究竟是怎樣認識圖像的?  △特徵可視化能夠告訴我們神經網絡在圖片中尋找的是什麼  特徵可視化這個強大的工具,就能幫我們理解神經網絡內部的世界,知道它們的工作原理。
  • 谷歌開源Neural Tangents:簡單快速訓練無限寬度神經網絡
    近日,谷歌一項研究成果在社區引發了關注,該研究宣稱可通過神經正切核(Neural Tangent Kernel)使用貝葉斯推理或梯度下降分析式地訓練無限寬度的神經網絡。使用谷歌開源的軟體庫 Neural Tangents,這個過程不僅簡單且快速,而且效果非常好,甚至只需 5 行代碼就能一步到位地構建並訓練這種無限寬度網絡的集成模型!