序列轉換模型三合一!谷歌提出首個端到端的直接語音翻譯模型

2020-12-15 雷鋒網

雷鋒網 AI 科技評論按:不同語言之間的語音到語音轉換早已不是什麼新鮮事了,任務拆分簡單直接,只需要把「源語言的語音識別模型(語音轉文本)」、「文本到文本翻譯模型」、「目標語言的語音生成模型(文本轉語音)」這三個模型串聯使用就可以。由於這三類模型的發展都各自比較成熟,現在市面上如谷歌翻譯這樣的軟體產品、如科大訊飛翻譯機這樣的專用硬體設備都能達到很好的多語互譯效果,準確率和延時都讓人比較滿意。

但技術研究的探索並不會就此止步。谷歌的研究人員們做了一次大膽的試驗,嘗試把語音轉文、文本到文本翻譯、文本轉語音這三個步驟合併到同一個端到端模型中完成!在論文「Direct speech-to-speech translation with a sequence-to-sequence model」(通過一個序列到序列模型進行語音到語音的直接轉換,https://arxiv.org/abs/1904.06037)中,他們用了一個帶有注意力機制的序列到序列轉換模型構建了新的翻譯系統,完全拋棄了需要經過文本表示的中間步驟。他們把這個系統命名為 Translatotron。雷鋒網 AI 科技評論介紹如下。

Translatotron 介紹

端到端語音模型的萌芽最早是在 2016 年開始的,當時研究人員們發現可以用單個序列到序列轉換模型實現語音到文本的轉換。在 2017 年,谷歌的研究人員們已經在研究中表明了這樣的端到端模型比傳統的瀑布式模型有更好的表現(https://arxiv.org/abs/1703.08581)。此後,領域內提出了越來越多的改進方案,不斷提升了端到端語音到文本序列轉換模型的表現,包括谷歌自己也在近期又提出了利用弱監督數據繼續提升表現的方案(https://arxiv.org/abs/1811.02050)。

Translatotron 則是全新的一步,直接把一個語言的語音轉換為另一種語言的語音,不需要經過文本形式的中間表示環節。它把源語言語音的頻譜圖作為輸入,然後直接輸出說話內容在目標語言的語音頻譜圖。模型中會使用兩個分別獨立訓練的組件:一個神經網絡聲碼器,它會把輸出的頻譜圖轉換成時域的音頻波形;另一個組件的使用是可選的,可以藉助一個說話人音色編碼器在生成的翻譯語音中保留源語音的特點。

在訓練過程中,這個序列到序列轉換模型使用了一個多任務並行訓練模型,它需要同時預測源語音轉文本的結果、文本翻譯的結果以及目標語音的頻譜圖。前兩個任務僅作為輔助任務,在訓練完成後就不再需要模型輸出文本結果了。

Translatotron 系統框圖

模型表現

谷歌的研究人員們用一個額外的語音識別系統識別 Translatotron 的輸出,然後通過 BLEU 分數定量地測試了模型的表現。雖然模型的表現不如傳統的三步式的語音轉換(這並不令人意外),但這已經證明了端到端的直接語音轉換的可行性。

谷歌提供了多組 Translatotron 和基線(傳統方法)語音轉換的對比,兩者都可以提供恰當的翻譯,發音也很標準。可以在 https://google-research.github.io/lingvo-lab/translatotron/試聽。

保留說話人特徵

藉助一個額外的說話人音色編碼器,Translatotron 可以在轉換後的語音中保留原本的說話人的聲音特徵,這讓轉換出的語音聽起來更自然、避免生硬。這個功能利用了谷歌此前在說話人鑑別(https://arxiv.org/abs/1710.10467)以及文本轉語音的說話人適應(https://arxiv.org/abs/1806.04558)方面的研究成果。

說話人音色編碼器首先在說話人鑑別任務上進行了預訓練,學習到了如何從一段短的語音中編碼說話人聲音的特點。讓頻譜編碼器在音色編碼器的作用下生成語音,得到的結果就可以含有非常相似的說話音色,即便說的內容是另一個語言。

試聽例子 https://google-research.github.io/lingvo-lab/translatotron/#conversational。

除了保留說話人聲音特徵之外之外,根據谷歌研究人員們的測試,這個系統相比傳統的三個步驟的系統還有多項優勢:更快的推理(翻譯)速度;天然地更善於避開識別和翻譯階段累積的錯誤;而且對於不需要翻譯的詞彙也處理得更好(比如名字和專有名詞)。

結論

據谷歌的研究人員們目前所知,這是世界上首個可以直接把一種語言的語音翻譯到另一種語言語音的端到端模型;除此之外它還可以保留源說話人的聲音特點。這項研究可能是未來更多端到端語音翻譯系統研究的開端。

詳細內容可以閱讀論文原文 https://arxiv.org/abs/1904.06037

via ai.googleblog.com,雷鋒網 AI 科技評論編譯

相關焦點

  • 重建「巴別塔」:谷歌推出全新端到端語音翻譯系統
    要將一個外國人說的話翻譯成本國文字,通常需要兩種機器學習模型:語音識別和文本翻譯。最近,谷歌提出的 Translatotron 模型創造性地實現了單一模型端到端(End-to-End)的直接語音翻譯。不僅如此,它還可以保留說話人的聲音特徵輸出語音,實現最直接的翻譯。
  • 谷歌AI推出端到端純語音翻譯技術,有望成為未來的「機器同傳」
    ,第二段是標準的人類英語翻譯,而第三段則是AI合成的英語翻譯,來自於谷歌 AI 最新的語音翻譯模型 Translatotron。該模型是一個基於注意力機制(Attention)的端到端語音翻譯神經網絡。
  • 語音直接翻語音!谷歌語音翻譯新突破,不再需要中間文本
    在谷歌發表的最新論文「 使用序列到序列模型的直接語音翻譯 」中,他們提出了一種基於單個注意序列到序列模型的實驗性新系統,稱為Translatotron。2016年,當時研究人員證明了使用單個序列到序列模型進行語音到文本翻譯的可行性。
  • 谷歌發布Translatotron直接語音翻譯系統
    在論文《基於序列到序列模型的直接語音到語音翻譯》(Direct speech-to-speech translation with a sequence-to-sequence model)中,谷歌的研究人員提出一種基於單個注意力序列到序列模型的直接語音到語音翻譯的新實驗系統
  • 帶你讀論文 | 端到端語音識別模型
    隨著端到端神經網絡在機器翻譯、語音生成等方面的進展,端到端的語音識別也達到了和傳統方法可比的性能。不同於傳統方法將語音識別任務分解為多個子任務(詞彙模型,聲學模型和語言模型),端到端的語音識別模型基於梅爾語譜作為輸入,能夠直接產生對應的自然語言文本,大大簡化了模型的訓練過程,從而越來越受到學術界和產業界的關注。
  • 語音識別新範式:完全的「端到端」模型,優勢在哪裡?
    託馬斯·庫恩在其發表於 1962 年的經典著作《科學革命的結構》中提出的「範式轉換」一詞,如今已成為大家耳熟能詳的技術用語。大的「範式轉換」存在於基礎科學領域,小的「範式轉化」也存在於幾乎每個細分的技術領域。
  • Bengio等人提出 Char2Wav:實現端到端的語音合成
    選自arXiv機器之心編譯參與:吳攀、李亞洲近日,來自印度理工學院坎普爾分校、INRS-EMT、加拿大高等研究院(CIFAR)的研究者在 arXiv 上發布了一篇 workshop track 論文,介紹他們在端到端語音合成上的研究成果 Char2Wav。據介紹,該模型可以直接根據文本生成高質量的音頻。
  • 谷歌語音識別端到端系統單詞錯誤率降至5.6%,較傳統模型提升16%
    via pixabay雷鋒網 AI 科技評論按:本文是由來自谷歌語音團隊的科學家 Tara N.提升語音識別的端到端模型在谷歌各式各樣的語音搜索應用中,都是基於傳統的自動語音識別(Automatic speech recognition, ASR)系統實現的。
  • 語音翻譯也能端到端?深度學習這條路有戲!
    例如,2017年Interspeech會議上,谷歌研究人員就將該方法應用到西班牙到英語的語音翻譯任務上,取得初步成效。引入這一新的評測方案,也體現了IWSLT主辦方引導科研探索,推動語音翻譯技術不斷進步的努力。科大訊飛參與了口語翻譯的兩種評測,並且是唯一參與端到端模型這種新技術路線的中國團隊。
  • DeepMind端到端對抗語音合成
    作者研究了深度潛變量模型,這類模型對具有神經網絡的概率潛變量模型的組件進行參數化表示,因而在保持潛變量模型模塊化的同時可以利用深度學習最新進展所賦能的豐富參數化。作者對不同類型的深度潛變量模型展開了廣泛實驗,以具體分析詞對齊和分析樹等一系列語言現象,並將這些語言現象應用到語言建模、機器翻譯和無監督分析等核心的自然語言處理任務中。
  • 百度Deep Voice作者與Bengio團隊切磋五大技術細節,端到端的語音...
    本系統完全依賴深度神經網絡搭建而成,最大的優勢在於能夠滿足實時轉換的要求。在以前,音頻合成的速度往往非常慢,需要花費數分鐘到數小時不等的時間才能轉換幾秒的內容,而現在,百度研究院已經能實現實時合成,在同樣的 CPU 與 GPU 上,系統比起谷歌 DeepMind 在去年 9 月發布的原始音頻波形深度生成模型 WaveNet 要快上 400 倍。
  • 腦機接口利器,從腦波到文本,只需要一個機器翻譯模型
    他們將腦波到文本的轉換視為機器翻譯的過程,腦波為輸入序列,文本為輸出序列。通過讓受試者朗讀文本,收集相應腦區的電波,構成訓練數據集,然後去訓練一個端到端的機器翻譯模型。通過這種方式,他們獲得了一個模型,這個模型能夠將受試者的腦波「準確」、「實時」地轉換為句子文本,而錯誤率僅為3%。
  • 百度ICML論文:端對端中英文語音識別
    簡介幾十年來手工設計領域積累的知識已經進入最先進的自動語音識別(ASR)等的管道。一個簡單但有效的替代解決方案是訓練出端對端語音自動識別模式,使用深度學習的方法用一個模型來代替大多數模式。如同Hannun et al., 2014a and Graves & Jaitly, 2014b在他們的論文所提及一樣。
  • 阿里達摩院語音實驗室:聯合CTC和Transformer的自動中文糾錯模型
    論文地址: https://arxiv.org/pdf/1904.10045.pdf近年來,基於端到端的語音識別系統開始慢慢成為主流,其中兩個具有代表性的框架是:1)CTC(Connectionist Temporal Classification)準則及其變形;2)基於注意力機制的編解碼模型(Attention-Encoder-Decoder)。
  • 【模式國重】語音語言信息處理重要研究進展
    在統計機器學習時代,語言模型用來度量候選結果序列的出現概率,從候選結果列表中挑選出最流暢的候選。在深度學習時代,機器翻譯、自動摘要和人機對話等文本生成任務直接可以視為一個語言模型問題,在分布式表示和端到端建模方法的基礎上取得突破性進展。尤其是ELMo、GPT和BERT等預訓練模型的提出極大地推動了語言模型在各個自然語言處理任務上的應用。
  • AAAI 2021 | 不依賴文本也能做翻譯?UWSpeech語音翻譯系統了解一下
    現有的語音翻譯系統高度依賴於對應的文本:級聯模型(語音識別+文本翻譯+語音合成)需要對應的文本作為翻譯的樞紐;端到端模型則需要對應的文本作為輔助的訓練數據,通過額外的輔助識別任務來提升翻譯精度。然而世界上有成百上千種語言,其中大多數語言是沒有文字的,例如方言、少數民族語言等等。對於這些沒有文字的語言,先前的語音翻譯系統構建方法將不再適用。
  • 模式識別學科發展報告丨七、語音語言信息處理重要研究進展
    在統計機器學習時代,語言模型用來度量候選結果序列的出現概率,從候選結果列表中挑選出最流暢的候選。在深度學習時代,機器翻譯、自動摘要和人機對話等文本生成任務直接可以視為一個語言模型問題,在分布式表示和端到端建模方法的基礎上取得突破性進展。尤其是ELMo、GPT和BERT等預訓練模型的提出極大地推動了語言模型在各個自然語言處理任務上的應用。
  • 業界| 搜狗知音引擎再進一步,實現語音實時翻譯
    這次的語音實時翻譯技術是在搜狗知音引擎這個大框架下,通過知音引擎搜狗希望提供從聽到說,能理解會思考的能力,涵蓋了語音識別、語義理解和語音合成三個主要的能力,而知音引擎提出的口號是「更自然的語音交互」。「其中『更自然』分為三個層次,在識別這塊,我們希望在人機使用語音進行交互的過程中,更加自然,接近人和人交互的方式。
  • 基於元學習和人機協同的端到端對話模型
    背景端到端對話模型近幾年得到了學術界和工業界的廣泛關注(詳見可參考《小蜜團隊萬字長文:對話管理模型最新研究進展》),相比 pipeline 式的對話系統,端到端對話系統可以直接利用對話日誌進行訓練,不需要人工設計特定的語義標籤,因此更具備可擴展性。 我們在 Dialog Studio 上已經實現了端到端的對話模型,並且在政務、疫情等業務中落地應用。
  • 【NLP】Facebook提出的預訓練模型BART
    該模型結合雙向和自回歸 Transformer 進行模型預訓練,在一些自然語言處理任務上取得了SOTA性能表現。近日,Facebook 發表論文,提出一種為預訓練序列到序列模型而設計的去噪自編碼器 BART。BART 通過以下步驟訓練得到:1)使用任意噪聲函數破壞文本;2)學習模型來重建原始文本。