什麼是神經機器翻譯(NMT)?

2020-12-13 語家翻譯公司
機器翻譯

翻譯行業不斷發展以滿足客戶的需求,神經機器翻譯(NMT)是這一進程的最新一步。由於能夠一次翻譯整個句子,NMT的輸出可以類似於人工翻譯。隨著越來越多的企業走向全球化,NMT可能會對翻譯行業產生巨大影響。

什麼是神經機器翻譯?

NMT使用基於神經網絡的技術來實現更多上下文精確的翻譯,而不是一次翻譯一個單詞的破碎句子。使用大型人工神經網絡計算單詞序列的概率,NMT將完整的句子放入一個集成模型中。

NMT的神經元可以學習和收集信息,旨在模仿人類大腦的神經元,建立聯繫,並將輸入評估為整個單元。NMT分兩個階段進行分析:編碼和解碼。在編碼階段,來自源語言的文本被輸入到機器中,隨後被分類到語言向量中。在上下文中相似的單詞將被放置在可比較的單詞向量中。接下來,解碼階段有效且無縫地將矢量發送到目標語言。在整個翻譯過程中,技術不僅僅是翻譯單詞和短語; 相反,它正在翻譯上下文和信息。

機器翻譯史

關於機器翻譯的想法可以追溯到17世紀,但是在20世紀50年代,由美國政府資助的研究產生了對機器翻譯的國際興趣。在20世紀70年代,基於規則的機器翻譯出現在現場,為源語言和目標語言創建語法規則集。接下來,開發了統計機器翻譯(SMT),通過研究源語言和目標語言對齊來創建模型,然後使用它們來創建翻譯。

隨著翻譯行業的發展,NMT是機器翻譯的下一步。與SMT相比,主要區別之一是NMT可以同時訓練多個特徵,並且不需要先前的域信息。此外,NMT可以減少使用SMT進行的字序和語法錯誤。此外,雖然由於涉及大量數據,NMT可能需要更多時間來翻譯句子,但它比SMT更有效,SMT對於規則超出六個字單元的語言有困難。

使用NMT的優勢

正如Google在使用NMT時所看到的那樣,該技術有幾個優點,包括應用可以直接在源文本和目標文本上進行訓練的單一系統。NMT的另一個重要元素是它能夠在整個訓練期間自動修復其參數。其他好處包括NMT:

有效地翻譯語法複雜的語言,包括韓語,日語和阿拉伯語。

使用算法來學習來自統計模型的語言約定,從而實現更快更好的翻譯。

考慮完整的句子,而不僅僅是一串單詞。

學習語言的細微差別,如性別,變形和形式。

幫助應用程式,包括多語言創作,翻譯檢查和多語言視頻會議。

NMT的應用

隨著NMT繼續得到更廣泛的應用,許多行業將從中受益。對於初學者,NMT可以改善電子教學計劃中提供的溝通和信息,使演講和對話在沒有語言障礙的情況下進行。在旅遊行業,NMT可以協助服務提供商有效地滿足全球客戶的需求。此外,電子商務行業可以使用它來快速響應全球客戶。

NMT的具體應用包括:

能夠通過使用NMT技術與全球任何人進行互動

以自己的語言為客戶提供支持

使培訓師和受訓人員能夠在不受語言障礙阻礙的情況下獲得成功的學習和業務培訓課程

允許翻譯服務提供商的客戶有另一種方法來獲得其材料的高質量翻譯

提供快速的翻譯周轉,例如訴訟

允許任何行業的實時翻譯

隨著大公司使用神經機器技術,將為其他公司制定標準,將NMT視為其客戶的選擇。全球溝通和翻譯的需求只會繼續增長,NMT將成為這一發展的重要組成部分。

相關焦點

  • 史丹福大學 NLP 組開放神經機器翻譯代碼庫
    近日,史丹福大學自然語言處理組(Stanford NLP)發布了一篇文章,總結了該研究組在神經機器翻譯(NMT)上的研究信息。
  • 資源| 史丹福大學NLP組開放神經機器翻譯代碼庫(附論文)
    選自斯坦福機器之心編譯參與:吳攀、杜夏德近日,史丹福大學自然語言處理組(Stanford NLP)發布了一篇文章,總結了該研究組在神經機器翻譯(NMT)上的研究信息。在這篇文章中,他們還放出了在多種翻譯任務上(比如英德翻譯和英語-捷克語翻譯)實現了當前最佳結果的代碼庫(codebase)。
  • ACL 2018 | TA-NMT:利用大語種語料,提升小語種神經機器翻譯能力
    與大語種豐富的語料數據相比,小語種機器翻譯面臨的主要挑戰是語料的稀疏性問題。為了更好地解決這一問題,微軟亞洲研究院自然語言計算組提出了一個呈三角結構的神經機器翻譯模型TA-NMT,利用大語種的豐富語料來提升小語種機器翻譯的能力。近年來,神經機器翻譯發展迅速,在諸如英法、英德、中英等許多大語種(Rich Language)翻譯任務上均取得了突破性成果。
  • 谷歌開放GNMT教程:如何使用TensorFlow構建自己的神經機器翻譯系統
    今天,我們很高興能夠發布最新的 TensorFlow 神經機器翻譯教程,幫助讀者全面了解 seq2seq 模型,並介紹如何從頭開始構建有競爭力的翻譯模型。該教程儘可能簡單地呈現該過程,教程首先介紹神經機器翻譯的背景知識,並講述構建 vanilla 系統的具體代碼。然後介紹注意力機制 [3, 4] 這一幫助 NMT 系統處理長句的重要工具。
  • 神經機器翻譯工具 將首先用於中翻英
    據新華社消息 世界智慧財產權組織10月31日在日內瓦表示,中國國際專利申請量預計兩年內將居全球次席,因此該組織推出的最新基於人工智慧的神經機器翻譯工具將首先用在中文專利文檔轉化為英文的服務上。 神經機器翻譯是一個新興技術,建立在龐大的、能夠「學習」之前翻譯過的句子的神經網絡模型上。與之前「基於短語」的方法相比,神經機器翻譯可產生更為自然的語序,並在差異性較大的兩種語言的翻譯中,如日文-英文或中文-英文中有顯著進步。
  • 神經機器翻譯的直觀解釋 | 留言送書
    來源 | Towards Data Science作者 | Renu Khandelwal 編譯 | VK什麼是神經機器翻譯?神經機器翻譯是一種將一種語言翻譯成另一種語言的技術。一個例子是把英語轉換成印地語。讓我們想想,如果你在一個印度村莊,那裡的大多數人都不懂英語。你打算毫不費力地與村民溝通。在這種情況下,你可以使用神經機器翻譯。
  • Caffe2新增RNN支持,Facebook全面轉向神經機器翻譯
    通過 Caffe2 RNN,Facebook 的神經機器翻譯的效率提升高達 2.5x,Facebook 全部的機器翻譯模型從基於短語的系統轉換為所有語言的神經模型。這意味著 Facebook 可在產品中部署神經機器翻譯了。我們很高興共享 Caffe2 在支持循環神經網絡(RNN)方面的最新成果。
  • 學界| 對比神經機器翻譯和統計機器翻譯:NMT的六大挑戰
    作者:Ozan alayan機器之心編譯參與:蔣思源、Smith本文總結了最近發表的論文「神經機器翻譯的六大挑戰(Six Challenges for Neural Machine Translation)」,並希望讀者能看到神經機器翻譯的不足和未來的發展方向。
  • 號稱要砸翻譯飯碗,神經機器翻譯哪家強?
    Google新發布了神經機器翻譯(GNMT:Google Neural Machine Translation)系統,並稱該系統使用了當前最先進的訓練技術,能夠實現到當下機器翻譯質量上最大的提升。有從事翻譯職業的網友甚至這樣形容:作為翻譯看到這個新聞的時候,我理解了18世紀紡織工人看到蒸汽機時的憂慮與恐懼。
  • F8 2017 | 技術負責人為你解析 Facebook 神經機器翻譯
    至今,已有 15 個不同語言的翻譯系統,遷移到了新的機器翻譯架構;Facebook 平臺上,超過 50% 的翻譯出自基於神經網絡的系統。那麼,為什麼 Facebook 要轉移至神經網絡機器翻譯?或者說,新架構的優點是什麼?
  • F82017|技術負責人為你解析Facebook神經機器翻譯
    至今,已有 15 個不同語言的翻譯系統,遷移到了新的機器翻譯架構;Facebook 平臺上,超過 50% 的翻譯出自基於神經網絡的系統。那麼,為什麼 Facebook 要轉移至神經網絡機器翻譯?或者說,新架構的優點是什麼?
  • 面向神經機器翻譯的篇章級單語修正模型
    《面向神經機器翻譯的篇章級單語修正模型》[1]是EMNLP2019上一篇關於篇章級神經機器翻譯的工作。針對篇章級雙語數據稀缺的問題,這篇文章探討了如何利用篇章級單語數據來提升最終性能,提出了一種基於目標端單語的篇章級修正模型(DocRepair),用來修正傳統的句子級翻譯結果。
  • 一窺谷歌神經機器翻譯模型真面貌,其底層框架開源!
    現在,它已經用於谷歌翻譯的產品系統。雖然消費者感受到的提升並不十分明顯,谷歌宣稱,GNMT 對翻譯質量帶來了巨大飛躍。但谷歌想做的顯然不止於此。其在官方博客表示:「由於外部研究人員無法獲取訓練這些模型的框架,GNMT 的影響力受到了束縛。」如何把該技術的影響力最大化?答案只有一個——開源。
  • 【重磅】谷歌發布 Zero-Shot 神經機器翻譯系統:AI 巴別塔有望成真
    這種新的模型體積不僅與多語言翻譯模型一樣,參數相同,而且速度更快、質量更高。不僅如此,系統還實現「零數據翻譯」,也即能夠在從來沒有見過的語言之間進行翻譯。這意味著傳說中的「巴別塔」有望成真。神經網絡改革了許多領域,我們確信可以進一步提高翻譯質量,但這樣做意味著重新思考谷歌翻譯背後的技術。今年 9 月,谷歌翻譯改為啟用谷歌神經機器翻譯(GNMT)的新系統,這是一個端到端的學習框架,可以從數百萬個示例中學習,並在翻譯質量方面有顯著提升。不過,雖然啟用 GNMT 的幾種語言翻譯質量得到了提升,但將其擴展到所有 103 種穀歌翻譯支持的語種,卻是一個重大的挑戰。
  • 谷歌翻譯預言世界末日 神經機器翻譯或是故障原因
    當被要求將「dog dog dog dog dog dog dog dog dog」這個短語從夏威夷語翻譯成英語時,支持谷歌翻譯的人工智慧開始產生關於世界末日的荒謬警告。這個無意義的句子在翻譯時,會提及對世界末日和耶穌基督第二次降臨。一旦發現故障,谷歌翻譯的粉絲很快就會在社交媒體上大量使用這個短語,模仿人工智慧引發的怪異結果。
  • Google Brain:NMT訓練成本太高?用大規模神經機器翻譯架構分析給出...
    當時,這項服務背後的核心算法還是基於短語的機器翻譯。而十年後的今天,更先進的神經網絡機器翻譯( Neural Machine Translation)技術已經使得翻譯系統的速度和準確度有了大幅提升。Google發現,在多個樣本的翻譯中,神經網絡機器翻譯系統將誤差降低了 55%-85%甚至以上。
  • 神經機器翻譯的編碼-解碼架構有了新進展, 具體要怎麼配置?
    翻譯/  崔躍輝、葉倚青校對/  葉倚青用於循環神經網絡的編碼-解碼架構,在標準機器翻譯基準上取得了最新的成果,並被用於工業翻譯服務的核心。該模型很簡單,但是考慮到訓練所需的大量數據,以及調整模型中無數的設計方案,想要獲得最佳的性能是非常困難的。
  • 【問答知識】天津醫療專業翻譯哪家好
    《孫子兵法》的難度還在於中文古籍版本太多,選什麼版本很重要。外語好可以保證正確理解原文,這是翻譯的前提。母語好才能使得譯文更符合本國讀者的閱讀習慣,有時還能取得「再創作」的價值。因此理想的翻譯家應該同時是作家,像傅雷那樣。第二,悟性要好。第三,知識要淵博。駕照翻譯。第四,要養成一定的研究習慣。第五,善於接受和學習前人與他人的長處。中國網:您做過的難的翻譯是什麼?中國網:您現在每天工作多長時間?
  • 谷歌機器翻譯取得顛覆性突破 到底幾分真假?
    如果說IBM Model1是機器翻譯的牛頓定律,那麼Seq2Seq就是機器翻譯裡的愛因斯坦相對論,Seq2Seq是谷歌在機器學習頂會NIPS的一篇論文,模型簡單漂亮,為文本生成尤其是機器翻譯打下了良好的模型基礎,所有的NMT(神經機器翻譯)均在此模型上添磚加瓦,這篇也是一樣。
  • 首次大規模神經機器翻譯架構分析結果出爐,LSTM 優於GRU
    作為論文的一部分,作者們發布了一個開源 NMT 框架,能讓研究員輕鬆試驗新技術並得出最先進的試驗結果,機器之心也有報導,請見(資源 | 谷歌官方開源 tf-seq2seq:一種通用編碼器-解碼器框架)論文地址:https://arxiv.org/abs/1703.03906開源地址:https://github.com/google/seq2seq/摘要神經機器翻譯