資源| 清華大學開源神經機器翻譯工具包THUMT

2020-12-16 機器之心Pro

參與:李澤南

機器翻譯是自然語言處理的重要組成部分,其目的是使用計算機自動將文本翻譯成其他語言的形式。近年來,端到端的神經機器翻譯發展迅速,已經成為機器翻譯系統的新主流。近日,清華大學自然語言處理組發布了機器翻譯工具包 THUMT,為業內人士的研究和開發工作提供了便利。

工具連結:http://thumt.thunlp.org/

THUMT 是用於神經機器翻譯的開源工具包,構建於 Theano 之上,它具有以下特點:

基於 Attention 的翻譯模型:THUMT 應用了標準的 attention 編碼器-解碼器框架。最小風險訓練:除了標準最大似然估計(MLE)之外,THUMT 還支持最小風險訓練(MRT),其目的是找到一組模型參數,以最小化使用訓練數據評估指標(如 BLEU)計算的預期損失。使用單一語言語料庫:THUMT 為 NMT 提供了半監督訓練(SST)能力,能夠利用豐富的單語語料庫資源來改善源-目標和目標-源 NMT 模型的學習。可視化:為了讓人們了解 NMT 的內部工作機制,THUMT 提供了一個可視化工具來展示運行的每個中間狀態,以及相關語境之間的相關性。

論文:THUMT: An Open Source Toolkit for Neural Machine Translation

論文連結:https://arxiv.org/pdf/1706.06415.pdf

該論文介紹了清華大學自然語言處理小組開發的 THUMT 神經機器翻譯開源工具包。THUMT 在 Theano 上層實現了標準的基於注意的編碼器-解碼器框架,並且支持三種訓練標準:最大似然估計、最小風險訓練和半監督訓練。它的特點是有一個可視化工具,演示神經網絡和語境單詞隱藏態間的關聯,從而幫助分析 NMT 的內部工作機制。在中英數據集上的實驗顯示 THUMT 使用最小風險訓練極大的超越了 GroundHog 的表現,它也是 NMT 的一個頂尖工具包。

THUMT 實現的模型是標準的基於注意的 NMT 模型 (Bahdanau et al., 2015),在 Theano 之上 (Bergstra et al., 2010)。

THUMT 支持三個優化器:

SGD:標準隨機梯度下降,具有固定學習速率。Adadelta(Zeiler,2012):根據歷史,隨時間動態調整學習速率。Adam(Kingma and Ba, 2015):為每個參數計算不同的學習速率。THUMT 使用修正版本的 Adam 來解決 NaN 問題。

圖 1:神經機器翻譯的可視化

表 1:GroundHog 和 THUMT 之間的對比

表 2:MLE 和 SST 之間的對比

表 3:替代未知單詞的效果

表 4:MLE、MRT、SST 訓練時間對比

在該工具發布的論文中,研究人員已證明最小風險訓練可以提高最大似然估計的效果,同時,半監督訓練能夠利用單一語言語料庫來改善缺乏資源的翻譯任務。

相關焦點

  • 開源| 哈佛大學NLP組開源神經機器翻譯工具包OpenNMT:已達到生產...
    選自OpenNMT機器之心編譯參與:吳攀神經機器翻譯是近段時間以來推動機器翻譯發展的主要推動力。今天,哈佛大學自然語言處理研究組(Harvard NLP)宣布開源了其研發的神經機器翻譯系統 OpenNMT,該系統使用了 Torch 數學工具包。該研究組在官網上表示該系統已經達到生產可用的水平(industrial-strength)。
  • ...2深度學習環境到神經機器翻譯,上手機器學習這些開源項目必不可少
    另外,雷鋒網 AI 研習社在原文的基礎上補充了部分開源項目,為 AI 開發者提供更加詳細的 AI 項目和資源。機器學習是用數據來學習、概括、預測的研究。近幾年,隨著數據的開發、算法的改進以及硬體計算能力的提升,機器學習技術得以快速發展,不斷延伸至新的領域。
  • 和清華大學自然語言處理與社會人文計算實驗室一起讀機器翻譯論文
    雷鋒網 AI 科技評論按:在生產和經濟高度全球化的今天,機器翻譯(Machine Translation)是人類面對外語時最渴望擁有的工具,也是神經網絡帶來最大變革的人工智慧問題之一。從最早的基於規則的機器翻譯,到基於概率的機器翻譯,再到現在的基於神經網絡的機器翻譯,機器學習和語言學的研究人員們一起經歷了幾十年的歷程。
  • 從星際2深度學習環境到神經機器翻譯,上手機器學習這些開源項目必...
    另外,雷鋒網(公眾號:雷鋒網) AI 研習社在原文的基礎上補充了部分開源項目,為 AI 開發者提供更加詳細的 AI 項目和資源。機器學習是用數據來學習、概括、預測的研究。近幾年,隨著數據的開發、算法的改進以及硬體計算能力的提升,機器學習技術得以快速發展,不斷延伸至新的領域。
  • 谷歌開源神經機器翻譯技術,推出tf-seq2seq框架
    陳樺 編譯自 Google官方博客量子位 報導 | 公眾號 QbitAI谷歌研究軟體工程師、谷歌大腦團隊成員Anna Goldie和Denny Britz今天撰文,宣布在「谷歌神經機器翻譯」的基礎上推出開源框架tf-seq2seq,給外部研究人員提供幫助。
  • 亞馬遜開源神經機器翻譯框架Sockeye:基於Apache MXNet的NMT平臺
    隨著神經機器翻譯(NMT)技術的不斷演進,越來越多的科研機構和公司選擇開源自己的項目,讓更多人能夠開發出自己的 NMT 模型。此前,清華大學開源了神經機器翻譯工具包 THUMT,谷歌也推出了基於 TensorFlow 的 NMT 模型搭建教程。作為 MXNet 的支持者,亞馬遜也開源了自己的 NMT 框架 Sockeye。
  • Facebook開源多款AI工具,支持遊戲、翻譯
    翻譯 | 林椿眄編輯 | 阿司匹林出品 | AI科技大本營近日,Facebook 在年度開發者大會 F8 上宣布開源多款 AI 工具,除了 PyTorch、Caffe 等深度學習框架之外,此次開源的還包括 DensePose(可用於人體姿態估計)、Translate(可翻譯 48 種語言)、ELF(可通過遊戲來教機器推理)等諸多 Facebook 內部使用的庫和模型。
  • 開源 雅虎開源輕量級多語言實體連結工具包
    這種方法面臨的主要挑戰是在不同語言、長文本、缺乏標記的數據中準確探測實體,同時不需要耗費過多的系統資源(內存和處理器資源)。在雅虎長期研究和不斷應用這些解決方案之後,我們很高興為開源社區貢獻我們的這一工具:Fast Entity Linker,我們的無監督、準確、可擴展多語言實體名稱識別和連結系統,同時也包含英語、西班牙語和中文數據包。
  • ...首個自動圖機器學習工具包AutoGL,開源易用可擴展,支持自定義模型
    機器之心報導機器之心編輯部如何應用自動機器學習 (AutoML) 加速圖機器學習任務的處理?清華大學發布全球首個開源自動圖學習工具包:AutoGL (Auto Graph Learning),支持在圖數據上全自動進行機器學習。
  • 一窺谷歌神經機器翻譯模型真面貌,其底層框架開源!
    去年,谷歌發布了 Google Neural Machine Translation (GNMT),即谷歌神經機器翻譯,一個 sequence-to-sequence (「seq2seq」) 的模型。現在,它已經用於谷歌翻譯的產品系統。雖然消費者感受到的提升並不十分明顯,谷歌宣稱,GNMT 對翻譯質量帶來了巨大飛躍。但谷歌想做的顯然不止於此。其在官方博客表示:「由於外部研究人員無法獲取訓練這些模型的框架,GNMT 的影響力受到了束縛。」如何把該技術的影響力最大化?答案只有一個——開源。
  • 機器之心年度盤點:2018年重大研究與開源項目
    在這篇文章中,機器之心從想法到實踐介紹了 2018 年令人矚目的研究工作,它們共同構建了機器學習的當下。我們主要按領域從模型到開源工具展開,其中算法或模型的選擇標準主要是效果和潛力,而開源工具的選擇主要憑藉 GitHub 的收藏量與效果。
  • 開源| 雅虎開源輕量級多語言實體連結工具包
    選自Yahoo機器之心編譯參與:李澤南、蔣思源開源地址: https://github.com/yahoo/FEL你每次打開客戶端(如 Yahoo News 或者 Yahoo Sports),你想優先獲得什麼樣的文本信息?雖然每個人的喜好不同,但你想知道的永遠有關文本中的人物,組織和位置信息。
  • 清華大學NLP組年末巨獻:機器翻譯必讀論文列表
    使用機器做翻譯的思想最早由 Warren Weaver 於 1949 年提出。時間進入二十一世紀,研究人員開發了基於神經網絡的語言模型。近年來,神經機器翻譯已經進入了應用階段。、注意力機制、開放詞表問題與字符級別神經機器翻譯、訓練準則與框架、解碼機制、低資源語言翻譯、多語種機器翻譯、先驗知識融合、文檔級別機器翻譯、機器翻譯中的魯棒性、可視化與可解釋性、公正性與多樣性、機器翻譯效率問題、語音翻譯與同傳翻譯、多模態翻譯、預訓練方法、領域適配問題、質量估計、自動後處理、推導雙語詞典以及詩歌翻譯。
  • SFFAI分享 | 楊振:低資源神經機器翻譯[附PDF]
    在實際應用場景中,有時並沒有大量的雙語語料可以使用,更加極端情況是沒有任何雙語語料用來訓練翻譯模型。因此,想要繼續提升神經翻譯模型的性能,需要減少模型對高質量雙語語料的依賴。對於低資源甚至無資源的翻譯場景,我們需要研究能夠更加高效使用單語語料的翻譯模型和訓練方法。
  • Transformer新型神經網絡在機器翻譯中的應用|公開課筆記
    產業的興旺離不開背後技術的巨大進步,從今天的課程當中,我會給大家介紹背後技術的神秘面紗,然後對Transformer這個神經網絡做深入的解析。神經網絡機器翻翻譯是目前比較主流的機器翻譯方法,它是「Sequence to Sequence」model,也就是端到端的翻譯框架。
  • 英特爾優化OpenVINO工具包;Streamlit發布開源機器學習開發框架
    【今日資訊頭條 | 英特爾發布 OpenVINO 工具包中的二進位卷積以提高深度學習性能】來源:intel英特爾發布 OpenVINO 工具包二進位OpenVINO 是英特爾提供的基於卷積神經網絡的計算機視覺開發包,目的是能夠快速的在 Intel 的硬體方案上部署和開發計算機視覺工程和方案
  • 深度神經網絡機器翻譯
    今天有時間和大家一起討論下下, 深度神經網絡機器翻譯。前言2016年年底, Google公布了神經網絡機器翻譯(GNMT), 從此宣告, 機器翻譯經過27年左右, 正式從1989年的IBM機器翻譯模型(PBMT,基於短語的機器翻譯),過渡到了神經網絡機器翻譯模型。已經極大接近了普通人的翻譯了。
  • 15個開源的頂級人工智慧工具
    在本文中,我們將聚焦於開源的人工智慧工具,詳細的了解下最著名的 15 個開源人工智慧項目。 以下這些開源人工智慧應用都處於人工智慧研究的最前沿。 1. Caffe 它是計算網絡工具包Computational Network Toolkit的縮寫,CNTK 是一個微軟的開源人工智慧工具。
  • Masakhane開源項目希望藉助機器翻譯和AI改變非洲
    今年年初,這種擔憂導致建立了Masakhane開源項目,非洲技術人員正在努力使用神經機器翻譯來翻譯非洲語言。Kathleen Siminyu是肯亞盧希亞部落的成員。儘管學校和全國各地都說英語,但部落說不同的語言,這在Siminyu和她的鄰居之間造成了語言障礙。
  • 微軟提出新型通用神經機器翻譯方法,挑戰低資源語言翻譯問題
    近日微軟發布博客,提出一種半監督通用神經機器翻譯方法,解決低資源語言機器翻譯的問題,幫助解決方言和口語機器翻譯難題。該研究相關論文已被 NAACL 2018 接收。機器翻譯已經成為促進全球交流的重要組成部分。