史丹福大學 NLP 組開放神經機器翻譯代碼庫

2020-12-17 開源中國

近日,史丹福大學自然語言處理組(Stanford NLP)發布了一篇文章,總結了該研究組在神經機器翻譯(NMT)上的研究信息。在這篇文章中,他們還放出了在多種翻譯任務上(比如英德翻譯和英語-捷克語翻譯)實現了當前最佳結果的代碼庫(codebase)。除此之外,「為了鼓勵再現和增加透明」,他們還放出了他們用於訓練模型的處理過的數據以及可以通過他們的代碼庫使用的預訓練好的模型。

發布地址:http://nlp.stanford.edu/projects/nmt/

參與成員:

  • Christopher D. Manning(史丹福大學計算機科學和語言學教授) 

  • Minh-Thang Luong(斯坦福博士,Google Brain 研究科學家)

  • Abigail See(史丹福大學計算機科學在讀博士)

  • Hieu Pham

代碼庫

代碼庫:https://github.com/lmthang/nmt.hybrid

論文:使用混合詞-字符模型實現開放詞彙神經機器翻譯(Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-Character Models)

摘要:幾乎之前所有的神經機器翻譯(NMT)使用的詞彙都受限,隨後可能用一個方法來修補未知的單詞。本論文展示了一個全新的能實現開放詞彙神經機器翻譯(open vocabulary NMT)的詞-字符解決方法。我們建立了一個混合的系統,能夠實現大部分的詞級(word level)翻譯,並可查閱罕見詞的字母組成。我們字符級的循環神經網絡能計算源詞的表徵,並能在需要時恢復未知的目標詞。這種混合的方法還有一個雙重優點是,與基於字符的網絡相比,它更快且更容易訓練;同時,它不像基於詞的模型那樣會產生未知的詞。在 WMT' 15 英語-捷克語的翻譯任務上,這種混合方法還實現了一個額外的+ 2.1 BLEU 分的提升——超過已經能處理未知單詞的模型 11.4 BLEU 分。我們的最佳系統在這個任務上達到了新的最佳表現:20.7 BLEU 分。我們證明了我們的字符模型不僅能成功地學習生成形式很好的捷克語詞(這是一種詞彙複雜高度屈折的語言),還能為英語源詞建立了正確的表徵。

代碼庫:https://github.com/lmthang/nmt.hybrid

論文:實現基於注意的神經機器翻譯的有效方法(Effective Approaches to Attention-based Neural Machine Translation)

摘要:最近一種在翻譯過程中通過選擇性地集中關注部分源句子的注意機制被用於提升神經機器翻譯(NMT)結果。然而,探索用於基於注意的神經機器翻譯(NMT)的有用架構的研究還不多。本論文探討了兩種簡單有效的注意機制類別:一種能顧及到所有源詞的全局方法,以及一種只能一次查看源詞的一個子集的局部方法。我們證明了在英語-德語/德語-英語 WMT 翻譯任務上,這兩種方法都是有效的。使用局部注意方法,相比於已經結合了 dropout 等技術的非注意系統,我們的系統增長了 5.0 BLEU 點。我們的組合模型使用了不同的注意架構,在 WNT'15 英語-德語的翻譯任務中,實現了目前最好的結果:25.9 BLEU 點;比現有的基於 NMT 和 一個 n-gram reranker 的最佳系統提升了 1.0 BLEU 點。

論文:通過剪枝的神經機器翻譯的壓縮(Compression of Neural Machine Translation Models via Pruning)

摘要:和其它許多深度學習領域一樣,神經機器翻譯(NMT)常會遭遇過度參數化(over-parameterization)的問題,這會導致需要大量的存儲空間。這篇論文檢查了三種簡單的基於幅度的(magnitude-based)用來壓縮 NMT 模型的剪枝方案,即 class-blind、class-uniform 和 class-distribution;它們的不同之處在於剪枝的閾值為 NMT 架構中不同的權重類所計算的方式。我們表明權重剪枝(weight pruning)可作為一種用於當前最佳 NMT 壓縮技術。我們表明一個帶有超過 2 億個參數的 NMT 模型可以在僅有非常少量的性能損失的情況下被剪去 40%——這個結果是在 WMT'14 英語-德語翻譯任務上得到的。這揭示了 NMT 架構中的冗餘的分布。我們的主要結果是:通過再訓練(retraining),我們可以使用 80% 剪枝的模型來恢復甚至超越原有的表現。

    有任何評論或疑問,可聯繫第一作者:lmthang@stanford.edu

    原文來自斯坦福 ,編譯:機器之心

    相關焦點

    • 資源| 史丹福大學NLP組開放神經機器翻譯代碼庫(附論文)
      選自斯坦福機器之心編譯參與:吳攀、杜夏德近日,史丹福大學自然語言處理組(Stanford NLP)發布了一篇文章,總結了該研究組在神經機器翻譯(NMT)上的研究信息。在這篇文章中,他們還放出了在多種翻譯任務上(比如英德翻譯和英語-捷克語翻譯)實現了當前最佳結果的代碼庫(codebase)。
    • 2019斯坦福CS224n、CMU NLP公開課視頻開放啦
      以前開放的是 17 年年初的課程,很多激動人心的前沿模型都沒有介紹,而最近 CS224n 終於開始更新 19 年課程的視頻。與此同時,CMU 的 NLP 公開課 CS 11-747 也一直在更新今年的授課視頻,它同樣介紹了近來 NLP 的主要發展。目前 CS 11-747 已經更新了 14 個課時,從詞嵌入、注意力機制到強化學習都有涉及。
    • 時隔兩年,斯坦福NLP標準公開課CS224N將再次開放視頻
      當然是大名鼎鼎的斯坦福公開課 CS224N 了,它和計算機視覺方面的課程 CS231n 堪稱絕配。但是自 2017 年以來,NLP 有了很多重大的變化,包括 Transformer 和預訓練語言模型等。目前開放的視頻仍然是 17 年年初的課程,很多激動人心的前沿模型都沒有介紹。不過在最近展開的 CS224N 2019 的課程中,其表明這一次的課程視頻將放到 YouTube 上!
    • 2019斯坦福CS224n、CMU NLP公開課視頻開放啦
      機器之心報導參與:思源2019 年,自然語言處理公開課開始學了~你知道入門自然語言處理(NLP)的「標配」公開課 CS224n 麼,它和計算機視覺方面的課程 CS231n 堪稱絕配,它們都是斯坦福的公開課。
    • 史丹福大學NLP組Python深度學習自然語言處理工具Stanza試用
      眾所周知,史丹福大學自然語言處理組出品了一系列NLP工具包,但是大多數都是用Java寫得,對於Python用戶不是很友好。
    • 清華大學NLP組年末巨獻:機器翻譯必讀論文列表
      使用機器做翻譯的思想最早由 Warren Weaver 於 1949 年提出。時間進入二十一世紀,研究人員開發了基於神經網絡的語言模型。近年來,神經機器翻譯已經進入了應用階段。、注意力機制、開放詞表問題與字符級別神經機器翻譯、訓練準則與框架、解碼機制、低資源語言翻譯、多語種機器翻譯、先驗知識融合、文檔級別機器翻譯、機器翻譯中的魯棒性、可視化與可解釋性、公正性與多樣性、機器翻譯效率問題、語音翻譯與同傳翻譯、多模態翻譯、預訓練方法、領域適配問題、質量估計、自動後處理、推導雙語詞典以及詩歌翻譯。
    • 開源| 哈佛大學NLP組開源神經機器翻譯工具包OpenNMT:已達到生產...
      選自OpenNMT機器之心編譯參與:吳攀神經機器翻譯是近段時間以來推動機器翻譯發展的主要推動力。今天,哈佛大學自然語言處理研究組(Harvard NLP)宣布開源了其研發的神經機器翻譯系統 OpenNMT,該系統使用了 Torch 數學工具包。該研究組在官網上表示該系統已經達到生產可用的水平(industrial-strength)。
    • 史丹福大學發布 StanfordNLP,支持多種語言
      雷鋒網 AI 科技評論按,近日,史丹福大學發布了一款用於 NLP 的 Python 官方庫,這個庫可以適用於多種語言,其地址是:https://stanfordnlp.github.io/stanfordnlp/,github 資源如下:這是 Stanford 官方發布的 NLP 庫,詳細信息請訪問:https://stanfordnlp.github.io/
    • 史丹福大學2020《自然語言處理CS224n》課件合集
      最新課程CS224n——自然語言處理與深度學習,主講人是史丹福大學Chris Manning
    • 深度學習在NLP中的運用?從分詞、詞性到機器翻譯、對話系統
      本文將基於竹間智能的一些經驗和探索,從分詞、詞性等基礎模塊,到機器翻譯、知識問答等領域,列舉並分析一些深度學習在 NLP 領域的具體運用,希望對大家研究深度學習和 NLP 有所幫助。利用神經網絡模型解析句子的語法結構的實現可以參考 http://www.petrovi.de/data/acl15.pdf 以及斯坦福的 http://cs.stanford.edu/~danqi/papers/emnlp2014.pdf。
    • 直播預告 | 「CCF-NLP走進高校」系列之「走進新疆大學」
      嘉賓們將圍繞《文本情感分析、理解與生成》、《知識與預訓練模型》、《多模態神經機器翻譯:建構細粒度的多語言-視覺特徵符號奠基》三大主題展開,給同學們接觸NLP前沿資訊帶來最新的知識、項目經驗和成果分享,並提供新穎的解讀視角。
    • NLP 領域的 C 位課程!斯坦福 CS224d 中英字幕版重磅上線
      本次翻譯的 CS224d (2016-2017)課程視頻為斯坦官方開源最新版本,由史丹福大學教授、 Salesforce 的首席科學家 Richard Socher 授權雷鋒字幕組翻譯,5 月 16 日開始正式同步更新在 AI 研習社、AI 慕課學院。
    • 斯坦福發布重磅NLP工具包StanfordNLP,支持中文等53種語言
      編輯:肖琴【新智元導讀】斯坦福團隊最新發布一個NLP任務的軟體包StanfordNLP,通過Python接口為53種語言提供標記、依存句法分析等NLP任務的重要工具。今天,斯坦福NLP團隊發布一個重磅NLP工具包:StanfordNLP。
    • 支持53種語言預訓練模型,斯坦福發布全新NLP工具包StanfordNLP
      StanfordNLP 結合了斯坦福團隊參加 CoNLL 2018 Shared Task on Universal Dependency Parsing 使用的軟體包,和 Stanford CoreNLP 軟體的官方 Python 接口。
    • 什麼是神經機器翻譯(NMT)?
      機器翻譯翻譯行業不斷發展以滿足客戶的需求,神經機器翻譯(NMT)是這一進程的最新一步。由於能夠一次翻譯整個句子,NMT的輸出可以類似於人工翻譯。隨著越來越多的企業走向全球化,NMT可能會對翻譯行業產生巨大影響。什麼是神經機器翻譯?NMT使用基於神經網絡的技術來實現更多上下文精確的翻譯,而不是一次翻譯一個單詞的破碎句子。使用大型人工神經網絡計算單詞序列的概率,NMT將完整的句子放入一個集成模型中。
    • 神經機器翻譯工具 將首先用於中翻英
      據新華社消息 世界智慧財產權組織10月31日在日內瓦表示,中國國際專利申請量預計兩年內將居全球次席,因此該組織推出的最新基於人工智慧的神經機器翻譯工具將首先用在中文專利文檔轉化為英文的服務上。 神經機器翻譯是一個新興技術,建立在龐大的、能夠「學習」之前翻譯過的句子的神經網絡模型上。與之前「基於短語」的方法相比,神經機器翻譯可產生更為自然的語序,並在差異性較大的兩種語言的翻譯中,如日文-英文或中文-英文中有顯著進步。
    • 社科NLP課程來了:斯坦福開年公開課主講NLP和社交網絡應用
      近日,史丹福大學發布了一門明年 1 月的公開課程,主要關注 AI 中的自然語言處理和社交網絡的結合應用,適合文科生學習。史丹福大學的 AI 相關公開課一直受到機器學習社區的關注。機器之心曾經也報導過史丹福大學的 CS224n 自然語言處理課程。近日,史丹福大學的另一門 NLP 公開課程也放出了課程通知,即將於 2020 年 1 月開始授課。
    • 國內自然語言處理(NLP)研究組
      哈工大機器智能與翻譯研究室機器智能與翻譯研究室mitlab.hit.edu.cn哈爾濱工業大學智能技術與自然語言處理實驗室智能技術與自然語言處理實驗室insun.hit.edu.cn|機器翻譯|語言分析|文本挖掘|NiuPlan|NiuTrans|NiuTrans Serverwww.nlplab.com天津大學自然語言處理實驗室TJUNLP實驗室,長期專注於自然語言處理領域tjunlp-lab.github.io
    • 李飛飛卸任斯坦福AI實驗室負責人,NLP領軍人物Manning接任
      根據斯坦福人工智慧實驗室官方Twitter消息,深度學習自然語言處理領軍人、斯坦福教授Chris Manning將接替李飛飛,成為該實驗室最新一任負責人。李飛飛教授將繼續擔任斯坦福視覺與學習實驗室(SVL)負責人,並在她的新崗位——斯坦福以人為本人工智慧研究院共同院長上發揮重要功能。
    • Facebook AI 用深度學習實現程式語言轉換,代碼庫遷移不再困難!
      從舊式程式語言(例如COBOL)到現代語言(例如Java或C ++)的代碼庫遷移是一項艱巨的任務,需要源語言和目標語言方面的專業知識。例如,COBOL至今仍在全球大型機系統中廣泛使用,因此公司,政府和其他組織通常必須選擇,是手動翻譯其代碼庫,還是致力於維護使用可追溯到1950年代的語言編寫的代碼。