和清華大學自然語言處理與社會人文計算實驗室一起讀機器翻譯論文

2021-01-20 雷鋒網

雷鋒網 AI 科技評論按:在生產和經濟高度全球化的今天,機器翻譯(Machine Translation)是人類面對外語時最渴望擁有的工具,也是神經網絡帶來最大變革的人工智慧問題之一。

從最早的基於規則的機器翻譯,到基於概率的機器翻譯,再到現在的基於神經網絡的機器翻譯,機器學習和語言學的研究人員們一起經歷了幾十年的歷程。如今的機器翻譯系統雖然還算不上盡善盡美,但以谷歌翻譯、百度翻譯為代表的,使用神經機器翻譯技術的大規模開放使用的翻譯系統,已經可以時不時地給出一些流暢、明了的雙語互譯結果了。

當然了,在神經網絡/深度學習的衝擊之下,我們也不免看到這樣的調侃:「團隊裡每開除一個語言學家,翻譯模型的準確率就可以再提升一點。」在越來越大的語料庫、越來越多的模型設計和訓練技巧的幫助下,來自語言學領域的指導帶來的提升遠不如機器學習領域的新技術成果、甚至已有技術成果的好的實現帶來的提升大。雷鋒網 AI 科技評論的讀者們相信也有這樣的感覺。

機器翻譯,尤其是神經機器翻譯(neural machine translation,NMT)也是清華大學自然語言處理與社會人文計算實驗室重點關注的研究課題之一。為了便於自己研究,也給這個課題的其他研究人員提供從那靠和指引,清華大學自然語言處理與社會人文計算實驗室機器翻譯小組在 GitHub 上維護著一份神經機器翻譯論文清單,包含了這個領域內他們認為起到重要作用的研究論文。

列表中的神經機器翻譯論文劃分為了模型架構、注意力機制、開放詞庫、訓練目標、解碼、低語言資源翻譯、先驗知識集成、文檔級別翻譯、魯棒性、可視化和可解釋性、語言學解釋、公平性和多樣性、效率、語音翻譯、多模態、集成和重新排序、預訓練、領域適應、質量估計、以人為中心的神經機器翻譯、單詞翻譯及雙語專用語翻譯、詩歌翻譯等主題,內容十分全面細緻。除此之外,他們也列出了 10 篇必讀論文。

這 10 篇必讀論文是:

Peter E. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra, and Robert L. Mercer. 1993. The Mathematics of Statistical Machine Translation: Parameter Estimation. Computational Linguistics. (Citation: 4,965)Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. 2002. BLEU: a Method for Automatic Evaluation of Machine Translation. In Proceedings of ACL 2002. (Citation: 8,507)Philipp Koehn, Franz J. Och, and Daniel Marcu. 2003. Statistical Phrase-Based Translation. In Proceedings of NAACL 2003. (Citation: 3,514)Franz Josef Och. 2003. Minimum Error Rate Training in Statistical Machine Translation. In Proceedings of ACL 2003. (Citation: 2,982)David Chiang. 2007. Hierarchical Phrase-Based Translation. Computational Linguistics. (Citation: 1,192)Ilya Sutskever, Oriol Vinyals, and Quoc V. Le. 2014. Sequence to Sequence Learning with Neural Networks. In Proceedings of NIPS 2014. (Citation: 5,428)Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2015. Neural Machine Translation by Jointly Learning to Align and Translate. In Proceedings of ICLR 2015. (Citation: 5,572)Diederik P. Kingma, Jimmy Ba. 2015. Adam: A Method for Stochastic Optimization. In Proceedings of ICLR 2015. (Citation: 16,572)Rico Sennrich, Barry Haddow, and Alexandra Birch. 2016. Neural Machine Translation of Rare Words with Subword Units. In Proceedings of ACL 2016. (Citation: 789)Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention is All You Need. In Proceedings of NIPS 2017. (Citation: 1,047)論文列表具體內容請見:https://github.com/THUNLP-MT/MT-Reading-List

另外,在清華大學自然語言處理與社會人文計算實驗室機器翻譯小組的 GitHub 頁面還可以看到他們的開源神經機器翻譯工具包 THUMT (https://github.com/THUNLP-MT/THUMT )。

祝各位閱讀論文愉快。

雷鋒網 AI 科技評論報導。

相關焦點

  • 國內自然語言處理(NLP)研究組
    頭條人工智慧實驗室(Toutiao AI Lab)ByteDance AI Lablab.toutiao.com中科院計算所自然語言處理研究組歡迎來到中科院計算所自然語言處理組網站www.icip.org.cn清華大學自然語言處理與社會人文計算實驗室歡迎來到清華大學自然語言處理與社會人文計算實驗室nlp.csai.tsinghua.edu.cn清華大學交互式人工智慧(CoAI)課題組
  • 清華大學劉知遠:知識指導的自然語言處理
    ,闡釋了語言知識和世界知識對於自然語言處理的重要價值。主要研究方向為表示學習、知識圖譜和社會計算。2011年獲得清華大學博士學位,已在ACL、IJCAI、AAAI等人工智慧領域的著名國際期刊和會議發表相關論文60餘篇,Google Scholar統計引用超過6000次。曾獲清華大學優秀博士學位論文、中國人工智慧學會優秀博士學位論文、清華大學優秀博士後、中文信息學會青年創新獎,入選中國科學青年人才託舉工程、中國計算機學會青年學者提升計劃。
  • 直播丨AAAI 2020論文預講會,邀你一起共賞自然語言處理學術盛宴
    這是一場關於「自然語言處理」的學術盛宴!  AAAI 2020論文預會議,由中國中文信息學會青年工作委員會主辦,北京大學王選計算機研究所承辦,在戰略合作夥伴北京智源人工智慧研究院、協同支持單位樂元素和媒體合作夥伴雷鋒網AI研習社的支持下,將於12月22日在北京大學秋林報告廳舉行。
  • CCF NLPCC 2018 自然語言處理與中文計算國際會議
    CCF 自然語言處理與中文計算國際會議 (NLPCC) 是由中國計算機學會主辦的中文信息技術專業委員會年度學術會議,是專注於自然語言處理及中文計算領域的國際會議。去年,第六屆自然語言處理及中文計算大會(NLPCC 2017)在大連成功舉辦。為此,雷鋒網(公眾號:雷鋒網)AI科技評論曾採訪 CCF 中文信息技術專委會主任、微軟亞洲研究院副院長周明博士及 CCF 中文信息技術專委會秘書長、北京大學趙東巖研究員,了解了中國 NLP 研究及 NLPCC 大會的發展歷程及未來規劃。
  • 翻譯機器人可「領會」使用意圖 河南首個自然語言處理實驗室發布新...
    驚人的口才和語言自主學習能力讓全世界所折服,儼然成為人工智慧領域中的網紅。   當然,伴隨著Sophia的走紅,自然語言處理這一人工智慧領域中的分支課題也逐漸走進人們的視野,成為近年來人工智慧領域中最火熱的研究課題。自然語言處理簡稱「NLP」, 它是以實現人與計算機之間用自然語言進行有效通信的各種理論和方法為主要研究對象。
  • 獨家| 人工智慧學習篇7:自然語言處理開源框架
    20世紀60年代,自然語言處理早期研究以機器翻譯為主,但由於理論和技術均不成熟,進展不大,且大多數自然語言處理系統都是基於複雜人工規則實現。從80年代末開始,自然語言處理引入了機器學習算法並嘗試從語料中學習統計特徵。自然語言具有稀疏性和語義性等特點,如何對字、詞、短語、句、段、篇章等結構進行有效表示,是研究自然語言處理需解決的首要問題。
  • 自然語言處理的經驗主義和理性主義
    前不久,中國語言文字研究所研究員、計算語言學家馮志偉先生在接受中國社會科學院訪談時呼籲計算語言學的發展應將基於規則的理性主義和基於統計的經驗主義相結合。馮志偉先生在另一篇文章中對計算語言學/自然語言處理發展過程中的經驗主義和理性主義做了非常高屋建瓴的解讀和詳細深刻的闡釋,本文就對這篇文章進行梳理,回史望今,希望對理解當下自然語言處理的發展趨勢有所幫助。
  • 計算語言頂會ACL 2017開幕在即:國內接收論文梳理(5篇傑出論文)
    第 55 屆國際計算語言學協會(ACL)年會將於 7 月 30 日-8 月 4 日在加拿大溫哥華舉行。作為計算語言學領域的首要會議,廣泛涉及自然語言的計算方法及其各類研究領域。ACL 2017 除了主要會議之外,還如同其他頂級會議一樣包含研討會、專題報告、研習會和演示等。
  • 百度CTO王海峰:自然語言處理技術發展飛速,機器翻譯從理想走向現實
    百度首席技術官王海峰出席論壇,並發表題為《自然語言處理前沿》的主題演講,向與會嘉賓介紹了自然語言處理相關研究的發展歷史和趨勢,以及百度在自然語言處理技術和產業應用中取得的成果。王海峰表示,自然語言處理(NLP)是用計算機來模擬、延伸及拓展人類語言能力的理論、技術及方法。
  • 華為諾亞方舟實驗室主任李航:自然語言處理的未來趨勢
    我在闡述這個觀點的過程當中,也會介紹一下華為諾亞方舟實驗室做的一些工作。華為諾亞方舟實驗室,在整個華為的戰略裡,是肩負著人工智慧、機器學習和數據挖掘方面的研究任務,既有偏長期的工作,也有偏短期的、產品化的工作,那麼我今天主要是講一講,我們已經進行的基礎性長期性的工作。主要包括自動問答、圖片檢索、機器翻譯、自然語言對話領域裡,我們做了哪些模型,取得了什麼樣的效果。
  • 自然語言處理 NLP 發展簡史
    這一系列顛覆性的研究成果在學術界引發轟動,激發了人工智慧(AI)的思潮,同時也催生了自然語言處理(NLP)和計算機技術的發展。NLP 的早期理論基礎人們最早對 NLP 的探索始於對機器翻譯的研究。1947年,美國科學家韋弗(W. Weaver)博士和英國工程師布斯(A. D.
  • 百分點認知智能實驗室出品:機器翻譯是如何煉成的(下)
    01  新的曙光:Encoder-Decoder模型  上文已經提到在2013年提出的這種端到端的機器翻譯模型。一個自然語言的句子可被視作一個時間序列數據,類似LSTM、GRU等循環神經網絡比較適於處理有時間順序的序列數據。
  • ACL論文 | 深度學習大神新作,神經網絡的自然語言翻譯應用
    神經機器翻譯是一種簡單的新架構,可以讓機器學會翻譯。該方法雖然相對較新,已經顯示出了非常好的效果,在各種語言對上都實現了最頂尖的表現。神經網絡在自然語言處理方面,未來有巨大的應用潛力。講座學者之一 Kyunghyn Cho 與深度學習「大神」 Yoshua Bengio、蒙特婁大學學者 Junyoung Chung 在 ACL 大會上發表了論文,進一步展現神經機器翻譯的研究結果。
  • 近幾年-基於深度學習自然語言處理的推薦系統-必讀論文整理分享
    基於內容的推薦(Content-based Recommendation)是信息過濾技術的延續與發展,它是建立在項目的內容信息上作出推薦的,而不需要依據用戶對項目的評價意見,更多地需要用機器學習 本資源整理了基於自然語言處理內容理解的推薦系統,整理了最近幾年NLP在推薦系統中相關的應用,涉及基於知識圖譜的推薦、基於文本的推薦及廣告、基於對話系統的推薦、基於上下文推薦和可解釋下推薦。
  • 三大實驗室,三場直播!
    2020年4月3日,NLP 頂會 ACL 2020 公布錄用論文之後,AI科技評論相繼與哈工大、復旦大學、清華大學重磅推出了四期「系列解讀」直播活動,受到廣大師生的關注和好評。相信在第一期的「哈工大 SCIR 系列解讀」中,大家就對哈工大社會計算與信息檢索研究中心 (HIT-SCIR)在自然語言處理領域中所嶄露的實力有目共睹。
  • 搜狗機器翻譯團隊獲得 WMT 2017 中英機器翻譯冠軍
    其中,作為自然語言處理領域頂級國際會議之一的 EMNLP 2017 將於今年 9 月在丹麥首都哥本哈根舉行,與此同時,第二屆機器翻譯大會(WMT 2017)將會作為本次會議的分論壇同時召開。今年的一大亮點是,WMT 首次增設了中文和英文間的新聞數據翻譯任務。
  • ACL 2020 清華大學 THUNLP 系列解讀
    清華大學自然語言處理實驗室(THUNLP)由孫茂松教授領導,主要從事中文信息處理、社會計算和知識圖譜研究,實驗室 「二劉老師」(劉洋、劉知遠)是我國NLP領域的青年代表,劉洋教授在機器翻譯領域造詣頗深,劉知遠副教授則聚焦語言理解與知識計算
  • 自然語言處理第2課:通外語、會寫詩、能考古的機器翻譯
    百度技術學院(bit.baidu.com)人工智慧技術課程,首期中文自然語言處理課程之後,這次讓我們把目光投向更廣闊的時空,自然語言處理第二課——機器翻譯,人工智慧的終極目標之一。如何在3個月內學會一門外語?這裡給大家分享一些經驗:1、購買一套個人經濟能力範圍內,可以買到最貴的語言課程。
  • 自然語言處理的應用前景
    自然語言處理(NLP)的定義 自然語言處理(NLP)是人工智慧技術的一個分支,它使計算機能夠像人們一樣理解、處理和生成語言,並且在商業中的應用正在迅速增長。 雖然自然語言處理(NLP)這一術語最初指的是人工智慧系統的閱讀能力,但它後來成為所有計算語言學的一種通俗說法。
  • 探測機器翻譯的「溫度」
    祝朝偉認為,機器是否會取代譯者的問題之所以成為爭論焦點,本源在於人的慣性思維,這種思維有意識地把科技的進步與人文因素的發展列為對立面。我們可以從翻譯實踐中得知,機器翻譯與人工翻譯之間的關係不是對立而是相互依存,換言之,科技和人文有機的結合,才是二者未來的發展大趨勢。從機器翻譯技術的發展現狀及其潛存的人文因素中,能夠探測到「冰冷」的機器翻譯背後「溫暖」的人文因素。