國內高校與廣州重點實驗室合作,發布對抗式神經機器翻譯

2020-12-13 雷鋒網

由中山大學,中國科技大學,微軟中國和廣東信息安全技術重點實驗室近日發表論文《Adversarial Neural Machine Translation-對抗式神經機器翻譯》,雷鋒網做了整理和編譯,未經雷鋒網許可不得轉載。

在2014年由Bahdanau等人提出的神經機器翻譯(NMT)近幾年獲得了學術和工業領域越來越多的關注。這種新式的翻譯方法與傳統的基於統計數據的翻譯機制(SMT)相比,可以獲得更好的翻譯質量。但是,其翻譯結果還遠遠沒有達到人類對機器翻譯的期待,基於NMT的研究還有很長的路要走。在研究領域,學者們使用的傳統NMT通常運用最大接近預測機制(MLE),使用翻譯原文段落和句子進行訓練。但是,這種翻譯方式並不能做到最為自然和準確的翻譯效果。儘管基於這種理論方法還有很多的科學研究,但是用機理上看,這樣的方式並不能從根本上使機器翻譯進步和提高到無限接近人類水平。

這篇論文介紹了一種新的基於神經機器翻譯的應用,結合近期行業內很火的生成對抗網絡GANs,使用GANs的思路架構進行訓練,從而實現的新方法,稱為對抗式神經機器翻譯。與目前熟知的大多數機器算法不同的是,通過這種方法的機器翻譯,不是通過將機器訓練的無限接近人,而是通過儘量減少人與機器之間的不同得以實現。在對抗式神經機器翻譯中,訓練的模型是由一種具備對抗性質的卷積神經網絡(CNN)構成的。鑑別器會將翻譯的結果和真實人類的翻譯結果進行區分。生成器(NMT模型)會生成高質量的翻譯結果來迷惑鑑別器。方法中還運用了梯度策略同時訓練NMT模型和對抗網絡。

論文中使用了英語法語翻譯和德語英語翻譯進行實驗,En→Fr資料庫由WMT 2014訓練語料庫構成, news-test 2012,news-test 2013作為開發組,news-test 2014作為測試組。該數據體量大約有12M,有6K和3K的句子對,最長的句子允許有50個字母。訓練使用了30K最多使用的英語和法語單詞。並將未出現的單詞標誌為UNK。並將未出現的單詞標誌為UNK。

Ge→En資料庫用了IWSLT 2014評估大賽的開源數據,體量大約為153k,有7k和6.5k雙語句子對,最長的句子長度也設置為50。訓練使用了包括22822個和32009個最常使用的英語和德語單詞的語料庫。

論文中對比了多個翻譯方法的結果。從上圖的表格中可以看到,通過對抗式神經機器翻譯相對於其他規範方法取得了更好的翻譯效果。特別是通過對抗式神經機器翻譯的方法,模型學習到了更好的詞彙量,更深的網絡,更大的單語種語料庫並取得了最大BLEU值。

原文連結:https://arxiv.org/pdf/1704.06933.pdf ,雷鋒網(公眾號:雷鋒網)

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 陽光學院打造「語用神經網絡機器翻譯」系統
    與會專家表示:「該系統在國內傳統語言學學界是首創,對處理專業性大批量快速翻譯項目等具有實踐應用和推廣價值」。「語用神經網絡機器翻譯」系統操作頁面此次會議邀請到世界500強企業翻譯技術開發與管理的權威專家、全國唯一以翻譯類業務為主的上市公司高管及985高校的機器翻譯業界專家到會進行成果鑑定,專家們認為,陽光學院「語言與智能研究團隊」已具備快速開發專業語料庫的經驗和能力,所開發的系統可在線推廣和應用。
  • 機器翻譯七十年:百度領跑神經網絡翻譯時代
    中新網12月22日電 機器翻譯距今已有70年的發展歷史。自上世紀40年代起,基於規則、實例以及統計的機器翻譯方法漸次登場,各領風騷。近兩年,神經網絡機器翻譯(Neural Machine Translation, NMT)技術異軍突起,取得了翻譯質量的大幅躍升。
  • 谷歌發布神經機器翻譯,翻譯質量接近筆譯人員
    據外媒報導,谷歌於昨日發布了網頁版本和移動版本的谷歌翻譯。在漢譯英的過程中,谷歌翻譯會採用全新的神經機器翻譯機制,而這個App每天要進行一千八百萬次這樣的翻譯。此外,谷歌針對這個神經機器翻譯系統的運作原理,專門發表了一篇學術論文。早前,谷歌就曾表示過,他們在谷歌翻譯中運用了神經網絡技術,但只限於實時視覺翻譯這個功能。前段時間,谷歌一名叫Jeff Dean的高級員工曾經告訴VentureBeat,谷歌已經在嘗試把越來越多的深度學習功能和機制融入到谷歌翻譯中。
  • 谷歌發布神經機器翻譯:翻譯質量接近筆譯人員
    據外媒報導,谷歌於昨日發布了網頁版和移動版的谷歌翻譯。在漢譯英的過程中,會採用全新的神經機器翻譯,而這個App每天要進行一千八百萬次這樣的翻譯。此外,谷歌針對這個翻譯系統的運作原理,發表了一篇學術論文。早前,谷歌就曾表示它們在谷歌翻譯中運用了神經網絡技術,但只限於實時視覺翻譯這個功能。
  • Google發布神經網絡機器翻譯系統:支持中英
    Google今天宣布發布Google神經網路機器翻譯系統(Google Neural Machine Translation),簡稱GNMT,使用當前最先進的訓練技術,能夠實現到迄今為止機器翻譯質量的最大提升。
  • 中葡英機器翻譯實驗室成立
    毛博藝供圖 人民網廣州7月21日電(楊傑利 劉紅豔 毛博藝)7月21日上午,中葡英機器翻譯實驗室(CPE LAB)合作協議籤署儀式在廣東外語外貿大學舉行。該實驗室由廣東外語外貿大學、澳門理工學院、中譯語通三方聯合成立,將在澳門落地實施。
  • SFFAI分享 | 楊振:低資源神經機器翻譯[附PDF]
    作者簡介楊振,中國科學院自動化研究所博士,研究方向為神經機器翻譯,主要研究內容包括模型算法優化,低資源情況下的機器翻譯算法研究,首次將對抗網絡應用於機器翻譯領域並取得了較大的性能提升。Introduction本論文針對基於深度學習的神經機器翻譯模型算法進行研究並針對實際應用場景對模型進行優化。神經機器翻譯是從2013年開始的一個新興的研究領域,其在很多語種上已經遠遠超越了傳統的統計機器翻譯。
  • 【金猿技術展】鏡像生成式神經機器翻譯模型——MGNMT
    背景和動機:目前機器翻譯模型需要在大量的雙語平行數據上訓練,從而得到不錯的性能。然而,在很多低資源的場景中,雙語平行數據是非常稀缺的,例如低資源的語向(如印地語-泰語)或低資源的領域場景(如社交網絡或小說)。
  • 小牛翻譯,做最好的機器翻譯發動機
    2007年回到實驗室後,朱靖波學會了以一種更好的心態去從事科研工作,不急功近利,不盲目跟風,研究工作也突飛猛進。2009年,團隊第一次使用統計機器翻譯技術參加國內規模最大、歷史最長的機器翻譯比賽—CWMT評測,取得了漢英新聞翻譯系統第二名的成績,僅以微弱的差距落後於微軟亞洲研究院。
  • 深度:回顧Google神經網絡機器翻譯上線歷程
    Google Translate作為久負盛名的機器翻譯產品,推出10年以來,支持103種語言,一直作為業界的標杆。而在前不久,Google官方對翻譯進行一次脫胎換骨的升級——將全產品線的翻譯算法換成了基於神經網絡的機器翻譯系統(Nueural Machine Translation,)。
  • 教育部國際合作實驗室名單出爐,3所雙一流高校重點實驗室入選
    2019年4月4日,中國教育部正式下發通知,為了促進中國高校雙一流的建設速度,讓中國高等教育走向世界,將成立7個國際合作聯合實驗室獲,其中有三所雙一流高校重點實驗室入圍,四所專業性一流學科高校入圍,未來這7閣國際合作聯合實驗室將為這些高校雙一流建設提供有力支撐。
  • 谷歌神經機器翻譯之我見
    本文寫於2016年9月Google升級神經機器翻譯(GNMT)之際。
  • 和清華大學自然語言處理與社會人文計算實驗室一起讀機器翻譯論文
    雷鋒網 AI 科技評論按:在生產和經濟高度全球化的今天,機器翻譯(Machine Translation)是人類面對外語時最渴望擁有的工具,也是神經網絡帶來最大變革的人工智慧問題之一。從最早的基於規則的機器翻譯,到基於概率的機器翻譯,再到現在的基於神經網絡的機器翻譯,機器學習和語言學的研究人員們一起經歷了幾十年的歷程。
  • 機器翻譯會是人力翻譯的終結者嗎?
    21日,一個由粵澳兩地高校和科技公司聯手組建的中葡英機器翻譯實驗室在廣東外語外貿大學籤約成立,代表全球領先技術的人工智慧工程師和語言學家們預測,機器翻譯時代,以語言為基礎的溝通方式、思維方式乃至社會關係都將發生翻天覆地的變化。
  • 谷歌翻譯高勤:神經網絡技術將主導機器翻譯的未來
    谷歌翻譯研發科學家高勤  中國網科技7月11日訊 谷歌翻譯研發科學家高勤在今天舉行的中國網際網路大會上介紹稱,谷歌翻譯在神經網絡機器翻譯技術上已經取得重要進展,並同時對機器翻譯技術在未來當中實際應用。他表示:「神經網絡機器翻譯和非專業人工翻譯已經相當接近,對於中英文互譯也取得最大提升。」  高勤在大會上稱,神經網絡翻譯技術與傳統翻譯技術有很大不同。傳統機器翻譯技術是基於短語統計機器翻譯拼圖過程,嘗試找出較好翻譯選項,而神經網絡機器學習屬於利用雲語言與目標語言信息,使整各翻譯過程變得連續且完整。
  • 百分點認知智能實驗室出品:機器翻譯是如何煉成的(下)
    按在「機器翻譯是如何煉成的(上)」的文章中,我們回顧了機器翻譯的發展史。在本篇文章中,我們將分享機器翻譯系統的理論算法和技術實踐,講解神經機器翻譯具體是如何煉成的。一般性計算公式為:在機器翻譯中Seq2Seq模型一般是由多個LSTM/GRU等RNN層疊起來。2016年9月谷歌發布神經機器翻譯系統GNMT,採用Seq2Seq+注意力機制的模型框架,編碼器網絡和解碼器網絡都具有8層LSTM隱層,編碼器的輸出通過注意力機制加權平均後輸入到解碼器的各個LSTM隱層,最後連接softmax層輸出每個目標語言詞典的每個詞的概率。
  • 谷歌的神經翻譯系統意味著機器翻譯到盡頭了?
    整個的報告以機器翻譯為主線展開,大概分四部分:第一叫做機器翻譯的波瀾史,幾十年的發展一波三折,非常有意思;第二是機器翻譯現在主流的技術神經機器翻譯,還是可以改進的。我可以給大家看一些例子,並不是谷歌就做到頭了,還有很多的空間。
  • 搜狗商用神經機器翻譯獲「創世技」顛覆性創新榜Top10
    其中,搜狗公司的「商用神經機器翻譯系統」獲得「創世技」顛覆性創新榜Top10。搜狗神經機器翻譯系統是搜狗公司全自主研發並已經成功商用的機器翻譯技術,是業界最新型翻譯系統,獲得多項授權專利。在該系統的支持下,搜狗日均翻譯請求3億次,覆蓋全球超5億用戶。
  • 微軟翻譯正式發布新一代神經機器翻譯技術
    IT之家11月16日消息 微軟於2018年初宣布推出第一個機器翻譯系統,帶來了極高的翻譯質量和準確性。日前,微軟翻譯官方博客宣布,將其中一些研究成果投入生產,發布了新的中文、德文與英語翻譯系統,提高了翻譯質量,並擴展了應用場景。
  • 國外十大高校人工智慧實驗室及其代表性人物一覽
    高校建立的實驗室與大公司有所不同,其研究項目除了偏應用科學的領域,還有一些屬於基礎理論研究的項目,是無法從具體的產品上表現的,通常高校實驗室會同時進行兩種領域的研究甚至側重後者,考慮到高校在學術界的地位,人們在關注實驗室研究內容的時候除了關注它的產品,同時也應該注意其在基礎研究領域的水平。