搜狗機器翻譯團隊獲得 WMT 2017 中英機器翻譯冠軍

2020-12-05 機器之心Pro

本文由機器之心編輯,「機器之心」專注生產人工智慧專業性內容,適合開發者和從業者閱讀參考。點擊右上角即刻關注。

每年的第三季度都是機器學習相關的頂級學術會議密集召開的時期,今年也不例外。其中,作為自然語言處理領域頂級國際會議之一的 EMNLP 2017 將於今年 9 月在丹麥首都哥本哈根舉行,與此同時,第二屆機器翻譯大會(WMT 2017)將會作為本次會議的分論壇同時召開。今年的一大亮點是,WMT 首次增設了中文和英文間的新聞數據翻譯任務。

搜狗語音交互技術中心代表搜狗參加了這次含金量極高的比賽,該中心研發的搜狗神經網絡機器翻譯(Sogou Neural Machine Translation)系統在「中文-英文」機器翻譯任務中獲得了冠軍。這個系統採用了哪些新方法、新結構,又為我們提供了哪些新思路?讓我們結合論文聊一聊 Sogou NMT。

WMT 是機器翻譯領域的國際頂級評測比賽之一。近年來,幾乎所有的研究機構在發表關於機器翻譯新方法的論文時,都會以 WMT 數據集作為實驗數據,並以 BLEU 評分來衡量方法的有效性,給出一個量化的、可比的翻譯質量評估,因此,WMT 數據集已經成為機器翻譯領域公認的主流數據集。

事實上,WMT 是一個開始自 2006 年 ACL 的國際機器翻譯研討會,提供統一的數據集,內容通常集中於新聞,並將結果以競賽的形式呈現出來,旨在促進機器翻譯研究機構之間的學術交流和聯繫,推動機器翻譯研究和技術的發展。從去年開始,WMT 正式從一個研討會(workshop)變成了一項會議(conference),作為自然語言領域頂級會議 ACL 或 EMNLP 的分會,延續競賽的性質,擴展任務的範圍以及語言對的數量。今年的 WMT 2017 將跟隨 EMNLP 一起在 9 月舉行。作為新聞機器翻譯任務的 7 個語言對之一,中英語言對首次出現在比賽任務中,並由南京大學、廈門大學、中科院等機構聯合協助提供相關數據。共有 20 支團隊提交了中文-英文翻譯系統、15 支團隊提交了英文-中文翻譯系統。參賽隊伍包括美國的約翰霍普金斯大學(JHU)、俄勒岡州立大學、美國空軍研究實驗室;加拿大的加拿大國家研究院(NRC)、英國的愛丁堡大學、羅徹斯特大學;中國的中科院計算技術研究所、廈門大學等。

Sogou NMT 在中文到英文翻譯任務中名列第一。其中,在中文到英文翻譯任務的八項評價標準中(其中四項為 BLEU 及 BLEU 的變體),獲得了七項第一。

Sogou NMT 的模型主體採用了業界主流的神經機器翻譯模型:基於循環神經網絡(recurrent neural network, RNN)的多層編碼器-解碼器(encoder-decoder)結構,並帶有注意力(attention)模塊。

神經機器翻譯在大規模翻譯任務上第一次獲得超越統計機器翻譯(SMT)的效果不過是 2014 年的事情(著名的 RNN encoder-decoder 結構就發表在 2014 年的 EMNLP 上),如今三年過去了,機器翻譯頂級論文中已經幾乎難以見到統計機器翻譯的身影,神經機器翻譯已經成為了機器翻譯領域的主流。如今,簡單地對神經網絡模型的套用已經不足以被頂級會議接收,研究者們討論的核心問題通常是如何優化神經網絡結構以便解決機器翻譯中的詞對齊、罕見詞、長句等難點問題。2014 年提出的注意力(attention)模塊就是針對性處理因為不同語言語法結構不同產生的語序不同、來源詞與目標詞對齊難的問題。注意力機制通過選全局性的選擇關注源語言橘子的不同部分,動態地構建上下文向量來對傳統 RNN 編碼器-解碼器進行了優化,極大改善了語言調序,尤其是中長距離調序問題。最近,谷歌的學者又提出了完全基於注意力的翻譯架構,注意力機制不再是連接編碼器和解碼器的模塊,而是模型的主體,取得了性能上的突破。當然,從工程實踐角度,如今主流的機器翻譯系統,無論是谷歌、臉書還是搜狗,都仍然使用 RNN 編碼器-解碼器結構。

編碼器和解碼器都有三層,其中編碼器的第一層為雙向層。與谷歌的 GNMT 雙向八層結構相比這個神經網絡並沒有那麼深,因此在效率上能夠獲得不小的提高。並且解碼器中,只有最底層接受語義向量的語境信息。根據論文所言,增加層數給中文到英文的翻譯系統帶來了 0.8 BLEU 的性能提升。

除此之外,Sogou NMT 系統還使用了如下四類技巧來提升模型質量:

用命名實體標註模型(NER)和神經網絡實體翻譯器對人名的罕見詞進行翻譯;多模型集成(ensemble)來給出最優翻譯結果;重打分/重排序(rescore or rerank)機制選出最優翻譯。採用了 Geoffrey Hinton 團隊提出的網絡層正則化(layer normalization)技術,極大提高了模型訓練效率,同時改善了模型的翻譯質量。

從這一張「技巧清單」中,我們可以看出,搜狗的機器翻譯團隊在自然語言處理和深度學習方面有非常深厚的積累。因為系統中用到的許多技巧,追本溯源,都有相應的自然語言處理領域的經典方法,同時也緊跟機器翻譯領域的前沿趨勢。

罕見詞和集外詞(OOV)的處理是一個雖然在 BLEU 評分上提升不多,卻在論文中被重點著墨、強調其在人工評議中的作用的模塊。由於 WMT 是新聞數據集,因此最重要的罕見詞類別是人名。搜狗用了兩個串聯的模塊來處理人名。首先是標註模型,NER,又稱命名實體識別,是自然語言處理的經典任務,文中用了傳統機器學習領域的條件隨機場(CRF)模型對源句和目標句中的詞同時進行標註,挑出其中在兩側都被標為「人物」的詞,用詞典的辦法進行解決。這適用於數據中出現過的「罕見詞」。對於標註模型也不能解決的集外詞,搜狗採用了將詞進一步拆分,然後建立「神經人名翻譯網絡」,把源句中的人名變為 BPE(字節對編碼)子詞串,再復原為目標句中的人名的做法。

集成方法和重排序方法都使用了傳統機器學習中的集思廣益思想。

集成方法最早見於文本信息的分類問題,是傳統機器學習中一個有「深度」的模型。模型通常由第一層的基礎分類器和第二層的集成分類器組成,基礎分類器分別給出分類預測,而後集成分類器對基礎分類器的預測結果進行集成整合,給出最後結果。在 NMT 的語境下,集成的結構沒有上述這麼複雜:系統取四個初始化參數不同的最優模型,綜合其信息給出 n 個最佳翻譯的候選列表,供下一步重排序使用。

重排序方法源於搜索排序,先模糊匹配再精確排序的辦法在實踐中獲得了非常不錯的效果,而後也擴展到了語音、自然語言等領域。文中的重排序也可以視為集成方法中的「集成層」,它用一些不同於之前的方法從另外的角度考量不同的翻譯選項。本文中,重打分階段涉及的模型包括:目標句右向左模型(target right-to-left model)、目標句到源句模型(target-to-source models)以及 N-gram 語言模型。目標句右向左模型採用了從後往前生成目標句的方法;目標句到源句模型通過減小「源到目標」和「目標到源」兩個對齊矩陣的差異(disagreement)來減少注意力噪聲。由於 Sogou NMT 同時進行中文到英文和英文到中文的任務,因此二者的主模型互為「目標句到源句模型」。實驗證明,重排序採用的翻譯候選範圍對於模型效果也很重要,將翻譯候選從 10 個提高到 100 個可以讓中文到英文翻譯系統提高 0.7 BLEU 分。

SogouNMT 系統創新性地將許多自然語言處理門類中非翻譯任務的方法用於機器翻譯中,通過向神經網絡添加額外的機器學習模塊來提升質量來點對點解決神經機器翻譯中的具體問題。從某種意義上來說,發現能夠和神經網絡「黑箱」肩並肩工作並提高翻譯質量的模塊,也是給予神經網絡以可解釋性的一種寶貴思路。

團隊介紹

搜狗機器翻譯團隊成立於 2016 年,是搜狗知音引擎的重要技術方向,成立之初,基於知音引擎團隊在語音技術方面的積累,半年內自研完成了搜狗自有的神經網絡機器翻譯技術,並在 2017 年 5 月的 WMT 國際機器翻譯評測中獲得中英翻譯的冠軍。在深耕技術的同時,也在積極推進產品落地,目前機器翻譯技術已經成功應用於搜狗同傳和搜狗輸入法中語音和文本翻譯產品中。其中,搜狗同傳技術於 2016 年 11 月 17 日在第三屆世界網際網路大會上完成首次演示,目前已經在多場重要會議場中使用,支持了數十場機器同傳演示,輸入法中的語音翻譯和文本翻譯上線以來日均 pv 已達 200 萬次。

相關焦點

  • WMT2017國際翻譯大賽,搜狗獲得中英/英中翻譯雙向冠軍
    語音翻譯,無疑是一個很好的突破口。擁有深度學習算法的加成,人工智慧讓機器學習變得更加「聰明」,足以打破語言文化的交流壁壘。從這一點來看,中國的科技公司已是佔據了領先地位。擁有語音技術積累的搜狗知音,在前幾天的WMT 2017國際評測中,獲得中英和英中翻譯雙向冠軍,機器翻譯的準確率和速度震動了整個業界。搜狗,已經跑在了人工智慧隊伍的前列。
  • 百度機器翻譯團隊獲得WMT2019中英翻譯冠軍
    8月1日,WMT2019國際機器翻譯大賽研討會在義大利佛羅倫斯召開。本屆大賽,百度機器翻譯團隊在中文-英文翻譯任務上獲得冠軍。,其中中文-英文翻譯任務是歷年參賽隊伍最多、競爭最為激烈的機器翻譯任務之一。
  • 搜狗獲WMT2017國際翻譯大賽雙向冠軍 可滿足多種場景下的實時翻譯...
    搜狗獲WMT2017國際翻譯大賽雙向冠軍 可滿足多種場景下的實時翻譯需求 每日經濟新聞 2017-09-19 00
  • 微信AI首次奪冠WMT2020國際機器翻譯大賽中英方向
    作為全球學術界最具權威的機器翻譯比賽,近日,WMT2020國際機器翻譯大賽的榜單停止提交結果並發布排名,其中騰訊微信AI團隊在「中文-英文」翻譯任務上奪得冠軍。提交結果BLEU評分第一,微信AI斬獲中英翻譯方向冠軍WMT 是機器翻譯領域的國際頂級評測比賽之一,自2006年創辦至今,WMT已經成功舉辦15屆。大賽每年都吸引了眾多來自全球的企業、科研機構和高校所組成的頂尖團隊,包括微軟、Facebook、百度、金山、日本情報通信研究機構(NICT)。
  • 百度機器翻譯五大領域實現新突破 獲WMT2019中英翻譯冠軍
    8月1日,WMT2019國際機器翻譯大賽研討會在義大利佛羅倫斯召開。本屆大賽,百度機器翻譯團隊在中文-英文翻譯任務上獲得冠軍。、競爭最為激烈的機器翻譯任務之一。
  • 2020國際機器翻譯大賽:火山翻譯力奪五項冠軍
    此外,火山翻譯團隊還拿下了「德語 -英語」和「德語-法語」語向機器翻譯項目的冠軍,更斬獲了平行語料過濾對齊項目普什圖語和高棉語的兩項第一。自2006年至今,國際機器翻譯大賽(WMT)已經成功舉辦15屆,本屆比賽共有39支隊伍參賽,包括微軟、Facebook、Google DeepMind、騰訊、小牛翻譯、華為、滴滴等實力雄厚的參賽團隊。組委會根據中英、英中、英德等22個不同翻譯任務提供測試數據集,並引入科學的語言專家人工評估流程。
  • 中到英新聞翻譯媲美人類,微軟機器翻譯新突破
    今日,微軟研究團隊表示,微軟和微軟亞研創造了首個在質量與準確率上匹配人類水平的中英新聞機器翻譯系統。黃學東告訴機器之心,他們採用專業人類標註與盲測評分代替 BLEU 分值而具有更高的準確性,且新系統相比於現存的機器翻譯系統有非常大的提升。因此,根據人類盲測評分,微軟機器翻譯取得了至少和專業翻譯人員相媲美的效果。
  • 搜狗翻譯APP亮相 可同步呈現中英雙語頁面
    【TechWeb報導】6月12日消息,搜狗搜索今日發起以「打破信息的邊界,和世界溝通」為主題的產品體驗季分享會,與中英同聲翻譯專家Jonathan Rechtman、「非主流翻譯家」谷大白話等共同探討人工智慧加持下,如何打破語言壁壘,與世界無界溝通。
  • 人工智慧再下一城:機器翻譯提前7年達到人類專業翻譯水平
    為了確保翻譯結果準確且達到人類的翻譯水平,微軟研究團隊還邀請了雙語語言顧問,將微軟的翻譯結果與兩個獨立的人工翻譯結果進行了比較評估(全部盲測)。黃學東告訴新智元:「當機器翻譯質量很差的時候,使用BLEU評分還行,但是當機器翻譯質量提高以後,就需要靠人類來評價。」
  • 人工智慧PK翻譯專家 搜狗英文搜索、翻譯APP亮相
    6月12日,搜狗搜索發起以「打破信息的邊界,和世界溝通」為主題的產品體驗季分享會,與中英同聲翻譯專家JonathanRechtman、「非主流翻譯家」谷大白話等共同探討人工智慧加持下,如何打破語言壁壘,與世界無界溝通。
  • 不懂中文的外國人:押注搜狗翻譯寶Pro 血拼雙11
    她告訴記者,她親自體驗了這款翻譯機後,發現其翻譯結果十分準確。「雖然我的中文說的不錯,但有時候出去吃飯,一些菜單一樣看不懂。用這款翻譯機的拍照翻譯功能拍一下,就行了。即使沒有網絡,也一樣可以用。」金麗說,她也下單訂購了搜狗翻譯寶Pro。和李允珠一樣,來自俄羅斯的伊萬也訂購了搜狗翻譯寶Pro,並由此開啟了自己的網購之路。
  • BAT、谷歌、Facebook都在搞的神經機器翻譯,真的就地表最強了嗎?
    這期間發生的大事,是以神經網絡作為基礎的機器翻譯,開始在全面超越此前以統計模型為基礎的統計機器翻譯,並快速成為在線翻譯系統的主流標配。在這場革命之後,機器翻譯徹底進入了Neural Machine Translation,即NWT神經機器翻譯時代。很多人為此歡欣鼓舞。
  • 巨頭扎堆的小市場:不學外語,機器翻譯搞定一切?
    機器翻譯的繁榮景象與各家產品對比在機器替代人類勞動力的徵途裡,翻譯界無疑首當其衝。機器翻譯技術很早就存在,但真正的實現大規模產品化,是出現在谷歌發布翻譯產品之後的半年中,谷歌、微軟、有道、科大訊飛、百度、搜狗等均上線或更新了翻譯產品,各大廠商都想在這個備受關注的機器翻譯領域裡分得一杯羹。你可能會覺得奇怪,為何大型技術公司都熱衷於扎堆做機器翻譯?
  • ...規模集成Transformer模型,阿里達摩院如何打造WMT 2018機器翻譯...
    在剛剛結束的 WMT2018 國際機器翻譯大賽上,阿里巴巴達摩院機器智能實驗室機器翻譯團隊打敗多個國外巨頭與研究機構,並在英文-中文翻譯、英文-俄羅斯語互譯、英文-土耳其語互譯這 5 個項目的自動評測指標 BLEU 分值都位居第一。
  • 搜狗2016財報解讀:對話、問答、翻譯 將AI武裝到牙齒
    2017年2月21日,搜狗公布了2016全年財報及2016第四季度財報。財報顯示,2016年全年,搜狗營收44億元人民幣,同比增長19%。在持續加大研發和品牌投入的情況下,繼續維持良好的利潤水平,非美國會計準則下的淨利潤達6.4億元人民幣。綜觀營收和利潤情況,截至2016年底,搜狗已經連續12個季度實現了持續盈利,並且保持良好的增長態勢。
  • 微軟宣布重大裡程碑:中英機器翻譯水平可「與人類媲美」
    PingWest品玩3月15日報導,根據微軟亞洲研究院消息,今天,微軟研究團隊宣布其研發的機器翻譯系統在通用新聞報導測試集newstest2017的中-英測試集上達到了人類水平,這是首個在新聞報導的翻譯質量和準確率上可以比肩人工翻譯的翻譯系統。
  • 王維、楊絳與機器翻譯的本質
    沃倫·韋弗認為翻譯是一個解碼的過程,這個解碼的過程,有一個正確的答案。同時他認為機器翻譯能夠「理解」這個密碼所代表的意思。 從1947年到現在,又發生了什麼?其中有一篇文章就是1959年由Yehoshua寫的文章,他雖然對機器翻譯有多年研究,但最終對機器翻譯持批評的態度,不過他對於機器翻譯的可能性卻持有比較曖昧的態度。
  • 揭秘:搜狗語音實時翻譯是怎麼煉成的
    今年的網際網路大會現場,搜狗 CEO 王小川將自己的演講內容用搜狗語音實時翻譯成中英對照的形式,「技驚四座」的同時,也讓各位看官們覺得代替同傳的工具要來了。雖然搜狗語音實時翻譯將王小川說的「搜索的未來就是人工智慧時代的皇冠」準確翻譯成了「In the future, search will be the Crown of the AI Era」,但王小川坦言,在演示之前沒做預先的試驗,對效果並沒有把握,就連他也是捏著一把冷汗,也不認為機器可以把人幹掉。然而,新技術的突破總會讓人感到興奮。
  • 微軟技術院士黃學東:以人為師,機器翻譯達人類專業水平
    2018年3月份,他帶領的團隊在機器翻譯領域拿下一項裡程碑式的成就:其研發的機器翻譯系統在通用新聞報導的newstest2017中譯英測試集上,達到了人工翻譯水平。這是首個在新聞報導的翻譯質量和準確率上媲美人工翻譯的翻譯系統。
  • 搜狗訊飛分獲IWSLT2018評測第一,到底哪個冠軍更有份量
    10月31日上午,科大訊飛和搜狗兩家公司幾乎在同一時間,都表示自己獲得了IWSLT2018國際口語機器翻譯評測比賽的第一名。看到這個奪冠「撞車」的消息,讓網友們不禁產生了強烈的疑惑:又不是並列第一名(搜狗明確說明了擊敗訊飛),這一個比賽裡為什麼會有兩個世界冠軍呢?