本文由機器之心編輯,「機器之心」專注生產人工智慧專業性內容,適合開發者和從業者閱讀參考。點擊右上角即刻關注。
每年的第三季度都是機器學習相關的頂級學術會議密集召開的時期,今年也不例外。其中,作為自然語言處理領域頂級國際會議之一的 EMNLP 2017 將於今年 9 月在丹麥首都哥本哈根舉行,與此同時,第二屆機器翻譯大會(WMT 2017)將會作為本次會議的分論壇同時召開。今年的一大亮點是,WMT 首次增設了中文和英文間的新聞數據翻譯任務。
搜狗語音交互技術中心代表搜狗參加了這次含金量極高的比賽,該中心研發的搜狗神經網絡機器翻譯(Sogou Neural Machine Translation)系統在「中文-英文」機器翻譯任務中獲得了冠軍。這個系統採用了哪些新方法、新結構,又為我們提供了哪些新思路?讓我們結合論文聊一聊 Sogou NMT。
WMT 是機器翻譯領域的國際頂級評測比賽之一。近年來,幾乎所有的研究機構在發表關於機器翻譯新方法的論文時,都會以 WMT 數據集作為實驗數據,並以 BLEU 評分來衡量方法的有效性,給出一個量化的、可比的翻譯質量評估,因此,WMT 數據集已經成為機器翻譯領域公認的主流數據集。
事實上,WMT 是一個開始自 2006 年 ACL 的國際機器翻譯研討會,提供統一的數據集,內容通常集中於新聞,並將結果以競賽的形式呈現出來,旨在促進機器翻譯研究機構之間的學術交流和聯繫,推動機器翻譯研究和技術的發展。從去年開始,WMT 正式從一個研討會(workshop)變成了一項會議(conference),作為自然語言領域頂級會議 ACL 或 EMNLP 的分會,延續競賽的性質,擴展任務的範圍以及語言對的數量。今年的 WMT 2017 將跟隨 EMNLP 一起在 9 月舉行。作為新聞機器翻譯任務的 7 個語言對之一,中英語言對首次出現在比賽任務中,並由南京大學、廈門大學、中科院等機構聯合協助提供相關數據。共有 20 支團隊提交了中文-英文翻譯系統、15 支團隊提交了英文-中文翻譯系統。參賽隊伍包括美國的約翰霍普金斯大學(JHU)、俄勒岡州立大學、美國空軍研究實驗室;加拿大的加拿大國家研究院(NRC)、英國的愛丁堡大學、羅徹斯特大學;中國的中科院計算技術研究所、廈門大學等。
Sogou NMT 在中文到英文翻譯任務中名列第一。其中,在中文到英文翻譯任務的八項評價標準中(其中四項為 BLEU 及 BLEU 的變體),獲得了七項第一。
Sogou NMT 的模型主體採用了業界主流的神經機器翻譯模型:基於循環神經網絡(recurrent neural network, RNN)的多層編碼器-解碼器(encoder-decoder)結構,並帶有注意力(attention)模塊。
神經機器翻譯在大規模翻譯任務上第一次獲得超越統計機器翻譯(SMT)的效果不過是 2014 年的事情(著名的 RNN encoder-decoder 結構就發表在 2014 年的 EMNLP 上),如今三年過去了,機器翻譯頂級論文中已經幾乎難以見到統計機器翻譯的身影,神經機器翻譯已經成為了機器翻譯領域的主流。如今,簡單地對神經網絡模型的套用已經不足以被頂級會議接收,研究者們討論的核心問題通常是如何優化神經網絡結構以便解決機器翻譯中的詞對齊、罕見詞、長句等難點問題。2014 年提出的注意力(attention)模塊就是針對性處理因為不同語言語法結構不同產生的語序不同、來源詞與目標詞對齊難的問題。注意力機制通過選全局性的選擇關注源語言橘子的不同部分,動態地構建上下文向量來對傳統 RNN 編碼器-解碼器進行了優化,極大改善了語言調序,尤其是中長距離調序問題。最近,谷歌的學者又提出了完全基於注意力的翻譯架構,注意力機制不再是連接編碼器和解碼器的模塊,而是模型的主體,取得了性能上的突破。當然,從工程實踐角度,如今主流的機器翻譯系統,無論是谷歌、臉書還是搜狗,都仍然使用 RNN 編碼器-解碼器結構。
編碼器和解碼器都有三層,其中編碼器的第一層為雙向層。與谷歌的 GNMT 雙向八層結構相比這個神經網絡並沒有那麼深,因此在效率上能夠獲得不小的提高。並且解碼器中,只有最底層接受語義向量的語境信息。根據論文所言,增加層數給中文到英文的翻譯系統帶來了 0.8 BLEU 的性能提升。
除此之外,Sogou NMT 系統還使用了如下四類技巧來提升模型質量:
用命名實體標註模型(NER)和神經網絡實體翻譯器對人名的罕見詞進行翻譯;多模型集成(ensemble)來給出最優翻譯結果;重打分/重排序(rescore or rerank)機制選出最優翻譯。採用了 Geoffrey Hinton 團隊提出的網絡層正則化(layer normalization)技術,極大提高了模型訓練效率,同時改善了模型的翻譯質量。
從這一張「技巧清單」中,我們可以看出,搜狗的機器翻譯團隊在自然語言處理和深度學習方面有非常深厚的積累。因為系統中用到的許多技巧,追本溯源,都有相應的自然語言處理領域的經典方法,同時也緊跟機器翻譯領域的前沿趨勢。
罕見詞和集外詞(OOV)的處理是一個雖然在 BLEU 評分上提升不多,卻在論文中被重點著墨、強調其在人工評議中的作用的模塊。由於 WMT 是新聞數據集,因此最重要的罕見詞類別是人名。搜狗用了兩個串聯的模塊來處理人名。首先是標註模型,NER,又稱命名實體識別,是自然語言處理的經典任務,文中用了傳統機器學習領域的條件隨機場(CRF)模型對源句和目標句中的詞同時進行標註,挑出其中在兩側都被標為「人物」的詞,用詞典的辦法進行解決。這適用於數據中出現過的「罕見詞」。對於標註模型也不能解決的集外詞,搜狗採用了將詞進一步拆分,然後建立「神經人名翻譯網絡」,把源句中的人名變為 BPE(字節對編碼)子詞串,再復原為目標句中的人名的做法。
集成方法和重排序方法都使用了傳統機器學習中的集思廣益思想。
集成方法最早見於文本信息的分類問題,是傳統機器學習中一個有「深度」的模型。模型通常由第一層的基礎分類器和第二層的集成分類器組成,基礎分類器分別給出分類預測,而後集成分類器對基礎分類器的預測結果進行集成整合,給出最後結果。在 NMT 的語境下,集成的結構沒有上述這麼複雜:系統取四個初始化參數不同的最優模型,綜合其信息給出 n 個最佳翻譯的候選列表,供下一步重排序使用。
重排序方法源於搜索排序,先模糊匹配再精確排序的辦法在實踐中獲得了非常不錯的效果,而後也擴展到了語音、自然語言等領域。文中的重排序也可以視為集成方法中的「集成層」,它用一些不同於之前的方法從另外的角度考量不同的翻譯選項。本文中,重打分階段涉及的模型包括:目標句右向左模型(target right-to-left model)、目標句到源句模型(target-to-source models)以及 N-gram 語言模型。目標句右向左模型採用了從後往前生成目標句的方法;目標句到源句模型通過減小「源到目標」和「目標到源」兩個對齊矩陣的差異(disagreement)來減少注意力噪聲。由於 Sogou NMT 同時進行中文到英文和英文到中文的任務,因此二者的主模型互為「目標句到源句模型」。實驗證明,重排序採用的翻譯候選範圍對於模型效果也很重要,將翻譯候選從 10 個提高到 100 個可以讓中文到英文翻譯系統提高 0.7 BLEU 分。
SogouNMT 系統創新性地將許多自然語言處理門類中非翻譯任務的方法用於機器翻譯中,通過向神經網絡添加額外的機器學習模塊來提升質量來點對點解決神經機器翻譯中的具體問題。從某種意義上來說,發現能夠和神經網絡「黑箱」肩並肩工作並提高翻譯質量的模塊,也是給予神經網絡以可解釋性的一種寶貴思路。
團隊介紹
搜狗機器翻譯團隊成立於 2016 年,是搜狗知音引擎的重要技術方向,成立之初,基於知音引擎團隊在語音技術方面的積累,半年內自研完成了搜狗自有的神經網絡機器翻譯技術,並在 2017 年 5 月的 WMT 國際機器翻譯評測中獲得中英翻譯的冠軍。在深耕技術的同時,也在積極推進產品落地,目前機器翻譯技術已經成功應用於搜狗同傳和搜狗輸入法中語音和文本翻譯產品中。其中,搜狗同傳技術於 2016 年 11 月 17 日在第三屆世界網際網路大會上完成首次演示,目前已經在多場重要會議場中使用,支持了數十場機器同傳演示,輸入法中的語音翻譯和文本翻譯上線以來日均 pv 已達 200 萬次。