得益於神經網絡(從人腦獲得靈感的計算機算式)的發展,自動化的語言翻譯已經存在了相當長一段時間。但訓練這些網絡需要海量數據:數以千萬計的逐句翻譯,以展示人類如何做這項工作。現在,兩篇新論文表明神經網絡可以在無需平行文本的情況下學習翻譯——這一令人震驚的進展或讓人們獲得許多不同語言的文獻記錄。
「想像一下,你給一個人很多中文書籍和阿拉伯書籍,而且它們沒有任何重疊性,然後一個人需要學習將其從中文翻譯為阿拉伯語。這聽起來似乎不可能,對吧?」其中一項研究的第一作者、西班牙聖西巴提巴斯克國家大學(UPV)計算機專家Mikel Artetxe說,「但我們證明計算機可以做到這一點。」
大多數機器學習——神經網絡和其他從經驗中學習的計算機算式——會受到「監督」。計算機會進行推測,然後接收到正確答案,並據此調整相應的過程。在教一臺計算機如何在諸如英語和法語之間進行翻譯時,這種模式會非常有效,因為很多文獻在這兩種語言中同時存在。但它對於罕見的語言,或者是那些沒有很多平行文本的通用語言並不奏效。
這兩篇尚未經過同行評議的新文章均已被提交給明年的國際學習代表會議,它們聚焦了另一種方法:無監督機器學習。一開始,計算機在沒有人類老師告訴它們其推測是否正確的情況下建設雙語詞典。這是因為語言在詞彙結合方面有著很強的相似性。例如,在各種語言中,桌子和椅子的詞彙經常會一起使用。因此,如果計算機將這些共性像一個城市巨大的公路地圖那樣描繪出來,那麼不同語言的地圖就會彼此相似,只不過它們擁有不同的名字。如此一來,計算機就能找出將一個地圖集覆蓋在另一個地圖集上的最佳方法。瞧!一本雙語詞典出現了。
這兩篇文章運用了非常類似的方法,均能在語句層面進行翻譯。它們均使用兩種訓練策略,即回譯和去噪。在回譯中,一種語言中的一句話被粗略地翻譯成另一種語言,然後再被轉譯回最初的語言。如果回譯的語句與最初語句並不相同,那麼將對神經網絡進行調整,從而使它們下一次翻譯得更加準確。去噪類似於回譯,但它不是從一種語言翻譯為另一種語言,然後再轉換為原語言,而是在一個句子中加入噪音(重新編排或是刪除詞彙),並嘗試將其翻譯到原語言中去。這兩種方法相結合教會了網絡更深層次的語言結構。
不過,這兩種技術之間也有些微差異。UPV的系統在訓練過程中進行了更多的回譯。而另一個由位於法國巴黎的臉譜網計算機科學家Guillaume Lample與其合作者研發的系統,則在翻譯過程中加入了額外的步驟。在將其「解碼」為另一種語言之前,兩套系統都會將一種語言的一個句子編碼為一種更加抽象的表徵,但臉譜網的系統驗證了中間的「語言」是真正抽象的。Artetxe和Lample均表示,他們可以通過應用對方論文中的技術改善自己的結果。
在兩篇論文之間進行的唯一直接對比結果中——對約3000萬個語句在英語和法語文本之間進行翻譯,兩套系統在雙向翻譯中均獲得了15分的雙語評估分數(用來衡量翻譯準確性)。這個分值沒有谷歌翻譯高(該系統所用的受監督的方法得分為40分),也不如人類翻譯得分高(超過50分),但卻比逐字翻譯要好得多。作者表示,兩套系統可以很容易地通過變為「半監督性」得到改善,即把數千個平行的語句加入到它們的訓練中。
除了不需要平行文本進行跨語言翻譯之外,Artetxe和Lample均表示,他們的系統有助於進行諸如英語和法語之間的常用翻譯匹配,特別是如果平行文本是同一類的話,如新聞報導。但除此之外,人們還希望將其翻譯為不同類型的文本,如街頭俚語或是醫學術語。「但這一切尚處於新生階段。」Artetxe的共同作者Eneko Agirre說,「我們剛剛開闢了一條新的研究大道,現在我們還不知道它會通向哪裡。」
北京中國微軟計算機學家、對上述兩項研究產生影響的Di He說:「在沒有人類監督的情況下,計算機能夠學習翻譯,這令人吃驚。」Artetxe說,他的方法和Lample的方法被上傳到arXiv預印本服務平臺的時間前後僅相隔1天,這樣的時間巧合令人吃驚。「同時,它意味著這種方法的確是正確的方向。」(馮麗妃編譯)
《中國科學報》 (2017-12-05 第3版 國際)