谷歌翻譯最新突破,「關注機制」讓機器讀懂詞與詞的聯繫

2021-01-08 36氪

大數據文摘作品,作者 | Devin Coldewey,編譯 | 白丁,大餅,錢天培。

I arrived at the bank after crossing the street.

I arrived at the bank after crossing the river.

拿到這兩句話,你會怎麼翻譯呢?你覺得機器翻譯又會怎麼處理呢?

機器翻譯的缺點

機器翻譯雖然是一大利器,但也有一些缺點,比如說:按照「一個字一個字」順序翻譯的機器翻譯模型往往會導致嚴重錯誤發生。

谷歌在其研究日誌(Research blog)中發表了一篇趣味十足的文章,詳細分析了這個問題並給出解決方案。

谷歌自然語言處理部門的Jakob Uszkoreit用以下兩句話闡釋了這個問題:

I arrived at the bank after crossing the street.

過了這條街,就到銀行了。

I arrived at the bank after crossing the river.

過了這條河,就到對岸了。

(譯者加註:「bank」為多義詞,兼有「銀行」和「河岸」之意。)

顯而易見,「bank」一詞在兩句話中含義截然不同,但是後臺算法很容易處理錯 -因為不讀完整個句子就無法判定句中「bank」的確切含義。類似這種多義詞的現象比比皆是。

如果讓我去翻譯這句話,我一眼就能看出這兩句話中」bank「的區別,但這對翻譯系統來說就沒那麼簡單了。如果修改神經網絡,使其翻譯完一句話後再檢查是否有誤,有問題的話就再重來一遍,就未免效率太低。

解決方法

為此,谷歌提出了在轉換器(Transformer)中建立關注機制(attention mechanism)作為解決方案。

該機制會將單詞逐一與句中其他單詞進行比對,並檢查是否會影響其他詞的詞義 - 比如,檢查說話人是「他」還是「她」,或者像「bank」這樣的多義詞在句中的確切含義。

在構建譯文的過程中,關注機制會把句子中的每個單詞與所有其他單詞逐一比對。下圖在一定程度上說明了這個比對過程的工作機制。

有意思的是,谷歌的方法也讓我們有機會一窺其系統的內部邏輯:因為轉換器(Transformer)會為每個單詞與其他詞的關係按對逐一打分,所以你可以看到它認為哪些詞是相關的,或至少可能相關的:

(譯者註:以上兩句話的意思分別是:

那隻動物沒有穿過街道因為它太累了。

那隻動物沒有穿過街道因為它太寬了。

「it」這個單詞在兩句話裡面分別指代「動物」和「街道」。)

酷吧?我覺得超酷啊。這是另一種多義詞的情形:「it」既可能指代街道或也可能指代動物,而只有讀到最後一個單詞(「累」或者「寬」)才能明白到底指代的是什麼。我們人類自動就能分辨,而機器仍需練習。看起來谷歌的這一系統已經學得相當好了。

最後,如果你覺得「關注機制」這個詞眼熟,那你之前一定已經讀過了Techcrunch對DeepL的報導。

DeepL是一家機器翻譯的初創公司。在報導中公司聯合創始人表示他們致力於關注機制,甚至表示谷歌的日誌是基於《關注就是一切》(Attention Is All You Need)這篇文章的,谷歌作了一定的修改。

然而,這位聯合創始人還認為他們公司的辦法非常有效 —— 甚至比谷歌的還好用。

如果你想進一步了解「關注機制」,不妨閱讀DeepL發表的論文 Attention Is All You Need(https://arxiv.org/abs/1706.03762)。

原文連結

相關焦點

  • 將科幻變成現實,谷歌百度用神經機器翻譯踐行人類的「巴別塔之夢」
    而谷歌的神經機器翻譯提出了帶有 8 個編碼器和 8 個解碼器的深度 LSTM 網絡組成的模型,使用了注意力和殘差連接。為了提升並行性從而降低訓練時間,注意機制將解碼器的底層連接到了編碼器的頂層。在推理計算過程中使用了低精度運算來加速翻譯速度。為改善對罕見詞的處理,谷歌將詞分成常見子詞單元(詞的組件)的一個有限集合,該集合既是輸入也是輸出。
  • 重磅| 谷歌大腦養成記:從識別貓到突破性機器翻譯
    選自NYT機器之心編譯谷歌如何使用人工智慧來改進谷歌翻譯等許多谷歌服務?《紐約時報》雜誌今日發布了一篇重磅長篇《The Great A.I. Awakening》全面解讀谷歌利用機器學習重塑自身的戰略。機器之心編譯時進行了適當的刪減。
  • 機器翻譯:谷歌翻譯是如何對幾乎所有語言進行翻譯的?
    第一部分簡單介紹神經網絡機器翻譯(NMT)和編碼器-解碼器(Encoder-Decoder)結構。第二部分提供了使用Python創建語言翻譯程序的詳細步驟。圖源:谷歌什麼是機器翻譯?機器翻譯是計算語言學的一個分支,主要研究如何將一種語言的源文本自動轉換為另一種語言的文本。在機器翻譯領域,輸入已經由某種語言的一系列符號組成,而計算機必須將其轉換為另一種語言的一系列符號。神經網絡機器翻譯是針對機器翻譯領域所提出的主張。
  • 百分點認知智能實驗室出品:機器翻譯是如何煉成的(下)
    2013年牛津大學Nal Kalchbrenner和Phil Blunsom提出端到端神經機器翻譯(Encoder-Decoder模型),2014年穀歌公司的Ilya Sutskerver等人將LSTM引入到Encoder-Decoder模型中。這兩件事標誌著以神經網絡作為基礎的機器翻譯,開始全面超越此前以統計模型為基礎的統計機器翻譯(SMT),並快速成為在線翻譯系統的主流標配。
  • 「苟富貴勿相忘」翻譯後,谷歌:沒錢的人總會被遺忘
    比如,經常出現的問題包括但不限於訓練和解碼過程緩慢;對同一個詞的翻譯風格不一致;翻譯結果存在超出詞彙表(out-of-vocabulary)的問題;黑箱的神經網絡機制的可解釋性很差;訓練所用的參數大多數是根據經驗選擇的。
  • 讀了20次「苟富貴勿相忘」後,谷歌翻譯:沒錢的人總會被遺忘
    比如,經常出現的問題包括但不限於訓練和解碼過程緩慢;對同一個詞的翻譯風格不一致;翻譯結果存在超出詞彙表(out-of-vocabulary)的問題;黑箱的神經網絡機制的可解釋性很差;訓練所用的參數大多數是根據經驗選擇的。NMT和SMT對比總的來說:不確定性是翻譯中的一個核心挑戰。知己知彼百戰百勝,想要根除這種不確定性,我們還需要知道它的來源。
  • Transformer新型神經網絡在機器翻譯中的應用|公開課筆記
    關注AI的同學最近應該會看到,機器翻譯是一個比較活躍的領域,很多大公司都爭先推出了自己的機器翻譯服務,包括還有一些機器翻譯的硬體已經在市場上投放,比如翻譯筆。Decoder層比Encoder層多一個子網絡,就是Encoder-Decoder Attention,它是源端到目標端的注意力機制,對源端詞到目標端的助理機制,不是源端到目標端詞的依賴關係,用到翻譯裡是說這個源端待翻譯的詞和源端生成翻譯詞之間的依賴關係。我們如果進一步對Encoder部分進行細化,它長成這樣。
  • 谷歌推出首款基於機器學習的古埃及象形文字翻譯工具Fabricius
    來源:TechWeb.com.cn【TechWeb】7月15日消息,今天,谷歌藝術與文化今天推出了全球首個基於機器學習的埃及象形文字的數字翻譯工具Fabricius。不管是普通人還是學者都能利用這個工具體驗象形文字,或者助力學術 研究。
  • 谷歌揭秘自家翻譯系統:如何利用AI技術提高翻譯質量 | 網際網路數據...
    但並不是所有語言都具備豐富可用訓練的文字資料,這樣一來,如何在數據不多的情況下,訓練出更好的翻譯器,成為機器翻譯領域裡需要解決的問題之一。近日,谷歌在自己的博客上介紹了公司最新的翻譯創新技術,這些技術提升了谷歌翻譯的用戶體驗。目前谷歌翻譯可支持108種語言,平均每天翻譯1500億個單詞。谷歌翻譯最早亮相於2006年,在過去的13年間,翻譯水平有了重大飛躍。
  • 谷歌同志是位好「翻譯」!|翻譯|谷歌|谷歌翻譯|google translate
    截至2020年6月,谷歌翻譯共支持109種不同的語言,每天5億多用戶總共貢獻1,500億個字詞的天量翻譯。谷歌翻譯的進化2006年4月28日,谷歌翻譯的統計機器翻譯(Statistical Machine Translation,SMT)服務推出,利用聯合國和歐洲議會的文件和筆錄收集語言數據。
  • 2015英語六級考試翻譯技巧(4):詞的減省
    新東方網>大學教育>四六級>複習輔導>六級>六級輔導>翻譯>正文2015英語六級考試翻譯技巧(4):詞的減省 2015-05-21 13:52 來源
  • 你的定製版「谷歌」機器翻譯體系
    建立在深度學習基礎上的新翻譯系統,取代了語言學家數十年統計研究而建立的舊系統。像谷歌翻譯這樣的流行翻譯產品從內部結構發生改變,用新的深度學習模式取代了原來的代碼。機器翻譯深度學習框架相比於用TensorFlow或PyTorch這樣的通用機器學習框架,項目將使用Marian NMT來實現翻譯模型。Marian NMT基於c++,是專門為機器翻譯設計的機器學習框架,它已自帶幾個神經轉換模型體系結構。
  • AI領域再突破!OPPO榮獲全國機器翻譯大賽多項第一名
    OPPO繼去年參賽並獲得了兩條賽道的冠亞軍後,在今年繼續突破了自己——參加了全部6條翻譯賽道,獲得5個賽道的第一名,1個賽道的第二名;同時參與了語料過濾賽道,獲得了該賽道子任務(5億詞規模)的第一名。
  • 谷歌翻譯是如何藉助多項新興AI技術提高翻譯質量的
    谷歌稱,它在翻譯領域所取得的突破並不是由單一技術驅動的,而是針對低資源語言、高資源語言、總體質量、延遲和整體推理速度的多項技術共同作用產生的。在2019年5月到2020年5月之間,根據人工評估和BLEU(基於翻譯系統翻譯和人工參考翻譯之間相似性的衡量標準),谷歌翻譯在所有語言中平均提高了5分以上,在50種語料資源最少的語言中平均提高了7分以上。
  • 你知道哪些詞不可翻譯嗎?
    我們經常聽到人們 在提到 從語言到另一種語言的翻譯中的不幸或錯誤時 使用「迷失在翻譯中」一詞 。某些語言 從另一種語言翻譯出來後,根本 無法抓住它的真正本質。這些被稱為不可翻譯詞。在過去的幾個月中,我們一直在研究來自世界各地的不可翻譯詞及其含義。在這裡,我們想與您分享一些我們最喜歡的不可翻譯單詞:Abbiocco –義大利語一次或多次進食過多後,我們都經歷了睡意。
  • 親測|Google翻譯內核升級:大型數據集神經機器翻譯加持 稱誤差再降...
    Google展示的翻譯模型質量十多年前,Google發布了Google翻譯,早年基於短語的統計機器翻譯,會將輸入句子分解成詞和短語,然後對它們進行獨立翻譯。這種翻譯方式的劣勢非常明顯:句子中原本完整的信息被碎片化,無法連貫地進行表達。而這種現象在英中互譯的情況下顯得尤其明顯。
  • 機器翻譯簡史:八十多年來,人類就是要再造一座通天塔
    直接機器翻譯這類翻譯最為簡單,它將為本分成單詞,翻譯出來,稍微修正一下形態,然後協調句法,讓整句話聽起來多少像那麼回事,就可以了。直接機器翻譯需要訓練有素的語言學家為每個詞編寫規則,輸出的語句可以說是一種譯文,但通常很詭異。這種方法,現在已經淘汰了。
  • 谷歌Chrome代碼擬剔除「黑名單」及「白名單」用詞
    過去幾周,美國掀起了一波反對種族主義的浪潮,谷歌(Google)作為「黑人的命也是命(Black Lives Matter)」國際維權運動的堅定支持者,為進一步表示對黑人平權運動的支持,谷歌Chrome團隊將對服務進行調整,不再使用「黑名單(Blacklist)」和「白名單(Whitelist
  • philotimo:一個無法翻譯的希臘詞
    [摘要]Philotimo 一詞的確切含義頗具爭議,因為這個詞就像希臘詞彙的萬神殿,很難解釋。這個單詞的官方譯法是「愛榮譽」(Love of honour),這個翻譯不足以傳達這個四音節單詞所蘊含的美好寓意。
  • 支持108種語言的谷歌翻譯如何用AI讓翻譯質量越來越好?
    自谷歌翻譯首次公開亮後的13年間,諸如神經機器翻譯、基於重寫的範例和本地處理之類的技術使該平臺的翻譯準確性有了可量化的飛躍。但是直到最近,翻譯的最新算法表現也落後於人類。谷歌表示,其翻譯質量的突破並不是由單一技術推動,而是針對資源較少的語言、高質量源語言、總體質量、延遲和整體推理速度的技術組合。在2019年5月至2020年5月之間,通過人工評估和BLEU(一種基於系統翻譯與人工參考翻譯之間相似性的指標)進行衡量,谷歌翻譯在所有語言中平均提高了5分或更多,在50種最低水平的翻譯中平均提高了7分或更多。此