古文字被AI破譯,MIT和谷歌開發失傳語言的機器翻譯系統

2021-01-21 騰訊網

大數據文摘出品

編譯:劉俊寰

1886年,英國考古學家亞瑟·伊萬斯偶然間發現了一塊刻印著未知語言的石頭。得知這塊石頭來源於地中海的克裡特島後,伊萬斯立馬動身前往此處以搜尋更多證據。在那裡,他馬上就發現了許多筆跡相似的石碑,這些石碑能追溯到公元前1400年左右,這些刻字也就成為目前發現的最早的書寫形式之一。伊萬斯表示,這種線形形式是從早期藝術中粗糙的線條畫演變而來,在語言史上佔有重要地位。

伊萬斯等人後來證實,石碑上的刻字是兩種不同的文字系統。稍古老的一種稱為A類線形文字,可以追溯到公元前1800年至1400年,此時克裡特島還處於青銅時代的米諾文明階段。時間上更近一點的文字系統稱為B類線形文字,公元前1400年後才出現,此時的克裡特島正被希臘大陸的邁錫尼人統治著。

許多年來,伊萬斯等人一直試圖翻譯這些古老的文字,但都無疾而終。

這個問題直到1953年,一個名叫麥可·文特裡斯的業餘語言學家成功翻譯B類線形文字之後,才得到解決。

兩個假設

文特裡斯的成功建立在兩個決定性突破上。第一,他假設B類線形文字中重複出現的詞語是克裡特島的地名——這在其後被證明是正確的。第二,他假設這些刻字是古希臘語的早期形式——這讓他能夠立即翻譯出B類線形文字的其他部分。在翻譯過程中,文特裡斯表示,古希臘語的書面表達形式比之前預想的還要早幾個世紀。

文特裡斯的工作成果是一項巨大的成就。但像A類線形文字這樣的更為古老的文字系統,到今天為止仍然是語言學上一個亟需解決的難題。

通過機器學習繪製特定語言的聯結

不難想像,近年來機器翻譯的最新進展對此有所幫助。

短短幾年內,注釋資料庫和讓機器從中學習的技術讓語言學習發生了革命性變化,這使得機器翻譯變得越來越普遍。儘管翻譯質量有待提高,但這也提供了思考語言的一個全新角度。

來自麻省理工學院的羅家明(音譯)和雷吉納·巴爾齊萊,以及來自加州山景城谷歌人工智慧實驗室的曹源(音譯),由他們組成的團隊研發出了能夠翻譯失傳語言的機器學習系統,並且使其翻譯B類線形文字——第一次完全自動翻譯——證明了系統可行性。

他們所利用的方法與標準機器翻譯技術有著顯著區別。首先需要知道,不管哪種語言,機器翻譯的關鍵都在於認識到文字間聯結的相似性。因此整個過程是從繪製特定語言的聯結開始,這需要龐大的文本資料庫,機器在這個文本資料庫中查驗每個字符與其他字符在多大頻率上聯結在一起。這種表現非常獨特,它在多重參數空間上定義了這個詞語。實際上,這個詞語可以視為空間內一個向量,這個向量在機器對任何語言的翻譯結果中都起到重要的約束作用。

這些向量遵循著簡單的數學規則,舉例而言,國王(king)-男性(man)+女性(woman)=王后(queen)。所以,一句話可以認為是由一系列向量排列形成的一條跨越空間的軌跡。

完全對應地翻譯

機器翻譯的關鍵洞見在於,不同語言中的詞語在各自的參數空間內佔據著相同位置。這使得一種語言能夠完全對應地被翻譯成另一種語言。在這個意義上,翻譯句子就變成尋找那些跨越空間的相似軌跡的過程,機器甚至不需要「知道」句子的具體含義。

這個過程需要依賴大數據集。但幾年前,德國的一個研究者團隊利用小型資料庫協助翻譯缺少大型文本資料庫的稀有語言,其中的竅門在於找到一種除資料庫之外能夠約束機器的方法。

利用語言進化的約束

羅家明團隊已經進一步展示了機器是怎樣翻譯一門失傳語言的,他們使用的約束與語言隨時間的變化相關。任何語言都是以某種方式變化的,比如,親屬語言中的符號以相似的分布出現,相關詞語有相同順序的字符,等等。有了這些規則的約束,如果已知某種古老的語言形式,那麼翻譯就會輕鬆許多。

羅家明團隊利用這項技術測試了兩種失傳語言,B類線形文字和烏加裡特語。語言學家已經知道,古希臘語的早期形式是由B類線形文字編碼得到,而在1929年發現的烏加裡特語則是希伯來語的早期形式。

利用這些信息和語言進化的約束,羅家明團隊研發的機器能夠以相當高的準確度完成上述兩種語言的翻譯。「我們能夠正確地將67.3%的B類線形文字中的同源詞翻譯成對應的希臘語」,他們說,「據我們所知,本次實驗是最早嘗試自動翻譯B類線形文字的。」而出色的工作成果將機器翻譯提高到新的水平。但這也引發了關於其它失傳語言的疑問——尤其是從未被翻譯過的語言,如A類線形文字。

在這篇文章中,A類線形文字的缺席顯而易見,羅家明團隊甚至沒有提及A類線形文字,但和所有語言學家一樣,它肯定在他們心中揮之不去。不過可以確定的是,在A類線形文字能夠被機器準確翻譯之前,我們還需要一些重要的突破。舉個例子,沒人知道A類線形文字編碼了哪種語言,將它翻譯成古希臘語的嘗試都失敗了。如果不知道祖語言,新技術也起不了作用。

但是基於機器的方法存在一個明顯的優勢,機器可以快速而不知疲倦地對每種語言進行測試。因此羅家明團隊或許可以用一種粗暴的方法攻克A類線形文字的翻譯難關——嘗試將它翻譯成機器已經掌握的每種語言。如果最終成功,那一定是一項偉大的成就,一項足以另麥可·文特裡斯讚嘆不已的成就。

相關報導:

https://www.technologyreview.com/s/613899/machine-learning-has-been-used-to-automatically-translate-long-lost-languages/

點「在看」的人都變好看了哦

相關焦點

  • 三千年前的古文字被AI破譯,MIT和谷歌開發失傳語言的翻譯系統
    短短幾年內,注釋資料庫和讓機器從中學習的技術讓語言學習發生了革命性變化,這使得機器翻譯變得越來越普遍。儘管翻譯質量有待提高,但這也提供了思考語言的一個全新角度。來自麻省理工學院的羅家明(音譯)和雷吉納·巴爾齊萊,以及來自加州山景城谷歌人工智慧實驗室的曹源(音譯),由他們組成的團隊研發出了能夠翻譯失傳語言的機器學習系統,並且使其翻譯B類線形文字——第一次完全自動翻譯——證明了系統可行性。他們所利用的方法與標準機器翻譯技術有著顯著區別。首先需要知道,不管哪種語言,機器翻譯的關鍵都在於認識到文字間聯結的相似性。
  • 破譯「羅塞塔石碑」要幾十年?華裔MIT博士開發新系統,快速解密
    MIT新開發的系統旨在幫助語言學家解讀已被遺忘的「死語言」。要說大英博物館裡最出名的文物,羅塞塔石碑(Rosetta Stone)絕對名列前三。它矗立在櫥窗裡,古老、神秘,沉默不語,但身上密密麻麻的字,卻記載著古埃及的歷史。
  • 重磅| 谷歌神經機器翻譯再突破:實現高質量多語言翻譯和zero-shot...
    》,介紹了谷歌的神經機器翻譯系統(GNMT),該系統實現了機器翻譯領域的重大突破,參見報導《重磅 | 谷歌翻譯整合神經網絡:機器翻譯實現顛覆性突破》。昨日,谷歌再發論文宣布了其在多語言機器翻譯上的突破:實現了 zero-shot 翻譯!昨天,谷歌在其官方博客上宣布其在谷歌翻譯(Google Translate)上再次取得重大進展。
  • 谷歌神經網絡機器翻譯已支持英語與其他8種語言的互譯
    經過10年的發展, 谷歌翻譯已成為一個連接世界的重要工具,谷歌翻譯支持的語言已達到了103種。
  • 機器翻譯的最新進展與瓶頸所在
    你想過和異國人說話不需要再有翻譯,只需隨身攜帶一個輕巧的數碼機器嗎?目前來看這仍是奢望。不過,或許某一天,我們終於可以不再學習頭疼的外語就能實現和外國人的無縫交流。  谷歌翻譯目前可提供63種主要語言之間的實時翻譯;它可以提供所支持的任意兩種語言之間的互譯,包括字詞、句子、文本和網頁翻譯。另外它還可以幫助用戶閱讀搜索結果、網頁、電子郵件、YouTube視頻字幕以及其它信息,用戶甚至還能在Gmail內進行實時的多語言對話。
  • 機器翻譯進化史:用計算機取代同聲傳譯?
    ,在首屆評測中取得第一名的機器翻譯系統,正是由當時在亞琛工業大學攻讀博士學位的歐赫開發。「只要給我充分的並行語言數據,對於任何的兩種語言,我都可以在幾小時之內構造出一個機器翻譯系統。」在歐赫的研究中,位列第一的永遠是數據規模。嘗試過使用句法知識改變系統後,歐赫得出句法知識對統計機器翻譯毫無用處、甚至有反作用的結論。獨立於語言的算法使得計算機專家在不了解語言的情況下,通過算法就可以得到相當不錯的翻譯結果。
  • 谷歌發布神經機器翻譯,翻譯質量接近筆譯人員
    據外媒報導,谷歌於昨日發布了網頁版本和移動版本的谷歌翻譯。在漢譯英的過程中,谷歌翻譯會採用全新的神經機器翻譯機制,而這個App每天要進行一千八百萬次這樣的翻譯。此外,谷歌針對這個神經機器翻譯系統的運作原理,專門發表了一篇學術論文。
  • Google宣布推出AutoML Vision,自然語言,翻譯和聯絡中心AI
    圖片來源:谷歌今天在舊金山舉行的谷歌Cloud Next會議上,山景城公司宣布,它將去年在Google I / O上宣布的機器學習平臺Cloud AutoML擴展到新的領域。谷歌表示,其背後的理念和雲終端服務Cloud AutoML旨在為需要定製機器學習模型的組織,研究人員和企業提供一種簡單,簡潔的方式來培訓他們。為此,它正在將AutoML擴展到自然語言處理(使用AutoML自然語言)和翻譯(使用AutoML Translate)。
  • 谷歌機器翻譯取得顛覆性突破 到底幾分真假?
    之後進入Decoder模塊,此部分利用Encoder所給的源語言信息,一個詞一個詞的生成目標語言中的詞彙。如果通俗的講解這個模型就是,機器是一個翻譯人員,突然有個人說了一串源語言所構成的序列,要他同聲傳譯,源語言的句子只說一遍,讓機器翻譯出來目標語言所對應的句子。
  • 谷歌翻譯是如何藉助多項新興AI技術提高翻譯質量的
    谷歌稱,它在翻譯領域所取得的突破並不是由單一技術驅動的,而是針對低資源語言、高資源語言、總體質量、延遲和整體推理速度的多項技術共同作用產生的。在2019年5月到2020年5月之間,根據人工評估和BLEU(基於翻譯系統翻譯和人工參考翻譯之間相似性的衡量標準),谷歌翻譯在所有語言中平均提高了5分以上,在50種語料資源最少的語言中平均提高了7分以上。
  • 重磅| 谷歌大腦養成記:從識別貓到突破性機器翻譯
    Pichai 解釋說,不僅僅是難民危機,公司也估計翻譯的地理政治重要性:他身後的屏幕上出現了一幅圖表,一個陡峭的曲線表明最近阿拉伯語和德語之間的翻譯需求翻了五番。谷歌翻譯團隊一直在穩定地為產品添加新的語言和功能,不過,過去四年的質量提升已經明顯放緩。直到今天,翻譯工具引進了人工智慧技術。首輪嘗鮮的語言包括英語、西班牙語、法語、葡萄牙語、德語、中文、日語、韓語和土耳其語。
  • 機器翻譯三大核心技術原理 | AI知識科普
    預處理是對語言文字進行規整,把過長的句子通過標點符號分成幾個短句子,過濾一些語氣詞和與意思無關的文字,將一些數字和表達不規範的地方,歸整成符合規範的句子。核心翻譯模塊是將輸入的字符單元、序列翻譯成目標語言序列的過程,這是機器翻譯中最關鍵最核心的地方。
  • 將科幻變成現實,谷歌百度用神經機器翻譯踐行人類的「巴別塔之夢」
    1954年,計算機科學家第一次公開發布了一款可以翻譯人類語言的機器。後來這被稱為喬治城-IBM實驗:一個能將句子從俄語翻譯成英語的「電子大腦」(electronic brain)。 當時,科學家相信,一旦通用翻譯器被開發出來,不僅可以讓美國在國家安全上領先蘇聯,還能消除語言障礙,從而促進世界和平。
  • 甲骨文破譯會越來越難嗎?「復活」古文字的科學出路
    採訪專家:蔣玉斌,復旦大學出土文獻與古文字研究中心青年研究員,主要研究方向為古文字學和出土古文字文獻的整理與研究方稚松,北京外國語大學中國語言文學學院副教授,專業方向是古文字學王子楊,首都師範大學甲骨文研究中心教授,博士生導師,中國文字博物館第二屆學術委員會委員,主要從事甲骨文等古文字研究工作
  • 史上第一次,AI能夠自學翻譯地球上的任何語言了
    雷鋒網按:結合人工智慧神經網絡的機器翻譯近年來取得了巨大的進步,以谷歌翻譯為代表,足以讓印象還停留在「生硬死板、破綻百出」的人驚訝萬分。但是總體來說,也還是通過人類的已存翻譯文本來學習。據fastcompany報導,最新出現的兩個機器翻譯系統完成了嶄新的突破——可以在無需人類翻譯文本的學習資料的情況下,自主學習翻譯地球上的任何語言。雷鋒網為您做如下編譯:機器翻譯發展驚人,但是地球上還是有數以億計的人無法享受它的好處——因為他們的語言在翻譯器的下拉菜單中根本找不到。
  • 患上乳腺癌後開發AI診斷模型,MIT女學者獲「AI諾貝爾獎」
    、開發抗生素等藥物的ML模型,獲得了廣泛的認可。),從句法解析和破譯滅絕語言,到開發新的方法來訓練神經網絡。她發現,如果當時使用自己這個系統,那麼醫生至少可以提前兩三年發現她的癌症。因為乳房造影密度是一個主觀概念,不同的醫師在操作時,對於機器給出的陰影密度數值會有不同的判斷。此外,TC算法考慮的因素不夠全面,同一密度數值的患者,最終診斷結果可能完全不同。
  • 重磅| Facebook提出全新CNN機器翻譯:準確度超越谷歌而且還快九倍...
    Dauphin機器之心編譯參與:吳攀、微胖、蔣思源去年穀歌在機器翻譯上取得了連續不斷的突破,谷歌的方法用到了文本處理慣用的循環神經網絡。近日,Facebook 也宣布在神經機器翻譯上取得了重大進展,在超過了去年穀歌研究的水平的同時還實現了顯著的速度提升。而和谷歌的方法不一樣,Facebook 的方法採用了一種完全基於卷積神經網絡的架構。
  • 谷歌開放GNMT教程:如何使用TensorFlow構建自己的神經機器翻譯系統
    選自谷歌機器之心編譯參與:機器之心編輯部近日,谷歌官方在 Github 開放了一份神經機器翻譯教程,該教程從基本概念實現開始,首先搭建了一個簡單的NMT模型,隨後更進一步引進注意力機制和多層 LSTM 加強系統的性能,最後谷歌根據 GNMT 提供了更進一步改進的技巧和細節,這些技巧能令該NMT系統達到極其高的精度。
  • 出海記|臺媒稱百度AI即時翻譯工具實現突破:挑戰谷歌
    參考消息網10月26日報導臺媒稱,百度推出一款人工智慧工具,可以即時將英語翻譯成中文和德語,以挑戰谷歌(Google)的競爭產品。人工智慧領域,兩種語言的「即時互譯」是一項難以攻克的技術問題,其主要原因在於源語言和目標語言之間存在較大的詞序和語序差異。參考消息網-出海記記者了解到,近日,百度研發了具備預測能力和可控延遲的即時機器翻譯系統,可實現兩種語言之間的高質量、低延遲翻譯。
  • 谷歌推出神經網絡翻譯 中譯英水平匹敵真人?
    輸入中文,翻譯系統給出的答案往往是「慘不忍睹」,簡單的機械翻譯對於那些谷歌翻譯的依賴者來說已遠遠不夠。谷歌公司稱,相較之前的算法,谷歌神經機器翻譯能減少80%的錯誤,與通過標準測試的真人翻譯所差無幾。 在之前的一項西班牙語譯為英語的測試中,設定滿分為6分,谷歌舊的翻譯系統得到3.6分,人類普遍得分為5.1分,而谷歌的新系統得到了5分的好成績。