三千年前的古文字被AI破譯,MIT和谷歌開發失傳語言的翻譯系統

2021-01-09 大數據文摘

大數據文摘出品

編譯:劉俊寰

1886年,英國考古學家亞瑟·伊萬斯偶然間發現了一塊刻印著未知語言的石頭。得知這塊石頭來源於地中海的克裡特島後,伊萬斯立馬動身前往此處以搜尋更多證據。在那裡,他馬上就發現了許多筆跡相似的石碑,這些石碑能追溯到公元前1400年左右,這些刻字也就成為目前發現的最早的書寫形式之一。伊萬斯表示,這種線形形式是從早期藝術中粗糙的線條畫演變而來,在語言史上佔有重要地位。

伊萬斯等人後來證實,石碑上的刻字是兩種不同的文字系統。稍古老的一種稱為A類線形文字,可以追溯到公元前1800年至1400年,此時克裡特島還處於青銅時代的米諾文明階段。時間上更近一點的文字系統稱為B類線形文字,公元前1400年後才出現,此時的克裡特島正被希臘大陸的邁錫尼人統治著。

許多年來,伊萬斯等人一直試圖翻譯這些古老的文字,但都無疾而終。

這個問題直到1953年,一個名叫麥可·文特裡斯的業餘語言學家成功翻譯B類線形文字之後,才得到解決。

兩個假設

文特裡斯的成功建立在兩個決定性突破上。第一,他假設B類線形文字中重複出現的詞語是克裡特島的地名——這在其後被證明是正確的。第二,他假設這些刻字是古希臘語的早期形式——這讓他能夠立即翻譯出B類線形文字的其他部分。在翻譯過程中,文特裡斯表示,古希臘語的書面表達形式比之前預想的還要早幾個世紀。

文特裡斯的工作成果是一項巨大的成就。但像A類線形文字這樣的更為古老的文字系統,到今天為止仍然是語言學上一個亟需解決的難題。

通過機器學習繪製特定語言的聯結

不難想像,近年來機器翻譯的最新進展對此有所幫助。

短短幾年內,注釋資料庫和讓機器從中學習的技術讓語言學習發生了革命性變化,這使得機器翻譯變得越來越普遍。儘管翻譯質量有待提高,但這也提供了思考語言的一個全新角度。

來自麻省理工學院的羅家明(音譯)和雷吉納·巴爾齊萊,以及來自加州山景城谷歌人工智慧實驗室的曹源(音譯),由他們組成的團隊研發出了能夠翻譯失傳語言的機器學習系統,並且使其翻譯B類線形文字——第一次完全自動翻譯——證明了系統可行性。

他們所利用的方法與標準機器翻譯技術有著顯著區別。首先需要知道,不管哪種語言,機器翻譯的關鍵都在於認識到文字間聯結的相似性。因此整個過程是從繪製特定語言的聯結開始,這需要龐大的文本資料庫,機器在這個文本資料庫中查驗每個字符與其他字符在多大頻率上聯結在一起。這種表現非常獨特,它在多重參數空間上定義了這個詞語。實際上,這個詞語可以視為空間內一個向量,這個向量在機器對任何語言的翻譯結果中都起到重要的約束作用。

這些向量遵循著簡單的數學規則,舉例而言,國王(king)-男性(man)+女性(woman)=王后(queen)。所以,一句話可以認為是由一系列向量排列形成的一條跨越空間的軌跡。

完全對應地翻譯

機器翻譯的關鍵洞見在於,不同語言中的詞語在各自的參數空間內佔據著相同位置。這使得一種語言能夠完全對應地被翻譯成另一種語言。在這個意義上,翻譯句子就變成尋找那些跨越空間的相似軌跡的過程,機器甚至不需要「知道」句子的具體含義。

這個過程需要依賴大數據集。但幾年前,德國的一個研究者團隊利用小型資料庫協助翻譯缺少大型文本資料庫的稀有語言,其中的竅門在於找到一種除資料庫之外能夠約束機器的方法。

利用語言進化的約束

羅家明團隊已經進一步展示了機器是怎樣翻譯一門失傳語言的,他們使用的約束與語言隨時間的變化相關。任何語言都是以某種方式變化的,比如,親屬語言中的符號以相似的分布出現,相關詞語有相同順序的字符,等等。有了這些規則的約束,如果已知某種古老的語言形式,那麼翻譯就會輕鬆許多。

羅家明團隊利用這項技術測試了兩種失傳語言,B類線形文字和烏加裡特語。語言學家已經知道,古希臘語的早期形式是由B類線形文字編碼得到,而在1929年發現的烏加裡特語則是希伯來語的早期形式。

利用這些信息和語言進化的約束,羅家明團隊研發的機器能夠以相當高的準確度完成上述兩種語言的翻譯。「我們能夠正確地將67.3%的B類線形文字中的同源詞翻譯成對應的希臘語」,他們說,「據我們所知,本次實驗是最早嘗試自動翻譯B類線形文字的。」而出色的工作成果將機器翻譯提高到新的水平。但這也引發了關於其它失傳語言的疑問——尤其是從未被翻譯過的語言,如A類線形文字。

在這篇文章中,A類線形文字的缺席顯而易見,羅家明團隊甚至沒有提及A類線形文字,但和所有語言學家一樣,它肯定在他們心中揮之不去。不過可以確定的是,在A類線形文字能夠被機器準確翻譯之前,我們還需要一些重要的突破。舉個例子,沒人知道A類線形文字編碼了哪種語言,將它翻譯成古希臘語的嘗試都失敗了。如果不知道祖語言,新技術也起不了作用。

但是基於機器的方法存在一個明顯的優勢,機器可以快速而不知疲倦地對每種語言進行測試。因此羅家明團隊或許可以用一種粗暴的方法攻克A類線形文字的翻譯難關——嘗試將它翻譯成機器已經掌握的每種語言。如果最終成功,那一定是一項偉大的成就,一項足以另麥可·文特裡斯讚嘆不已的成就。

相關焦點

  • AI助力考古:MIT聯手谷歌,利用神經網絡破譯失傳古文字
    人工智慧技術正在被用來破譯失傳已久的古文字。近日,麻省理工學院和谷歌人工智慧實驗室的研究人員提出了一種自動破譯失傳文字的神經網絡算法。這一算法首次實現了古希臘邁錫尼文明時期「線形文字B」的自動翻譯,準確地把 67.3% 的線形文字B同源詞翻譯成了希臘語。下一步,人工智慧和機器學習技術可能會被用來解密至今仍未被破譯的古文字。
  • 支持108種語言的谷歌翻譯如何用AI讓翻譯質量越來越好?
    谷歌表示,其翻譯質量的突破並不是由單一技術推動,而是針對資源較少的語言、高質量源語言、總體質量、延遲和整體推理速度的技術組合。在2019年5月至2020年5月之間,通過人工評估和BLEU(一種基於系統翻譯與人工參考翻譯之間相似性的指標)進行衡量,谷歌翻譯在所有語言中平均提高了5分或更多,在50種最低水平的翻譯中平均提高了7分或更多。此
  • 谷歌翻譯是如何藉助多項新興AI技術提高翻譯質量的
    自谷歌翻譯首次亮相以來的13年裡,神經機器翻譯、基於重寫的範式和設備端處理等技術的出現和改進,助力該平臺的翻譯準確性取得不小的飛躍。但直到近年,即便是最先進的翻譯支持算法也一直落後於人類的表現。谷歌以外的努力充分說明了這個問題的嚴重性——旨在使得非洲大陸的數千種語言可自動翻譯的Masakhane項目,至今還沒有走出數據收集和轉錄階段。
  • 谷歌的神經翻譯系統意味著機器翻譯到盡頭了?
    第三就是機器翻譯在技術實際上是通用的,其實它是個一般性的原理,可以放到很多的領域,所以我會講應用拓展,用計算機自動創作古詩為例。後面是幾句結束的話。谷歌前幾個月發布了新的機器翻譯系統,這個系統實際上是完全基於深度神經網絡的一個系統。
  • AI解決密碼學家終極挑戰,600年未解伏尼契手稿有望破譯
    現在,阿爾伯塔大學的NLP專家宣稱利用AI技術能夠破譯這部天書。伏尼契手稿是一本內容不明的神秘書籍,共240頁,裡面充滿著編碼一般的文字和神秘的插圖。自從100多年前被發現以來,伏尼契手稿就一直令語言學家和密碼學家困惑不解,至今沒有人能夠破譯出隻言片語。但最近,利用人工智慧,加拿大的研究人員宣稱在破譯伏尼契手稿方面邁出了巨大的一步。
  • 專訪Google Brain 工程師,谷歌神經網絡翻譯會是機器翻譯的極限嗎?
    當兩天前 Google 推出了全新的整合神經網絡的翻譯工具——GNMT(Google Neural Machine Translation)谷歌神經機器翻譯系統,並且這一系統將最先投入到最困難的漢英互譯領域時,科技圈炸了鍋。
  • 硬核測評,谷歌翻譯被碾壓!全球首個翻譯引擎進化歸來,「細節狂魔...
    首先從句意上看,谷歌、微軟和百度都直接放棄了後半句的翻譯,有道把後半句譯成「Tianya at this time」;在前半句的翻譯上,微軟和百度都用到了born這個詞,但是微軟的譯文是「The sea is born」????
  • 《集異璧》作者侯世達瘋狂吐槽谷歌翻譯:AI替代人類譯者為時尚早
    本文原文標題為:《The Shallowness of Google Translate》,刊載於2018年1月30日《大西洋月刊》。作者侯世達懷疑谷歌翻譯是否成為替代人類譯者的顛覆者,以英語、法語、德語和中文進行測試,最後得出結論:「谷歌翻譯」和相關技術的實用性是毋庸置疑的,總體而言也是很好的工具。但它在技術方法上還是極度欠缺一種東西,一言以蔽之:理解力。
  • 谷歌翻譯時隔四年新增5個翻譯語種 其中包括維吾爾語
    【CNMO新聞】近日,據外媒報導,谷歌翻譯新增了5種語音的翻譯,它們分別是基尼亞盧安達語(盧安達)、奧裡亞語(印度)、韃靼語、土庫曼語(土庫曼斯坦),還有維吾爾語。這些語言目前的使用者大約為7500萬人。這是谷歌自2016年以來首次新增翻譯語言。
  • 「苟富貴勿相忘」翻譯後,谷歌:沒錢的人總會被遺忘
    2013年,Nal Kalchbrenner和Phil Blunsom提出了一種用於機器翻譯的新型端到端編碼器-解碼器結構。該模型可以使用卷積神經網絡(CNN)將給定的一段源文本編碼成一個連續的向量,然後再使用循環神經網絡(RNN)作為解碼器將該狀態向量轉換成目標語言。
  • 翻譯器可翻譯方言和文言文 超出谷歌微軟的翻譯軟體能力
    翻譯器可翻譯方言和文言文 超出谷歌微軟的翻譯軟體能力 站長之家(ChinaZ.com) 4月1日 消息:最近,一款名叫DeepL的在線機器翻譯軟體在日本大火。
  • 神秘的語言魅力:《伏尼契手稿》被宣稱利用AI破解了第一句
    手稿中的文字無法對應世界上任何一種已知語言,手稿從左至右書寫十分流暢,沒有明顯的錯誤、修改痕跡甚至標點符號;同樣地,沒有任何類似密碼對應的線索。 伏尼契手稿厚達230多頁,以奇特字體寫成的手稿中還有許多植物、天體和出浴美女等奇異的圖片。囊括了佔星術天文學鍊金術等元素,尚未能有人解知其真意。
  • 21個2021年軟體開發趨勢預測
    在 2020 年第三季度,微軟的市場份額為 19%,而它在 2019 年第三季度的市場份額為 17%。目前,谷歌是第三大公有雲提供商,在 2020 年第三季度的市場份額為 7%。在 2021 年,亞馬遜和微軟將分別保持第一和第二的位置。然而,阿里巴巴將在 2021 年取代谷歌,因為它在 2020 年第三季度的市場份額為 6%,僅次於谷歌。
  • 谷歌翻譯推出實時語音轉錄功能
    IT之家3月18日消息 據XDA報導,谷歌於幾個月前開始測試一項名為「持續翻譯(Continuous Translation)」的新功能,該功能於今年1月面向公眾,目前該功能名為「轉錄(Transcribe)」,未來幾天將向所有安卓用戶推送。
  • 奇異石碑 神秘文字 揭秘古文字釋讀技巧
    奇異石碑 神秘文字 揭秘古文字釋讀技巧  央視國際 www.cctv.com  2007年08月13日 12:06 來源:新華網 上半部是一個浮雕,下半部是用古波斯語、埃蘭語和阿卡德語三種楔形文字寫成的銘文。這就是著名的「貝希斯敦銘文」。    然而,古波斯的楔形文字早就隨著公元前330年波斯帝國的滅亡,而變成了一種無人通曉的死文字。不幸的是另兩種楔形文字也早已隨著文明的消逝而失傳。因此,人們並不知道這些文字在向人們訴說著什麼。
  • 谷歌翻譯將我是一個地平論者翻成我是個瘋子!
    近日有人發現用谷歌翻譯涉及地平論者的語句時出現了令人驚訝的結果,谷歌表示翻譯系統實際上存在錯誤。Reddit r/funny討論組中的網友發現了一個翻譯異常 。當用戶要求谷歌翻譯將「我是一個地平論者(Iamaflat-Earther)」從英文翻譯成法文時,它會以「Jesuisunfou」的結果出現。
  • 丁再獻東夷骨刻文古文字2020年書法年曆
    著名東夷文化學者,由於系統破譯出東夷骨刻文而被譽為中國骨刻文字破譯第一人、骨刻文書法藝術第一人。1952年出生於沂南縣。黨校本科,高級經濟師,研究員。自幼酷愛詩詞、書法,現為山東社會科學院旅遊研究中心研究員、中國骨刻文書法藝術研究院院長、山東原古東夷文化與骨刻文字研究中心主任、中國東夷文化研究會會長,中國龍山文化研究會副會長、山東省文史書畫研究會副會長、山東省旅遊行業協會專職副會長等。
  • 百度翻譯閃耀MIT年度科技大會 吳華現場展示翻譯機
    EmTech Digital聚焦全世界最前沿的人工智慧科技進展,每年邀請世界一流公司和研究機構如百度、亞馬遜、谷歌、微軟、UC Berkeley等探討人工智慧熱點話題,涵蓋機器人、計算機視覺、自然語言處理等人工智慧領域前沿領域。今年的EmTech Digital密切關注領導中國AI變革的企業,AI如何從製造業向零售業滲透,以及AI的道德問題。
  • 利用TensorFlow.js和深度學習,輕鬆閱讀古草體文字
    但是對於現代的研究者們而言,就算只閱讀一篇古文資料,也必然會和「古草體」文字「大眼瞪小眼」——遇到「語言障礙」。「古草體」與現代日文因此,閱讀「古草體」文字的能力就顯得格外重要,而目前能夠無障礙閱讀「古草體」文字的人只佔了日本全國人數的0.01%,這對日本的歷史研究相當不利。但也不要太過擔心!
  • 你大概沒想到,AI居然能識別失傳的古文字
    他們曾經創立過驚人的文化、藝術與宗教文明,但隨著1227年蒙古滅西夏,蒙元不為西夏立史,關於這個政權的記錄快速消亡,李元昊立國時創立的西夏文也隨之湮滅。西夏文又名河西字、番文、唐古特文,曾在西夏王朝統轄的今寧夏、甘肅、陝西北部、內蒙古南部地區盛行了約兩個世紀。但在西夏滅國後,這種參考漢字創立的奇特文字逐漸失傳,最終成為了一種死文字。