破譯「羅塞塔石碑」要幾十年?華裔MIT博士開發新系統,快速解密

2020-10-23 新智元


【新智元導讀】喪失古老的語言不僅是學術界的損失,也是全人類文明的損失。MIT新開發的系統旨在幫助語言學家解讀已被遺忘的「死語言」。


要說大英博物館裡最出名的文物,羅塞塔石碑(Rosetta Stone)絕對名列前三。它矗立在櫥窗裡,古老、神秘,沉默不語,但身上密密麻麻的字,卻記載著古埃及的歷史。


當時拿破崙的部隊遠徵埃及,有人在尼羅河附近發現了這塊石碑,上面刻有3種文字,1種是古希臘語,記錄了年幼的託勒密五世登基成為法老一周年。

但另外2種看不懂,連拿破崙都想方設法破譯上面的文字。


之後,一個叫商博良的「語言天才」歷時約20年,終於破譯了上面的其他文字。原來,這三種語言寫的是同一件事。

如果商博良出生在現代,也許他20年的鑽研NLP很快就能解決。



MIT新研究:無需「裙帶關係」,就能破譯語言


時至今日,世界上至少有12種語言仍未被破譯。破譯失傳語言,很多時候要靠它和其他語言的關係。


商博良能破譯象形文字,也是靠著他會多門語言的天賦。


麻省理工學院計算機科學與人工智慧實驗室(CSAIL)的研究人員聲稱,已開發出一種系統,該系統可以在不知道丟失的語言與其他語言的關係的情況下,對其進行解密。


而且他們還表明,他們的系統本身可以確定語言之間的關係,並用它來證實最近的學術研究——伊比利亞語言與巴斯克語確實無關。

巴斯克語


是一種使用於巴斯克地區(西班牙東北部的巴斯克和納瓦拉兩個自治州,以及法國西南部)的孤立語言。


作為西歐唯一的孤立語言,巴斯克語與現存語言是否有關爭議很大。


伊比利亞語


伊比利亞語是一個土生土長的西歐人的語言,經希臘和羅馬資料證實,他們在前移民時代(約公元前375年)居住在伊比利亞半島的東部和東南部地區。




破譯「死語言」的兩個難點


大多數未被破譯的失傳語言都有兩個特點,這對破譯工作構成了重大挑戰:

(1)分割不夠細緻,沒有被完全分割成「字符」

(2)不知道「近親」是哪種,尚未確定最接近的已知語言


為此,MIT的研究人員創立了解碼模型。通過學習基於國際音標(IPA)的字符嵌入來獲取答案。


該項目建立在作者去年寫的一篇論文基礎上,該論文解密了烏加裡特文(Ugaritic)和線性語言B,後者需要數十年的時間才能被人類解碼。


在這個項目裡,這兩種語言都已知與與希伯來語和希臘語的早期形式有關。

這次作者挑戰的是語言間的未知關係。


通過學習基於國際音標(IPA)的字符嵌入來獲取答案


該算法學習將語音嵌入到一個多維空間中,語音的差異通過對應向量之間的距離反映出來。這種設計使他們能夠捕獲語言變化的相關模式,並將它們表示為計算約束。


生成的模型可以在一種古老的語言中分割單詞,並將它們映射到相關語言中的對應單詞。


模型概述:

生成丟失的文本從較小的單位-從字符到標誌,從標誌到銘文。字符映射首先在已知語言的音標上執行。根據這些映射,已知詞彙表y中的一個標記y根據潛在對齊變量a被轉換為丟失語言中的標記x。最後,所有生成的標記以及未匹配的跨越中的字符被連接起來,形成丟失的碑文。

藍色框顯示與模型的每一級相關聯的語言屬性

x範圍的生成圖形模型:一個生成span x的圖模型表示:


不匹配的字符將按照獨立同分布的條件生成,而匹配的字符範圍以兩個隱變量為條件:y表示已知的同源字符,a表示x和y之間的字符級對齊


IPA嵌入圖:

每個音位首先由一個音位特徵向量表示。該模型首先嵌入每個特徵,然後將所有相關的特徵嵌入連接起來,得到IPA嵌入。例如,電話[b]可以表示為voiced,stop和labial嵌入的連接


雖然給定的語言很少添加或刪除一個音,但某些音替換可能會發生。在父語言中帶有「p」的單詞在後代語言中可能會變成「b」 ,但是由於發音上的巨大差距,變成「k」的可能性較小。


提出的算法可以評估兩種語言之間的接近度。事實上,當測試已知語言時,它甚至可以準確地識別語族。



DeepMind早有開發,識別石頭上的希臘碑文


這並不是唯一將人工智慧應用於失傳語言領域的。

DeepMind 開發了一個名為Pythia的系統,該系統可以識別35000件包含300多萬個單詞的文物中的模式。

它設法從包括石頭、陶器和金屬在內的希臘碑文中猜出了1500年至2600年前遺失的單詞或字符。

殘損銘文:雅典議會關於管理雅典衛城的法令


人類現存語言約為5615種,如同象形文字一樣,大多數曾經存在過的語言現已不再使用了,其中幾十種也被認為已經消失,或未被破譯。

如果沒有它們,我們就有可能失去關於歷史上使用它們的人的大量知識。團隊的目標更為遠大,他們希望日後能夠靠幾千個單詞就能破譯語言。



作者介紹


Jiaming Luo


CSAIL的一名博士生,也是MIT NLP小組的成員。在來MIT之前,他也在北大做過一些情緒分析和總結的工作。


參考連結:

https://venturebeat.com/2020/10/20/mit-csails-ai-revives-dead-languages-it-hasnt-seen-before/

https://news.mit.edu/2020/translating-lost-languages-using-machine-learning-1021

http://people.csail.mit.edu/j_luo/assets/publications/DecipherUnsegmented.pdf



相關焦點

  • 人類文字起源,從羅塞塔石碑解密古埃及象形文字
    這個謎團一直到了1799年才有了新的突破,1799年,法國拿破崙遠徵軍為了鞏固尼羅河口的控制權,並且防禦英國艦隊的入侵,而全面地在尼羅河沿岸建立了軍事基地,意想不到的是,在當年的七月份,在尼羅河口岸的一個小村-羅塞塔村的一座舊牆的後面,居然發現了一塊刻了密密麻麻文字的黑色玄武巖石碑,它長有115釐米,寬73釐米,厚28釐米,在這塊石碑上,古埃及人用三種不同的文字刻下了三段內容,最上面的是古埃及的象形文字
  • 患上乳腺癌後開發AI診斷模型,MIT女學者獲「AI諾貝爾獎」
    那麼這位首屆「AI諾貝爾獎」得主,究竟有何厲害之處?,到開發新的方法來訓練神經網絡。2018年,她正式成為「Susan Komen」基金會學者,一個由51位專家組成,專注於乳腺癌研究的美國規模最大的乳腺癌組織。
  • 1799年7月15日,古埃及重要文物羅塞塔石碑出土
    由於石碑是在羅塞塔郊外出土的,因此命名為羅塞塔石碑。事後雙方協議,法方可以保留之前的研究成果與石碑的拓印,但英方則獲得石碑的實際擁有權。石碑在1802年運抵英國,並且以英王的名義捐獻給大英博物館作為收藏,從此之後羅塞塔石碑一直被展示在博物館的埃及館中,是該館最引以為傲的鎮館之寶之一。
  • 商博良不是簡單人物,他破解《羅塞塔石碑》,發現埃及古文的秘密
    剛開始,大部分人都把它評價為象形文字,但法國的語言學家只用了兩年就破譯了古埃及文字的真正意義,證明它是像英語一樣的表音者,他是怎麼做到的?接下來,我將揭開秘密。英國倫敦新牛津大街上有一座非常優雅的建築物,它是世界上最古老的博物館3354大英博物館。這座博物館的歷史可以追溯到1753年。
  • 「羅塞塔」為什麼要去探彗星?
    圖片來源:ESA北京時間2014年8月6日17時06分,歐洲空間局的「羅塞塔」探測器進入了環繞67P/楚留莫夫-格拉希門克彗星(以下簡稱「楚-格」彗星)的軌道,成為人類歷史上第一枚環繞彗星運行的探測器,「羅塞塔」在twitter上甚至躍升熱門話題榜首位。耗資10億歐元的「羅塞塔」為什麼這麼火爆?因為它有可能幫助我們回答老祖先們一直在念叨的一個基本問題:「我們從哪裡來?」
  • 古文字被AI破譯,MIT和谷歌開發失傳語言的機器翻譯系統
    在那裡,他馬上就發現了許多筆跡相似的石碑,這些石碑能追溯到公元前1400年左右,這些刻字也就成為目前發現的最早的書寫形式之一。伊萬斯表示,這種線形形式是從早期藝術中粗糙的線條畫演變而來,在語言史上佔有重要地位。 伊萬斯等人後來證實,石碑上的刻字是兩種不同的文字系統。
  • MIT數學最強本科生:2年半畢業,20多篇論文在手,還推動了停滯幾十年...
    從1930年起,就有科學家開始研究拉姆齊數的上下限的公式,來縮小拉姆齊數的範圍。 著名數學家保羅·埃爾德什研究了幾十年,得到了一個著名的上下限公式:
  • 終究曲終人散,這12年「羅塞塔」有什麼收穫
    ,為長達12年的飛行任務畫上圓滿句號。作為人類發射的第一個彗星探測器,「羅塞塔」取得了哪些探測成果?未來歐空局是否還將繼續發射小行星探測器?羅塞塔探測器的名字取自古埃及著名的羅塞塔石碑,石碑上面使用了埃及象形文字、埃及通俗文字和古希臘文字記錄的同一段詔書,它的發現為破譯古埃及文字立下了汗馬功勞。
  • 象形文字的破譯與埃及考古學的誕生
    結果是,象形文字的神秘感與日俱增,這種情況一直持續到拿破崙軍隊的士兵在埃及羅塞塔附近發現「羅塞塔石碑」為止。  1798年,拿破崙率領十萬大軍佔領埃及。隨從軍隊遠赴埃及的還有100多位來自各研究領域的學者,其任務是在埃及收集有關法老歷史的資料,為復原古埃及文明奠定基礎。一俟軍隊佔領開羅,學者們便建立了埃及研究所。
  • MIT新研究「潑冷水」| Nature
    要知道,這種「背景輻射」,可以說是一種充滿整個宇宙的電磁輻射。並且,研究還登上了近期的 Nature 雜誌。量子比特,是量子計算中的邏輯元素,每個量子比特都有一個「神奇的能力」,就是可以處於「量子疊加態」。這種能力讓量子比特可以同時存在2種狀態,從而實現了量子版的並行計算。
  • 原創丨紀念逝去的「羅塞塔」號探測器
    「羅塞塔」探測器的主成像儀拍攝的彗星頸部,攝於2014年9月5日「羅塞塔」號的名字來源於「羅塞塔石碑」(Rosetta Stone)。該石碑於1799年在埃及的港灣城市「羅塞塔」發現,因而得名。石碑上鐫刻了三段分別用埃及象形文字、通俗體文字和希臘文書寫文字。由於文字的內容完全相同,科學家終於在1822年破譯出了古埃及的象形文字,打開了通向古埃及歷史文明的大門。羅塞塔石碑的發現是古埃及象形文字成功釋讀的關鍵。
  • MIT新突破:Nature Photonics揭秘新型光學深度神經網絡系統
    該概念圖展示了集成在印製電路板上的可編程納米光子(nanophotonic)處理器,其將助力深度學習計算基於模擬人類大腦激活傳導的人工神經網絡,與其多層疊加的「深度學習」計算機系統已經成為了計算機科學的熱門話題。除了引發了如人臉識別和語音識別等技術的變革外,這些系統不僅可以利用眾多的醫學數據找到可以高效診斷的模式,同時還能掃描化學成分而找到可能的新藥物。
  • 大英博物館上淘寶直播「開館」 羅塞塔石碑等館藏文物將亮相
    據悉,這是大英博物館因疫情閉館100多天後,首次對公眾亮相,包括羅塞塔石碑、木乃伊在內的眾多館藏文物都將在淘寶直播間裡一一亮相。遊客只需要在淘寶APP搜索「一起來雲遊」,就可以享受專人講解+包場的超級VIP待遇。資料顯示,大英博物館始建於1753年,至今館藏已達800多萬件,涵蓋了200多萬年的人類歷史。
  • 開發以中文「與數據對話」的AI決策系統,「訊能集思」要做人工智慧...
    一個矛盾:企業強烈的數位化需求和企業傳統的數據分析運行機制在「訊能集思」創始人張宗堯博士看來,「商業決策平臺」概念的產生來自於企業強烈的數位化需求和企業傳統的數據分析運行機制之間的矛盾。當前的企業決策支持系統(Decision Support System)作為基於IT、用於支持業務或組織決策活動的信息系統,在企業中常常被拆分為企業資源管理ERP、商業智能軟體BI等多個辦公軟體,應用於業務財務、IT和數據分析科學家等多個團隊。這種分離的軟體形式實際上造成了極大的資源浪費,拉高了溝通成本、教育成本和採購成本。
  • 羅塞塔石碑——一款世界知名語言學習軟體
    概況:rosetta stone(羅賽塔石碑)是一款美國多媒體語言教學軟體。這款軟體的一大特色就是可以像學習母語的環境來學習外語,不同於其他通過語法古板式語言學習方法。通過這款軟體您可以學習包括西班牙語、漢語、日語、英語、德語、法語和義大利語在內的 24 種語言中的一種。全世界數百萬的人使用它進行學習。
  • MIT華裔80後科學家,把生物製藥工廠搬到了電路板上!-虎嗅網
    一說起在麻省理工學院任職的華裔科學家,大家首先想到的應該是從事基因編輯研究的張鋒。實際上在MIT小有成就的華裔親年才俊真是不少,例如我們今天要介紹的這位,最近在生命科學的另一個極有前途的領域弄出了不小的動靜。
  • 你已經知道比特幣,但知道「比特」從何而來嗎?
    據美國人口普查局統計摘要,截至 1948 年,美國每天有 1.25 億次的通話要經過貝爾系統 2.22 億公裡的有線電纜和 3100 萬臺電話機進行傳輸。此外還有 3186 家無線電廣播臺、15000 家報社及 4000 億封信件。如此多的信息流動,信息又該如何衡量?郵局可以計算信件和包裹的數量,但貝爾系統傳輸的信息,該用什麼單位計數呢?當時沒有一個詞能夠精準地概括所有這些東西。
  • 三千年前的古文字被AI破譯,MIT和谷歌開發失傳語言的翻譯系統
    大數據文摘出品編譯:劉俊寰1886年,英國考古學家亞瑟·伊萬斯偶然間發現了一塊刻印著未知語言的石頭。得知這塊石頭來源於地中海的克裡特島後,伊萬斯立馬動身前往此處以搜尋更多證據。在那裡,他馬上就發現了許多筆跡相似的石碑,這些石碑能追溯到公元前1400年左右,這些刻字也就成為目前發現的最早的書寫形式之一。
  • ...封面:MIT研究者用AI系統發現超強抗生素,能殺滅多種超級耐藥菌
    「我們想開發一個平臺, 讓我們利用人工智慧開啟一個抗生素藥物發現的新時代,」論文通訊作者、麻省理工學院醫學工程和科學系教授 James J. Collins 說,「我們的方法揭示了這種神奇的分子,它可能是目前發現的最強大的抗生素之一。