【新智元導讀】喪失古老的語言不僅是學術界的損失,也是全人類文明的損失。MIT新開發的系統旨在幫助語言學家解讀已被遺忘的「死語言」。
要說大英博物館裡最出名的文物,羅塞塔石碑(Rosetta Stone)絕對名列前三。它矗立在櫥窗裡,古老、神秘,沉默不語,但身上密密麻麻的字,卻記載著古埃及的歷史。
當時拿破崙的部隊遠徵埃及,有人在尼羅河附近發現了這塊石碑,上面刻有3種文字,1種是古希臘語,記錄了年幼的託勒密五世登基成為法老一周年。
但另外2種看不懂,連拿破崙都想方設法破譯上面的文字。
之後,一個叫商博良的「語言天才」歷時約20年,終於破譯了上面的其他文字。原來,這三種語言寫的是同一件事。
如果商博良出生在現代,也許他20年的鑽研NLP很快就能解決。
MIT新研究:無需「裙帶關係」,就能破譯語言
時至今日,世界上至少有12種語言仍未被破譯。破譯失傳語言,很多時候要靠它和其他語言的關係。
商博良能破譯象形文字,也是靠著他會多門語言的天賦。
麻省理工學院計算機科學與人工智慧實驗室(CSAIL)的研究人員聲稱,已開發出一種系統,該系統可以在不知道丟失的語言與其他語言的關係的情況下,對其進行解密。
而且他們還表明,他們的系統本身可以確定語言之間的關係,並用它來證實最近的學術研究——伊比利亞語言與巴斯克語確實無關。
巴斯克語
是一種使用於巴斯克地區(西班牙東北部的巴斯克和納瓦拉兩個自治州,以及法國西南部)的孤立語言。
作為西歐唯一的孤立語言,巴斯克語與現存語言是否有關爭議很大。
伊比利亞語
伊比利亞語是一個土生土長的西歐人的語言,經希臘和羅馬資料證實,他們在前移民時代(約公元前375年)居住在伊比利亞半島的東部和東南部地區。
破譯「死語言」的兩個難點
大多數未被破譯的失傳語言都有兩個特點,這對破譯工作構成了重大挑戰:
(1)分割不夠細緻,沒有被完全分割成「字符」
(2)不知道「近親」是哪種,尚未確定最接近的已知語言
為此,MIT的研究人員創立了解碼模型。通過學習基於國際音標(IPA)的字符嵌入來獲取答案。
該項目建立在作者去年寫的一篇論文基礎上,該論文解密了烏加裡特文(Ugaritic)和線性語言B,後者需要數十年的時間才能被人類解碼。
在這個項目裡,這兩種語言都已知與與希伯來語和希臘語的早期形式有關。
這次作者挑戰的是語言間的未知關係。
通過學習基於國際音標(IPA)的字符嵌入來獲取答案
該算法學習將語音嵌入到一個多維空間中,語音的差異通過對應向量之間的距離反映出來。這種設計使他們能夠捕獲語言變化的相關模式,並將它們表示為計算約束。
生成的模型可以在一種古老的語言中分割單詞,並將它們映射到相關語言中的對應單詞。
模型概述:
生成丟失的文本從較小的單位-從字符到標誌,從標誌到銘文。字符映射首先在已知語言的音標上執行。根據這些映射,已知詞彙表y中的一個標記y根據潛在對齊變量a被轉換為丟失語言中的標記x。最後,所有生成的標記以及未匹配的跨越中的字符被連接起來,形成丟失的碑文。
藍色框顯示與模型的每一級相關聯的語言屬性
x範圍的生成圖形模型:一個生成span x的圖模型表示:
不匹配的字符將按照獨立同分布的條件生成,而匹配的字符範圍以兩個隱變量為條件:y表示已知的同源字符,a表示x和y之間的字符級對齊
IPA嵌入圖:
每個音位首先由一個音位特徵向量表示。該模型首先嵌入每個特徵,然後將所有相關的特徵嵌入連接起來,得到IPA嵌入。例如,電話[b]可以表示為voiced,stop和labial嵌入的連接
雖然給定的語言很少添加或刪除一個音,但某些音替換可能會發生。在父語言中帶有「p」的單詞在後代語言中可能會變成「b」 ,但是由於發音上的巨大差距,變成「k」的可能性較小。
提出的算法可以評估兩種語言之間的接近度。事實上,當測試已知語言時,它甚至可以準確地識別語族。
DeepMind早有開發,識別石頭上的希臘碑文
這並不是唯一將人工智慧應用於失傳語言領域的。
DeepMind 開發了一個名為Pythia的系統,該系統可以識別35000件包含300多萬個單詞的文物中的模式。
它設法從包括石頭、陶器和金屬在內的希臘碑文中猜出了1500年至2600年前遺失的單詞或字符。
殘損銘文:雅典議會關於管理雅典衛城的法令
人類現存語言約為5615種,如同象形文字一樣,大多數曾經存在過的語言現已不再使用了,其中幾十種也被認為已經消失,或未被破譯。
如果沒有它們,我們就有可能失去關於歷史上使用它們的人的大量知識。團隊的目標更為遠大,他們希望日後能夠靠幾千個單詞就能破譯語言。
作者介紹
Jiaming Luo
CSAIL的一名博士生,也是MIT NLP小組的成員。在來MIT之前,他也在北大做過一些情緒分析和總結的工作。
參考連結:
https://venturebeat.com/2020/10/20/mit-csails-ai-revives-dead-languages-it-hasnt-seen-before/
https://news.mit.edu/2020/translating-lost-languages-using-machine-learning-1021
http://people.csail.mit.edu/j_luo/assets/publications/DecipherUnsegmented.pdf