【網易智能訊 1月3日消息】據外媒報導,去年上映的電影《降臨》引起了電影評論人士的熱評。這是丹尼斯·維倫紐瓦(Denis Villeneuve)執導的科幻片,講述了一個語言學家破譯外星人語言的故事。另外,傳奇科幻片星際迷航在去年慶祝了其上映50周年。星際迷航中出現的通用語言翻譯機讓作為語言極客和科幻迷的筆者十分著迷。
本文並非講解機器翻譯的文章。這種技術已經以各種各樣的方式開始被投入實踐,雖然效果還無法達到人類專家翻譯的水平,但機器翻譯已經可以在很多場景裡使用。本文將重點探討通用翻譯機對未知語言的破譯過程。
現實中的語言破譯
不管多麼複雜,所有的破譯在本質上是相同的,即將未知的語言與已知知識進行匹配。羅賽塔石碑的故事已經成為傳奇:一個刻有古埃及象形文字的石碑,同樣的內容還用希臘語和埃及俗語各刻了一遍。當時人們一直對象形文字摸不著頭腦,羅斯塔石碑的發現讓語言學家可以通過對照希臘語倒推出象形字母的含義。羅賽塔石碑已經成為語言學習的標誌性符號,並被引申為解決某難題的關鍵要領。
今天,人們用類似的方式打造了統計機器翻譯(Statistical Machine Translation,簡寫SMT),使用平行文本作為虛擬的羅塞塔石碑。遇到平行參照語言不存在的情況,破譯就依賴於相似語言或其他可利用的線索。
其中最戲劇性的故事要數瑪雅文字的破譯,這還牽扯到美蘇兩大陣營的博弈。2010年有條新聞是麻省理工的Regina Barzilay和她的團隊開發出一個人工智慧程序,成功破譯了古代閃米特語言烏加裡特語(Ugaritic)中的大部分。
瑪雅文字是由音節文字字形組合成的意音文字,在功能方面與現代的日文類似
當沒有羅塞塔石碑這種參照物時,該如何破解完全陌生的語言呢?就像電影《降臨》表現的那樣,手勢、物體對象和彼此的面部表情都可以幫助理解詞彙。地理大發現之前,邂逅新文明的探險家和海員便是用此種方法學習陌生種族的語言。今天在雨林中進行田野考察的人類學家仍然沿用此法。
圖為 Daniel Everett 在亞馬遜雨林中同Pirahã人交流
電影內外的通用語
但是如果面對面的溝通是不可能的呢?
幾十年來,SETI的研究人員一直在試圖尋找宇宙中外星智慧生命的跡象。他們當中有些人便關注這樣的問題:我們收到信號又該如何破解呢?我們又怎麼知道信號來自智慧生命,而不是宇宙噪音?
Laurance Doyle和John Elliott專注於這些問題的研究。Doyle的工作重點是香農信息理論的應用。通過觀察信號的複雜程度來判斷是否近似於人類通信。Doyle曾與著名的動物行為和傳播研究員Brenda McCowan一起分析了各種動物的交流數據,並將其信息理論特徵與人類語言特徵進行比較。
John Elliott則專注於對未知通訊系統的研究,他判斷信號是否是語言,並對其語言結構進行評估,其最終目標是建議一個所謂的「後檢測破譯矩陣」。用他自己的話來說,這個矩陣將包含整所有人類語言數據,並會在未來添加其他的通信系統(比如動物的)。Elliott的假設系統基於自然語義理論(Natural Semantic Metalanguage, NSM)。
有趣的是,電影中虛構的通用翻譯和現實中科學家的研究有相通之處。電影中的柯克船長說:「某些普遍的想法和概念」是「所有智慧生物共有的」。通用翻譯機便基於此假設,對腦波模式的頻率進行對比,精確詞義並組成句子輸出。
腦神經產生可識別的活動(腦波),並且交流刺激神經中樞的特定區域。只要我們有足夠精確的設備能夠探測這些腦波變化,頻率分析就有可能實現。頻率分析也符合齊夫定律(Zipf's law)。齊夫定律是由哈佛大學的語言學家喬治·金斯利·齊夫(George Kingsley Zipf)於1949年發表的實驗定律。它可以表述為:在自然語言的語料庫裡,一個單詞出現的頻率與它在頻率表裡的排名成反比。所以,頻率最高的單詞出現的頻率大約是出現頻率第二位的單詞的2倍,而出現頻率第二位的單詞則是出現頻率第四位的單詞的2倍。齊夫定律可以被用來作為語言破譯的參考。
星際迷航系列電影中不斷出現一個翻譯矩陣,排除藝術幻想和科幻加工,電影中的「矩陣」可以對應真實世界中的國際語模型,這是一種抽象、獨立於語言之外的知識表達方式。
當電影中的通用翻譯機無法工作時,還有一個被稱為linguacode的工具工具。Linguacode在真實世界中可以對應上宇宙語言(拉丁語:Lincos,源自lingua cosmica的縮寫)。這是一種在1960年由荷蘭數學家和天文學家弗勒登塞爾博士提出的一種人工語言。他設計這語言並希望可以透過星際間的無線電信號傳達,被外星生物理解。
從工程的角度來看
Elliott的方法使用所有人類語言的資料打造出一個通用語言模型,將有助於通用翻譯機的實現。這是傳統的定向交流系統所不能及的。
有了一個能映射語法結構和語義的系統,就可以構建出一個「場景的語料庫」。隨後再根據交互場景的普適性解碼更多細節。
例如:
- 大多數對話的開頭都包含一句問候語。
- 大多數技術文檔包含數字。
- 所有命令都包含一個要求,而且通常是威脅性的。
- 新聞指的是一件事。
- 大多數長文檔都會分章節,而章節之間會有數字或章節名。
- 參考性文檔都會有所指,描述某一個實體。
以上這些特點是普適的,並非某一語言所特有。它們源自於群體溝通中的最小努力原則(Principle of Least Effort)。
基於語義學的系統可以不依賴表面詞義構建語料庫。相比羅塞塔石碑,這個系統可稱作是一個高科技語言魔方。羅賽塔只記錄三種語言,而後者可通過多變的組合匹配任何目標語言。
語言之外
在找到外星人之前,研究人員先在鯨類動物身上試驗了「通用翻譯機」假設。雖然目前還沒有確切證據證明鯨類動物的通訊擁有人類語言的所有特徵,不過它的卻表現出一些跡象。
例如,海豚擁有自己的「籤名口哨」,這相當於人類語言中每個人的名字。籤名口哨用於海豚的定位,這符合語言學中的移位性(displacement)。在Louis Herman的實驗過程中,海豚成功學會了理解「左」、「右」等抽象概念。海豚群體的社會活動很複雜,需要相當有效和複雜的通信系統來保障信息交流。
海豚之外,還有一些物種具有更複雜的通訊系統。一系列實驗已經證明螞蟻的通訊可能超乎人類的想像,螞蟻甚至能對語句進行壓縮,比如它們會將「左轉,再左轉,再再左轉,再再再再左轉」說成「左轉四次」。
Doyle 和 Elliott 利用信息理論提供的各種工具對鯨類動物的交流進行了研究。Elliott計算了人類和動物語言以及非語言來源(比如白噪音和音樂)各自的信息熵。
交流系統呈現一個對稱的A狀振幅。人和海豚的聲音尤其如此,鳥類聲音對稱性稍弱。Doyle對駝背鯨的聲音進行測量,得出類似的結論。
這就是為什麼幾個研究動物交流計劃與SETI計劃進行協作的原因。如果我們連動物語言都無法理解,更遑論打造破譯外星語言的通用翻譯機了。
關注網易智能菌(微信公眾號:smartman163),獲取專業人工智慧資訊與AI報告。