揭秘通用機器翻譯:未來能夠破解外星人語言?

2020-12-13 網易科技

【網易智能訊 1月3日消息】據外媒報導,去年上映的電影《降臨》引起了電影評論人士的熱評。這是丹尼斯·維倫紐瓦(Denis Villeneuve)執導的科幻片,講述了一個語言學家破譯外星人語言的故事。另外,傳奇科幻片星際迷航在去年慶祝了其上映50周年。星際迷航中出現的通用語言翻譯機讓作為語言極客和科幻迷的筆者十分著迷。

本文並非講解機器翻譯的文章。這種技術已經以各種各樣的方式開始被投入實踐,雖然效果還無法達到人類專家翻譯的水平,但機器翻譯已經可以在很多場景裡使用。本文將重點探討通用翻譯機對未知語言的破譯過程。

現實中的語言破譯

不管多麼複雜,所有的破譯在本質上是相同的,即將未知的語言與已知知識進行匹配。羅賽塔石碑的故事已經成為傳奇:一個刻有古埃及象形文字的石碑,同樣的內容還用希臘語和埃及俗語各刻了一遍。當時人們一直對象形文字摸不著頭腦,羅斯塔石碑的發現讓語言學家可以通過對照希臘語倒推出象形字母的含義。羅賽塔石碑已經成為語言學習的標誌性符號,並被引申為解決某難題的關鍵要領。

今天,人們用類似的方式打造了統計機器翻譯(Statistical Machine Translation,簡寫SMT),使用平行文本作為虛擬的羅塞塔石碑。遇到平行參照語言不存在的情況,破譯就依賴於相似語言或其他可利用的線索。

其中最戲劇性的故事要數瑪雅文字的破譯,這還牽扯到美蘇兩大陣營的博弈。2010年有條新聞是麻省理工的Regina Barzilay和她的團隊開發出一個人工智慧程序,成功破譯了古代閃米特語言烏加裡特語(Ugaritic)中的大部分。

瑪雅文字是由音節文字字形組合成的意音文字,在功能方面與現代的日文類似

當沒有羅塞塔石碑這種參照物時,該如何破解完全陌生的語言呢?就像電影《降臨》表現的那樣,手勢、物體對象和彼此的面部表情都可以幫助理解詞彙。地理大發現之前,邂逅新文明的探險家和海員便是用此種方法學習陌生種族的語言。今天在雨林中進行田野考察的人類學家仍然沿用此法。

圖為 Daniel Everett 在亞馬遜雨林中同Pirahã人交流

電影內外的通用語

但是如果面對面的溝通是不可能的呢?

幾十年來,SETI的研究人員一直在試圖尋找宇宙中外星智慧生命的跡象。他們當中有些人便關注這樣的問題:我們收到信號又該如何破解呢?我們又怎麼知道信號來自智慧生命,而不是宇宙噪音?

Laurance Doyle和John Elliott專注於這些問題的研究。Doyle的工作重點是香農信息理論的應用。通過觀察信號的複雜程度來判斷是否近似於人類通信。Doyle曾與著名的動物行為和傳播研究員Brenda McCowan一起分析了各種動物的交流數據,並將其信息理論特徵與人類語言特徵進行比較。

John Elliott則專注於對未知通訊系統的研究,他判斷信號是否是語言,並對其語言結構進行評估,其最終目標是建議一個所謂的「後檢測破譯矩陣」。用他自己的話來說,這個矩陣將包含整所有人類語言數據,並會在未來添加其他的通信系統(比如動物的)。Elliott的假設系統基於自然語義理論(Natural Semantic Metalanguage, NSM)。

有趣的是,電影中虛構的通用翻譯和現實中科學家的研究有相通之處。電影中的柯克船長說:「某些普遍的想法和概念」是「所有智慧生物共有的」。通用翻譯機便基於此假設,對腦波模式的頻率進行對比,精確詞義並組成句子輸出。

腦神經產生可識別的活動(腦波),並且交流刺激神經中樞的特定區域。只要我們有足夠精確的設備能夠探測這些腦波變化,頻率分析就有可能實現。頻率分析也符合齊夫定律(Zipf's law)。齊夫定律是由哈佛大學的語言學家喬治·金斯利·齊夫(George Kingsley Zipf)於1949年發表的實驗定律。它可以表述為:在自然語言的語料庫裡,一個單詞出現的頻率與它在頻率表裡的排名成反比。所以,頻率最高的單詞出現的頻率大約是出現頻率第二位的單詞的2倍,而出現頻率第二位的單詞則是出現頻率第四位的單詞的2倍。齊夫定律可以被用來作為語言破譯的參考。

星際迷航系列電影中不斷出現一個翻譯矩陣,排除藝術幻想和科幻加工,電影中的「矩陣」可以對應真實世界中的國際語模型,這是一種抽象、獨立於語言之外的知識表達方式。

當電影中的通用翻譯機無法工作時,還有一個被稱為linguacode的工具工具。Linguacode在真實世界中可以對應上宇宙語言(拉丁語:Lincos,源自lingua cosmica的縮寫)。這是一種在1960年由荷蘭數學家和天文學家弗勒登塞爾博士提出的一種人工語言。他設計這語言並希望可以透過星際間的無線電信號傳達,被外星生物理解。

從工程的角度來看

Elliott的方法使用所有人類語言的資料打造出一個通用語言模型,將有助於通用翻譯機的實現。這是傳統的定向交流系統所不能及的。

有了一個能映射語法結構和語義的系統,就可以構建出一個「場景的語料庫」。隨後再根據交互場景的普適性解碼更多細節。

例如:

- 大多數對話的開頭都包含一句問候語。

- 大多數技術文檔包含數字。

- 所有命令都包含一個要求,而且通常是威脅性的。

- 新聞指的是一件事。

- 大多數長文檔都會分章節,而章節之間會有數字或章節名。

- 參考性文檔都會有所指,描述某一個實體。

以上這些特點是普適的,並非某一語言所特有。它們源自於群體溝通中的最小努力原則(Principle of Least Effort)。

基於語義學的系統可以不依賴表面詞義構建語料庫。相比羅塞塔石碑,這個系統可稱作是一個高科技語言魔方。羅賽塔只記錄三種語言,而後者可通過多變的組合匹配任何目標語言。

語言之外

在找到外星人之前,研究人員先在鯨類動物身上試驗了「通用翻譯機」假設。雖然目前還沒有確切證據證明鯨類動物的通訊擁有人類語言的所有特徵,不過它的卻表現出一些跡象。

例如,海豚擁有自己的「籤名口哨」,這相當於人類語言中每個人的名字。籤名口哨用於海豚的定位,這符合語言學中的移位性(displacement)。在Louis Herman的實驗過程中,海豚成功學會了理解「左」、「右」等抽象概念。海豚群體的社會活動很複雜,需要相當有效和複雜的通信系統來保障信息交流。

海豚之外,還有一些物種具有更複雜的通訊系統。一系列實驗已經證明螞蟻的通訊可能超乎人類的想像,螞蟻甚至能對語句進行壓縮,比如它們會將「左轉,再左轉,再再左轉,再再再再左轉」說成「左轉四次」。

Doyle 和 Elliott 利用信息理論提供的各種工具對鯨類動物的交流進行了研究。Elliott計算了人類和動物語言以及非語言來源(比如白噪音和音樂)各自的信息熵。

交流系統呈現一個對稱的A狀振幅。人和海豚的聲音尤其如此,鳥類聲音對稱性稍弱。Doyle對駝背鯨的聲音進行測量,得出類似的結論。

這就是為什麼幾個研究動物交流計劃與SETI計劃進行協作的原因。如果我們連動物語言都無法理解,更遑論打造破譯外星語言的通用翻譯機了。

關注網易智能菌(微信公眾號:smartman163),獲取專業人工智慧資訊與AI報告。

本文來源:網易智能 責任編輯:丁廣勝_NT1941

相關焦點

  • 微軟提出新型通用神經機器翻譯方法,挑戰低資源語言翻譯問題
    近日微軟發布博客,提出一種半監督通用神經機器翻譯方法,解決低資源語言機器翻譯的問題,幫助解決方言和口語機器翻譯難題。該研究相關論文已被 NAACL 2018 接收。機器翻譯已經成為促進全球交流的重要組成部分。
  • 語言溝通無障礙?機器翻譯來了!
    是否能夠不通過專業翻譯,不用學習其他語言,直接使用母語就能讓講不同語言的人們自由交流呢?實現不同語種之間的無障礙溝通,一直都是人類終極夢想之一。早在1933年,法國工程師阿爾楚尼就萌生了機器翻譯的設想,並獲得一項翻譯機專利。什麼是機器翻譯呢?就是使用計算機把一種語言翻譯成另一種語言的一門學科。
  • 挑戰CET6翻譯考試的機器翻譯系統
    參考往年大學英語六級翻譯考題的表現,可達到優秀六級考生的水平。  現場兩位評分專家來自上海交通大學外語學院,「這套系統翻譯出來的語言質量很高、語法也很地道,表現好過預期。」她們給出的評價稱:機器翻譯能準確表達原文意思、譯文流暢、結構清晰,可以較好地輔助不同語言的信息溝通。  「到目前為止,機器翻譯到底達到了什麼樣的水平,還沒有人能夠給出明確答案。」
  • 機器翻譯正走入現實生活 未來還需要人工翻譯嗎?
    語言障礙正被擊破將人類分隔開來的語言屏障尚未倒塌,但卻正以驚人的速度被擊破,對全球交流、小語種的命運以及商業和外交的未來產生了巨大的影響。自動使用多語種可能是網際網路最重要卻最鮮為人知的影響之一。即時翻譯一直是科幻小說描繪的情景。在《星際迷航》中,「萬能翻譯器」使柯克船長能夠在語言方面無所畏懼,從而大膽地進入最後的邊疆。
  • 機器翻譯的前世今生
    美國南加州大學的科學家們最近提出一種全新的機器翻譯方法——解碼外語。科學家認為這種翻譯方法今後甚至可以破譯「海豚音」或「外星人語言」。
  • 未來5到10年內機器翻譯將普及
    【新華社北京5月22日電】科技何時才能幫助人類打破不同語言的藩籬?專家22日說,人工智慧的一個分支——自然語言處理技術近年來取得很多突破,能代替人類「高翻」的機器翻譯將在未來5到10年內全面普及。 由中國人工智慧學會和中國中文信息學會主辦的2017全球人工智慧技術大會正在北京舉行。
  • 揭秘動物語言翻譯器:打著AI幌子的娛樂產品
    原理:採集動物聲音、動作2018年,廣州巨科電子CEO牟森林在接受中國國際電視臺CGTN的採訪時表示,寵物翻譯器的原理,是通過機器內部的一個傳感器模組,採集寵物的呼吸、心跳、動作、叫聲等生物信號,並把它翻譯成人類語言。總之,狗語翻譯器不僅翻譯狗狗的叫聲,更多的是綜合翻譯狗狗的叫聲和肢體動作語言。
  • ...谷歌神經機器翻譯再突破:實現高質量多語言翻譯和zero-shot翻譯
    》,介紹了谷歌的神經機器翻譯系統(GNMT),該系統實現了機器翻譯領域的重大突破,參見報導《重磅 | 谷歌翻譯整合神經網絡:機器翻譯實現顛覆性突破》。這家搜索巨頭表示現在已經將神經機器翻譯(neural machine translation)集成到了其網頁版和移動版的翻譯應用之中,這意味著它可以一次性翻譯一整段句子,而不只是像之前一樣只能一個詞一個詞地翻譯。谷歌在其產品博客中表示,其產品的翻譯結果現在變得更加自然,能夠實現更好的句法和語法。
  • 訊飛翻譯機機器翻譯系統挑戰六級翻譯 成績優秀
    研究人員介紹,機器翻譯技術是利用計算機把一種自然語言翻譯成另一種自然語言,從1933年正式被提出開始,目前已更新有三代技術、取得了長足的進步。「最新一代技術是基於端到端的神經機器翻譯。」 神經機器翻譯算法的提出,是當前機器翻譯取得重大突破的關鍵。大規模平行語料的積累則是基礎。
  • 機器翻譯的前世今生:從盲目樂觀到「不可行」
    美國南加州大學的科學家們最近提出一種全新的機器翻譯方法——解碼外語。科學家認為這種翻譯方法今後甚至可以破譯「海豚音」或「外星人語言」。  機器翻譯,簡稱「機譯」,是利用計算機實現從一種自然語言(源語言)文本到另一種或多種自然語言(目標語言)文本的翻譯;而用以翻譯的軟體叫做機譯系統。機譯涉及語言學、計算機科學、認知科學、數學等多個學科,是一門前沿交叉學科。
  • 機器翻譯的最新進展與瓶頸所在
    你想過和異國人說話不需要再有翻譯,只需隨身攜帶一個輕巧的數碼機器嗎?目前來看這仍是奢望。不過,或許某一天,我們終於可以不再學習頭疼的外語就能實現和外國人的無縫交流。  谷歌的首席科學家阿施斯維努戈帕爾稱,谷歌的最終目的是研發出能夠翻譯全球至少10億人所說的300種語言的手機軟體。  除了傳統的翻譯思路,一種被稱為解碼外語的新方法也小荷露出尖尖角。
  • 史上第一次,AI能夠自學翻譯地球上的任何語言了
    現在,兩個新的人工智慧系統——一個來自西班牙的delPaísVasco大學(UPV),另一個來自卡內基梅隆大學(CMU)——承諾會改變這一切,為像《星際迷航》(Star Trek)中那樣的真正的宇宙通用譯者(universal translator)的到來打開大門。要了解這些新系統的潛力,首先要了解當前的機器翻譯是如何工作的。
  • 機器翻譯系統挑戰CET6翻譯考試 每題用時5秒成績優秀
    參考往年大學英語六級翻譯考題的表現,可達到優秀六級考生的水平。  現場兩位評分專家來自上海交通大學外語學院,「這套系統翻譯出來的語言質量很高、語法也很地道,表現好過預期。」她們給出的評價稱:機器翻譯能準確表達原文意思、譯文流暢、結構清晰,可以較好地輔助不同語言的信息溝通。  「到目前為止,機器翻譯到底達到了什麼樣的水平,還沒有人能夠給出明確答案。」
  • 翻譯的過去與未來:機器翻譯會取代人工翻譯嗎?
    隨著全球化進程和我國的改革開放,各個領域的中外交流愈發頻繁,而這種交流之所以能夠成為現實,離不開翻譯活動。 翻譯的未來:機器翻譯會取代人工翻譯嗎?隨著科技的迅速發展,機器翻譯的使用越來越普遍,其準確度也在不斷提高,對翻譯行業構成了一定衝擊。對機器翻譯的前景存在著兩種不同觀點,其中「機器不可能替代人工翻譯」的觀點目前佔主流,尤其在翻譯界。
  • 谷歌矢志打破語言障礙 研究自動化機器翻譯
    據德國《明鏡周刊》報導,在一名來自德國的計算機科學家的領導下,谷歌正在開發一種通用翻譯工具的進程中取得進展。不過,谷歌在這個項目上正面臨著即將來臨的潛在競爭對手,那就是微軟和Facebook。當科幻小說家構想人類的未來時,許多有關改善世界的想法總是會重複不斷地迸發出來,比如說無限可用的能源和光速旅行等。
  • 機器翻譯技術將為全球語言交流提供可能 _新華網
    機器翻譯是人工智慧中研究歷史較久的一個領域,人們在語言表達上,對於同一個意圖有著完全不一樣的表達方式,所以人類的語言其實是一個非常複雜的系統。最初人們認為幾乎不可能由機器來對語言進行翻譯,隨著機器學習技術的不斷發展,80年代末,人們開始通過機器學習技術來解決機器翻譯的問題,開始大規模地研究機器翻譯。
  • 谷歌翻譯高勤:神經網絡技術將主導機器翻譯的未來
    谷歌翻譯研發科學家高勤  中國網科技7月11日訊 谷歌翻譯研發科學家高勤在今天舉行的中國網際網路大會上介紹稱,谷歌翻譯在神經網絡機器翻譯技術上已經取得重要進展,並同時對機器翻譯技術在未來當中實際應用。他表示:「神經網絡機器翻譯和非專業人工翻譯已經相當接近,對於中英文互譯也取得最大提升。」  高勤在大會上稱,神經網絡翻譯技術與傳統翻譯技術有很大不同。傳統機器翻譯技術是基於短語統計機器翻譯拼圖過程,嘗試找出較好翻譯選項,而神經網絡機器學習屬於利用雲語言與目標語言信息,使整各翻譯過程變得連續且完整。
  • 翻譯的過去與未來:機器翻譯會取代人工翻譯嗎?|周末談
    語言對全球豐富的文化多樣性有著重要的貢獻,翻譯使得日益頻繁的對外交流成為可能,但譯者的貢獻未能得到足夠重視。翻譯有著悠久的歷史,也將在可見的未來變得越來越重要。隨著全球化進程和我國的改革開放,各個領域的中外交流愈發頻繁,而這種交流之所以能夠成為現實,離不開翻譯活動。
  • 英科學家聲稱開發出可翻譯外星人語言的電腦程式
    英科學家聲稱設計出程序可翻譯外星人語言 北京時間10月17日消息,據英國《每日電訊報》報導,許多科學家都曾擔憂,即使人類有朝一日真的發現了外星人但英國科學家日前表示,他們目前已經開發出一套能夠解密外星人語言結構的電腦程式,該程序將能夠理解並翻譯外星人所要表達的意思。 新程序可翻譯外星人語言 英國利茲城市大學科學家約翰·艾利歐特說,這一程度的原理就是將把外星語言與地球上60多種的語言作對比研究,看它們是否具有相似的結構。
  • 機器翻譯:是人類語言的延伸 還是從業者的警鐘
    樂觀的人認為,機器翻譯是把人類的語言延伸到冰冷的機器上,並且可以應用到各行各業的生產生活當中,滿足了對於語言服務的需求,既降低的成本,又提高了效率,可謂是兼具了科學研究價值和重要的使用價值。相反,悲觀的人認為,機器翻譯的不斷發展,對於整個翻譯行業而言是一種破壞,甚至是末日的喪鐘。