重建巴別塔,機器翻譯的前世今生丨語言學午餐

2020-12-13 全宇宙頂尖吃貨

機器翻譯(Machine Translation)想必是大家最耳熟能詳的人工智慧應用之一了,它不僅是計算語言學(Computational Linguistics)的瑰寶,同時也是居家旅行的必需品。雖然機翻已可滿足一些簡單的應用情景,但是它有時犯起蠢來還真是讓人哭笑不得。

這不,前段日子,小編的朋友圈裡就刷起了「谷歌翻譯眼中的大學排名」:

清華大學:我可能是個假 Tsinghua???

交大老學長:機器翻譯還是 too young, too simple, sometimes nave!

也許是因為谷歌不太了解中國的大學?然而,麻省理工也難逃谷歌翻譯愚蠢的執念:

-

MIT:確認過眼神,是我的「不如」!

(以上截圖均在2018年4月8號,此bug現已被修復了。)

實際上,在谷歌翻譯的「排行」下,除了名校,各家科技公司也都遭到了不同程度的「不公對待」!

無獨有偶,在前兩周的博鰲亞洲論壇上,本想著靠「AI同傳」(人工智慧同聲傳譯)大放異彩的某訊,卻也鬧出了不少烏龍:

「AI同傳」 崩潰後的翻譯效果

這,究竟是「人工」的毀滅,還是「智能」的淪喪?! 今天,午餐君就帶你一起走進科學計算語言學,了解下機器翻譯的前世今生!

下文約 2500 字,預計閱讀時間為 5 分鐘。

序曲(1930-1950)

機器翻譯的雛形最早可以追溯到1933年,一位蘇聯科學家利用卡片、打字機和舊式膠片相機發明了一個簡易的機械式翻譯器。然而,這個發明並沒有引起任何人的注意,也沒有留下實物或照片。

1946年,第一臺電子計算機 ENIAC 誕生之後,美國科學家 Warren Weaver 就開始思考如何更好地利用計算機「為人民服務」。圖靈在二戰期間利用機器破譯密文的事跡給了他機器翻譯的靈感:翻譯也可以看成是一種編碼和解碼的過程!

當我看到俄文文章,我說「它就是以英語寫成,只是被古怪符號加密而已。現在我要破解密碼。」

—— Warren Weaver(1947)

恰逢冷戰初期,翻譯外文(尤其是俄文)的情報與文獻是美國的一個剛性需求。在政治與科技的歷史進程的雙重推動之下,1949年,Warren 正式在《翻譯備忘錄》中提出機器翻譯的思想。1954年,美國 Georgetown-IBM 實驗室成功利用 IBM 701 計算機將60句俄文句子翻譯成了英文。

某種程度上,這標誌著人類重新開始了建造巴比塔之路。

巴別塔:《舊約·創世記》記載,當時人類聯合起來興建能通往天堂的高塔;為了阻止人類的計劃,上帝迫使人類說不同的語言,使其不能互相溝通。建造高塔的計劃因此失敗,人類自此說著不同的語言,各散東西。這座沒有完成的塔被叫做「巴別塔」,「巴別」意為「上帝之門」。

機器翻譯的此後70年的發展,大體可分為四大階段:基於規則的機器翻譯(Rule-Based Machine Translation, RBMT)、基於例句的機器翻譯(Example-Based Machine Translation, EBMT)、統計機器翻譯(Statitical Machine Translation, SMT)、神經機器翻譯(Neural Machine Translation, NMT)。

前世 · RBMT (1950 ~ 1980)

最容易被大家想到的一種翻譯方法就是先根據雙語詞典(Bilingual Dictionary),將原句逐詞翻譯,再根據目標語言的特性調整每個詞的形態,最後通過各種規則來限制最後的翻譯結果。沒錯! 這種以詞為基本單位的翻譯方法,被稱為直譯法(Direct Machine Translation)。

顯然,這種直譯方案有著諸多劣勢:

1)一詞多義時,無法選擇更符合語境的含義;

2)需要人工來制定每個詞相應的規則,這是一個浩大的工程;

3)沒能充分利用兩個語言的固定語法結構來進行翻譯;

4)難以擴展到多語言(當你有n個語言需要互相翻譯時,需要對多達 n*(n-1)/2個 語言對 分別制定規則)。

為了試圖解決這些問題,科學家們先後又提出了以句法結構為著眼點的遷移式機器翻譯(Transfer Machine Translation) 和 基於中間語的機器翻譯(Interlingua Machine Translation)。然而,這些嘗試耗費了巨大的人力、物力去構建規則,卻收效甚微。

依靠人來編寫無窮無盡的語法規則去消解歧義,不僅耗費了時間和精力,當時的計算機能力也無法完成有效的搜索。因此,機器翻譯的效果只能在天氣預報這種非常專業化且格式化的文本上才有所價值,因為歧義較少。

1966年,美國科學院成立了自動語言處理諮詢委員會 (Automatic Language Processing Advisory Committee),並發布了名為《語言與機器》的報告,徹底否定了機器翻譯的研究價值,認為人類在有限的未來裡不可能發明具有實際價值的機器翻譯系統。機器翻譯一度陷入泥沼,進入低潮期。

儘管被宣判了死刑,機器翻譯的客觀需求卻仍然隨著全球化的進程日益增長。信息技術的發展不斷將整個世界變得越來越小,不同語言的人在網絡上進行信息交互也越來越頻繁。廢棄的巴別塔下,人越來越多了!

工業界、政府又慢慢開始與大學合作,開發出了多款翻譯軟體,如 Weinder、EURPOTRAA、TAUM-METEO,重新帶動了機器翻譯的熱潮。

前世 · EBMT (1980 ~ 1990)

技術方面的靈光乍現來自於日本京都大學。由於日語結構和英語差異非常顯著,使得基於人工編寫規則的方法在日英互譯時困難重重。1984年,京都大學前校長 長尾真 另闢蹊徑:為什麼我們不充分利用已有的人工翻譯好的雙語例句呢? 當我們要翻譯一個新句子的時候,在雙語例句庫裡找到和它最像的一句,然後利用機器找出有差異的局部、翻譯局部、填回結果,不就可以了嗎?

利用第一行的例句進行對第二句英文的翻譯

這種基於例句的思想,在實踐中被證明是非常有效的!當例句庫越大,翻譯的效果自然也就越準確、越自然。這是因為翻譯出來的句子的整體結構是來自於人類翻譯的結果,機器翻譯系統所做的只是修改局部以貼合新句子語義。

這一想法,直接啟發了後來的一批學者,並順利將機器翻譯的研究過渡到了下一個時期,也是機器翻譯最為輝煌的時期,SMT!

前世 · SMT (1990 ~ 2015)

基於短語的統計機器翻譯(SMT)充分發揚了 長尾真 提出的EBMT的觀點,它的核心邏輯是:如果我有兩種翻譯的選擇,就選那種在雙語語料庫(也常稱為平行語料庫,parallel corpora)中出現可能性更大的那個,因為這意味著它更符合人類的語言習慣。

那麼,如何衡量一種翻譯在語料庫中存在可能性呢?首先我們需要把「翻譯」這個複雜的過程,分解成一系列的更簡單的過程:

1) 把原句切分成一系列的小塊 (chunk)

2) 然後找到每一塊對應的候選翻譯集合

3) 生成所有候選句子

(注意,此時可以考慮不同的順序)

4) 算出每一句出現的概率,選擇最大的。

基於短語的模型(n-gram)保證了局部翻譯的一致性,也降低了平行語料庫中「對齊」(alignment)的需求。我們也放棄了所有的語言學知識,一切的「規則」 都是從海量的平行語料中自動計算得來的。

相反,如果在SMT模型中,我們試圖強行引入語法規則,常常會降低模型的效果。這也就是為什麼 統計自然語言處理 (Statistical NLP) 先驅 Fred Jelinek 熱衷於調侃語言學家了。

我每開除一名語言學家,我的模型準確率就提升一個百分點。

—— Fred Jelinek

2005年,Franz Och 領導的 Google 團隊在美國國家標準與技術研究(NIST)舉辦的機器翻譯大賽中獲得了大滿貫。這標誌著SMT的絕對勝利,也讓 Google 在機器翻譯領域成為了新的帶頭羊,以領先的技術和免費的優勢,佔據了絕對的主導地位。

今生 · NMT (2015 ~ 現在)

從2013年開始,機器學習(Machine Learning)的學者圈子裡有一些人開始將關注點轉向人工神經網絡(Artificial Neural Networks)、深度學習(Deep Learning)等。(關於機器學習,可以參考《你好,機器作詩了解一下》 。)

與此同時,詞嵌入(Word Embedding)的詞語表徵方式也隨著 word2vec 的發布,流行了起來。詞嵌入技術使得很多自然語言處理的問題可以用神經網絡來解決。機器翻譯作為自然語言處理和計算語言學的瑰寶,自然也是備受關注!

2014年,Kyunghyun Cho 等人開始利用循環神經網絡(Recurrent Neural Networks)加強SMT的效果 ,開啟了神經機器翻譯(NMT)的時代(三年多的時間他們的第一篇NMT論文已經有 2300+ 的引用量了)。

不久,序列到序列(seq-to-seq)模型成為了NMT的主要框架。敏銳的 Google 非常迅速地跟進了這個方向,提出了 GNMT (Google Neural Machine Translation),並融合進了其產品線。

一個有注意力機制的序列到序列模型

(Attentional Seq2Seq Model)

從圖中可以看出來,NMT模型是迭代地產生翻譯結果的:先將原句進行理解(編碼,encode),然後根據相關的局部信息動態翻譯(解碼,decode)出對應的詞彙。在整個過程中,沒有直接出現統計學相關的計算,而是靠神經網絡的結構來進行推理。

2017年,Facebook、 Google、Microsoft 在 NMT 這個領域都頻繁提出自己的新模型,競爭非常激烈。最前沿的研究開始把目光放在如何降低對平行語料庫的依賴,從而在沒有平行語料庫的情況下仍然能夠訓練 NMT 模型。

總結與展望

當然,任何一個成熟的機器翻譯工業產品都不可能只靠一種模型,而應該是多種策略的組合。開頭提到的谷歌翻譯的關於「不如」的 bug,看起來像是 Google 的NMT 模型由於周圍語境的影響導致的。但是,Google 能夠迅速修補這個bug,就說明它的系統中應該也有類似基於規則的成分,所以才能根據需要如此靈活地調節模型。不過,具體為何產生這樣的 bug,恐怕只有 Google 的相關工作人員才更清楚了。「解釋性差」也正是人們最常批評 NMT 的原因之一了。

機器翻譯相關的研究一直以來都是推動計算語言學發展的最主要的動力之一,這四個階段的發展與計算語言學整體的走向也是一脈相承。儘管機器翻譯有時的效果不盡如人意,但是忽視或否認它所帶來的積極作用是不明智的。

在2013年的科幻電影《雪國列車》裡,同傳機器還被想像成是未來的高端科技,而2018年的今天,市面上就已經有多家可以滿足旅遊中常見需求的隨身翻譯機。

《雪國列車》中的同傳機器

某隨身翻譯器的demo

(為避免廣告嫌疑,選用了某國外產品在日本的測評視頻。

國內產品也有很多測評視頻可以在視頻網址上搜到。)

會場的演講實時翻譯、在屏幕上實時打出另一個語言的字幕也快成為了AI領域發布會的標配了。基於計算語言學現在的發展速度和上升空間,相信未來會有更出色、更穩定的應用。

相關焦點

  • 從機器翻譯到讀心術 AI能否重建人類巴別塔?
    《聖經·舊約·創世紀》中有這樣一個故事,人類聯合起來興建通往天堂的巴別塔,為了阻止人類的這一計劃,上帝讓人類說不同的語言,使其相互之間無法順暢溝通,計劃因此失敗,人們各散東西。這也從一個側面說明了溝通在人類發展史上的重要性。
  • 機器翻譯的前世今生
    美國南加州大學的科學家們最近提出一種全新的機器翻譯方法——解碼外語。科學家認為這種翻譯方法今後甚至可以破譯「海豚音」或「外星人語言」。
  • 外語專業學生會被機器搶走飯碗嗎?——寫在AI同傳風波之後丨語言學午餐
    所以今天的午餐,我們就和語言類專業學生談談心,看看機器翻譯產品的現狀和問題,以及聊聊我們應該如面對AI語言科技的發展。要想把機器翻譯批判一番,我們先得明白機器翻譯是如何工作的。午餐之前有一篇詳細介紹機器翻譯的發展的文章,感興趣的讀者可以參考一下。
  • 【人工智慧】重建巴別塔 --- 縱觀日本的人工智慧自動翻譯
    因此,自動翻譯成為一個攻堅的課題。如果自動翻譯實現了,等於重建一座巴別塔,可以綜合全球的力量,攻克科學難關。時間系統概況評價第一次90年代初・用途:面向翻譯公司或者企業的翻譯系統・系統配置:軟體+工作站+印表機+掃描器・價格:600-800萬日元翻譯精度:日英50%英日60%93年前後・用途:面向翻譯公司或者企業的翻譯系統
  • 計算語言學漫遊指南 | 語言學午餐
    上個月,《你好,機器作詩了解一下》這篇文章發布之後,許多讀者留言說希望小編能更全面地介紹下計算語言學的研究內容、相關讀物和轉專業留學申請等信息。於是,午餐君今天就為大家帶來一份乾貨滿滿的計算語言學漫遊指南!
  • 計算語言學院校信息大匯總!丨語言學午餐
    之前也有不少讀者朋友們留言,說希望午餐君可以介紹下計算語言學方面的院校。正值保研準備期和留學申請季,那麼本期《語言學周刊》,我們就來介紹介紹計算語言學方面的院校信息!我們先來看看世界各地有那些著名的計算語言學研究組和實驗室。它們歷史悠久,對計算語言學領域發展貢獻巨大,擁有著最知名的學者們。了解這些實驗室,無論是對於未來升學的選擇,還是對熟悉學界分布,都大有裨益。
  • AI語言翻譯新突破!全球各種語言無障礙交流終將不是夢
    以 AI 為代表的新興技術會將重建人類文明的「巴別塔」,還是加速其崩塌?圖丨《聖經》中的巴別塔人類目前使用大約6900種不同的語言。但使用漢語、英語、北印度語、西班牙語和俄語這5種語言的人佔了全球人口的一半以上。事實上,95%的人只使用100多種語言進行交流。
  • 機器翻譯的前世今生:從盲目樂觀到「不可行」
    美國南加州大學的科學家們最近提出一種全新的機器翻譯方法——解碼外語。科學家認為這種翻譯方法今後甚至可以破譯「海豚音」或「外星人語言」。  機器翻譯,簡稱「機譯」,是利用計算機實現從一種自然語言(源語言)文本到另一種或多種自然語言(目標語言)文本的翻譯;而用以翻譯的軟體叫做機譯系統。機譯涉及語言學、計算機科學、認知科學、數學等多個學科,是一門前沿交叉學科。
  • 將科幻變成現實,谷歌百度用神經機器翻譯踐行人類的「巴別塔之夢」
    機器之心作者:iCombinator機器翻譯之夢今天,當我們很自然的拿出手機,選擇一個谷歌、百度或微軟的翻譯 app ,輕而易舉的完成文字翻譯、拍照翻譯和實時語音翻譯時,我們可能不會意識到由於深度學習的出現和數據量的積累,研究數十年的機器翻譯問題已經變得可用並走入了我們的生活,給我們帶來了極大便利。
  • 來看看臺灣的大學怎麼上語言學入門課丨語言學午餐
    今天為大家介紹的是臺灣交通大學的一門開放式課程——語言學概論,這個課程是外文系助理教授賴鬱雯博士為大一學生開設的一門語言學入門課程。賴鬱雯博士早年在臺灣大學攻讀昆蟲學,獲得了碩士學位,之後赴美國堪薩斯大學攻讀語言學的碩士和博士,畢業、做完博士後之後回臺任教。
  • 太和殿的「前世今生」
    歷史北京【太和殿的「前世今生」】太和殿在永樂年間建成時名為奉天殿,嘉靖時期更名為皇極殿,清初順治朝改名太和殿。大殿落成僅百日,就遭雷擊起火,三大殿盡毀。之後在嘉靖、萬曆、康熙年間又三次毀於火災,現存建築為康熙三十四年(1695年)重建。當時,由於巨型楠木稀缺,重建的太和殿在規模上明顯縮水,面積大約只有永樂年間的一半。
  • 一句話測測你英文有多「牛」|語言學午餐
    不管點進來的您是高中生、大學生、研究生,不管是英語專業、地理專業、化學專業,甚至是醫生會計程式設計師,只要您有勇氣挑戰,就和小編來一起翻譯下面這句話——Buffalo buffalo Buffalo buffalo buffalo buffalo Buffalo buffalo.
  • iPhone用戶心頭好 細說CarPlay前世今生
    部分內容翻譯自維基百科和相關新聞報導,如有疏漏煩請指正。前世丨是什麼讓BMW真香?關於CarPlay(iOS 14)的新特性,用車組同事曾經做過詳細解析,感興趣的朋友可以點擊下方回顧圖閱讀。此外我也為大家拍攝了上手視頻,想「雲體驗」請一定不要錯過。
  • Boosting算法的前世今生(上篇)
    微信公眾號:AIKaggle歡迎建議和拍磚,若需要資源,請公眾號留言;如果你覺得AIKaggle對你有幫助,歡迎讚賞Boosting算法的前世今生讚賞Kaggle實戰機器學習本系列文章將會梳理Boosting算法的發展,從Boosting算法入手,介紹Adaboost,GBDT/GBRT算法,XGBoost算法,LightGBM算法,CATBoost算法,Thunder GBM算法等,介紹Boosting算法族的原理,框架,推導等,本文 - Boosting算法的前世今生(上篇)將介紹AdaBoost算法和梯度提升樹算法,下篇將會詳細介紹
  • 丨語言學午餐
    "—— 詩人于堅評價微軟小冰儘管詩歌的本質以及評判標準還很難界定,機器作詩系統背後的語言學原理仍然非常令人好奇。人工智慧系統到底是如何寫出這些詩歌的呢?今天午餐君就來從計算語言學(Computational Linguistics)的角度,和大家簡單聊聊機器作詩的原理。
  • 計算語言學相關資料
    定義根據百度百科的定義,計算語言學(Computational Linguistics)指的是通過建立形式化的數學模型,來分析、處理自然語言,並在計算機上用程序來實現分析和處理的過程,從而達到以機器來模擬人的部分乃至全部語言能力的目的。[1] 2.
  • 今生的夫妻是前世情人,今生的情人是前世夫妻:善待每一份相遇!
    作者:胡楊映月情人之所以對你柔情似水,之所以是浪漫溫柔的代名詞,之所以讓你感覺愛得百轉柔腸,之所以讓你刻骨銘心,是因為你們是前世的夫妻。今生之所以尋你而來,只因為前世的一份緣還沒有盡,所以今生來續前緣,是來還債的。
  • 前世今生因果輪迴
    世界如此之大無奇不有,我們生活在這美好的世界裡,人生在世是否真的會有前世與今生。每一個人都在猜想,都在找答案。如果真的有前世,就會想到有沒有來世。前世與今生如果真的還有今生,那麼今生無法報答的恩情等到來世再報 。人世間是如此美好,今生修來的福分是前世的因果。好人必有好報。前世的因果,決定了今生的命運。
  • 丨語言學午餐
    一個國內語言學專業學生的人生路徑:本科:北京語言大學 英語專業碩士研究生:北京外國語大學 英語語言文學專業博士研究生:南加利福尼亞大學 語言學專業天啦嚕,一直到博士階段才換到真正的語言學專業。小編查詢了一下,MIT所有授予理科學士文憑的專業都需要上數理化生專業課(每學科1-3門課)來完成畢業要求。據說,物理中有一門選修課就是關於基礎核彈理論。總有一種MIT語言學專業學生畢業出來也能造核彈的感覺...
  • 薊州的前世今生,看到照片回憶老薊州!
    薊州的前世今生,看到照片回憶老薊州! 都說 認識一座城市,從地標開始 畢竟 它代表了或者曾經代表了這座城市 如今,薊州的發展日新月異 很多老建築都在消失或重建