機器翻譯思想提出71周年|破土而出的機器翻譯

2020-12-15 河南頻道

原標題:機器翻譯思想提出71周年| 破土而出的機器翻譯

1949年7月15日,利用計算機進行語言自動翻譯的想法被提出,機器翻譯的種子從那時起生根發芽,逐漸枝繁葉茂。如今,我們更是常常躲在它的樹蔭下,享受著技術帶來的便利。今天就跟著小編一起了解一下,這項技術是如何起步的,在初期又是如何掙扎前進的。

自然語言處理是人工智慧皇冠上的明珠,而填補語言鴻溝的機器翻譯則是自然語言處理最典型的應用技術之一。

20世紀30年代初,亞美尼亞法國工程師阿爾楚尼(G. B. Artsouni)提出用機器進行語言翻譯的想法,並在1933年7月22日獲得了一項「機械腦」的專利。1933年,蘇聯發明家特洛揚斯基設計了用機械方法,把一種語言翻譯為另一種語言的機器,並在同年9月5日登記了他的發明。

機器翻譯思想出現在二戰之後。資訊理論的先驅、美國科學家瓦倫·韋弗(Warren Weaver)等人受到在戰爭期間採用圖靈機破譯德軍密碼的啟發,認為語言翻譯與破譯密碼本質都是符號轉換,並正式提出了機器翻譯的思想。

1949年7月15日,瓦倫·韋弗(Warren Weaver)於《翻譯備忘錄》中提出了四條機器翻譯思想:

意義和上下文:需要在上下文中解決語言的歧義。

語言和邏輯:需要對語言做出基於邏輯的句法或者語義分析。

基於香農(Claude Shannon)的資訊理論(information theory),從密碼學的角度提出了語言統計語義的性質。

普遍語言:語言之間需要有通用性的表達。

這四條思想為後來的機器翻譯研究提供了思想框架,韋弗也因此被稱為「機器翻譯之父」。

在1954年,出版了第一本機器翻譯的雜誌,這本雜誌的名稱就叫做Machine Translation(《機器翻譯》)。同年1月7日,IBM 在紐約的總部啟動了Georgetown-IBM實驗,IBM 701計算機有史以來第一次自動將60個俄語句子翻譯成英語,被視為機器翻譯可行的開端。

隨後,美蘇兩個超級大國均投入巨資來進行機器翻譯研究——為此來獲取更多敵方的情報。同時,歐洲國家由於地緣政治和經濟的需要,也對機器翻譯研究給予了相當大的重視。我國則是繼美國、蘇聯、英國三個國家之後,世界上第四個開展機器翻譯研究工作的國家(1956年,中國把機器翻譯研究列入全國科學工作發展規劃)。

雖然,在那個時期機器翻譯的譯文多數情況下不盡人意。但是,無論如何,這項新興的技術終於萌芽了,他毅然地破土而出,悄悄地登上了學術的殿堂,並且迅速地發展和壯大起來。

那麼,機器翻譯這項技術又是如何從一個從牙牙學語的孩童成長為一個對社會有用的優秀青年的?您接著往下看

小「艾姆涕」成長記

——從基於規則,到基於統計模型,再到基於神經網絡

機器翻譯技術的迅速發展始於70 年代,我們可以把它的發展看成是一個孩子的成長故事,就暫時給他起名叫做「艾姆涕」吧(源於machine translation 縮寫MT)。

最一開始的時候,艾姆涕有些笨拙,是個只會翻字典找對應的孩子。可以想像這個孩子翻譯出的內容一定是粗糙的:用詞不精準,句法不連貫,內容表達不清晰。

隨著艾姆涕漸漸長大,他發現了詞與詞之間的規律,能夠將詞語組合成詞組和短語進行翻譯,翻譯的句子有很大進步。但很快,這種方法遇到了瓶頸。規則多到難以記住,而且這些規律很難全面覆蓋不斷演化的語言。這種方法準確率雖然有進步,但是依然達不到可用的預期。

後來,他學會了數學和統計,於是他開始一點點構建統計模型,希望以此提高翻譯的準確度。他最先嘗試逐詞翻譯,可是翻譯出的內容經常驢唇不對馬嘴,讓人啼笑皆非。於是,他開始以短語為單位重新建模,這一次的效果好多了。

然而,隨著年齡的增長,世界對他的要求也越來越高,給他的句子也越來越長。為了確保句子的連貫性,艾姆涕開始逐漸嘗試以句子做單位,並能翻譯出句中各短語之間的邏輯關係。聽人說,他這方法這就像人類的神經網絡一樣,非常的厲害。

儘管如此,還是有人會問:「艾姆涕啊,你不熟悉的、從來沒學過的語言,你能不能翻呢?」 艾姆涕先是愣了一下,然後從容且迅速地給出了答案:「能」。艾姆涕說,他掌握的是學習的方法,能夠快速閱讀新知識,學習新的翻譯技能,並且在習得的語言中,已經積累了很多翻譯技巧,能夠運用到新語言翻譯中去。

隨著,技術理論不斷革新、國內外眾多相關學術專家持續實踐,艾姆涕已不再僅僅局限於科學研究,更是趨於大眾化、平民化、市場化。如今的艾姆涕已成長為一位才華出眾的青年,成為大家尋求翻譯幫助的第一對象。

機器翻譯思想在1949年7月15日被提出,它的誕生給人類帶來打破語言高牆的希望。小牛翻譯就把每年的7月15日定為機器翻譯誕生紀念日(簡稱「機誕日」),7月15日-8月15日定為」機誕節」,用於紀念這項偉大技術的誕生。

「本文為企業宣傳商業資訊,僅供用戶參考,如用戶將之作為消費行為參考,鳳凰網敬告用戶需審慎決定」

相關焦點

  • 機器翻譯與人工翻譯之爭
    機器翻譯這一自然語言處理領域最具挑戰性的研究任務,則是自然語言處理領域「皇冠上的明珠」。近年來,機器翻譯發展十分迅猛,但對於機器翻譯與人工翻譯孰優孰劣、機器翻譯能否取代人工翻譯,一直存在爭議。機器翻譯之父韋弗曾提出「翻譯即解碼」的結構主義觀點,但是,數年之後,他自己又推翻了這一論斷,表示「機器成不了普希金,機器翻譯永遠都無法傳達出語言本身的優雅與格調」。
  • 探測機器翻譯的「溫度」
    不少信息技術公司推出了一系列機器翻譯系統及實體翻譯終端,不斷顛覆著人們所熟知的「紙—筆—人」的傳統翻譯模式,為翻譯行業注入了新的活力,同時也為世界不同語言地區的經濟貿易、跨文化交流等帶來巨大便利。隨著機器翻譯的不斷發展,機器翻譯將取代人工翻譯之言論甚囂塵上,一些翻譯從業者對自身的發展前景充滿了焦慮,並對機器翻譯本身具有「排斥、恐懼」的心理。
  • 搜狗機器翻譯團隊獲得 WMT 2017 中英機器翻譯冠軍
    近年來,幾乎所有的研究機構在發表關於機器翻譯新方法的論文時,都會以 WMT 數據集作為實驗數據,並以 BLEU 評分來衡量方法的有效性,給出一個量化的、可比的翻譯質量評估,因此,WMT 數據集已經成為機器翻譯領域公認的主流數據集。
  • 翻譯的過去與未來:機器翻譯會取代人工翻譯嗎?
    文學翻譯家、北京大學教授臧仲倫在《中國翻譯史話》一書中介紹道,根據考古發掘和史料記載可以推斷出夏商時期、甚至史前時期已有翻譯活動存在。有文獻記載的翻譯活動仍可追溯到公元前十世紀至十一世紀,古書《冊府元龜》中記載越裳國為表示友好,經過三道翻譯,向周公進獻珍禽拜雉(即山雞)。
  • 機器翻譯的夢想與現實
    從低迷到興盛    機器翻譯概念於1947年被提出,隨後成為人工智慧研究的核心問題。在70多年的發展歷程中,機器翻譯研究經歷了幾個不同的歷史階段:    從概念提出到1954年美國喬治敦大學(Georgetown University)在IBM公司的幫助下實現第一個機器翻譯演示系統,可以認為是機器翻譯的初創時期。
  • 越來越聰明的機器「翻譯家」
    後來到了1954年,IBM公司協同美國喬治敦大學,通過IBM-701計算機首次完成英俄機器翻譯試驗,拉開了機器翻譯的序幕。我國也在1956年就開始將機器翻譯研究列入全國科學工作發展規劃。不過後續的發展並不順利,機器翻譯遭遇了許多瓶頸,翻譯質量總是很不理想,一直到近期才有了重大突破。
  • 機器翻譯來了!
    是否能夠不通過專業翻譯,不用學習其他語言,直接使用母語就能讓講不同語言的人們自由交流呢?實現不同語種之間的無障礙溝通,一直都是人類終極夢想之一。早在1933年,法國工程師阿爾楚尼就萌生了機器翻譯的設想,並獲得一項翻譯機專利。什麼是機器翻譯呢?就是使用計算機把一種語言翻譯成另一種語言的一門學科。
  • 機器翻譯簡史
    用中介語實現直接機器翻譯顯然也行不通,但別著急,這種思想還會回歸。基於規則的英日翻譯非常複雜,這兩種語言有著完全不同的結構,每翻譯一句話都要重新排列所有單詞,再增加一些新詞。1984年,京都大學的長尾真提出了一種新想法:直接用已經準備好的短語,不用重複翻譯。比如說,我們之前翻譯過「我要去劇院」這句話,現在要翻譯一句類似的話:「我要去電影院」。
  • 未來的世界:機器翻譯VS人工翻譯
    為了進一步踐行「博雅翻譯文化沙龍」的思想碰撞平臺功能,我們推出這個「語言服務智庫」網刊,期待教育界企業界的專家學者們在這一全新的平臺上盡情表達自己的相關理念、觀點、經驗與規劃,我們鼓勵思想碰撞,不刻意追求結論,從多角度向各界關心我國語言服務事業的朋友們提供思想及方法,以進一步促進翻譯教育及語言服務事業的長足發展。
  • 挑戰CET6翻譯考試的機器翻譯系統
    說它特殊,是因為「考生」只有一個,而且是一套機器翻譯系統。考題來自三天前剛結束的大學英語六級(CET6)考試,評分的是兩位具有六級閱卷經驗的高校資深專家。「考生」一口氣做了三道翻譯題,每道題滿分15分,它得到13分的均分,每題用時只有5秒。「這套機器翻譯系統的表現讓我們驚喜,翻譯得很地道。」對於成績,專家的鑑定是:優秀!
  • 機器翻譯真的能取代人工翻譯嗎?知行君給出了這個答案
    把這句話翻譯成漢語時,我們發現在漢語中,譯者的「譯」和驛馬的「驛」不僅同音,而且在詞源、詞形和詞義上也很相近。用在驛站間往復奔波的馬兒來形容譯者,這裡面能品味出某種艱苦和辛酸,甚至是束縛和無奈。不過在知行君看來,驛馬自有驛馬的生活和使命,它是在不同的文明,不同的文學之間遊走,行程本身就很精彩,更何況還有它們經年累月,堆積起來的一座座金山呢。
  • 機器翻譯的膚淺面-虎嗅網
    儘管如此,他在1947年提出的「翻譯即解碼」的觀點還是成為了機器翻譯領域的一種信仰。從那以後,「翻譯機器」逐漸有了發展。直到最近,對所謂「深度神經網絡」的使用,讓有些觀察家宣稱,人類譯者將成為瀕危物種。照此發展下去,用不了幾年,人類譯者要做的事情就不是創造新的文本了,而是對文本進行修修補補和質量控制。
  • 小牛翻譯,做最好的機器翻譯發動機
    朱靖波說:「NIU蘊含著東北大學(NEU)、新(new)和老黃牛精神(牛)三重含義,Trans是translation的縮寫,兩個部分合起來,表達了團隊要發揚老黃牛的精神,勇於創新,積極進取,努力打造出最牛的機器翻譯軟體。實驗室的每個人都秉持著「精益求精、百鍊成鋼」的精神,努力地在以中文為核心的自然語言處理領域不懈奮鬥。
  • 譯見||蔡基剛 李長栓:機器翻譯VS人工翻譯
    人工智慧的發展非常迅速,翻譯的準確性越來越高,以至於有人擔心譯員是否會失業,甚至有的家長擔心孩子學習外語專業,將來找不到工作。本人的判斷是:機器翻譯可以極大方便人們獲得國外的信息,提高專業譯員的工作效率,但要想進行深度思想交流,還是必須依賴人工翻譯,最好是直接學習外語。人工翻譯的成本很高,速度很慢。
  • 谷歌的神經翻譯系統意味著機器翻譯到盡頭了?
    機器翻譯之父叫Warren Weaver,他在49年和資訊理論之父香農合著寫過一本書,47年3月4日他給控制論之父Norbert寫了一封信,在裡面提出了機器翻譯的可能性。他說這個事兒,如果咱們翻譯叫信達雅三個要求,達雅做不到,信還是可能的。Warren Weaver在49年寫了一個《翻譯》備忘錄,不長,但是提出了系統翻譯的思想,裡面有四條是關鍵的,我簡稱叫W.W.建議。
  • 深度神經網絡機器翻譯
    今天有時間和大家一起討論下下, 深度神經網絡機器翻譯。前言2016年年底, Google公布了神經網絡機器翻譯(GNMT), 從此宣告, 機器翻譯經過27年左右, 正式從1989年的IBM機器翻譯模型(PBMT,基於短語的機器翻譯),過渡到了神經網絡機器翻譯模型。已經極大接近了普通人的翻譯了。
  • 翻譯的過去與未來:機器翻譯會取代人工翻譯嗎?|周末談
    當翻譯家劉文飛把這句話翻譯成漢語時,他驚喜於這種奇妙的巧合:在漢語中,譯者的「譯」和驛馬的「驛」不僅同音,而且在詞源、詞形和詞義上也很相近。「用在驛站間往復奔波的馬兒來形容譯者,這裡面能品味出某種艱苦和辛酸,甚至是束縛和無奈」,劉文飛在一篇文章中感嘆譯者這匹「馬」的艱辛,「既要有出眾的能力還要有忍辱負重的秉性,日復一日的奔波只能換得微薄的糧草,還得時刻提防路途中遍布的坑窪與沼澤」。
  • Atman 劉昌芳:醫學機器翻譯與機器寫作
    2016 年 1 月在北京成立,早於 2016 年 9 月谷歌發布的神經機器翻譯(GNMT),Atman 完成了機器翻譯系統首秀。2017 年 7 月,Atman 與強生籤約,同年 12 月我們開始研發醫學領域的機器寫作。
  • 朱靖波:談談機器翻譯技術發展與產業化
    1 機器翻譯技術發展 淵源講完,咱們回到正題。給大家講一講機器翻譯技術發展和產業應用。機器翻譯是快速進行大數據翻譯任務的唯一解決方案,其實當初提出機器翻譯的時候,動機就是為了代替人工。
  • 話題| 機器可以「翻譯」但不能真正理解
    《表象與本質:類比作為思維的燃料與火焰》(Surfacesand Essences:Analogy as the Fuel and Fire of Thinking)預定於今年下半年出版,這將成為侯世達在中國出的第二本圖書。《表象與本質》英文原版出版於 2013年,本書的主題是,類比能力是人類認知的核心,沒有類比就沒有概念,沒有概念就沒有思想。