原標題:機器翻譯思想提出71周年| 破土而出的機器翻譯
1949年7月15日,利用計算機進行語言自動翻譯的想法被提出,機器翻譯的種子從那時起生根發芽,逐漸枝繁葉茂。如今,我們更是常常躲在它的樹蔭下,享受著技術帶來的便利。今天就跟著小編一起了解一下,這項技術是如何起步的,在初期又是如何掙扎前進的。
自然語言處理是人工智慧皇冠上的明珠,而填補語言鴻溝的機器翻譯則是自然語言處理最典型的應用技術之一。
20世紀30年代初,亞美尼亞法國工程師阿爾楚尼(G. B. Artsouni)提出用機器進行語言翻譯的想法,並在1933年7月22日獲得了一項「機械腦」的專利。1933年,蘇聯發明家特洛揚斯基設計了用機械方法,把一種語言翻譯為另一種語言的機器,並在同年9月5日登記了他的發明。
機器翻譯思想出現在二戰之後。資訊理論的先驅、美國科學家瓦倫·韋弗(Warren Weaver)等人受到在戰爭期間採用圖靈機破譯德軍密碼的啟發,認為語言翻譯與破譯密碼本質都是符號轉換,並正式提出了機器翻譯的思想。
1949年7月15日,瓦倫·韋弗(Warren Weaver)於《翻譯備忘錄》中提出了四條機器翻譯思想:
意義和上下文:需要在上下文中解決語言的歧義。
語言和邏輯:需要對語言做出基於邏輯的句法或者語義分析。
基於香農(Claude Shannon)的資訊理論(information theory),從密碼學的角度提出了語言統計語義的性質。
普遍語言:語言之間需要有通用性的表達。
這四條思想為後來的機器翻譯研究提供了思想框架,韋弗也因此被稱為「機器翻譯之父」。
在1954年,出版了第一本機器翻譯的雜誌,這本雜誌的名稱就叫做Machine Translation(《機器翻譯》)。同年1月7日,IBM 在紐約的總部啟動了Georgetown-IBM實驗,IBM 701計算機有史以來第一次自動將60個俄語句子翻譯成英語,被視為機器翻譯可行的開端。
隨後,美蘇兩個超級大國均投入巨資來進行機器翻譯研究——為此來獲取更多敵方的情報。同時,歐洲國家由於地緣政治和經濟的需要,也對機器翻譯研究給予了相當大的重視。我國則是繼美國、蘇聯、英國三個國家之後,世界上第四個開展機器翻譯研究工作的國家(1956年,中國把機器翻譯研究列入全國科學工作發展規劃)。
雖然,在那個時期機器翻譯的譯文多數情況下不盡人意。但是,無論如何,這項新興的技術終於萌芽了,他毅然地破土而出,悄悄地登上了學術的殿堂,並且迅速地發展和壯大起來。
那麼,機器翻譯這項技術又是如何從一個從牙牙學語的孩童成長為一個對社會有用的優秀青年的?您接著往下看
小「艾姆涕」成長記
——從基於規則,到基於統計模型,再到基於神經網絡
機器翻譯技術的迅速發展始於70 年代,我們可以把它的發展看成是一個孩子的成長故事,就暫時給他起名叫做「艾姆涕」吧(源於machine translation 縮寫MT)。
最一開始的時候,艾姆涕有些笨拙,是個只會翻字典找對應的孩子。可以想像這個孩子翻譯出的內容一定是粗糙的:用詞不精準,句法不連貫,內容表達不清晰。
隨著艾姆涕漸漸長大,他發現了詞與詞之間的規律,能夠將詞語組合成詞組和短語進行翻譯,翻譯的句子有很大進步。但很快,這種方法遇到了瓶頸。規則多到難以記住,而且這些規律很難全面覆蓋不斷演化的語言。這種方法準確率雖然有進步,但是依然達不到可用的預期。
後來,他學會了數學和統計,於是他開始一點點構建統計模型,希望以此提高翻譯的準確度。他最先嘗試逐詞翻譯,可是翻譯出的內容經常驢唇不對馬嘴,讓人啼笑皆非。於是,他開始以短語為單位重新建模,這一次的效果好多了。
然而,隨著年齡的增長,世界對他的要求也越來越高,給他的句子也越來越長。為了確保句子的連貫性,艾姆涕開始逐漸嘗試以句子做單位,並能翻譯出句中各短語之間的邏輯關係。聽人說,他這方法這就像人類的神經網絡一樣,非常的厲害。
儘管如此,還是有人會問:「艾姆涕啊,你不熟悉的、從來沒學過的語言,你能不能翻呢?」 艾姆涕先是愣了一下,然後從容且迅速地給出了答案:「能」。艾姆涕說,他掌握的是學習的方法,能夠快速閱讀新知識,學習新的翻譯技能,並且在習得的語言中,已經積累了很多翻譯技巧,能夠運用到新語言翻譯中去。
隨著,技術理論不斷革新、國內外眾多相關學術專家持續實踐,艾姆涕已不再僅僅局限於科學研究,更是趨於大眾化、平民化、市場化。如今的艾姆涕已成長為一位才華出眾的青年,成為大家尋求翻譯幫助的第一對象。
機器翻譯思想在1949年7月15日被提出,它的誕生給人類帶來打破語言高牆的希望。小牛翻譯就把每年的7月15日定為機器翻譯誕生紀念日(簡稱「機誕日」),7月15日-8月15日定為」機誕節」,用於紀念這項偉大技術的誕生。
「本文為企業宣傳商業資訊,僅供用戶參考,如用戶將之作為消費行為參考,鳳凰網敬告用戶需審慎決定」