自然語言處理暢談之機器翻譯技術發展歷程

2020-12-17 我是天邊飄過一朵雲

目前各個國家和民族的不同種類信息不斷融會貫通,不同語言之間的翻譯已經成為當今社會基本需求之一。小到出國旅遊翻譯或者資料翻譯,大到基於網際網路的跨境電商、跨境旅遊、外貿、O2O、海外租車、金融服務等國際化業務實施,都面臨著一個無法避免的問題:多國語言的翻譯。針對網絡上海量和動態變化的多語言信息,如何進行低成本和快速實時翻譯,從而實現有效交流?基於人工翻譯來解決這個難題是不可想像的,因為翻譯人員的人力成本越來越高,所以唯一的解決方法就是充分利用機器翻譯技術,提供智能自動翻譯服務。

機器翻譯技術可以將一種語言文字自動地轉換為另外一種語言文字,應該是解決翻譯問題的終極技術手段之一。機器翻譯研究最早始於1949年,美國洛克菲勒基金會自然科學部門的負責人沃倫·韋弗(Warren Weaver)發表了一份以《翻譯》為題的備忘錄,由此翻開了歷史性一頁。據統計,世界上大約有6000多種語言,但很多語言已經接近絕跡。利用計算機軟體實現不同語言之間的智能翻譯,成為了人工智慧領域的一個夢想。也有人稱機器翻譯是自然語言處理領域的皇冠明珠,只有解決了語言分析的所有難題,才能真正攻破機器翻譯這座堡壘。

近十幾年來,機器翻譯研究及產業化在各國政府和產業界的大力支持下,取得了快速進展我國政府把包括機器翻譯技術在內的自然語言理解研究列入國家中長期科技發展規劃綱要中。美國政府在2009年把自動翻譯列為最具影響力的未來十大技術之一。美國國防部所主導的「2049」計劃和BOLT項目都將機器翻譯作為現代信息技術中的制高點進行重點攻堅。產業界如谷歌和百度等網際網路巨頭也將其作為在線服務的重要入口。據報導,谷歌翻譯每天為全球兩億多個用戶提供服務,每天翻譯次數達10億次,每天翻譯處理的文字數量相當於100萬冊圖書,超過了全世界的專業翻譯人員一年能夠翻譯的文字規模。機器翻譯具有重要的理論研究和產業應用價值。

早期的研究人員將機器翻譯技術看作加密、解密過程,利用雙語詞典作為密碼本,實現基於雙語詞典的簡單轉換翻譯,由於低估了自然語言本身的詞彙翻譯和結構轉換歧義性等困難,應用十分有限。隨著計算機軟硬體發展和計算語言學理論方法的日趨成熟,機器翻譯研究不斷取得突破性進展。從基於規則的翻譯技術,到基於實例、基於模板、基於翻譯記憶等翻譯技術,最終發展到目前主流的統計機器翻譯技術。

統計機器翻譯技術的最大優點在於,只需要提供一定規模(如百萬級乃至千萬級)的雙語句對庫,翻譯系統自動學習3-5天就可完成系統構建,無須任何人工幹預。另外,從翻譯性能來看,基於大規模雙語數據自動訓練學習的統計機器翻譯系統性能表現更優。統計機器翻譯技術本質上是數據驅動的方法,利用機器學習方法從大規模雙語句對庫中自動學習訓練翻譯模型和語言模型,基本上不需要人工幹預;如果用於訓練學習的計算機硬體運算資源越豐富,所需要的訓練學習時間就越少。

自20世紀80年代末提出IBM模型以來,統計機器翻譯技術逐步從基於單詞的方法、基於短語的方法發展到基於句法的方法。與基於詞/短語的翻譯方法不同,句法翻譯模型可以利用句法分析結果來指導翻譯過程。從理論上說,由於句法樹可以更加全面深入地表示句子的結構信息,句法翻譯模型可以提供更多的語言學依據來輔助結構翻譯和調序。然而在大多數實際翻譯任務中,這種理論優勢並未得到充分體現,譯文質量沒有顯著提高,反倒是句法翻譯模型複雜度和計算量均呈指數級增長。相比之下,跨語言語義的差異性要遠小於句法的差異性,即語義比句法具有更強的跨語言等價性。目前統計機器翻譯研究缺乏對語義等深層次語言學信息的有效使用,基於短語和基於句法的方法本質上都沒有利用語義知識來進行翻譯建模。很早以前就有研究者嘗試在統計機器翻譯中引入語義信息,但是由於語義框架的不完善及語義分析系統的性能瓶頸,基於語義的機器翻譯面臨很大挑戰,並成為目前的研究熱點。

一個統計機器翻譯系統構建框架包括雙語句對自動詞對齊、翻譯規則抽取、翻譯特徵打分、語言模型和調序模型訓練、翻譯特徵權重調優、翻譯解碼和翻譯後處理等幾部分。機器翻譯系統的開發和調優實際上是非常複雜的,從目前國際機器翻譯技術評測研究報告上看,通常採用增加訓練數據、訓練更強大的語言模型、擴大解碼搜索空間和使用更加複雜的模型及參數等四種方法,來改善統計機器翻譯系統性能。很多與之有關的研究成果對機器翻譯特別是對統計機器近些年的發展起著至關重要的推動作用。

相關焦點

  • 翻譯機器人可"領會"使用意圖 河南首個自然語言處理實驗室發布新成果
    驚人的口才和語言自主學習能力讓全世界所折服,儼然成為人工智慧領域中的網紅。當然,伴隨著Sophia的走紅,自然語言處理這一人工智慧領域中的分支課題也逐漸走進人們的視野,成為近年來人工智慧領域中最火熱的研究課題。自然語言處理簡稱「NLP」, 它是以實現人與計算機之間用自然語言進行有效通信的各種理論和方法為主要研究對象。
  • 機器翻譯技術至今經歷了哪些階段?又有著怎樣的工作原理?
    機器翻譯發展歷程開創階段·1933年,法國的一位工程師提出了機器翻譯的設想,還獲得一項翻譯機專利;·1954年,美國喬治敦大學首次完成了機器翻譯試驗,正式拉開了機器翻譯研究的序幕。受挫階段·1966年,美國科學院公布了一份名為《語言與機器》的報告,該研究否認機器翻譯可行性,機器翻譯研究隨之進入蕭條期。
  • 自然語言處理的應用前景
    將短語、句子,有時甚至整本書的內容都輸入機器學習引擎,並根據語法規則和人們的現實語言習慣(或兩者兼而有之)進行處理。然後,計算機使用這些數據來查找模式並推斷出下一步的工作。以翻譯軟體為例:在法語中,「我要去公園」是「Je vais au parc」,因此機器學習預測「我要去商店」也將以「Je vais au」開頭。
  • 科普丨什麼是NLP(自然語言處理)
    自然語言處理(NLP)是一種專業分析人類語言的人工智慧。機器翻譯你上一次去國外旅行並且使用手機翻譯外語是什麼時候?可能你用的是谷歌翻譯?這種操作是NLP機器翻譯的一個日常應用。機器翻譯是通過使用NLP把一種語言翻譯成另一種語言。從歷史上看,簡單的基於規則的方法已經這樣做了,但是時至今日,NLP技術是對已經存在多年基於規則的方法的一大改進。
  • 機器翻譯七十年:百度領跑神經網絡翻譯時代
    中新網12月22日電 機器翻譯距今已有70年的發展歷史。自上世紀40年代起,基於規則、實例以及統計的機器翻譯方法漸次登場,各領風騷。近兩年,神經網絡機器翻譯(Neural Machine Translation, NMT)技術異軍突起,取得了翻譯質量的大幅躍升。
  • 機器翻譯能解放生產力嗎?
    我們都知道只有技術革命才能解放生產力。在翻譯領域裡,基於自然語言「神經網絡模型」的機器翻譯的出現,終於讓大家看到了顛覆性的技術。從中,大家看到「神經網絡」的革命性和未來性,內心中對這項技術有了些憧憬和疑問,也就有了如此疑問。我們不講總的機器翻譯歷史和時間軸事件,僅從應用角度到來看,軟體翻譯可以有三個階段。
  • 「青海省民族語言文字翻譯應急服務推廣及應用論壇」召開
    為了進一步提升民族語文翻譯應急服務能力,省民族語文翻譯工作者協會於12月9日至11日召開了「青海省民語翻譯應急服務推廣及應用論壇」,全省民語、新聞、出版、教育、科研、期刊、網際網路等40家單位的60位嘉賓和代表參加了此次論壇。
  • 利用最新AI技術,谷歌提高機器翻譯質量
    自Google Translate首次公開亮相以來的這13年間,神經機器翻譯,基於重寫的範式以及設備處理等技術已經讓該平臺翻譯的準確性出現了可量化的飛躍。但是直到最近,哪怕是Translate最新的算法也落後於人類的表現。
  • 多家翻譯軟體大型翻車現場?機器翻譯到底有哪些不確定性
    作者 | 蔣寶尚編輯 | 叢末自然語言處理果真是人工智慧皇冠上的明珠,在走向摘取顆果實的路上,人類恐怕還只是走了一半。具體表現是,在機器翻譯的世界裡,一直無法賦予機器足夠的「靈性」。例如,林則徐虎門銷煙被某度軟體翻譯成了「Lin Zexu sells cigarettes in Humen」 。
  • 機器翻譯:谷歌翻譯是如何對幾乎所有語言進行翻譯的?
    第一部分簡單介紹神經網絡機器翻譯(NMT)和編碼器-解碼器(Encoder-Decoder)結構。第二部分提供了使用Python創建語言翻譯程序的詳細步驟。機器翻譯是計算語言學的一個分支,主要研究如何將一種語言的源文本自動轉換為另一種語言的文本。在機器翻譯領域,輸入已經由某種語言的一系列符號組成,而計算機必須將其轉換為另一種語言的一系列符號。神經網絡機器翻譯是針對機器翻譯領域所提出的主張。
  • 機器翻譯應用價值凸顯 百度翻譯豐富產品矩陣助力企業智能化升級
    IDC中國副總裁兼首席分析師武連峰、百度AI技術生態部總經理劉倩、百度人工智慧技術委員會主席何中軍進行主題演講,同時與在場的40多位來自金融、製造、能源等行業企業信息化負責人聚焦機器翻譯的價值、企業應用需求、未來發展趨勢等話題展開深入的互動討論,分享最佳實踐經驗,助力企業更好的提升機器翻譯大規模產業化應用,推動企業智能化升級。
  • 2020國際機器翻譯大賽:火山翻譯力奪五項冠軍
    在11月下旬結束的自然語言處理頂級學術會議EMNLP2020上,國際機器翻譯大賽(WMT20)公布了賽事最終結果,來自字節跳動火山引擎旗下的火山翻譯(Volctrans)在39支參賽隊伍中殺出重圍,以顯著優勢在「中文-英語」語向翻譯項目上拿下了冠軍。
  • 李沐、劉群、劉洋、朱靖波、張民:當前機器翻譯的瓶頸
    是否存在第四代機器翻譯?自然語言處理的可解釋性研究之爭。對於第一個話題,專家們就應用和技術層面進行了討論。朱靖波教授認為機器翻譯的瓶頸主要在應用層面,李沐博士強調了瓶頸的定義問題,劉群教授指出數據稀疏是個瓶頸,劉洋教授則補充道知識獲取也是一個瓶頸。
  • 百度何中軍:機器翻譯——從設想到大規模應用
    報告內容:70多年前,第一臺計算機誕生後不久,科學家就提出了利用計算機進行翻譯的設想。此後,隨著技術不斷更迭,算力大幅提升,以及網際網路帶來的數據井噴式增長,機器翻譯質量持續提高。尤其近年來神經網絡機器翻譯的出現及快速發展,使得機器翻譯水平大幅躍升,在人們的生產生活中得到了廣泛應用。
  • 百度領銜舉辦首次機器同傳講習班 詳解機器同聲傳譯技術演進
    近日,自然語言處理頂級學術會議之一EMNLP 2020在線上舉行。EMNLP由國際計算語言學學會(ACL)旗下SIGDAT組織,會議涵蓋語義理解、文本理解、信息提取、信息檢索和機器翻譯等主題。(EMNLP2020同聲傳譯學術報告會)同聲傳譯一直都被學界和工業界廣泛認為是自然語言處理最難的問題之一。
  • Facebook 自然語言處理新突破:新模型能力趕超人類 & 超難 NLP 新...
    Facebook 通過使用半監督和自監督學習技術,利用未標記的數據來提高純監督系統的性能。在第四屆機器翻譯大會(WMT19)比賽中,Facebook 採用了一種新型的半監督訓練方法,並在多種語言翻譯任務中獲得了第一名。Facebook 還引入了一種新的自我監督的預訓練方法——RoBERTa。它在一些語言理解任務上超過了所有現有的 NLU 系統。
  • 機器翻譯什麼時候能取代人工翻譯?知行翻譯公司認為不可能
    機器翻譯是通過計算機將一種自然語言(源語言)轉換成另一種自然語言(目標語言)的過程。它是計算語言學的一個分支,是人工智慧的終極目標之一,具有重要的科學研究價值。機器翻譯具有很大的實用價值。隨著經濟全球化和網際網路的迅速發展,機器翻譯技術在促進政治、經濟和文化交流方面發揮著越來越重要的作用。
  • Gartner最新報告出爐 百度翻譯創新技術產品為企業智能化發展賦能
    (原標題:Gartner最新報告出爐 百度翻譯創新技術產品為企業智能化發展賦能)
  • 中到英新聞翻譯媲美人類,微軟機器翻譯新突破
    微軟語音、自然語言與機器翻譯的技術負責人黃學東稱之為自然語言處理最具挑戰性任務中的重要裡程碑。他對機器之心說:「我們的新系統相比之前的翻譯系統有非常大的提升,因此它確實是一個重大突破,是一個歷史性的裡程碑。」「機器翻譯達到人類水平是我們所有人的夢想,」黃說道,「我們只是沒想到這麼快就實現了。」
  • 百度機器翻譯團隊獲得WMT2019中英翻譯冠軍
    8月1日,WMT2019國際機器翻譯大賽研討會在義大利佛羅倫斯召開。本屆大賽,百度機器翻譯團隊在中文-英文翻譯任務上獲得冠軍。今年中英方向參賽隊伍有來自微軟、字節跳動、金山、愛丁堡大學、東北大學、日本情報通信研究院等國內外知名機器翻譯團隊。本屆大賽,百度翻譯團隊憑藉在數據處理、模型架構、數據增強、模型集成等方面的創新性突破,最終力壓群雄,取得第一。