機器翻譯三大核心技術原理 | AI知識科普

2020-12-25 AI大學

機器翻譯技術發展了80多年,巴別塔的傳說已經成為過去,上天是不可能上天的了,但是讓你優雅地和全世界討論世界盃,不再手舞足蹈、雞同鴨講,這一點機器翻譯還是可以做到的!

01機器翻譯和巴別塔的傳說

《聖經》中記載了這樣一個故事:

人類曾經聯合起來興建能通往天堂的高塔——巴別塔,為了阻止人類的計劃,上帝讓人類說不同的語言,使人類相互之間不能溝通,計劃因此失敗,人類自此各散東西。

實現不同語種之間的無障礙溝通,一直都是人類終極夢想之一。

在認識到不眠不休窮盡人類一生的力量,也只能掌握幾十種語言時,很多科學家開始思考,如何用機器來幫助人們去解決溝通問題,於是機器翻譯應運而生。

機器翻譯其實是利用計算機把一種自然語言翻譯成另一種自然語言的過程,基本流程大概分為三塊:預處理、核心翻譯、後處理。

預處理是對語言文字進行規整,把過長的句子通過標點符號分成幾個短句子,過濾一些語氣詞和與意思無關的文字,將一些數字和表達不規範的地方,歸整成符合規範的句子。

核心翻譯模塊是將輸入的字符單元、序列翻譯成目標語言序列的過程,這是機器翻譯中最關鍵最核心的地方。

後處理模塊是將翻譯結果進行大小寫的轉化、建模單元進行拼接,特殊符號進行處理,使得翻譯結果更加符合人們的閱讀習慣。

02曲折中前行的機器翻譯

機器翻譯的故事始於1933年,從最開始的只是科學家腦海中一個大膽設想,到現在大規模的開始應用,機器翻譯技術的發展道路大概有6個階段。

起源階段:

機器翻譯起源於1933年,由法國工程師G.B.阿爾楚尼提出機器翻譯設想,並獲得一項翻譯機專利;

萌芽時期

1954年,美國喬治敦大學在IBM公司協同下用IBM-701計算機首次完成了英俄機器翻譯試驗,拉開了機器翻譯研究的序幕;

沉寂階段:

美國科學院成立了語言自動處理諮詢委員會(ALPAC)於1966年公布了一份名為《語言與機器》的報告,該研究否認機器翻譯可行性,機器翻譯研究進入蕭條期;

復甦階段:

1976年,加拿大蒙特婁大學與加拿大聯邦政府翻譯局聯合開發的TAUM-METEO系統,標誌著機器翻譯的全面復甦;

發展階段:

1993年,IBM的Brown等提出基於詞對齊的統計翻譯模型,基於語料庫的方法開始盛行;

2003年,愛丁堡大學的Koehn提出短語翻譯模型,使機器翻譯效果顯著提升,推動了工業應用;

2005年,David Chang進一步提出了層次短語模型,同時基於語法樹的翻譯模型方面研究也取得了長足的進步;

繁榮階段:

2013年和14年,牛津大學、谷歌、蒙特婁大學研究人員提出端到端的神經機器翻譯,開創了深度學習翻譯新時代;

2015年,蒙特婁大學引入Attention機制,神經機器翻譯達到實用階段;

2016年,谷歌GNMT發布,訊飛上線NMT系統,神經翻譯開始大規模應用。

03機器翻譯的技術原理

在講機器翻譯的技術原理之前,我們先來看一張機器翻譯技術發展歷史圖:

20世紀80年代基於規則的機器翻譯開始走向應用,這是第一代機器翻譯技術。隨著機器翻譯的應用領域越來越複雜,基於規則的機器翻譯的局限性開始顯現,應用場景越多,需要的規則也越來越多,規則之間的衝突也逐漸出現。

於是很多科研學家開始思考,是否能讓機器自動從資料庫裡學習相應的規則,1993年IBM提出基於詞的統計翻譯模型標誌著第二代機器翻譯技術的興起。

2014年穀歌和蒙特婁大學提出的第三代機器翻譯技術,也就是基於端到端的神經機器翻譯,標誌著第三代機器翻譯技術的到來。

看完了機器翻譯技術的迭代發展,我們來了解下三代機器翻譯的核心技術:規則機器翻譯、統計機器翻譯、神經機器翻譯。

規則機器翻譯

基於規則的機器翻譯大概有三種技術路線,第一種是直接翻譯的方法,對源語言做完分詞之後,將源語言的每個詞翻譯成目標語言的相關詞語,然後拼接起來得出翻譯結果。

由於源語言和目標語言並不在同一體系下,句法順序有很大程度上的出入,直接拼接起來的翻譯結果,效果往往並不理想。

於是科研人員提出了第二個規則機器翻譯的方法,引用語言學的相關知識,對源語言的句子進行句法的分析,由於應用了相關句法語言學的知識,因此構建出來的目標譯文是比較準確的。

但這裡依然存在著另外一個問題,只有當語言的規則性比較強,機器能夠做法分析的時候,這套方法才比較有效。

因此在此基礎之上,還有科研人員提出,能否藉助於人的大腦翻譯來實現基於規則的機器翻譯?

這裡面涉及到中間語言,首先將源語言用中間語言進行描述,然後藉助於中間語言翻譯成我們的目標語言。

但由於語言的複雜性,其實很難藉助於一個中間語言來實現源語言和目標語言的精確描述。

講完了基於規則的機器翻譯的三種技術路線,我們用一張圖來總結下它的優缺點

統計機器翻譯

機器翻譯的第二代技術路線,是基於統計的機器翻譯,其核心在於設計概率模型對翻譯過程建模。

比如我們用x來表示原句子,用y來表示目標語言的句子,任務就是找到一個翻譯模型

θ 。

最早應用於統計翻譯的模型是信源信道模型,在這個模型下假設我們看到的源語言文本 x是由一段目標語言文本 y 經過某種奇怪的編碼得到的,那麼翻譯的目標就是要將 y 還原成 x,這也就是一個解碼的過程。

所以我們的翻譯目標函數可以設計成最大化Pr(│),通過貝葉斯公式,我們可以把Pr(│)分成兩項,Pr() 的語言模型,Pr(|)的翻譯模型

如果將這個目標函數兩邊同取log,我們就可以得到對數線性模型,這也是我們在工程中實際採用的模型。

對數線性模型不僅包括了翻譯模型、語言模型,還包括了調序模型,扭曲模型和詞數懲罰模型,通過這些模型共同約束來實現源語言到目標語言的翻譯。

講完了統計機器翻譯的相關知識,我們來看下基於短語的統計翻譯模型的三個基本步驟:

1、源短語切分:把源語言句子切分成若干短語2、源短語翻譯:翻譯每一個源短語3、目標短語調序:按某順序把目標短語組合成句子

最後,我們依舊用一張圖來總結下基於統計機器翻譯的優缺點

神經機器翻譯

講完了基於規則的機器翻譯和基於統計的機器翻譯,接下來我們來看下基於端到端的神經機器翻譯

神經機器翻譯基本的建模框架是端到端序列生成模型,是將輸入序列變換到輸出序列的一種框架和方法。

其核心部分有兩點,一是如何表徵輸入序列(編碼),二是如何獲得輸出序列(解碼)

對於機器翻譯而言不僅包括了編碼和解碼兩個部分,還引入了額外的機制——注意力機制,來幫助我們進行調序。

下面我們用一張示意圖來看一下,基於RNN的神經機器翻譯的流程:

首先我們通過分詞得到輸入源語言詞序列,接下來每個詞都用一個詞向量進行表示,得到相應的詞向量序列,然後用前向的RNN神經網絡得到它的正向編碼表示。

再用一個反向的RNN,得到它的反向編碼表示,最後將正向和反向的編碼表示進行拼接,然後用注意力機制來預測哪個時刻需要翻譯哪個詞,通過不斷地預測和翻譯,就可以得到目標語言的譯文。

04機器翻譯的基本應用

機器翻譯的基本應用可分為三大場景:信息獲取為目的場景、信息發布為目的的場景、信息交流為目的場景

以信息獲取為目的的應用場景,可能大家都比較熟悉,比如說翻譯或是海外購物,遇到一些生僻的詞就可以藉助機器翻譯技術,來了解它的真正意思。

在信息發布為目的的場景中,典型的應用是輔助筆譯

大家應該都還記得本科畢業論文需要用英文寫個摘要。不少同學都是利用谷歌的翻譯,將中文摘要翻譯成英文摘要,然後再做一些簡單的調序,得出最終的英文摘要,其實這就是一個簡單的輔助筆譯的過程。

第三大場景就是以信息交流為目的場景,主要解決人與人之間的語言溝通問題。

相關焦點

  • 神經網絡機器翻譯技術及應用(下)
    何中軍,百度機器翻譯技術負責人。本文根據作者2018年12月在全球架構師峰會上的特邀報告整理而成。神經網絡機器翻譯技術及應用(上)篇,我們為大家介紹了神經網絡機器翻譯的基本原理和挑戰,(下)篇繼續為大家講述機器翻譯的應用與未來。前面我們講了機器翻譯的原理以及神經網絡翻譯的發展、以及面臨的挑戰,我們現在看一看,機器翻譯現在有哪些應用?
  • 百度發布AI同傳,有哪些核心技術?
    PZdednc百度AI同傳核心技術AI同傳的核心技術是語音技術和機器翻譯技術,機器同傳利用語音識別技術自動識別演講者的講話內容,將語音轉化為文字,然後調用機器翻譯引擎,將文字翻譯為目標語言,顯示在大屏幕或者通過語音合成播放出來。
  • AI同傳效果媲美人類,百度翻譯出品全球首個上下文感知機器同傳模型
    百度機器翻譯團隊創新性地提出了全球首個感知上下文的機器同傳模型,並基於此發布了最新的語音到語音的機器同傳系統:DuTongChuan(度同傳)。  論文中還介紹,該系統已成功應用於百度2019開發者大會,將演講內容實時地翻譯給現場觀眾收聽。現場反饋,延時大多不到3秒。    與傳統的字幕投屏同傳相比,算得上是真正的沉浸式體驗,如同人工同傳一般。  百度方面介紹,度同傳系統,能夠實現語音到語音的機器同傳,其中核心技術所在,是全球首個上下文感知機器同傳模型。
  • 「實時翻譯耳機」橫空出世,深度剖析三大核心技術|獨家
    雖然說在市場層面還存在疑問,實時翻譯耳機在技術上確實已經取得較大的進展。那麼,這些強調利用 AI 技術的實時翻譯耳機背後究竟是如何運作的呢?「三大核心:語音識別+機器翻譯+語音合成,」臺灣的中研院資訊科技創新研究中心副研究員曹昱清楚點出關鍵。
  • 百度機器翻譯獲獎 與166項技術共獲進步獎二等獎
    1月8日,國家科技獎勵大會在北京人民大會堂隆重舉行,百度機器翻譯獲獎。今年,國家科學技術進步獎共評選出187項。百度機器翻譯與其他166項技術共獲進步獎二等獎。1947年,機器翻譯步入歷史舞臺,但多年來機器翻譯卻一直處在象牙塔中。百度與多家機構共同研發,最終突破了機器翻譯領域內的四大技術難題。
  • 百度大腦開放日召開機器翻譯專場 百度AI同傳翻譯性能可媲美人類
    機器翻譯作為人工智慧關鍵技術之一,正日益成為企業智能化升級的重要應用場景。12月1日,百度大腦開放日舉辦了以「機器翻譯 溝通全世界」為主題的專場活動。而基於神經網絡機器翻譯NMT( Neural Machine Translation )技術已成為主流,伴隨著翻譯規模化的需求,機器翻譯在保障流暢性和準確性的同時也將越來越實時化,並為大中小企業及個人提供不同的部署服務。何中軍在會上詳解了機器翻譯技術的發展歷程,並通過一系列實際應用場景案例,詳解了百度翻譯全面的產品布局和服務方式。
  • WMT國際機器翻譯大賽結果流出,微信AI拔得頭籌
    作為全球學術界最具權威的機器翻譯比賽,近日,WMT2020國際機器翻譯大賽的榜單停止提交結果並發布排名,其中騰訊微信AI團隊在「中文-英文」翻譯任務上奪得冠軍。 自2017年以來,基於業界最前沿的神經網絡機器翻譯技術,微信AI團隊進行了持續迭代,引入了最前沿的機器翻譯算法,不斷創新算法和架構,提升翻譯能力。
  • 百度機器翻譯獲國家科技進步獎
    1月8日,2015年度國家科學技術獎勵大會在人民大會堂舉行,百度機器翻譯項目獲頒國家科學技術進步獎二等獎,這是該獎項首次出現網際網路巨頭(BAT)的身影。   機器翻譯一直被公認為人工智慧領域最難的課題之一,百度機器翻譯的突破性成果,使我國掌握了網際網路機器翻譯的核心技術,佔領了技術制高點。
  • 2018 AI Challenger機器翻譯大賽 金山團隊一舉包攬冠亞軍
    1954年,IBM啟動了「Georgetown-IBM」實驗,用一臺大型機將60個俄語句子翻譯成英文。這項實驗被學術界視為歷史上首次機器翻譯。其後的幾十年裡,許多科學家不斷嘗試各種技術思路,如基於樣例、基於規則、基於統計等等,機器翻譯的研究幾經起落,直到基於神經網絡、深度學習的機器翻譯技術出現,才讓「全世界無障礙溝通」的夢想成為可能。
  • 越來越聰明的機器「翻譯家」
    後來到了1954年,IBM公司協同美國喬治敦大學,通過IBM-701計算機首次完成英俄機器翻譯試驗,拉開了機器翻譯的序幕。我國也在1956年就開始將機器翻譯研究列入全國科學工作發展規劃。不過後續的發展並不順利,機器翻譯遭遇了許多瓶頸,翻譯質量總是很不理想,一直到近期才有了重大突破。
  • 王小川傅盛產品撞臉,AI四教父落地戰打響
    吳恩達現場給CEO們上課,開出三大藥方【附PPT】)既然是幫助企業發展AI業務,選擇合作夥伴自然是頭等大事,在Landing.ai被公布前的7月份,該公司已和製造業廠商富士康建立了戰略合作關係,幫富士康用AI作產品出貨的質量檢測(消費產品、零部件、晶片)。
  • 解碼:科普不能僅僅「普」知識 科普翻譯魚龍混雜
    ­  準確與通俗難兼顧、編譯質量難保證、公眾認知存誤區­  科普,不能僅僅「普」知識(解碼)­  最終目標是訓練公眾的科學思維­  全國科普日活動正在各地舉行,科普也成了這幾天的熱門話題。儘管進步顯著,但我國科普事業仍有不少難題待解。具體到科普作品的創作、傳播層面,則常被詬病質量不高、訛誤頻出等問題。
  • 機器翻譯先驅 Jaime Carbonell 去世,創立卡內基梅隆大學語言技術...
    整理 | 伍杏玲2月28日,機器翻譯先驅 Jaime Guillermo Carbonell 因病去世,享年67歲。1985年,Carbonell 作為一名卡內基·梅隆大學年輕的計算機科學教授,率領團隊成立機器翻譯中心,在接下來的30多年裡,Carbonell 和團隊創建具有開創性的翻譯系統,擴大人工智慧的應用,為自然語言處理工具和技術的發展做出了開創性的貢獻。生平Carbonell 擁有麻省理工學院的物理和數學學士學位,耶魯大學的博士學位。
  • Masakhane開源項目希望藉助機器翻譯和AI改變非洲
    今年年初,這種擔憂導致建立了Masakhane開源項目,非洲技術人員正在努力使用神經機器翻譯來翻譯非洲語言。Kathleen Siminyu是肯亞盧希亞部落的成員。儘管學校和全國各地都說英語,但部落說不同的語言,這在Siminyu和她的鄰居之間造成了語言障礙。
  • 百度機器翻譯獲2015年度國家科技進步二等獎(圖)
    國家科學技術獎勵授予在各個領域實現重大技術突破、做出創造性貢獻的中國公民和組織,此前獲獎的「載人航天」、「探月工程」、「青藏鐵路」等成果舉世矚目、彪炳史冊。百度機器翻譯項目在大會上被授予國家科技進步獎,成為BAT中首個獲此獎項的企業。機器翻譯是人工智慧領域最難的課題之一。1947年,機器翻譯步入歷史舞臺,50年代機器翻譯研究持續升溫,美國、前蘇聯等國家均出現了研究熱潮。
  • 科專笑飛人工智慧機器翻譯日語新品發布
    日漢機器翻譯新品發布會的主題是「聚焦專利翻譯,助力科研創新,縮短審查周期」,為專利行業內的審查員、專利代理人、翻譯員等各領域的科研技術人員提供語言翻譯的支持,縮短審查周期、提高工作效率、改善工作體驗。
  • 百度機器翻譯團隊獲得WMT2019中英翻譯冠軍
    8月1日,WMT2019國際機器翻譯大賽研討會在義大利佛羅倫斯召開。本屆大賽,百度機器翻譯團隊在中文-英文翻譯任務上獲得冠軍。對於雙語數據的源端(中文),採用知識蒸餾的方法,以R2L翻譯模型(從右到左的翻譯順序)和異構模型(不同結構的模型)作為「Teacher」, 生成目標端(英文)譯文,再將「真實」的中文和「生成」的英文作為增強數據,指導模型學習更多的知識。
  • 訊飛翻譯機再現2019博鰲會,知行翻譯:人工翻譯應該何去何從?
    首先,知行翻譯簡單為大家概述一下AI翻譯的工作原理,目前比較為人熟知的原理大致有三種,分別是規則機器翻譯,統計機器翻譯和神經機器翻譯,其中規則機器翻譯有兩種技術路線,第一種是直接對源語言做完分詞之後,將源語言的每個詞翻譯成目標語言,然後在拼接出翻譯結果,這種技術會使句法順序有很大出入,因此效果並不理想。
  • 講座預告:翻譯技術科普宣講
    講座預告:翻譯技術科普宣講 講座題目:翻譯技術科普宣講時間:2018.5.11(周五) 下午14:00地點:外國語學院資料室(文經樓C220)
  • 搜狗機器翻譯團隊獲得 WMT 2017 中英機器翻譯冠軍
    搜狗語音交互技術中心代表搜狗參加了這次含金量極高的比賽,該中心研發的搜狗神經網絡機器翻譯(Sogou Neural Machine Translation)系統在「中文-英文」機器翻譯任務中獲得了冠軍。這個系統採用了哪些新方法、新結構,又為我們提供了哪些新思路?讓我們結合論文聊一聊 Sogou NMT。WMT 是機器翻譯領域的國際頂級評測比賽之一。