機器翻譯三大核心技術原理 | AI知識科普

2021-01-15 AI大學

機器翻譯技術發展了80多年,巴別塔的傳說已經成為過去,上天是不可能上天的了,但是讓你優雅地和全世界討論世界盃,不再手舞足蹈、雞同鴨講,這一點機器翻譯還是可以做到的!

01機器翻譯和巴別塔的傳說

《聖經》中記載了這樣一個故事:

人類曾經聯合起來興建能通往天堂的高塔——巴別塔,為了阻止人類的計劃,上帝讓人類說不同的語言,使人類相互之間不能溝通,計劃因此失敗,人類自此各散東西。

實現不同語種之間的無障礙溝通,一直都是人類終極夢想之一。

在認識到不眠不休窮盡人類一生的力量,也只能掌握幾十種語言時,很多科學家開始思考,如何用機器來幫助人們去解決溝通問題,於是機器翻譯應運而生。

機器翻譯其實是利用計算機把一種自然語言翻譯成另一種自然語言的過程,基本流程大概分為三塊:預處理、核心翻譯、後處理。

預處理是對語言文字進行規整,把過長的句子通過標點符號分成幾個短句子,過濾一些語氣詞和與意思無關的文字,將一些數字和表達不規範的地方,歸整成符合規範的句子。

核心翻譯模塊是將輸入的字符單元、序列翻譯成目標語言序列的過程,這是機器翻譯中最關鍵最核心的地方。

後處理模塊是將翻譯結果進行大小寫的轉化、建模單元進行拼接,特殊符號進行處理,使得翻譯結果更加符合人們的閱讀習慣。

02曲折中前行的機器翻譯

機器翻譯的故事始於1933年,從最開始的只是科學家腦海中一個大膽設想,到現在大規模的開始應用,機器翻譯技術的發展道路大概有6個階段。

起源階段:

機器翻譯起源於1933年,由法國工程師G.B.阿爾楚尼提出機器翻譯設想,並獲得一項翻譯機專利;

萌芽時期:

1954年,美國喬治敦大學在IBM公司協同下用IBM-701計算機首次完成了英俄機器翻譯試驗,拉開了機器翻譯研究的序幕;

沉寂階段:

美國科學院成立了語言自動處理諮詢委員會(ALPAC)於1966年公布了一份名為《語言與機器》的報告,該研究否認機器翻譯可行性,機器翻譯研究進入蕭條期;

復甦階段:

1976年,加拿大蒙特婁大學與加拿大聯邦政府翻譯局聯合開發的TAUM-METEO系統,標誌著機器翻譯的全面復甦;

發展階段:

1993年,IBM的Brown等提出基於詞對齊的統計翻譯模型,基於語料庫的方法開始盛行;

2003年,愛丁堡大學的Koehn提出短語翻譯模型,使機器翻譯效果顯著提升,推動了工業應用;

2005年,David Chang進一步提出了層次短語模型,同時基於語法樹的翻譯模型方面研究也取得了長足的進步;

繁榮階段:

2013年和14年,牛津大學、谷歌、蒙特婁大學研究人員提出端到端的神經機器翻譯,開創了深度學習翻譯新時代;

2015年,蒙特婁大學引入Attention機制,神經機器翻譯達到實用階段;

2016年,谷歌GNMT發布,訊飛上線NMT系統,神經翻譯開始大規模應用。

03機器翻譯的技術原理

在講機器翻譯的技術原理之前,我們先來看一張機器翻譯技術發展歷史圖:

20世紀80年代基於規則的機器翻譯開始走向應用,這是第一代機器翻譯技術。隨著機器翻譯的應用領域越來越複雜,基於規則的機器翻譯的局限性開始顯現,應用場景越多,需要的規則也越來越多,規則之間的衝突也逐漸出現。

於是很多科研學家開始思考,是否能讓機器自動從資料庫裡學習相應的規則,1993年IBM提出基於詞的統計翻譯模型標誌著第二代機器翻譯技術的興起。

2014年穀歌和蒙特婁大學提出的第三代機器翻譯技術,也就是基於端到端的神經機器翻譯,標誌著第三代機器翻譯技術的到來。

看完了機器翻譯技術的迭代發展,我們來了解下三代機器翻譯的核心技術:規則機器翻譯、統計機器翻譯、神經機器翻譯。

規則機器翻譯

基於規則的機器翻譯大概有三種技術路線,第一種是直接翻譯的方法,對源語言做完分詞之後,將源語言的每個詞翻譯成目標語言的相關詞語,然後拼接起來得出翻譯結果。

由於源語言和目標語言並不在同一體系下,句法順序有很大程度上的出入,直接拼接起來的翻譯結果,效果往往並不理想。

於是科研人員提出了第二個規則機器翻譯的方法,引用語言學的相關知識,對源語言的句子進行句法的分析,由於應用了相關句法語言學的知識,因此構建出來的目標譯文是比較準確的。

但這裡依然存在著另外一個問題,只有當語言的規則性比較強,機器能夠做法分析的時候,這套方法才比較有效。

因此在此基礎之上,還有科研人員提出,能否藉助於人的大腦翻譯來實現基於規則的機器翻譯?

這裡面涉及到中間語言,首先將源語言用中間語言進行描述,然後藉助於中間語言翻譯成我們的目標語言。

但由於語言的複雜性,其實很難藉助於一個中間語言來實現源語言和目標語言的精確描述。

講完了基於規則的機器翻譯的三種技術路線,我們用一張圖來總結下它的優缺點:

統計機器翻譯

機器翻譯的第二代技術路線,是基於統計的機器翻譯,其核心在於設計概率模型對翻譯過程建模。

比如我們用x來表示原句子,用y來表示目標語言的句子,任務就是找到一個翻譯模型

θ 。

最早應用於統計翻譯的模型是信源信道模型,在這個模型下假設我們看到的源語言文本 x是由一段目標語言文本 y 經過某種奇怪的編碼得到的,那麼翻譯的目標就是要將 y 還原成 x,這也就是一個解碼的過程。

所以我們的翻譯目標函數可以設計成最大化Pr(│),通過貝葉斯公式,我們可以把Pr(│)分成兩項,Pr() 的語言模型,Pr(|)的翻譯模型

如果將這個目標函數兩邊同取log,我們就可以得到對數線性模型,這也是我們在工程中實際採用的模型。

對數線性模型不僅包括了翻譯模型、語言模型,還包括了調序模型,扭曲模型和詞數懲罰模型,通過這些模型共同約束來實現源語言到目標語言的翻譯。

講完了統計機器翻譯的相關知識,我們來看下基於短語的統計翻譯模型的三個基本步驟:

1、源短語切分:把源語言句子切分成若干短語2、源短語翻譯:翻譯每一個源短語3、目標短語調序:按某順序把目標短語組合成句子

最後,我們依舊用一張圖來總結下基於統計機器翻譯的優缺點:

神經機器翻譯

講完了基於規則的機器翻譯和基於統計的機器翻譯,接下來我們來看下基於端到端的神經機器翻譯

神經機器翻譯基本的建模框架是端到端序列生成模型,是將輸入序列變換到輸出序列的一種框架和方法。

其核心部分有兩點,一是如何表徵輸入序列(編碼),二是如何獲得輸出序列(解碼)。

對於機器翻譯而言不僅包括了編碼和解碼兩個部分,還引入了額外的機制——注意力機制,來幫助我們進行調序。

下面我們用一張示意圖來看一下,基於RNN的神經機器翻譯的流程:

首先我們通過分詞得到輸入源語言詞序列,接下來每個詞都用一個詞向量進行表示,得到相應的詞向量序列,然後用前向的RNN神經網絡得到它的正向編碼表示。

再用一個反向的RNN,得到它的反向編碼表示,最後將正向和反向的編碼表示進行拼接,然後用注意力機制來預測哪個時刻需要翻譯哪個詞,通過不斷地預測和翻譯,就可以得到目標語言的譯文。

04機器翻譯的基本應用

機器翻譯的基本應用可分為三大場景:信息獲取為目的場景、信息發布為目的的場景、信息交流為目的場景

以信息獲取為目的的應用場景,可能大家都比較熟悉,比如說翻譯或是海外購物,遇到一些生僻的詞就可以藉助機器翻譯技術,來了解它的真正意思。

在信息發布為目的的場景中,典型的應用是輔助筆譯。

大家應該都還記得本科畢業論文需要用英文寫個摘要。不少同學都是利用谷歌的翻譯,將中文摘要翻譯成英文摘要,然後再做一些簡單的調序,得出最終的英文摘要,其實這就是一個簡單的輔助筆譯的過程。

第三大場景就是以信息交流為目的場景,主要解決人與人之間的語言溝通問題。

相關焦點

  • 「實時翻譯耳機」橫空出世,深度剖析三大核心技術|獨家
    雖然說在市場層面還存在疑問,實時翻譯耳機在技術上確實已經取得較大的進展。那麼,這些強調利用 AI 技術的實時翻譯耳機背後究竟是如何運作的呢?「三大核心:語音識別+機器翻譯+語音合成,」臺灣的中研院資訊科技創新研究中心副研究員曹昱清楚點出關鍵。
  • 百度大腦開放日召開機器翻譯專場 百度AI同傳翻譯性能可媲美人類
    機器翻譯作為人工智慧關鍵技術之一,正日益成為企業智能化升級的重要應用場景。12月1日,百度大腦開放日舉辦了以「機器翻譯 溝通全世界」為主題的專場活動。
  • LCD三大核心技術工作原理簡析
    而關於LCD顯示設備,用戶朋友們對LCD的核心技術又了解多少呢?那麼,接下來,我們就來了解下關於LCD核心技術的工作原理。>一、TN型的工作原理:TN型作為LCD顯示設備中最基本的一項顯示技術,其圖像顯示原理是將液晶材料置於兩片貼附偏光板的透明導電玻璃間,讓液晶分子按照配向膜的細溝槽方向依順序旋轉排列;在這其中,形成電場末,致使其光線順利的從偏光板射入,然後再依照分子旋轉的行進方向,從另一邊射出;但是,如果在兩片導電玻璃通電後,則會在其兩片玻璃之間造成電場,則將影響其液晶分子的排列,致使其分子棒進行扭轉
  • 微信AI首次奪冠WMT2020國際機器翻譯大賽中英方向
    作為全球學術界最具權威的機器翻譯比賽,近日,WMT2020國際機器翻譯大賽的榜單停止提交結果並發布排名,其中騰訊微信AI團隊在「中文-英文」翻譯任務上奪得冠軍。兩種結構、三種訓練方法,微信AI打造翻譯領先技術在國際上斬獲佳績與認可,離不開微信AI團隊在人工智慧領域持續不斷的深耕和產品體驗的持續打磨。自2017年以來,基於業界最前沿的神經網絡機器翻譯技術,微信AI團隊進行了持續迭代,引入了最前沿的機器翻譯算法,不斷創新算法和架構,提升翻譯能力。
  • 百度機器翻譯獲國家科技進步獎
    1月8日,2015年度國家科學技術獎勵大會在人民大會堂舉行,百度機器翻譯項目獲頒國家科學技術進步獎二等獎,這是該獎項首次出現網際網路巨頭(BAT)的身影。   機器翻譯一直被公認為人工智慧領域最難的課題之一,百度機器翻譯的突破性成果,使我國掌握了網際網路機器翻譯的核心技術,佔領了技術制高點。
  • Skype Translator實時語音翻譯技術原理
    Skype Translator是由Skype和微軟機器翻譯團隊聯合開發,整合了微軟Skype語音和聊天技術、機器翻譯技術、神經網絡語音識別打造了一款面向消費者用戶的產品。  微軟在2012年首次演示了英文和中文普通話之間的實時語音翻譯技術原型。經過多年的研究和投入,完成了普通話的語言模型,使Skype Translator的中文語音翻譯在今天變為現實。不僅如此,得益於深層神經網絡與微軟成熟的統計機器翻譯技術的結合,語音識別能力被進一步提高,翻譯結果將更加準確。
  • 阿爾法狗的工作原理及核心技術
    那麼阿爾法狗的工作原理是什麼?相關技術又有哪些呢?下面讓我們一起來看看。   阿爾法狗三大核心技術   AlphaGo結合了3大塊技術:先進的搜索算法、機器學習算法(即強化學習),以及深度神經網絡。
  • 未來的世界:機器翻譯VS人工翻譯
    蔡基剛:在特定領域的機器翻譯替代人工翻譯是技術發展的必然趨勢,而且在醫學、生物、法律、航天、海事等專業領域裡的機器翻譯取代大部分人工翻譯將是最近幾年的事情。同樣,在英語defendants是翻譯成刑事語境下的「被告人」,還是翻譯成民事語境下的「被告或原告」這一問題上,李長栓擔心「這些微小差別,更不能指望機器分辨出來」。我認為,這種擔心猶如擔心機器翻譯無法解決如打球、打賞、打牌、打臉、打針,打毛衣中「打」字的歧義,這是沒有根據的。機器翻譯完全可以將其分辨出來。 自信來自筆者對機器翻譯原理和人工智慧發展前景的認識。
  • 從京東 618 導購機器人說起,機器如何更理解人類?
    在京東JOY強大的對話能力中,基於開放域目標驅動的生成式對話服務來自於人工智慧企業「深思考人工智慧」(iDeepWise.ai)。其在多模態深度語義理解、人機對話等核心AI技術上已不斷突破創新。這些新技術的不斷迭代,也在一步步推動AI實現商業化落地。AI對話機器人背後的黑科技究竟是什麼?
  • 機器翻譯進化史:用計算機取代同聲傳譯?
    瓦倫·韋弗本人然而就像 1956 年的認為一個夏天就能突破 AI(人工智慧)技術核心的計算機專家們一樣,樂觀和熱情並不能左右現實存在的客觀阻力。自試驗成功後基於規則(Rule-based)的機器翻譯佔據了研究主導,但這種系統有著天生弱點難以迴避:以詞彙為轉換核心卻又無法選擇出最恰當結果,只好將所有選擇都輸出;語法與算法混雜在一起,使得系統不僅複雜瑣碎,設計完成後亦無法擴展。這種機器翻譯生成的譯文,質量相當低劣。
  • NMT機器翻譯技術,或將開啟第二次全球化浪潮
    近日,在百度機器翻譯技術開放日上,百度技術委員會聯席主席、自然語言處理部技術負責人吳華博士表示,基於領先的人工智慧、神經網絡以及自然語言處理技術,百度早在1年多以前就率先發布了世界上首個網際網路NMT系統,引領機器翻譯進入神經網絡翻譯時代。
  • 翻譯行業的發展方向:機器翻譯VS人工翻譯
    近年來,機器翻譯技術有了很多新的突破,在實際的語言服務實踐中,機器翻譯有了很多成功的案例。機器翻譯必將深刻影響翻譯服務行業,將給人工翻譯帶來實際的威脅。另一方面,機器翻譯以其人工翻譯難以比擬的速度,將提高人類對於海量信息的處理能力,彌補人工翻譯在速度和成本方面的不足。不管你喜不喜歡,你都無法迴避機器翻譯的發展。如何利用機器翻譯技術成了翻譯服務行業的重要課題。
  • 自然語言處理前沿論壇在京召開 學者專家共探機器之讀、寫、說、譯
    論壇圍繞語義計算、自動問答、語言生成、人機對話及機器翻譯五大議題,與學術界、工業界一線青年專家學者共同探討NLP領域的最新技術進展、產業應用及發展趨勢。同時,他強調,閱讀理解面臨一系列的挑戰,如合理構建數據集、如何提升模型推理能力、如何更好地使用外部知識等。在未來工作方面,劉康認為閱讀理解經過了數據驅動模型的階段,現在學術界開始逐步研究如何利用知識圖譜提升機器閱讀理解效果。在未來,如何更好地表示和應用知識,是非常值得研究的,也有很長的路要走。百度NLP資深研發工程師、閱讀理解與問答技術負責人劉璟介紹了百度機器閱讀理解技術。
  • 谷歌機器翻譯取得顛覆性突破 到底幾分真假?
    谷歌的論文價值谷歌在本周發布了谷歌翻譯的實現論文Google’s Neural Machine Translation System: Bridging the Gapbetween Human and Machine Translation 這篇論文有非常強的工程性價值,融合了已有機器翻譯的幾大技術 Seq2Seq + Attention + Sentence loss
  • 機器翻譯應用價值凸顯 百度翻譯豐富產品矩陣助力企業智能化升級
    機器翻譯作為人工智慧關鍵技術之一,正日益成為企業智能化升級的重要應用場景。12月1日,百度大腦開放日舉辦了以「機器翻譯 溝通全世界」為主題的專場活動。而基於神經網絡機器翻譯NMT( Neural Machine Translation )技術已成為主流,伴隨著翻譯規模化的需求,機器翻譯在保障流暢性和準確性的同時也將越來越實時化,並為大中小企業及個人提供不同的部署服務。  何中軍在會上詳解了機器翻譯技術的發展歷程,並通過一系列實際應用場景案例,詳解了百度翻譯全面的產品布局和服務方式。
  • 科普:機器視覺技術原理解析及應用領域
    在一些不適合於人工作業的危險工作環境或人工視覺難以滿足要求的場合,常用機器視覺來替代人工視覺;同時在大批量工業生產過程中,用人工視覺檢查產品質量效率低且精度不高,用機器視覺檢測方法可以大大提高生產效率和生產的自動化程度。而且機器視覺易於實現信息集成,是實現計算機集成製造的基礎技術。
  • 百度機器翻譯團隊獲得WMT2019中英翻譯冠軍
    8月1日,WMT2019國際機器翻譯大賽研討會在義大利佛羅倫斯召開。本屆大賽,百度機器翻譯團隊在中文-英文翻譯任務上獲得冠軍。,其中中文-英文翻譯任務是歷年參賽隊伍最多、競爭最為激烈的機器翻譯任務之一。
  • 全球三十大最佳 AI 創業公司公布
    7、科大訊飛 科大訊飛成立於 1999 年,是一家專業從事智能語音及語言技術、人工智慧技術研究,軟體及晶片產品開發,語音信息服務及電子政務系統集成的國家級骨幹軟體企業。科大訊飛的語音合成、語音識別、口語評測、機器翻譯等智能語音與人工智慧核心技術代表了世界最高水平。
  • 百度機器翻譯獲2015年度國家科技進步二等獎(圖)
    國家科學技術獎勵授予在各個領域實現重大技術突破、做出創造性貢獻的中國公民和組織,此前獲獎的「載人航天」、「探月工程」、「青藏鐵路」等成果舉世矚目、彪炳史冊。百度機器翻譯項目在大會上被授予國家科技進步獎,成為BAT中首個獲此獎項的企業。機器翻譯是人工智慧領域最難的課題之一。1947年,機器翻譯步入歷史舞臺,50年代機器翻譯研究持續升溫,美國、前蘇聯等國家均出現了研究熱潮。
  • 搜狗機器翻譯團隊獲得 WMT 2017 中英機器翻譯冠軍
    搜狗語音交互技術中心代表搜狗參加了這次含金量極高的比賽,該中心研發的搜狗神經網絡機器翻譯(Sogou Neural Machine Translation)系統在「中文-英文」機器翻譯任務中獲得了冠軍。這個系統採用了哪些新方法、新結構,又為我們提供了哪些新思路?讓我們結合論文聊一聊 Sogou NMT。WMT 是機器翻譯領域的國際頂級評測比賽之一。