越來越聰明的機器「翻譯家」

2020-12-25 愛好者網站

機器翻譯,英文為Machine Translation,又稱為自動翻譯,就是通過計算機,把一種自然語言(如中文)變成另外一種自然語言(如英語),這樣一個轉換的過程。

通過機器進行翻譯的設想很早就有,而直到世界上第一臺電子計算機ENIAC誕生,這一設想才成為可能。後來到了1954年,IBM公司協同美國喬治敦大學,通過IBM-701計算機首次完成英俄機器翻譯試驗,拉開了機器翻譯的序幕。我國也在1956年就開始將機器翻譯研究列入全國科學工作發展規劃。不過後續的發展並不順利,機器翻譯遭遇了許多瓶頸,翻譯質量總是很不理想,一直到近期才有了重大突破。

圖1 IBM與喬治敦大學語言學家合作開發翻譯軟體,1954年1月7日在IBM 701計算機進行英俄翻譯實驗

轉換層面上的機器翻譯類型

機器翻譯的實現方法多種多樣,可以按不同的標準進行分類。如果按轉換層面進行劃分,可以分為直接翻譯、轉換翻譯和中間語言翻譯,其中轉換翻譯又可以分為短語層、句法層、語義層等(圖2)。

圖2 機器翻譯的轉換類型

早期的機器翻譯系統常用「直接翻譯法」,也就是我們常說的「詞到詞」的翻譯方式,將一種語言句子中的每個單詞或固定詞組直接替換成目標語言對應的詞或詞組。這有點類似我們用金山詞霸一個一個把單詞翻譯過來再直接連接到一起(當然翻譯系統會做一些簡單的分析調整)。顯然,對於像漢英這樣語法結構差別較大的語言翻譯,其結果大部分很難接受,根本看不懂。

「中間語言法」比較好理解,首先就是建立一個標準語言作為中介,這個中介語言有點類似曾經流行過一段時間的「世界語」,當然機器翻譯的中間語言通常不會是真正的語言,而是類似邏輯表達式等(如果是以自然語言如英語作為中介,則這一中介語往往稱作「樞紐語言」)。首先將要翻譯的語言經過分析轉換成中間語言,再將生成的中間語言轉換成目標語言。兩人之間互相不懂對方的語言沒有關係,只要他們共同懂一門其他的語言就行。這也有點像HTML網頁代碼,可以在完全不同的瀏覽器上顯示相似的結果(圖3)。

圖3 左側是轉換方法示意,右側是中間語言法示意,可以看出,中間語言法是比較經濟的方式

「轉換翻譯法」則需要三個階段:分析、轉換、生成。先對要翻譯的句子進行詞、句、結構的深層解析(圖4),再把解析的深層結構轉換成目標語言的深層結構,最後由目標語言深層結構生成為目標語言句子。

圖4 通過喬姆斯基的短語結構語法規則,既可以解析句子(圖上)也可以生成句子(圖下)

基於實例的機器翻譯

如果按知識表示的標準來劃分,機器翻譯可分基於規則(Rule-Based)和基於語料庫(Corpus-Based)。基於語料庫又可分為基於實例和統計翻譯等。

基於規則的翻譯方法,採用一系列的規則來解析句子,如單詞切分規則、標註規則、句法分析規則、語義分析規則、結構轉換規則等,再與目標語言的語法結構對應,置換相應詞彙,最後生成譯文(一般採用的是「轉換翻譯法」)。

而在基於實例的機器翻譯系統中,關鍵是雙語對照的實例庫。雙語實例庫一般有兩個欄位,分別保存源語言句子及其對應的譯文。進行翻譯的時候,首先將要譯的句子與雙語實例庫中的源語言句子比較,找到最相似的那句,然後再模擬這個句子相對應的譯文,進行一些必要的置換處理等,最後輸出譯文。

基於實例的機器翻譯系統,一個關鍵技術是平行語料庫對齊,對齊的級別有句法結構、詞語、短語、句子、段落、篇章等。其中的段落及句子對齊,要求必須保持順序。一般來說,基於實例的機器翻譯系統會具有翻譯記憶功能,就是把你已經翻譯過的句子保存起來,下次遇到相同的句子,就可以直接輸出譯文了。這樣積少成多,翻譯的工作會越來越輕鬆。這在計算機輔助翻譯軟體(CAT)軟體中,被廣泛採用。

雙語語料庫示意

英語                                                    漢語

How much is that red umbrella?      那把紅傘多少錢?

How much is that small camera?     那個小相機多少錢?

最笨的聰明翻譯法——統計機器翻譯

有一種思想認為,翻譯實際上是一個概率問題。比如說英語「This is a book.」,它的譯文可以是任意中文句子,如「今天天氣不錯」、「我想看會書」、「這裡有棵樹」、「這是一塊蛋糕」、「這是一本書」……這不是胡扯嗎?當然不是!你覺得胡扯的譯文,只是它和原文對應的概率比較低而已,顯然,上面的許多譯文中,「這是一本書」對應的概率是最高的。那麼,統計機器翻譯的任務就是要找出這個概率最大的句子。

這一思想實際上在1947年就已有專家提出了,但是語言是無限的,在無限的語言中找出最高概率的譯文,在當時無異於天文夜譚。如今,隨著計算機運算速度的巨大提升,當時認為是最笨最不可能的實現方法,如今卻成了極為有效的方法。

這一方法的關鍵,在於建立概率模型。IBM的專家於1993年提出基於詞對齊的翻譯模型,開啟現代統計機器翻譯方法之路,其後隨著短語翻譯模型、層次短語模型、語法樹模型等一系列模型的推出,統計機器翻譯法開始獨領風騷,成為當前大部分翻譯產品的核心運行機制。

為什麼機器翻譯無法完美

當下,各種機器翻譯的產品百花齊放,如蘋果Siri,微軟小娜、Skype,訊飛語音翻譯及多種在線翻譯等,雖然他們融入了語音識別等新的技術,但其核心的翻譯機制則大同小異,不同的可能就是算法上的優化,讓翻譯處理(如實時翻譯)更快更流暢而已。

隨著經濟全球化,以及快速增長的網際網路,自動翻譯的需求越來越迫切。但是機器翻譯目前尚不能完全替代人類翻譯,翻譯效果並不是很理想。這是因為,人類的語言,不僅僅只有字面的意思,還會因為不同的語境而產生大量的「言外之意」,這是機器很難判斷的。也許統計機器翻譯方法能部分解決這一問題,但那絕對是超乎想像的龐大數據處理。更完美的機器翻譯,只有期待更好的算法及更強大的運算能力來共同完成了。

 

相關焦點

  • 英媒:谷歌翻譯越來越聰明 可不再藉助中間語言
    原標題:英媒:谷歌翻譯越來越聰明 可不再藉助中間語言核心提示:谷歌翻譯最近開始使用神經網絡,系統似乎創造了專門用於翻譯的一種語言,可能迅速提高多種語言間的翻譯。 參考消息網12月2日報導 英媒稱,谷歌翻譯正在變得更加聰明。
  • 大數據時代,機器翻譯、人工智慧越來越準確,還要學外語嗎?
    人、狗語言不通,何以交流?這做翻譯的還有飯吃嗎?嘿,小子,夠聰明就來說中文,要啥翻譯毋庸置疑,這樣的軟體已然可以代替大部分的日常翻譯了。比如,入住酒店時,點餐時,對於絲毫不懂外語而又沒人幫助的,可是大救星了。
  • 機器翻譯革命強勢來襲 人類翻譯將無路可走?
    它克服了傳統方法將句子分割為不同片段進行翻譯的缺點,充分利用上下文信息,對句子進行整體編碼和解碼,從而生成更為流暢的譯文。市面上的神經機器翻譯系統越來越多,國內的阿里巴巴、騰訊、百度、科大訊飛、搜狗,國外的谷歌、臉書、微軟等都在布局,這使相關技術發生「質變」。
  • 搜狗機器翻譯團隊獲得 WMT 2017 中英機器翻譯冠軍
    近年來,幾乎所有的研究機構在發表關於機器翻譯新方法的論文時,都會以 WMT 數據集作為實驗數據,並以 BLEU 評分來衡量方法的有效性,給出一個量化的、可比的翻譯質量評估,因此,WMT 數據集已經成為機器翻譯領域公認的主流數據集。
  • 機器翻譯的膚淺面-虎嗅網
    實際上,很多受過良好教育的人對於機器翻譯都抱有相當大的熱情,很少對它產生質疑。這讓我頗感困惑。作為一個語言愛好者和翻譯熱愛者,作為一個認知科學家和一個人類精妙心智的終身敬畏者,幾十年來我一直在關注機器翻譯的進展。當我最初在1970年代對它產生興趣時,我讀過一封信,是數學家、機器翻譯早期倡議者沃倫·韋弗於1947年寫給控制論專家諾伯特·維納的。
  • 靈雲機器翻譯跨越式進步!中英維漢互譯國內領先
    神經機器翻譯構建跨語言溝通橋梁新升級的靈雲機器翻譯技術可快速生成更加流暢的譯文,翻譯結果地道流暢,忠實表達原文內容,滿足高質量的翻譯要求。結合靈雲語音識別、語音合成等技術,還可直接語音翻譯並播報,讓翻譯體驗變得更加快速自然。
  • 機器翻譯強勢來襲,50萬譯員將下崗?
    它克服了傳統方法將句子分割為不同片段進行翻譯的缺點,充分利用上下文信息,對句子進行整體編碼和解碼,從而生成更為流暢的譯文。市面上的神經機器翻譯系統越來越多,國內的阿里巴巴、騰訊、百度、科大訊飛、搜狗,國外的谷歌、臉書、微軟等都在布局,這使相關技術發生「質變」。
  • Memsource翻譯軟體,為你提供最佳機器翻譯引擎
    在人工智慧高速發展的今天,機器翻譯技術取得了突破性進展,市面上湧現了大量的商家提供機器翻譯服務,機器翻譯的質量在不同行業、語種下的差距越來越大。而在進行翻譯時,所選擇的機器翻譯引擎是影響翻譯效果的重要因素。因此,如何選擇翻譯引擎是我們面臨的重要任務。
  • 機器翻譯七十年:百度領跑神經網絡翻譯時代
    中新網12月22日電 機器翻譯距今已有70年的發展歷史。自上世紀40年代起,基於規則、實例以及統計的機器翻譯方法漸次登場,各領風騷。近兩年,神經網絡機器翻譯(Neural Machine Translation, NMT)技術異軍突起,取得了翻譯質量的大幅躍升。
  • 百度機器翻譯獲國家科技進步獎
    1月8日,2015年度國家科學技術獎勵大會在人民大會堂舉行,百度機器翻譯項目獲頒國家科學技術進步獎二等獎,這是該獎項首次出現網際網路巨頭(BAT)的身影。   機器翻譯一直被公認為人工智慧領域最難的課題之一,百度機器翻譯的突破性成果,使我國掌握了網際網路機器翻譯的核心技術,佔領了技術制高點。
  • 神經網絡機器翻譯技術及應用(下)
    何中軍,百度機器翻譯技術負責人。本文根據作者2018年12月在全球架構師峰會上的特邀報告整理而成。神經網絡機器翻譯技術及應用(上)篇,我們為大家介紹了神經網絡機器翻譯的基本原理和挑戰,(下)篇繼續為大家講述機器翻譯的應用與未來。前面我們講了機器翻譯的原理以及神經網絡翻譯的發展、以及面臨的挑戰,我們現在看一看,機器翻譯現在有哪些應用?
  • 2020年首屆線上中日機器翻譯論壇圓滿落幕
    她認為,機器翻譯+人工是一個很好的機遇,在譯員專業知識儲備足夠的情況下,做好譯前譯後編輯工作,可以將時間和成本最小化,如果譯員駕馭起機器翻譯,語言服務工作將會事半功倍。大連理工大學孫成志副教授則從中日機器翻譯在翻譯碩士教學中的應用角度提出了他的看法。他表示,翻譯技術在MTI人才培養中的作用越來越大。
  • 翻易通:最好的翻譯工具一定不是機器
    DoNews6月21日消息(記者 劉瑩 )使用傳統的翻譯產品時,用戶最常有的感受就是「雖然能翻譯一些簡單的詞,但長句根本語序不通,翻譯過來的要麼看不懂要麼不敢用」。造成這種感受的直接原因,是傳統翻譯產品在使用語言資料庫+自然語義學習,對於機器來說,很難以人類的思考方式來進行語言轉換,也就是我們所說的「翻譯」。
  • 機器翻譯三大核心技術原理 | AI知識科普
    機器翻譯技術發展了80多年,巴別塔的傳說已經成為過去,上天是不可能上天的了,但是讓你優雅地和全世界討論世界盃,不再手舞足蹈、雞同鴨講,這一點機器翻譯還是可以做到的!隨著機器翻譯的應用領域越來越複雜,基於規則的機器翻譯的局限性開始顯現,應用場景越多,需要的規則也越來越多,規則之間的衝突也逐漸出現。於是很多科研學家開始思考,是否能讓機器自動從資料庫裡學習相應的規則,1993年IBM提出基於詞的統計翻譯模型標誌著第二代機器翻譯技術的興起。
  • 學界| 對比神經機器翻譯和統計機器翻譯:NMT的六大挑戰
    作者:Ozan alayan機器之心編譯參與:蔣思源、Smith本文總結了最近發表的論文「神經機器翻譯的六大挑戰(Six Challenges for Neural Machine Translation)」,並希望讀者能看到神經機器翻譯的不足和未來的發展方向。
  • 小語種翻譯人才稀缺 機器翻譯發揮空間較大
    由於機器翻譯具備成本低、翻譯速度快等優點,未來發展前景較好。隨著網際網路大數據的不斷完善,以及經濟全球化,機器翻譯在政治、經濟、文化交流等多方面起到重要作用,因此市場需求持續攀升,行業未來發展潛力巨大。從產業鏈角度來看,機器翻譯上遊為人工智慧晶片、機器翻譯算法以及數據等;中遊為機器翻譯軟體、硬體等產品。
  • 百度機器翻譯團隊獲得WMT2019中英翻譯冠軍
    8月1日,WMT2019國際機器翻譯大賽研討會在義大利佛羅倫斯召開。本屆大賽,百度機器翻譯團隊在中文-英文翻譯任務上獲得冠軍。圖1 人工評價結果WMT全稱是Workshop on Machine Translation,是業界公認的國際頂級機器翻譯比賽之一,其中中文-英文翻譯任務是歷年參賽隊伍最多、競爭最為激烈的機器翻譯任務之一
  • 巨頭扎堆的小市場:不學外語,機器翻譯搞定一切?
    另一方面,隨著智能翻譯的興起,越來越多語言專業的學生和翻譯行業的工作人士抱怨,神經網絡翻譯等技術的出現,讓原本就競爭激烈的翻譯市場迅速進入了冰凍期。但是,未來機器翻譯真的會完全取代人類,讓翻譯員們下崗嗎?網易智能梳理了目前主流的機器翻譯技術與應用,一探智能機器翻譯行業究竟。
  • 日媒:中國年輕人的字幕組有了強勁對手 機器翻譯
    來源:環球時報原標題:日媒:中國年輕人的字幕組有了強勁對手——機器翻譯日本財經媒體網站SankeiBiz12月22日文章,原題:傳播亞文化的非官方字幕組的功與過 由於新冠疫情不斷蔓延,日中兩國的交流目前很多方面受到限制。
  • 人工翻譯 or 機器翻譯?這份來自歐盟的調查可能出乎你的預料
    歐盟委員會發布的一項針對2800多家中小企業的調查顯示,近40%的受訪者在這項研究之前沒有使用過機器翻譯工具。此外,雖然絕大多數中小企業在商務活動中仍然更喜歡人工翻譯,如合同談判和與其他國家的公共部門打交道等,但超過70%的中小企業表示,機器翻譯對其業務還是有幫助的。