搶佔AI翻譯賽道,搜索平臺為何不約而同發力NMT?

2020-12-08 人人都是產品經理

不論是國外的谷歌,還是國內的搜索巨頭百度、搜狗、360等,均把NMT作為AI翻譯的標配,翻譯集中的領域在中英互譯上,這是一個很有趣的現象。AI翻譯真的是塊肥肉嗎?為什麼要發力NMT?

搜索公司在AI翻譯這個事上扎堆並不令人意外。

2016年,GNMT技術(谷歌的神經網絡機器翻譯技術,模仿人腦的神經思考模式)全面布局於谷歌翻譯系統中,隨後,谷歌聲稱其AI翻譯的譯文質量誤差降低了55%-85%,並且將此技術廣泛應用於網頁翻譯與手機應用。

國內,百度當時已經研究出了可應用的SMT技術(統計機器翻譯),但得知NMT的橫空出世之後,便迅速調轉方向轉而研發NMT技術,於是就有了BNMT應用於百度翻譯。儘管初時的百度翻譯速度很慢。但是,百度當時反應也佐證NMT的價值性。

搜狗、阿里、騰訊等公司也都有部署NMT領域,推出多款基於神經網絡的在線翻譯和手機應用,在智能翻譯領域持續發力。360搜索也不願落後,上線了基於NMT的360翻譯,以期與去年上線的360英文搜索形成合力,且還拉來了微軟旗下的搜尋引擎Bing開展技術合作。

但是我們會發現:不論是谷歌還是BAT,其智能翻譯從未能聲稱能替代人工翻譯,因為翻譯還必須考慮到到使用者的情感及文化背景。從2016年起至今的兩年時間裡,對海量語料的深度學習逐漸成為AI開發的必修課,也成了巨頭們布局AI翻譯繞不過的「坎」。

搜索平臺不約而同發力NMT,為的是哪般?

前面說到,不論是國外的谷歌,還是國內的搜索巨頭百度、搜狗、360等,均把NMT作為AI翻譯的標配,翻譯集中的領域在中英互譯上,這是一個很有趣的現象。AI翻譯真的是塊肥肉嗎?惹得誰也不願意掉隊。

據統計表明:全球一共有73個國家,超10億人以英語為官方語言,而漢語則是世界使用人數最多的語言。因此,中英互譯本身的用戶基數市場就能引起巨頭們足夠的注意力了。

為什麼要發力NMT?

這得從AI翻譯人類語言的方式說起,包含三種:

  • 第一,基於規則的機器翻譯方法;
  • 第二,基於實例的機器翻譯方法;
  • 第三,基於統計的翻譯方法。

SMT與NMT都屬於第三種,從語料自動學習翻譯模型,結合大數據通過評分輸出翻譯結果。但是,SMT與NMT存在著顯著的差距。

SMT採用的模式是通過平行語料進行統計分析,翻譯的準確性則與語料的豐富度呈明顯的正相關,但是存在著翻譯結果太過零散,片面生硬,語法語義混亂的劣勢。

而模仿人類神經網絡構建模型,NMT是以一個句子為基本的處理單元,好處在於翻譯過程中有著更好的語感,能降低SMT翻譯的關於「形態、句法、詞序」等方面出錯的概率。

因此,NMT在技術上恰巧可以有效彌補SMT的缺陷。而隨著語料不斷地加碼,AI翻譯的準確度也就高得多。

AI翻譯引進NMT技術,就能精準識別「語境」嗎?

搜狗同傳翻譯在某次國際性會議上,聲稱其神經網絡機器翻譯技術已達臨界點,並在進行大規模商用推廣。只是,搜狗的同傳還是在國際會議上出過爭議,結果不盡如人意。

即便在正式的場合能夠應對自如的搜狗,在非正式場合會是怎樣一種情況呢?

很多時候的中英交流多以口語化形式出現,對「語境」的理解遠比「語法和詞彙」難得多。下文我們將就幾組語句進行討論,以下從搜狗、360搜索、百度以及谷歌四大平臺進行對比。

第一組:獻上我的膝蓋。

看看,最近這句網絡常用語各翻譯平臺的水平

  • 谷歌:Offer my knee。
  • 360:express my admiration。
  • 百度:Offer my knees。
  • 搜狗:Give me my knee。

測試結果是搜狗、百度、谷歌均傾向於單詞表面意思的翻譯,並未能結合具體的文化背景,360對於該網絡用語的解釋稍顯老練。

第二組:詩詞,選自杜甫的《登高》。

因其詩中主要是以諸多意象組成的意境,看翻譯能否反饋這種情感。

《登高》原文摘選:風急天高猿嘯哀,渚清沙白鳥飛回。

英語譯文:

有趣的是將各自翻譯的英文譯成中文時,沒有一個平臺能還原。而在詩歌的中譯英中360能夠結合「語境」處理詩中的意向要素,搜狗翻譯表達出了「悲愴」的情感,而百度翻譯和谷歌翻譯則完全是從字面上進行翻譯,破壞了詩的美好。

第三組:新聞,選自紅網。

語言簡練正式,但涉及的元素較多,對語法的要求性比較高。

原文:據長沙市住房和城鄉建設委員會網站顯示,2018年5月23日,長沙共計有兩個項目獲批預售證,均位於雨花區,分別為五礦萬境藍山和創元時代。

譯文:

同一段新聞,出現了四種不同的譯法。同一語句中各家強調的點不一樣,譬如:首句的「長沙市住房和城鄉建設委員會」,360的翻譯結果更顯得專業並符合慣常表述。「長沙市」只是作為補充詞出現,而搜狗、百度和谷歌的翻譯中,「長沙市」則是作為硬性的地名出現。

尤為值得注意的是:根據語境,「五礦萬境藍山」和「創元時代」都是樓盤名字,應當由漢語拼音直譯,只有360識別到這一點,搜狗、百度和谷歌三家都在「礦」、「藍山」、「創元」、「時代」等字眼上糾結。

從這三組中,我們能發現360偏好於基於「語境」的邏輯進行分詞,雖然也有做的不到位的,像針對詩詞這樣複雜的情感語句就無法準確傳達,但是在「流行語」優勢明顯。

而谷歌和百度基本上是基於詞組進行斷句,因此,翻譯也是一個詞一個詞,尤其是對古詩詞的理解,谷歌就顯得比較憂愁了。

因此,AI翻譯的問題主要反映在三大方面:

  • 第一,機器翻譯難以應對語言規則不統一的口語;
  • 第二,AI翻譯難以結合文化語境進行理解,解析不出深層次的情感;
  • 第三,針對較長的段落,以及較為複雜的語境,往往會出現語法問題多,語句出錯率高的毛病。

AI翻譯要「地道」,技術倒不是關鍵

翻譯界老將何恩培曾講:

「機器翻譯一直被公認為人工智慧領域最難的課題之一。而且語言背後的多元文化和複雜社會屬性,註定了語言規則不可能規律化」。

但是,中國有句老話:勤能補拙。

對於AI翻譯而言,最難的不是技術,而是「語境」理解,而AI翻譯能力的級別高低又體現在這,集中體現了平臺餵養語料的資源狀況。AI翻譯能否「地道」,取決於以下幾點。

1. 訓練資料庫的內容整體優質程度

這影響到翻譯準確程度,取決於信息資源的整合能力。不論是BAT,還是360、搜狗、有道等,都在注重內容生態建設,搜狗有了騰訊微信入口搜索,360搶佔了安全領域的數據來源。

但是,這不可能是一個完全開放的體系,沒有哪一家能夠整合整個網際網路的資源,各平臺訓練資料庫各有側重,AI翻譯特色也不盡相同,例如:360翻譯側重於地道的口語與流行語,百度翻譯則顯得大而全。

2. 開放平等的中外數據交流,或可加強AI的深度學習

國內對標競品之間的合作相對較難,但中外數據交流卻是最好的互補。因此,百度上線過英文搜索產品,而360與微軟Bing有過技術合作。

此外,有了國界互譯也變得更有意義。因此,中外數據合作,或許對於文化背景的數據積澱有很好的補充,也是擴充深度學習的語料最直接的方式。

3. 需要準備大量的網絡語及口語語料

除了詩詞蘊含深厚文化底蘊外,網絡語和口語是與一個地域的文化最為接近的語言形態,時下搜尋引擎從被動搜索向主動的,基於用戶興趣的內容推薦引擎轉型,這對於構建口語語料訓練模型倒是一個不錯的嘗試。

總之,AI翻譯能夠精準識別「語境」是需要很長一段路要走!

【完】

#專欄作家#

曾響鈴,微信公眾號:科技向令說,人人都是產品經理專欄作家。TMT新媒體「鈴聲」創始人,《移動網際網路+ 新常態下的商業機會》《趨勢革命:重新定義未來四大商業機會》作者,《網紅經濟學》作者之一,《商界》等多家雜誌撰稿人。重點關注SaaS、智能硬體、網際網路金融、O2O、新媒體運營方向。

本文原創發布於人人都是產品經理。未經許可,禁止轉載。

題圖來自 Pixabay,基於 CC0 協議

相關焦點

  • 專欄| AI翻譯引進NMT技術,就能精準識別「語境」嗎?
    AI翻譯這條賽道上,巨頭們都繞不過的「坎」AI翻譯作為垂直搜索產品,因其明朗的落地應用場景而備受巨頭們關注。搜狗、阿里、騰訊等公司也都有部署NMT領域,推出多款基於神經網絡的在線翻譯和手機應用,在智能翻譯領域持續發力。360搜索自佔據國內搜尋引擎行業二哥的位置後,同樣專注在AI領域與其他巨頭角力,上線了基於NMT的360翻譯,以期與去年上線的360英文搜索「雙劍合璧」。
  • 谷歌開放GNMT教程:如何使用TensorFlow構建自己的神經機器翻譯系統
    GitHub 連結:https://github.com/tensorflow/nmt機器翻譯,即跨語言間的自動翻譯,是機器學習社區最活躍的研究領域。在機器翻譯的眾多方法中,序列到序列(sequence-to-sequence,seq2seq)模型 [1, 2] 近期獲得巨大成功。
  • 資源| 史丹福大學NLP組開放神經機器翻譯代碼庫(附論文)
    選自斯坦福機器之心編譯參與:吳攀、杜夏德近日,史丹福大學自然語言處理組(Stanford NLP)發布了一篇文章,總結了該研究組在神經機器翻譯(NMT)上的研究信息。在這篇文章中,他們還放出了在多種翻譯任務上(比如英德翻譯和英語-捷克語翻譯)實現了當前最佳結果的代碼庫(codebase)。
  • 亞馬遜開源神經機器翻譯框架Sockeye:基於Apache MXNet的NMT平臺
    例如,在機器翻譯 (MT) 中,任務是在給定輸入單詞序列的情況下預測已翻譯單詞的序列。執行這種任務的模型常被稱為序列到序列模型。近來,深度神經網絡(DNN)顯著提升了這些模型的性能。Sockeye 同時提供了一個當前最優的神經機器翻譯(NMT)模型的實現和一個開展 NMT 研究的平臺。Sockeye 是一個基於 Apache MXNet 的快速而可擴展的深度學習庫。
  • 高德開放平臺將發力基於位置的興趣點搜索、精準定位及用戶位置...
    據悉,目前高德 LBS 開放平臺已經擁有 30 多萬的開發者和合作夥伴,每天有超過 1 萬款應用調用高德 LBS 開放平臺的服務。LBS 開發平臺向開發者提供的是一個雲+端的整體服務。高德 LBS 開放平臺整合阿里雲後,開發者可以無縫的在阿里雲上使用高德的 LBS 服務,為移動應用開發者降低了實施、運維成本,高德 LBS 開放平臺研發經理樸春植在由 InfoQ 主辦的 QCon 全球軟體開發大會 2013(上海站)上接受動點科技採訪時表示。LBS 雲戰略有兩部分組成,雲端和客戶端。雲端就是 LBS 雲,可以實現數據託管和雲引擎及雲服務。
  • 有道nmt神經網絡_有道神經網絡翻譯(nmt) - CSDN
    圖:技術進步帶來翻譯質量的提升為何NMT如此受歡迎?你可能會覺得奇怪,為何大型技術公司都熱衷於扎堆做機器翻譯?事實上,無論對於上述哪家公司,翻譯相較於其他技術,都不是塊有極大商業空間和發展的業務。| 有道神經網絡翻譯有道翻譯官是網易公司開發的一款翻譯軟體,依靠搜尋引擎(有道搜索)的後臺數據和「網頁萃取」技術,從海量網頁中提煉出傳統詞典無法收錄的各類新興詞彙和英文縮寫,例如影視作品名稱、品牌名稱等,並能實現實時更新。
  • Facebook宣布採用AI翻譯平臺內容,但你以為事情就這麼簡單嗎?
    【獵雲網(微信號:ilieyun)】8月7日報導 (編譯:小白)過去,很少有人關注Facebook的翻譯今日,Facebook告別了原來的基於短語的翻譯系統,啟用了最新的AI驅動的神經機器(NMT)翻譯系統。雖然在NMT翻譯技術上,Facebook相比谷歌或微軟(均於去年開始使用NMT技術)略顯落後,但是對Facebook本身,這項技術可以為其翻譯的準確性帶來顯著提升。Facebook原先基於短語的翻譯系統存在的問題是,它無法從整個句子的層面去翻譯句子。
  • 人工智慧PK翻譯專家 搜狗英文搜索、翻譯APP亮相
    分享會上,在對搜狗英文搜索進行全面介紹之外,搜狗搜索發布創新產品搜狗翻譯APP,展示了其人工智慧技術在翻譯領域的最新研究成果。重度搜尋引擎用戶、「非主流翻譯家」谷大白話現場分享作為重度搜尋引擎用戶、俚語字幕組大神,谷大白話在活動上分享了日常工作、生活中搜索英文信息的體驗及技巧,激發起現場用戶的強烈共鳴,不少用戶表示受益匪淺。
  • 瞄準人機結合模式 阿里語言服務平臺欲研發下一代翻譯平臺
    昨日,國內最大的專業人工翻譯服務平臺——365翻譯在被阿里巴巴收購半年後首次對外披露,平臺正式定位為阿里巴巴語言服務平臺,將瞄準人機結合模式,在語言服務領域進行更多創新。據悉,365翻譯自融入阿里體系後強勁發展,半年內承接電商領域人工翻譯需求超百萬次,在機器翻譯領域,電商相關語種的準確率已與谷歌翻譯持平。
  • 南印度洋搜索行動持續發力 新發現多個物體
    南印度洋搜索行動持續發力 新發現多個物體     3月28日,日本飛機和紐西蘭洪少葵 攝     中新社珀斯3月28日電 (記者 張明 吳冠雄)在宣布調整搜索區域後,多國參與的在南印度洋海域搜索失聯馬航客機行動仍在持續發力。澳大利亞海事安全局28日晚間透露,當天有5架飛機在新調整後的搜索海域發現不同顏色的多個物體,澳方將連夜分析是否與失聯客機有關。
  • 百度入圍Gartner全球AI翻譯服務代表企業 打造企業智能升級新引擎
    Gartner分析師認為,百度作為中國最大網際網路搜索提供商和領先的AI平臺型公司,此次入圍全球AI翻譯服務代表性提供商與其深厚的技術積累、豐富的產品矩陣息息相關。在全球化發展背景下,隨著企業業務和生態系統不斷向全球不同區域擴展,企業的全球化信息能力日益凸顯,機器翻譯將成為剛需。
  • 特刊| 數位化時代,如何用AI加速醫療創新?
    而微軟加速器創業加速計劃校友企業——愛特曼 (Atman)的市場切入點並非當前的熱門領域,而是醫學翻譯場景作為切入口,進而自研出兩款創新的數位化解決方案——愛特曼雲翻譯(ACT)、循證醫學平臺產品(Hippo)。
  • 外文網頁翻譯搜索已嵌入谷歌搜索結果頁當中
    感謝tuanpark的投遞新聞來源:站長之家近日,在谷歌搜索結果當中出現了外文翻譯網頁搜索選項,以幫助用戶搜索其他國家的網頁結果
  • 搶佔"高地" 百度與狗狗同時推出中文學術搜索服務
    昨天,全球第一個國學搜索頻道在「百度」正式上線;幾乎同時,Google也為中國用戶悄然送上了2006年的第一份禮物———Google中文學術搜索。從此,只要輕敲鍵盤,點擊滑鼠,再難找的科學論文、古文典籍,詩詞歌賦、參考文獻、技術報告也可以在網上「想搜就搜」。
  • 華立科技:發力新技術和大數據應用,搶跑新基建
    (原標題:華立科技:發力新技術和大數據應用,搶跑新基建)
  • 馬雲爸爸「翻譯情未了」? 回顧阿里翻譯平臺的進擊之路!
    ,谷歌翻譯幾乎要霸佔整個機器翻譯市場時,阿里翻譯宣布已成功研發阿里雲PAI工具,基於阿里雲PAI可以將神經網絡翻譯訓練效率提升5倍,這將大大加速阿里翻譯平臺的建設。當時把阿里翻譯平臺定位為阿里巴巴的語言服務平臺,將瞄準人機結合模式,在語言服務領域進行更多創新。365翻譯的加入確實為阿里的跨境電商領域分擔了一些翻譯業務上的壓力。並且在機器翻譯領域,和電商相關的幾個主要語種中,其翻譯的準確率基本和谷歌翻譯持平。然而,阿里語言服務平臺的野心並不止於此。他們想藉助強大的人工翻譯團隊和電商大數據研發下一代基於神經網絡技術的翻譯平臺。
  • 神經結構搜索在機器翻譯中的應用
    今天和大家介紹谷歌將結構搜索應用到機器翻譯的一項工作—The evolved transformer(ET)[1]。The evolved transformer 這項工作的出發點是將結構搜索應用到機器翻譯中,基於Transformer結構選出更好的候選。
  • 免費計算資源,百度一站式開發平臺:AI Studio零門檻實現AI能力
    在今年的開發者大會上,百度發布了 PaddlePaddle3.0,既升級了核心框架,又提供了 EasyDL 快速應用平臺、AutoDL 網絡結構自動化設計,以及 AI Studio 在線實訓平臺。本文從功能簡介,實戰建模及 AI 能力應用等角度介紹了 AI Studio。
  • 最近大熱的「夸克搜索」什麼來頭?要招攬最頂級AI技術人才
    其實早在2018年,夸克就開始發力智能搜索,2019年1月,夸克發布3.0版,在自主訂製的AI搜尋引擎 搜尋引擎誕生已有20餘年,無論國內外,市場似乎早已塵埃落定,阿里為何如此「頭鐵」,夸克為何近兩年來越來越進擊智能搜索?
  • 什麼是神經機器翻譯(NMT)?
    ,神經機器翻譯(NMT)是這一進程的最新一步。由於能夠一次翻譯整個句子,NMT的輸出可以類似於人工翻譯。隨著越來越多的企業走向全球化,NMT可能會對翻譯行業產生巨大影響。什麼是神經機器翻譯?NMT使用基於神經網絡的技術來實現更多上下文精確的翻譯,而不是一次翻譯一個單詞的破碎句子。