神經機器翻譯系統上線500天 百度的英文說得越來越溜

2020-12-10 中國網科學頻道

去年5月,百度率先將基於神經網絡的機器翻譯(Neural Machine Translation,簡稱NMT)納入百度翻譯中,推出全球首個基於深度學習的在線翻譯系統。

這個系統有多厲害呢?簡單來說,從前翻譯系統是將一句話拆分成單詞或者詞組進行翻譯,這樣的翻譯結果往往會導致語句不通,出現各種鬧笑話的「中式英語」。

 

而上線了NMT系統後,機器翻譯會將一句話視為整體進行解碼,可以很好地利用上下文信息,獲得更為流暢的譯文。譬如,「給你點顏色看看」這句話,不具備NMT系統或技術不夠完善的機器翻譯往往會將其譯為「Give you some color to see see」,而上線了NMT系統的百度翻譯則可以非常地道地向老外講出漢語語境中「顏色」的深意了。

 

一番試驗下來,無論是類似「我的電腦有點卡」的口語化表達,還是「蘿蔔青菜各有所愛」類似的俗語,以及「溫故而知新」等論語名句和「欲窮千裡目更上一層樓」這樣的古典詩詞,有了NMT系統,百度翻譯的漢譯英水平提升顯著。

 

 

不過,儘管現如今NMT的強大技術加持讓普通用戶和資深譯員都欣喜萬分,在500天前,上不上線它還是一件讓工程師們頗為頭疼的事情。「去年初國際上NMT的研究剛起步不久,一方面大部分的研究人員、業內專家對於NMT技術還持觀望甚至懷疑的態度,另一方面NMT自身存在的一些缺陷導致其無法達到線上實用的狀態。」百度翻譯技術人員表示,那時包括百度、Google在內的網際網路公司所使用的基於短語的統計機器翻譯(SMT)方法,已經沿用十多年,也有不錯的效果。考慮以上因素,要不要上線NMT系統,對於百度翻譯團隊來說是一個艱難且需要勇氣的抉擇。

不過最終,百度還是決定做「第一個吃螃蟹」的翻譯系統,在中英、中日、中韓等多個語種互譯上線NMT系統,並憑藉頂尖的翻譯技術和出色的語言處理能力成功斬獲國家科技進步二等獎,隨後在業內引發NMT研究熱潮。

那麼,對中譯英研究如此透徹的百度翻譯是否可以比肩字幕組了呢?當面臨更為情景化的現實生活場景時,機器翻譯要理解的可不僅僅是上下文,有時候還面臨著前後一整段話的考驗,甚至需要識別說話的當事人。

 

(故事背景是翻箱倒櫃之後找出了《魔戒》同款打造的戒指,

這對於極客的意義你懂得,於是nerdy有了不一樣的意思)

不過,這在未來並不是不可實現的,在百度翻譯全新上線的拍照翻譯功能中,便已經開始涉及「實物翻譯」,通過讀圖,在識別圖中元素的基礎上實現翻譯。未來的某一天,或許我們再也不必啃「生肉」,只需要打開百度翻譯,它便能夠認出劇中角色,並且譯出符合主人公個性的話。

 

總而言之,NMT系統的上線,帶給了百度翻譯全新的想像空間,隨著語音識別、圖片識別等人工智慧技術的進一步提高,未來,行走異國他鄉,百度一下,便能擁有翻譯專家相伴隨行。

相關焦點

  • 什麼是神經機器翻譯(NMT)?
    ,神經機器翻譯(NMT)是這一進程的最新一步。由於能夠一次翻譯整個句子,NMT的輸出可以類似於人工翻譯。隨著越來越多的企業走向全球化,NMT可能會對翻譯行業產生巨大影響。什麼是神經機器翻譯?NMT使用基於神經網絡的技術來實現更多上下文精確的翻譯,而不是一次翻譯一個單詞的破碎句子。
  • 百度翻譯上線,只支持中英文互譯
    【搜狐IT消息】百度在線翻譯新版近日正式上線,據悉,百度翻譯將支持中文、英文免費在線翻譯;同時支持網頁翻譯,用戶可在輸入框直接輸入網頁地址,翻譯準確率較高。
  • 機器之心獨家對話百度 NLP:先解決語義理解,再談機器翻譯取代人類
    翻譯質量對比,來自 Google Research Blog即便如此,網友發現其翻譯效果雖有顯著提升,但仍未避免將「我想下班」翻譯為「I want to work」等低級錯誤(第二天已被修復)。事實上百度的在線翻譯系統,一年前就應用了基於神經網絡的翻譯方法(NMT)。
  • 將科幻變成現實,谷歌百度用神經機器翻譯踐行人類的「巴別塔之夢」
    變革性的神經機器翻譯去年,谷歌提出了GNMT,神經機器翻譯(NMT: Neural Machine Translation)是一種用於自動翻譯的端到端的學習方法,該方法有望克服傳統的基於短語的翻譯系統的缺點。但 NMT 系統的訓練和翻譯推理的計算成本非常高,同時也難以應對罕見詞,這些問題阻礙了 NMT 在實際部署和服務中的應用,因為在實際應用中,準確度和速度都很關鍵。
  • 神經機器翻譯中的曝光偏差,幻覺翻譯與跨域穩定性
    摘要:神經機器翻譯中的標準訓練策略存在曝光偏差問題。即使已有研究提出緩解曝光偏差方法,但是曝光偏差造成的實際影響仍然存在爭議。本文,我們將曝光偏差與神經機器翻譯中另一個廣泛討論的問題,即跨域下產生幻覺翻譯聯繫起來。通過三個數據集多個測試域的實驗,我們證實曝光偏差是導致幻覺翻譯的原因之一。使用最小風險訓練模型,避免暴露偏差,即可減輕幻覺翻譯。
  • F8 2017 | 技術負責人為你解析 Facebook 神經機器翻譯
    至今,已有 15 個不同語言的翻譯系統,遷移到了新的機器翻譯架構;Facebook 平臺上,超過 50% 的翻譯出自基於神經網絡的系統。那麼,為什麼 Facebook 要轉移至神經網絡機器翻譯?或者說,新架構的優點是什麼?
  • 擺攤的老漢英語說得溜 只上過6年學卻給外賓當翻譯
    今天,我們說的這位「擺攤兒」的老薑,故事也很有趣。    這兩天,煙臺山景區有個擺攤的老人因為說得一口流利的英語挺「火」,很多人都轉發他的視頻,大有「網紅」的趨勢,讓人忍不住好奇,他是誰?近60歲的年紀為什麼會說這麼「溜」的英語?    他叫姜永旗。
  • 機器翻譯七十年:百度領跑神經網絡翻譯時代
    以統計機器翻譯(SMT)為例,它自上世紀90年代初提出,直到15年之後,才出現了第一個基於SMT技術的網際網路翻譯系統,得到了大規模的應用。而神經網絡翻譯技術從2014年9月提出,到百度2015年5月上線首個網際網路NMT系統,只用了短短8個月時間。這既體現了百度對於新技術敏銳的洞察力,也體現了百度翻譯的雄厚的技術實力。
  • 如何評價Google神經機器翻譯(GNMT)系統?
    | Google Translate發展歷程:在2006 年Google團隊改進了——統計機器翻譯(statistical machine translation),並宣布上線Google Translate翻譯功能。
  • 百度機器翻譯現在都能預測你未來幾秒要說的話了!
    先給大家看一張動圖:上面的中文是人類說的話,下面的英文是百度 AI 給出的實時翻譯。可以看到,沒等說到「莫斯科」的時候,AI 自動翻譯的英語就已經出現了「meet」,也就是漢語句末的「會晤」。難道現在 AI 已經掌握了讀心術?
  • 圖像識別 百度翻譯App隨手拍照就能翻譯
    如其所說,百度翻譯App最新推出3.0版本加入了百度獨有的圖像識別技術,這使得用戶只要打開百度翻譯App實物翻譯功能,對著物體拍張照,就能迅速識別並翻譯成英文。有意思的是,從不同角度,勾劃不同部分,還能得出各種結果。網友感嘆:屌絲生活變土豪,百度翻譯歡樂多!」
  • 「你打籃球像蔡徐坤」:微信翻譯這個bug是怎麼回事?
    矽星人經過多方面了解,確信微信英漢互譯系統採用的是目前機器學習領域比較火的「神經機器翻譯」(Neural Machine Translation, 簡稱 NMT) 技術,由微信 AI 團隊自研。神經機器翻譯是目前機器翻譯上比較火的一項技術。我們絕大多數的大語種翻譯已經基於這個技術了,「在美國一家頂級科技公司的研究分支擔任資深研究員的王夏*告訴矽星人。」在機翻技術發展的每個階段,科研人員都會遇到一些問題。NMT 也存在一些問題,比如整個過程的可解釋性是非常低的,」他說。
  • 不止搜英文還有糾錯和翻譯 360搜索英文頻道嘗鮮體驗
    【每日科技網】   近日,國內第二大搜尋引擎360搜索(www.so.com),與微軟旗下Bing達成合作,正式上線360英文搜索(en.so.com),用戶可在電腦和手機上輸入該域名,訪問360英文搜索服務。
  • 谷歌機器翻譯取得顛覆性突破 到底幾分真假?
    如果說IBM Model1是機器翻譯的牛頓定律,那麼Seq2Seq就是機器翻譯裡的愛因斯坦相對論,Seq2Seq是谷歌在機器學習頂會NIPS的一篇論文,模型簡單漂亮,為文本生成尤其是機器翻譯打下了良好的模型基礎,所有的NMT(神經機器翻譯)均在此模型上添磚加瓦,這篇也是一樣。
  • 機器翻譯三大核心技術原理 | AI知識科普
    01機器翻譯和巴別塔的傳說《聖經》中記載了這樣一個故事:人類曾經聯合起來興建能通往天堂的高塔——巴別塔,為了阻止人類的計劃,上帝讓人類說不同的語言,使人類相互之間不能溝通,計劃因此失敗,人類自此各散東西。實現不同語種之間的無障礙溝通,一直都是人類終極夢想之一。
  • 百度機器翻譯團隊獲得WMT2019中英翻譯冠軍
    8月1日,WMT2019國際機器翻譯大賽研討會在義大利佛羅倫斯召開。本屆大賽,百度機器翻譯團隊在中文-英文翻譯任務上獲得冠軍。最終,結合統計特徵和深度學習模型的特徵,通過Re-ranking算法從多個譯文候選中選擇最優的翻譯結果。接下來將從數據預處理、翻譯模型改進、訓練數據增強、模型集成和重排序等方面介紹百度翻譯團隊的參賽系統。
  • 二次元走進現實,百度翻譯APP全國英語口語達人挑戰賽「開戰」
    「、「我是要成為海賊王的男人」、」我命由我不由天」……二次元世界裡的那些個臺詞,總是一句話就讓人熱血沸騰,一句話就點燃了靈魂,而現實世界中,中國少年亦是如此。這不,百度翻譯APP就進行了一場覆蓋500萬學子的學霸級PK,讓少年那「與天相比」的熱血與氣勢爆發在「天選」晉級賽中。
  • 網易郵箱大師APP上線新功能:1000字英文1秒內精準翻譯
    字的英文郵件內容,不到1秒即能翻譯完成,翻譯準確率超過國際同類型產品。這不是網易郵箱第一次上線英文郵件翻譯功能。早在2007年,網易郵箱已經率先在郵箱裡引入了詞典功能,為用戶提供單詞翻譯。2009年,就成為了全國首家支持全文翻譯的郵箱。2014年,網易郵箱大師APP誕生,廣受好評的英文郵件翻譯功能也隨之上線。此次版本升級後,當用戶收到的郵件正文裡英文單詞數量大約為正文一半時,頁面會自動出現全文翻譯功能選擇。
  • 微信翻譯大型翻車現場?機器翻譯到底有哪些不確定性
    網友們因此大為驚奇,玩得不亦樂乎,以至於這個話題被推上了熱搜。 針對相關問題,騰訊微信團隊昨天也做出了回應,強調這不是暖心的彩蛋,是翻譯引擎在翻譯一些沒有進行過訓練的非正式英文詞彙時出現誤翻。 翻譯出來的英文大意為: 世界末日時鐘在12點3分鐘,我們正在經歷世界上的人物和戲劇性的發展,這表明我們越來越接近末日和耶穌的回歸。 哈佛大學助理教授,研究自然語言處理和計算機翻譯的Andrew Rush認為,這些神秘的翻譯結果可能和谷歌幾年前採用的「神經機器翻譯」技術有關。
  • 百度翻譯App春節爆紅 網友驚呼拍照就能翻譯太神奇
    「額滴神啊,太神奇了,還從沒試過拍照就能翻譯的。」「聽風嘯馬」在微信朋友圈分享道。如其所說,百度翻譯App最新推出3.0版本加入了百度獨有的圖像識別技術,這使得用戶只要打開百度翻譯App實物翻譯功能,對著物體拍張照,就能迅速識別並翻譯成英文。有意思的是,從不同角度,勾劃不同部分,還能得出各種結果。網友感嘆:屌絲生活變土豪,百度翻譯歡樂多!」