神經機器翻譯系統上線500天 百度的英文說得越來越溜

2020-12-12 中國網科學頻道

去年5月,百度率先將基於神經網絡的機器翻譯(Neural Machine Translation,簡稱NMT)納入百度翻譯中,推出全球首個基於深度學習的在線翻譯系統。

這個系統有多厲害呢?簡單來說,從前翻譯系統是將一句話拆分成單詞或者詞組進行翻譯,這樣的翻譯結果往往會導致語句不通,出現各種鬧笑話的「中式英語」。

 

而上線了NMT系統後,機器翻譯會將一句話視為整體進行解碼,可以很好地利用上下文信息,獲得更為流暢的譯文。譬如,「給你點顏色看看」這句話,不具備NMT系統或技術不夠完善的機器翻譯往往會將其譯為「Give you some color to see see」,而上線了NMT系統的百度翻譯則可以非常地道地向老外講出漢語語境中「顏色」的深意了。

 

一番試驗下來,無論是類似「我的電腦有點卡」的口語化表達,還是「蘿蔔青菜各有所愛」類似的俗語,以及「溫故而知新」等論語名句和「欲窮千裡目更上一層樓」這樣的古典詩詞,有了NMT系統,百度翻譯的漢譯英水平提升顯著。

 

 

不過,儘管現如今NMT的強大技術加持讓普通用戶和資深譯員都欣喜萬分,在500天前,上不上線它還是一件讓工程師們頗為頭疼的事情。「去年初國際上NMT的研究剛起步不久,一方面大部分的研究人員、業內專家對於NMT技術還持觀望甚至懷疑的態度,另一方面NMT自身存在的一些缺陷導致其無法達到線上實用的狀態。」百度翻譯技術人員表示,那時包括百度、Google在內的網際網路公司所使用的基於短語的統計機器翻譯(SMT)方法,已經沿用十多年,也有不錯的效果。考慮以上因素,要不要上線NMT系統,對於百度翻譯團隊來說是一個艱難且需要勇氣的抉擇。

不過最終,百度還是決定做「第一個吃螃蟹」的翻譯系統,在中英、中日、中韓等多個語種互譯上線NMT系統,並憑藉頂尖的翻譯技術和出色的語言處理能力成功斬獲國家科技進步二等獎,隨後在業內引發NMT研究熱潮。

那麼,對中譯英研究如此透徹的百度翻譯是否可以比肩字幕組了呢?當面臨更為情景化的現實生活場景時,機器翻譯要理解的可不僅僅是上下文,有時候還面臨著前後一整段話的考驗,甚至需要識別說話的當事人。

 

(故事背景是翻箱倒櫃之後找出了《魔戒》同款打造的戒指,

這對於極客的意義你懂得,於是nerdy有了不一樣的意思)

不過,這在未來並不是不可實現的,在百度翻譯全新上線的拍照翻譯功能中,便已經開始涉及「實物翻譯」,通過讀圖,在識別圖中元素的基礎上實現翻譯。未來的某一天,或許我們再也不必啃「生肉」,只需要打開百度翻譯,它便能夠認出劇中角色,並且譯出符合主人公個性的話。

 

總而言之,NMT系統的上線,帶給了百度翻譯全新的想像空間,隨著語音識別、圖片識別等人工智慧技術的進一步提高,未來,行走異國他鄉,百度一下,便能擁有翻譯專家相伴隨行。

相關焦點

  • 號稱要砸翻譯飯碗,神經機器翻譯哪家強?
    Google新發布了神經機器翻譯(GNMT:Google Neural Machine Translation)系統,並稱該系統使用了當前最先進的訓練技術,能夠實現到當下機器翻譯質量上最大的提升。有從事翻譯職業的網友甚至這樣形容:作為翻譯看到這個新聞的時候,我理解了18世紀紡織工人看到蒸汽機時的憂慮與恐懼。
  • 什麼是神經機器翻譯(NMT)?
    機器翻譯翻譯行業不斷發展以滿足客戶的需求,神經機器翻譯(NMT)是這一進程的最新一步。由於能夠一次翻譯整個句子,NMT的輸出可以類似於人工翻譯。隨著越來越多的企業走向全球化,NMT可能會對翻譯行業產生巨大影響。
  • 機器之心獨家對話百度 NLP:先解決語義理解,再談機器翻譯取代人類
    翻譯質量對比,來自 Google Research Blog即便如此,網友發現其翻譯效果雖有顯著提升,但仍未避免將「我想下班」翻譯為「I want to work」等低級錯誤(第二天已被修復)。事實上百度的在線翻譯系統,一年前就應用了基於神經網絡的翻譯方法(NMT)。
  • 百度翻譯上線,只支持中英文互譯
    【搜狐IT消息】百度在線翻譯新版近日正式上線,據悉,百度翻譯將支持中文、英文免費在線翻譯;同時支持網頁翻譯,用戶可在輸入框直接輸入網頁地址
  • 將科幻變成現實,谷歌百度用神經機器翻譯踐行人類的「巴別塔之夢」
    變革性的神經機器翻譯去年,谷歌提出了GNMT,神經機器翻譯(NMT: Neural Machine Translation)是一種用於自動翻譯的端到端的學習方法,該方法有望克服傳統的基於短語的翻譯系統的缺點。但 NMT 系統的訓練和翻譯推理的計算成本非常高,同時也難以應對罕見詞,這些問題阻礙了 NMT 在實際部署和服務中的應用,因為在實際應用中,準確度和速度都很關鍵。
  • Caffe2新增RNN支持,Facebook全面轉向神經機器翻譯
    通過 Caffe2 RNN,Facebook 的神經機器翻譯的效率提升高達 2.5x,Facebook 全部的機器翻譯模型從基於短語的系統轉換為所有語言的神經模型。這意味著 Facebook 可在產品中部署神經機器翻譯了。我們很高興共享 Caffe2 在支持循環神經網絡(RNN)方面的最新成果。
  • 百度翻譯APP上線新版本 專業詞庫全新升級
    【IT168 應用】把「好幾斤」專業翻譯詞典素材裝進手機,是一種什麼體驗?近日,百度翻譯APP正式上線來源於牛津大學出版社的專業素材,新版本專業詞庫將全面升級,為用戶帶來更專業、權威的翻譯服務。今年7月,百度翻譯與牛津大學出版社達成授權協議,將源於牛津大學出版社的專業素材上線百度翻譯網頁端,好評如潮。如今,這套完整而龐大的詞彙數據上線百度翻譯APP,用戶只需下載百度翻譯APP,就可以免費享用「來源於牛津」的「好幾斤」專業內容,輕輕鬆鬆、隨時隨地地獲得專業、權威及最新的翻譯體驗。
  • 百度工具欄推出在線翻譯服務 打造完美英文閱讀體驗
    2010-04-09/09:36 日前,百度旗下瀏覽器輔助軟體百度工具欄與金山愛詞霸網聯手推出了在線翻譯服務
  • 說中文實時翻譯外語 百度手機輸入法打破語言限制
    因此,如何實現不同語言間的實時翻譯,也成為科技圈的重點研究領域。8月8日,百度手機輸入法Android v7.6正式上線,新增快捷翻譯功能,能夠滿足用戶在不同語言環境下的輸入需求。據悉,該版本支持全球28種語言互譯,用戶無需切換至翻譯APP,在輸入法面板中就可以直接翻譯,還能實現中文實時翻譯外語上屏,讓查單詞、外語聊天更容易,輕鬆打破語言結界。
  • 蘋果Siri翻譯究竟出了啥Bug?牛和「牛」傻傻分不清楚
    截止發稿前,蘋果Siri的翻譯功能已經部分從伺服器端取消涉及「牛bi」的詞條。直接詢問「……英文怎麼說」將反饋「這已經超出我的能力範圍」,但在調出翻譯功能界面後,仍能進行相關翻譯結果呈現。 不少網友和自媒體將其解讀為「侮X」的意圖,但從機器翻譯和機器學習的技術角度來看,這個帽子扣得有點「委屈」。
  • 蘋果Siri翻譯究竟出了啥Bug? ​牛和「牛」傻傻分不清楚-虎嗅網
    近日,Siri卻因為翻譯功能Bug背上「侮X」的名號。從機器翻譯的技術角度來看,這事蘋果多少有些「委屈」。事出有因。昨日,細心網友發現iPhone在涉及「華為牛bi」、「小米牛bi」等關鍵詞翻譯至英文時,會出現侮辱性詞彙「bitch」;但翻譯「蘋果牛bi」關鍵詞句時卻能顯示正確英文結果。
  • 如何評價Google神經機器翻譯(GNMT)系統?
    | Google Translate發展歷程:在2006 年Google團隊改進了——統計機器翻譯(statistical machine translation),並宣布上線Google Translate翻譯功能。
  • 對話百度王海峰:機器能翻譯,還需要學外語嗎?
    一是因為社會對於機器翻譯的需求日益旺盛,更重要的是,百度可以為這項研究提供網際網路大數據和大計算平臺的強大支持,」他說,「項目從起步到上線只用了一年多時間,現在百度翻譯已經可以支持27種語言之間的翻譯,在全球擁有5億用戶,每天響應約1億次的翻譯需求。」  耳聽為虛,眼見為實。王海峰隨手就拿起自己的手機,「來,我演示給你看。」
  • 谷歌翻譯竟然讀起了「聖經」
    IT之家7月21日消息 谷歌翻譯是一個方便的工具,其背後也有著基於人工智慧的學習技術。但是日前外媒Motherboard整理了來自Reddit論壇的帖子發現,谷歌翻譯在學習的過程中可能受到了輸入來源的影響,竟將一些意味不明的語句翻譯成了如聖經一般的語言。
  • 機器翻譯七十年:百度領跑神經網絡翻譯時代
    以統計機器翻譯(SMT)為例,它自上世紀90年代初提出,直到15年之後,才出現了第一個基於SMT技術的網際網路翻譯系統,得到了大規模的應用。而神經網絡翻譯技術從2014年9月提出,到百度2015年5月上線首個網際網路NMT系統,只用了短短8個月時間。這既體現了百度對於新技術敏銳的洞察力,也體現了百度翻譯的雄厚的技術實力。
  • Google 翻譯出現宗教話語,可能是因為用了聖經訓練模型導致
    上線 12 年,Google 翻譯現在支持 100 多種語言,覆蓋了全球 99% 的網民。這其中甚至包括信德語(巴基斯坦和印度)、科薩語(南非)等極少人使用的語種。但最近 Reddit 上有網民發現了一些奇特的現象——在某些語種下,一些特定的詞組會被 Google 翻譯成看似亂碼的宗教話語。
  • 機器翻譯革命強勢來襲 人類翻譯將無路可走?
    神經機器翻譯(NMT)自2014年在科學論文中首次被提及以來,已使機器翻譯領域出現翻天覆地的變化,它開始全面超越以統計模型為基礎的統計機器翻譯(SMT),快速成為在線翻譯系統的主流標配。神經機器翻譯的「神經元」可以學習和收集信息,模仿人類大腦的神經元建立聯繫。
  • 百度翻譯版本更新 新增日韓語音實時翻譯功能
    春節臨近,越來越多的人將「出境旅遊」納入到自己的春節旅行首選中。出國旅遊聽起來浪漫愜意,但身處異國他鄉、語言不通,想要少走冤枉路,還能吃得地道、玩得盡興,手機裡安裝一個翻譯軟體成為了當下年輕人的旅行標配。
  • 機器翻譯強勢來襲,50萬譯員將下崗?
    這一切都源於一項近年來不斷取得突破的技術——機器翻譯。克服「分割式」翻譯缺陷全球知名翻譯公司「一小時翻譯」執行長奧弗·紹尚日前警告說,未來1至3年內,基於神經網絡翻譯技術的機器翻譯將會承擔價值400億美元翻譯市場上的近一半工作,預計會導致50萬名翻譯失業。
  • 網易郵箱大師7.0上線英文郵件「一鍵翻譯」功能
    在版本新功能介紹中,官方強調:英文郵件可以在讀信頁「一鍵翻譯」,結合有道翻譯技術,翻譯準確,省時高效。1秒內精確翻譯1000字英文郵件據悉,網易郵箱大師APP7.0版本的英文郵件翻譯功能,結合了有道人工智慧翻譯技術,翻譯準確度高且省時高效:1000字的英文郵件內容,不到1秒即能翻譯完成,翻譯準確率超過國際同類型產品。