去年5月,百度率先將基於神經網絡的機器翻譯(Neural Machine Translation,簡稱NMT)納入百度翻譯中,推出全球首個基於深度學習的在線翻譯系統。
這個系統有多厲害呢?簡單來說,從前翻譯系統是將一句話拆分成單詞或者詞組進行翻譯,這樣的翻譯結果往往會導致語句不通,出現各種鬧笑話的「中式英語」。
而上線了NMT系統後,機器翻譯會將一句話視為整體進行解碼,可以很好地利用上下文信息,獲得更為流暢的譯文。譬如,「給你點顏色看看」這句話,不具備NMT系統或技術不夠完善的機器翻譯往往會將其譯為「Give you some color to see see」,而上線了NMT系統的百度翻譯則可以非常地道地向老外講出漢語語境中「顏色」的深意了。
一番試驗下來,無論是類似「我的電腦有點卡」的口語化表達,還是「蘿蔔青菜各有所愛」類似的俗語,以及「溫故而知新」等論語名句和「欲窮千裡目更上一層樓」這樣的古典詩詞,有了NMT系統,百度翻譯的漢譯英水平提升顯著。
不過,儘管現如今NMT的強大技術加持讓普通用戶和資深譯員都欣喜萬分,在500天前,上不上線它還是一件讓工程師們頗為頭疼的事情。「去年初國際上NMT的研究剛起步不久,一方面大部分的研究人員、業內專家對於NMT技術還持觀望甚至懷疑的態度,另一方面NMT自身存在的一些缺陷導致其無法達到線上實用的狀態。」百度翻譯技術人員表示,那時包括百度、Google在內的網際網路公司所使用的基於短語的統計機器翻譯(SMT)方法,已經沿用十多年,也有不錯的效果。考慮以上因素,要不要上線NMT系統,對於百度翻譯團隊來說是一個艱難且需要勇氣的抉擇。
不過最終,百度還是決定做「第一個吃螃蟹」的翻譯系統,在中英、中日、中韓等多個語種互譯上線NMT系統,並憑藉頂尖的翻譯技術和出色的語言處理能力成功斬獲國家科技進步二等獎,隨後在業內引發NMT研究熱潮。
那麼,對中譯英研究如此透徹的百度翻譯是否可以比肩字幕組了呢?當面臨更為情景化的現實生活場景時,機器翻譯要理解的可不僅僅是上下文,有時候還面臨著前後一整段話的考驗,甚至需要識別說話的當事人。
(故事背景是翻箱倒櫃之後找出了《魔戒》同款打造的戒指,
這對於極客的意義你懂得,於是nerdy有了不一樣的意思)
不過,這在未來並不是不可實現的,在百度翻譯全新上線的拍照翻譯功能中,便已經開始涉及「實物翻譯」,通過讀圖,在識別圖中元素的基礎上實現翻譯。未來的某一天,或許我們再也不必啃「生肉」,只需要打開百度翻譯,它便能夠認出劇中角色,並且譯出符合主人公個性的話。
總而言之,NMT系統的上線,帶給了百度翻譯全新的想像空間,隨著語音識別、圖片識別等人工智慧技術的進一步提高,未來,行走異國他鄉,百度一下,便能擁有翻譯專家相伴隨行。