不論是國外的谷歌,還是國內的搜索巨頭百度、搜狗、360等,均把NMT作為AI翻譯的標配,翻譯集中的領域在中英互譯上,這是一個很有趣的現象。AI翻譯真的是塊肥肉嗎?為什麼要發力NMT?
搜索公司在AI翻譯這個事上扎堆並不令人意外。
2016年,GNMT技術(谷歌的神經網絡機器翻譯技術,模仿人腦的神經思考模式)全面布局於谷歌翻譯系統中,隨後,谷歌聲稱其AI翻譯的譯文質量誤差降低了55%-85%,並且將此技術廣泛應用於網頁翻譯與手機應用。
國內,百度當時已經研究出了可應用的SMT技術(統計機器翻譯),但得知NMT的橫空出世之後,便迅速調轉方向轉而研發NMT技術,於是就有了BNMT應用於百度翻譯。儘管初時的百度翻譯速度很慢。但是,百度當時反應也佐證NMT的價值性。
搜狗、阿里、騰訊等公司也都有部署NMT領域,推出多款基於神經網絡的在線翻譯和手機應用,在智能翻譯領域持續發力。360搜索也不願落後,上線了基於NMT的360翻譯,以期與去年上線的360英文搜索形成合力,且還拉來了微軟旗下的搜尋引擎Bing開展技術合作。
但是我們會發現:不論是谷歌還是BAT,其智能翻譯從未能聲稱能替代人工翻譯,因為翻譯還必須考慮到到使用者的情感及文化背景。從2016年起至今的兩年時間裡,對海量語料的深度學習逐漸成為AI開發的必修課,也成了巨頭們布局AI翻譯繞不過的「坎」。
前面說到,不論是國外的谷歌,還是國內的搜索巨頭百度、搜狗、360等,均把NMT作為AI翻譯的標配,翻譯集中的領域在中英互譯上,這是一個很有趣的現象。AI翻譯真的是塊肥肉嗎?惹得誰也不願意掉隊。
據統計表明:全球一共有73個國家,超10億人以英語為官方語言,而漢語則是世界使用人數最多的語言。因此,中英互譯本身的用戶基數市場就能引起巨頭們足夠的注意力了。
為什麼要發力NMT?
這得從AI翻譯人類語言的方式說起,包含三種:
SMT與NMT都屬於第三種,從語料自動學習翻譯模型,結合大數據通過評分輸出翻譯結果。但是,SMT與NMT存在著顯著的差距。
SMT採用的模式是通過平行語料進行統計分析,翻譯的準確性則與語料的豐富度呈明顯的正相關,但是存在著翻譯結果太過零散,片面生硬,語法語義混亂的劣勢。
而模仿人類神經網絡構建模型,NMT是以一個句子為基本的處理單元,好處在於翻譯過程中有著更好的語感,能降低SMT翻譯的關於「形態、句法、詞序」等方面出錯的概率。
因此,NMT在技術上恰巧可以有效彌補SMT的缺陷。而隨著語料不斷地加碼,AI翻譯的準確度也就高得多。
搜狗同傳翻譯在某次國際性會議上,聲稱其神經網絡機器翻譯技術已達臨界點,並在進行大規模商用推廣。只是,搜狗的同傳還是在國際會議上出過爭議,結果不盡如人意。
即便在正式的場合能夠應對自如的搜狗,在非正式場合會是怎樣一種情況呢?
很多時候的中英交流多以口語化形式出現,對「語境」的理解遠比「語法和詞彙」難得多。下文我們將就幾組語句進行討論,以下從搜狗、360搜索、百度以及谷歌四大平臺進行對比。
第一組:獻上我的膝蓋。
看看,最近這句網絡常用語各翻譯平臺的水平
測試結果是搜狗、百度、谷歌均傾向於單詞表面意思的翻譯,並未能結合具體的文化背景,360對於該網絡用語的解釋稍顯老練。
第二組:詩詞,選自杜甫的《登高》。
因其詩中主要是以諸多意象組成的意境,看翻譯能否反饋這種情感。
《登高》原文摘選:風急天高猿嘯哀,渚清沙白鳥飛回。
英語譯文:
有趣的是將各自翻譯的英文譯成中文時,沒有一個平臺能還原。而在詩歌的中譯英中360能夠結合「語境」處理詩中的意向要素,搜狗翻譯表達出了「悲愴」的情感,而百度翻譯和谷歌翻譯則完全是從字面上進行翻譯,破壞了詩的美好。
第三組:新聞,選自紅網。
語言簡練正式,但涉及的元素較多,對語法的要求性比較高。
原文:據長沙市住房和城鄉建設委員會網站顯示,2018年5月23日,長沙共計有兩個項目獲批預售證,均位於雨花區,分別為五礦萬境藍山和創元時代。
譯文:
同一段新聞,出現了四種不同的譯法。同一語句中各家強調的點不一樣,譬如:首句的「長沙市住房和城鄉建設委員會」,360的翻譯結果更顯得專業並符合慣常表述。「長沙市」只是作為補充詞出現,而搜狗、百度和谷歌的翻譯中,「長沙市」則是作為硬性的地名出現。
尤為值得注意的是:根據語境,「五礦萬境藍山」和「創元時代」都是樓盤名字,應當由漢語拼音直譯,只有360識別到這一點,搜狗、百度和谷歌三家都在「礦」、「藍山」、「創元」、「時代」等字眼上糾結。
從這三組中,我們能發現360偏好於基於「語境」的邏輯進行分詞,雖然也有做的不到位的,像針對詩詞這樣複雜的情感語句就無法準確傳達,但是在「流行語」優勢明顯。
而谷歌和百度基本上是基於詞組進行斷句,因此,翻譯也是一個詞一個詞,尤其是對古詩詞的理解,谷歌就顯得比較憂愁了。
因此,AI翻譯的問題主要反映在三大方面:
翻譯界老將何恩培曾講:
「機器翻譯一直被公認為人工智慧領域最難的課題之一。而且語言背後的多元文化和複雜社會屬性,註定了語言規則不可能規律化」。
但是,中國有句老話:勤能補拙。
對於AI翻譯而言,最難的不是技術,而是「語境」理解,而AI翻譯能力的級別高低又體現在這,集中體現了平臺餵養語料的資源狀況。AI翻譯能否「地道」,取決於以下幾點。
這影響到翻譯準確程度,取決於信息資源的整合能力。不論是BAT,還是360、搜狗、有道等,都在注重內容生態建設,搜狗有了騰訊微信入口搜索,360搶佔了安全領域的數據來源。
但是,這不可能是一個完全開放的體系,沒有哪一家能夠整合整個網際網路的資源,各平臺訓練資料庫各有側重,AI翻譯特色也不盡相同,例如:360翻譯側重於地道的口語與流行語,百度翻譯則顯得大而全。
國內對標競品之間的合作相對較難,但中外數據交流卻是最好的互補。因此,百度上線過英文搜索產品,而360與微軟Bing有過技術合作。
此外,有了國界互譯也變得更有意義。因此,中外數據合作,或許對於文化背景的數據積澱有很好的補充,也是擴充深度學習的語料最直接的方式。
除了詩詞蘊含深厚文化底蘊外,網絡語和口語是與一個地域的文化最為接近的語言形態,時下搜尋引擎從被動搜索向主動的,基於用戶興趣的內容推薦引擎轉型,這對於構建口語語料訓練模型倒是一個不錯的嘗試。
總之,AI翻譯能夠精準識別「語境」是需要很長一段路要走!
【完】
曾響鈴,微信公眾號:科技向令說,人人都是產品經理專欄作家。TMT新媒體「鈴聲」創始人,《移動網際網路+ 新常態下的商業機會》《趨勢革命:重新定義未來四大商業機會》作者,《網紅經濟學》作者之一,《商界》等多家雜誌撰稿人。重點關注SaaS、智能硬體、網際網路金融、O2O、新媒體運營方向。
本文原創發布於人人都是產品經理。未經許可,禁止轉載。
題圖來自 Pixabay,基於 CC0 協議