中新網12月22日電 機器翻譯距今已有70年的發展歷史。自上世紀40年代起,基於規則、實例以及統計的機器翻譯方法漸次登場,各領風騷。近兩年,神經網絡機器翻譯(Neural Machine Translation, NMT)技術異軍突起,取得了翻譯質量的大幅躍升。
12月21日,在百度機器翻譯技術開放日上,百度技術委員會聯席主席、自然語言處理部技術負責人吳華博士表示,基於領先的人工智慧、神經網絡以及自然語言處理技術,百度早在1年多以前就率先發布了世界上首個網際網路NMT系統,引領機器翻譯進入神經網絡翻譯時代。
先發制人:百度率先進入NMT時代
眾所周知,一項新的技術從實驗室誕生到真正的工業化應用,往往需要很長時間。以統計機器翻譯(SMT)為例,它自上世紀90年代初提出,直到15年之後,才出現了第一個基於SMT技術的網際網路翻譯系統,得到了大規模的應用。
而神經網絡翻譯技術從2014年9月提出,到百度2015年5月上線首個網際網路NMT系統,只用了短短8個月時間。這既體現了百度對於新技術敏銳的洞察力,也體現了百度翻譯的雄厚的技術實力。事實證明,NMT這一技術帶來了翻譯質量的大幅躍升,極大的提升了用戶體驗。
隨後,NMT以驚人的發展速度席捲學術界和工業界。在2016年學術界頂級會議上,幾乎全是圍繞NMT相關的創新工作,今年9月,谷歌、微軟等公司也相繼發布NMT系統。
NMT技術緣何受到追捧?據吳華介紹,它克服了傳統方法將句子分割為不同片段進行翻譯的缺點,而是充分利用上下文信息,對句子進行整體的編碼和解碼,從而產生更為流暢的譯文。
攻堅克難:NMT時代的百度式創新
「上線過程充滿挑戰,然而,對於每一個難題,我們都率先給出了高效的解決方案」回顧一年多前的上線歷程,吳華不無自豪的說。
儘管敏銳地洞察到NMT的優勢和潛力,在最初計劃上線該技術時,工程師們仍然表示了擔憂。畢竟,線上傳統的SMT系統經過長時間打磨,運作良好。而NMT剛剛提出幾個月的時間,儘管有優勢,但技術本身仍存在諸多缺陷,學術界也對其性能存在爭論甚至質疑。更不要提將其發布上線,面對廣大的網際網路用戶了。
「既然我們相信並且驗證了它是有用的,我們應該儘快讓它上線,提升用戶體驗」。簡單可依賴,百度工程師文化深入大家的骨髓。
彼時,對於NMT面臨的多個難題,並無成熟的解決方法。『既要看準方向,又要摸著石頭過河』。百度翻譯技術人員系統化地提出了一整套解決方案。譬如,通過引入SMT中的特徵解決NMT系統集外詞(OOV)無法翻譯、譯文不完整(漏詞)的問題,藉助算法改進將解碼速度提升數十倍;開創性地提出首個基於深度學習的多語言翻譯框架,解決數據稀疏問題;同時將模型壓縮70倍便於移動用戶在本地運行等。
在這一系列努力之下,吳華表示,「百度翻譯在中英的測試集上,翻譯質量比之前傳統的方法提升了7個百分點以上。」而通常,提升1個百分點,效果就非常顯著了。2015年5月20日,百度翻譯正式上線NMT系統,成為世界範圍內第一個真正實用的NMT系統。
隨後,在7月份的自然語言處理頂級會議ACL年會上,百度NMT翻譯系統又擔任了終身成就獎頒獎典禮的實時翻譯,在眾多世界級專家面前亮相展示。
同年,百度翻譯獲得了國家科技進步二等獎。百度也成為首個獲此殊榮的網際網路企業。
服務大眾:場景落地與大規模工業化應用
技術最終要服務大眾,否則就是鏡中月、水中花。在一系列技術創新的同時,百度翻譯結合用戶真實的使用場景,不斷豐富產品功能,優化用戶體驗。目前,百度翻譯支持全球28種語言互譯、756個翻譯方向,每日響應過億次的翻譯請求。
民警用百度翻譯救助外國友人、公交車售票員用百度翻譯幫助巴基斯坦小夥子找回失物、遊客利用『對話翻譯』、『拍照翻譯』功能在國外自由溝通等等,都表明了百度翻譯越來越多的融入了我們的生活。
此外,百度翻譯還開放了API接口,助力廣大企業國際化。目前已有超過2萬個第三方應用接入。華為、OPPO、中興、三星等手機廠商,金山詞霸、靈格斯詞霸、敦煌網等眾多產均接入了百度翻譯API。世界智慧財產權組織(WIPO)也將百度翻譯API集成到官網,供用戶將專利信息翻譯成不同語種查詢。
砥礪前行:不斷創新,擴大領先優勢
「NMT時代我們走在了世界前列,我們需要適應並一直保持領跑者的角色。以前我們是跟跑、並跑,現在我們要帶著別人跑」吳華在活動上如是說道。
事實上,這不僅是對機器翻譯而言,對於整體的科學技術領域,中國科技企業正逐步擺脫跟跑、並跑。
本文系轉載,不代表參考消息網的觀點。參考消息網對其文字、圖片與其他內容的真實性、及時性、完整性和準確性以及其權利屬性均不作任何保證和承諾,請讀者和相關方自行核實。