機器翻譯七十年:百度領跑神經網絡翻譯時代

2020-12-11 參考消息

中新網12月22日電 機器翻譯距今已有70年的發展歷史。自上世紀40年代起,基於規則、實例以及統計的機器翻譯方法漸次登場,各領風騷。近兩年,神經網絡機器翻譯(Neural Machine Translation, NMT)技術異軍突起,取得了翻譯質量的大幅躍升。

12月21日,在百度機器翻譯技術開放日上,百度技術委員會聯席主席、自然語言處理部技術負責人吳華博士表示,基於領先的人工智慧、神經網絡以及自然語言處理技術,百度早在1年多以前就率先發布了世界上首個網際網路NMT系統,引領機器翻譯進入神經網絡翻譯時代。

先發制人:百度率先進入NMT時代

眾所周知,一項新的技術從實驗室誕生到真正的工業化應用,往往需要很長時間。以統計機器翻譯(SMT)為例,它自上世紀90年代初提出,直到15年之後,才出現了第一個基於SMT技術的網際網路翻譯系統,得到了大規模的應用。

而神經網絡翻譯技術從2014年9月提出,到百度2015年5月上線首個網際網路NMT系統,只用了短短8個月時間。這既體現了百度對於新技術敏銳的洞察力,也體現了百度翻譯的雄厚的技術實力。事實證明,NMT這一技術帶來了翻譯質量的大幅躍升,極大的提升了用戶體驗。

隨後,NMT以驚人的發展速度席捲學術界和工業界。在2016年學術界頂級會議上,幾乎全是圍繞NMT相關的創新工作,今年9月,谷歌、微軟等公司也相繼發布NMT系統。

NMT技術緣何受到追捧?據吳華介紹,它克服了傳統方法將句子分割為不同片段進行翻譯的缺點,而是充分利用上下文信息,對句子進行整體的編碼和解碼,從而產生更為流暢的譯文。

攻堅克難:NMT時代的百度式創新

「上線過程充滿挑戰,然而,對於每一個難題,我們都率先給出了高效的解決方案」回顧一年多前的上線歷程,吳華不無自豪的說。

儘管敏銳地洞察到NMT的優勢和潛力,在最初計劃上線該技術時,工程師們仍然表示了擔憂。畢竟,線上傳統的SMT系統經過長時間打磨,運作良好。而NMT剛剛提出幾個月的時間,儘管有優勢,但技術本身仍存在諸多缺陷,學術界也對其性能存在爭論甚至質疑。更不要提將其發布上線,面對廣大的網際網路用戶了。

「既然我們相信並且驗證了它是有用的,我們應該儘快讓它上線,提升用戶體驗」。簡單可依賴,百度工程師文化深入大家的骨髓。

彼時,對於NMT面臨的多個難題,並無成熟的解決方法。『既要看準方向,又要摸著石頭過河』。百度翻譯技術人員系統化地提出了一整套解決方案。譬如,通過引入SMT中的特徵解決NMT系統集外詞(OOV)無法翻譯、譯文不完整(漏詞)的問題,藉助算法改進將解碼速度提升數十倍;開創性地提出首個基於深度學習的多語言翻譯框架,解決數據稀疏問題;同時將模型壓縮70倍便於移動用戶在本地運行等。

在這一系列努力之下,吳華表示,「百度翻譯在中英的測試集上,翻譯質量比之前傳統的方法提升了7個百分點以上。」而通常,提升1個百分點,效果就非常顯著了。2015年5月20日,百度翻譯正式上線NMT系統,成為世界範圍內第一個真正實用的NMT系統。

隨後,在7月份的自然語言處理頂級會議ACL年會上,百度NMT翻譯系統又擔任了終身成就獎頒獎典禮的實時翻譯,在眾多世界級專家面前亮相展示。

同年,百度翻譯獲得了國家科技進步二等獎。百度也成為首個獲此殊榮的網際網路企業。

服務大眾:場景落地與大規模工業化應用

技術最終要服務大眾,否則就是鏡中月、水中花。在一系列技術創新的同時,百度翻譯結合用戶真實的使用場景,不斷豐富產品功能,優化用戶體驗。目前,百度翻譯支持全球28種語言互譯、756個翻譯方向,每日響應過億次的翻譯請求。

民警用百度翻譯救助外國友人、公交車售票員用百度翻譯幫助巴基斯坦小夥子找回失物、遊客利用『對話翻譯』、『拍照翻譯』功能在國外自由溝通等等,都表明了百度翻譯越來越多的融入了我們的生活。

此外,百度翻譯還開放了API接口,助力廣大企業國際化。目前已有超過2萬個第三方應用接入。華為、OPPO、中興、三星等手機廠商,金山詞霸、靈格斯詞霸、敦煌網等眾多產均接入了百度翻譯API。世界智慧財產權組織(WIPO)也將百度翻譯API集成到官網,供用戶將專利信息翻譯成不同語種查詢。

砥礪前行:不斷創新,擴大領先優勢

「NMT時代我們走在了世界前列,我們需要適應並一直保持領跑者的角色。以前我們是跟跑、並跑,現在我們要帶著別人跑」吳華在活動上如是說道。

事實上,這不僅是對機器翻譯而言,對於整體的科學技術領域,中國科技企業正逐步擺脫跟跑、並跑。

本文系轉載,不代表參考消息網的觀點。參考消息網對其文字、圖片與其他內容的真實性、及時性、完整性和準確性以及其權利屬性均不作任何保證和承諾,請讀者和相關方自行核實。

相關焦點

  • 科技大會百度翻譯機:神經網絡機器使用翻譯,場景運用更加精準!
    百度對翻譯機的布局還要從2013年開始說起,我們知道隨著移動網際網路的加速成長AT開始了非常強勁的勢能,而作為BAT開頭的百度一直都在原地踏步,很多人都以為是百度不思進取,其實人家百度早就已經確立好了自己的發展方向只是需要點時間來完善自己。
  • 深度神經網絡機器翻譯
    今天有時間和大家一起討論下下, 深度神經網絡機器翻譯。前言2016年年底, Google公布了神經網絡機器翻譯(GNMT), 從此宣告, 機器翻譯經過27年左右, 正式從1989年的IBM機器翻譯模型(PBMT,基於短語的機器翻譯),過渡到了神經網絡機器翻譯模型。已經極大接近了普通人的翻譯了。
  • 百度何中軍:機器翻譯——從設想到大規模應用
    百度何中軍帶來報告《機器翻譯 —— 從設想到大規模應用》。何中軍,博士,百度人工智慧技術委員會主席,從事機器翻譯研究與開發十餘年,申請專利40餘項,研發了全球首個網際網路神經網絡翻譯系統、首個WiFi翻譯機、首個語義單元驅動的語音到語音同傳系統。
  • 神經網絡機器翻譯技術及應用(下)
    何中軍,百度機器翻譯技術負責人。本文根據作者2018年12月在全球架構師峰會上的特邀報告整理而成。神經網絡機器翻譯技術及應用(上)篇,我們為大家介紹了神經網絡機器翻譯的基本原理和挑戰,(下)篇繼續為大家講述機器翻譯的應用與未來。
  • 深度:回顧Google神經網絡機器翻譯上線歷程
    Google Translate作為久負盛名的機器翻譯產品,推出10年以來,支持103種語言,一直作為業界的標杆。而在前不久,Google官方對翻譯進行一次脫胎換骨的升級——將全產品線的翻譯算法換成了基於神經網絡的機器翻譯系統(Nueural Machine Translation,)。
  • 谷歌翻譯高勤:神經網絡技術將主導機器翻譯的未來
    谷歌翻譯研發科學家高勤  中國網科技7月11日訊 谷歌翻譯研發科學家高勤在今天舉行的中國網際網路大會上介紹稱,谷歌翻譯在神經網絡機器翻譯技術上已經取得重要進展,並同時對機器翻譯技術在未來當中實際應用。他表示:「神經網絡機器翻譯和非專業人工翻譯已經相當接近,對於中英文互譯也取得最大提升。」  高勤在大會上稱,神經網絡翻譯技術與傳統翻譯技術有很大不同。傳統機器翻譯技術是基於短語統計機器翻譯拼圖過程,嘗試找出較好翻譯選項,而神經網絡機器學習屬於利用雲語言與目標語言信息,使整各翻譯過程變得連續且完整。
  • 將科幻變成現實,谷歌百度用神經機器翻譯踐行人類的「巴別塔之夢」
    過去幾年,機器智能的快速發展已經給我們的語音識別和圖像識別能力帶來了巨大的提升,但改進機器翻譯仍然是一個高難度的目標。而隨著眾多公司對神經機器翻譯的研究,我們已經階段性的解決了機器翻譯問題。神經網絡機器翻譯技術成為人工智慧翻譯主流。該技術通過「端到端」的方法將翻譯平行語料進行映射,以「編碼器—注意力機制—解碼器」的結構來解決翻譯問題。
  • 百度大腦開放日召開機器翻譯專場 百度AI同傳翻譯性能可媲美人類
    機器翻譯作為人工智慧關鍵技術之一,正日益成為企業智能化升級的重要應用場景。12月1日,百度大腦開放日舉辦了以「機器翻譯 溝通全世界」為主題的專場活動。IDC中國副總裁兼首席分析師武連峰、百度AI技術生態部總經理劉倩、百度人工智慧技術委員會主席何中軍進行主題演講,同時與在場的40多位來自金融、製造、能源等行業企業信息化負責人聚焦機器翻譯的價值、企業應用需求、未來發展趨勢等話題展開深入的互動討論,分享最佳實踐經驗,助力企業更好的提升機器翻譯大規模產業化應用,推動企業智能化升級。會上,武連峰講到,企業具備全球化信息能力非常重要。
  • 百度機器翻譯團隊獲得WMT2019中英翻譯冠軍
    8月1日,WMT2019國際機器翻譯大賽研討會在義大利佛羅倫斯召開。本屆大賽,百度機器翻譯團隊在中文-英文翻譯任務上獲得冠軍。今年中英方向參賽隊伍有來自微軟、字節跳動、金山、愛丁堡大學、東北大學、日本情報通信研究院等國內外知名機器翻譯團隊。本屆大賽,百度翻譯團隊憑藉在數據處理、模型架構、數據增強、模型集成等方面的創新性突破,最終力壓群雄,取得第一。
  • 陽光學院打造「語用神經網絡機器翻譯」系統
    中國網海峽訊 隨意打開一個英文網頁,複製相關內容到「語用神經網絡機器翻譯」系統裡,不一會兒就能準確翻譯出中文,而且詞語和語法邏輯均順暢可讀…近日,在陽光學院外國語與海外教育學院召開的「語料庫與語用神經網絡機器翻譯研究」專家論證會上,陽光學院「
  • 人工神經網絡技術與機器翻譯實現融合
    )通過對人工神經網絡與深度學習技術的持續不斷投資,今年8月,在全球首次實現支持60多種語言對的新一代機器翻譯引擎「PNMT™」的商用化。 這次實現商用化的SYSTRAN PNMT™ (Pure Neural Machine Translation)是利用人工神經網絡技術的機器翻譯引擎,與現今機器翻譯市場上的兩大主流技術 -- 基於統計機器翻譯引擎和
  • 谷歌的神經翻譯系統意味著機器翻譯到盡頭了?
    整個的報告以機器翻譯為主線展開,大概分四部分:第一叫做機器翻譯的波瀾史,幾十年的發展一波三折,非常有意思;第二是機器翻譯現在主流的技術神經機器翻譯,還是可以改進的。我可以給大家看一些例子,並不是谷歌就做到頭了,還有很多的空間。
  • 機器翻譯應用價值凸顯 百度翻譯豐富產品矩陣助力企業智能化升級
    機器翻譯作為人工智慧關鍵技術之一,正日益成為企業智能化升級的重要應用場景。12月1日,百度大腦開放日舉辦了以「機器翻譯 溝通全世界」為主題的專場活動。
  • 號稱地表最強的神經機器翻譯,為什麼還是差強人意?
    14年到16年,機器翻譯領域可以說是翻天覆地。這期間發生的大事,是以神經網絡作為基礎的機器翻譯,開始在全面超越此前以統計模型為基礎的統計機器翻譯(SMT),並快速成為在線翻譯系統的主流標配。在這場革命之後,機器翻譯徹底進入了Neural Machine Translation,即NWT神經機器翻譯時代。很多人為此歡欣鼓舞。
  • Google發布神經網絡機器翻譯系統:支持中英
    基於短語的機器學習會將輸入句子分解成詞和短語,然後對其中的大部分進行獨立翻譯。神經網絡機器翻譯則將整個輸入句子視作翻譯的基本單元,優點是所需調整更少,很快就在中等規模的公共基準數據集上達到了與基於短語的翻譯系統不相上下的準確度。
  • 微軟Skype Translator用深層神經網絡提高機器語音翻譯質量
    Skype Translator與人腦一樣,會隨著數據輸入的不斷增多而變得越來越智能。Skype擁有32種語言版本,是全球增長最快的語音交流服務工具之一。Skype每個月有3億活躍用戶,可產生數萬億分鐘的對話,是機器翻譯最為理想的「實驗田」。
  • 神經網絡機器翻譯介紹
    機器翻譯是指通過計算機將源語言句子翻譯到與之語義等價的目標語言句子的過程,是NLP(自然語言處理)領域一個重要的方向。
  • 如何評價Google神經機器翻譯(GNMT)系統?
    幾年前,Google開始使用循環神經網絡來直接學習一個輸入序列(如一種語言的一個句子)到一個輸出序列(另一種語言的同一個句子)的映射。其中基於短語的機器學習(PBMT)將輸入句子分解成詞和短語,然後對它們的大部分進行獨立翻譯,而神經網絡機器翻譯(NMT)則將整個輸入句子視作翻譯的基本單元。
  • 機器之心獨家對話百度 NLP:先解決語義理解,再談機器翻譯取代人類
    機器之心原創作者:虞喵喵9 月 28 日,Google 在 Research Blog 中介紹其神經網絡機器翻譯系統(GNMT)進展,譯文質量的大幅提升引發業內極大關注。據稱,在雙語評估者的幫助下,通過對維基百科和新聞網站的例句測定,在多個樣本的翻譯中谷歌神經網絡機器翻譯系統將錯誤降低了 55-85%甚至更多。
  • Transformer新型神經網絡在機器翻譯中的應用|公開課筆記
    大家可以看到我PPT下面的幾個 LOGO,我們翻譯團隊是屬於阿里巴巴機器智能技術實驗室,中間是阿里翻譯的 Logo和我們的口號「Translate and Beyond」。這次分享的題目是「Transformer新型神經網絡在機器翻譯中的應用」。