機器翻譯七十年:百度領跑神經網絡翻譯時代

2020-12-12 參考消息

中新網12月22日電 機器翻譯距今已有70年的發展歷史。自上世紀40年代起,基於規則、實例以及統計的機器翻譯方法漸次登場,各領風騷。近兩年,神經網絡機器翻譯(Neural Machine Translation, NMT)技術異軍突起,取得了翻譯質量的大幅躍升。

12月21日,在百度機器翻譯技術開放日上,百度技術委員會聯席主席、自然語言處理部技術負責人吳華博士表示,基於領先的人工智慧、神經網絡以及自然語言處理技術,百度早在1年多以前就率先發布了世界上首個網際網路NMT系統,引領機器翻譯進入神經網絡翻譯時代。

先發制人:百度率先進入NMT時代

眾所周知,一項新的技術從實驗室誕生到真正的工業化應用,往往需要很長時間。以統計機器翻譯(SMT)為例,它自上世紀90年代初提出,直到15年之後,才出現了第一個基於SMT技術的網際網路翻譯系統,得到了大規模的應用。

而神經網絡翻譯技術從2014年9月提出,到百度2015年5月上線首個網際網路NMT系統,只用了短短8個月時間。這既體現了百度對於新技術敏銳的洞察力,也體現了百度翻譯的雄厚的技術實力。事實證明,NMT這一技術帶來了翻譯質量的大幅躍升,極大的提升了用戶體驗。

隨後,NMT以驚人的發展速度席捲學術界和工業界。在2016年學術界頂級會議上,幾乎全是圍繞NMT相關的創新工作,今年9月,谷歌、微軟等公司也相繼發布NMT系統。

NMT技術緣何受到追捧?據吳華介紹,它克服了傳統方法將句子分割為不同片段進行翻譯的缺點,而是充分利用上下文信息,對句子進行整體的編碼和解碼,從而產生更為流暢的譯文。

攻堅克難:NMT時代的百度式創新

「上線過程充滿挑戰,然而,對於每一個難題,我們都率先給出了高效的解決方案」回顧一年多前的上線歷程,吳華不無自豪的說。

儘管敏銳地洞察到NMT的優勢和潛力,在最初計劃上線該技術時,工程師們仍然表示了擔憂。畢竟,線上傳統的SMT系統經過長時間打磨,運作良好。而NMT剛剛提出幾個月的時間,儘管有優勢,但技術本身仍存在諸多缺陷,學術界也對其性能存在爭論甚至質疑。更不要提將其發布上線,面對廣大的網際網路用戶了。

「既然我們相信並且驗證了它是有用的,我們應該儘快讓它上線,提升用戶體驗」。簡單可依賴,百度工程師文化深入大家的骨髓。

彼時,對於NMT面臨的多個難題,並無成熟的解決方法。『既要看準方向,又要摸著石頭過河』。百度翻譯技術人員系統化地提出了一整套解決方案。譬如,通過引入SMT中的特徵解決NMT系統集外詞(OOV)無法翻譯、譯文不完整(漏詞)的問題,藉助算法改進將解碼速度提升數十倍;開創性地提出首個基於深度學習的多語言翻譯框架,解決數據稀疏問題;同時將模型壓縮70倍便於移動用戶在本地運行等。

在這一系列努力之下,吳華表示,「百度翻譯在中英的測試集上,翻譯質量比之前傳統的方法提升了7個百分點以上。」而通常,提升1個百分點,效果就非常顯著了。2015年5月20日,百度翻譯正式上線NMT系統,成為世界範圍內第一個真正實用的NMT系統。

隨後,在7月份的自然語言處理頂級會議ACL年會上,百度NMT翻譯系統又擔任了終身成就獎頒獎典禮的實時翻譯,在眾多世界級專家面前亮相展示。

同年,百度翻譯獲得了國家科技進步二等獎。百度也成為首個獲此殊榮的網際網路企業。

服務大眾:場景落地與大規模工業化應用

技術最終要服務大眾,否則就是鏡中月、水中花。在一系列技術創新的同時,百度翻譯結合用戶真實的使用場景,不斷豐富產品功能,優化用戶體驗。目前,百度翻譯支持全球28種語言互譯、756個翻譯方向,每日響應過億次的翻譯請求。

民警用百度翻譯救助外國友人、公交車售票員用百度翻譯幫助巴基斯坦小夥子找回失物、遊客利用『對話翻譯』、『拍照翻譯』功能在國外自由溝通等等,都表明了百度翻譯越來越多的融入了我們的生活。

此外,百度翻譯還開放了API接口,助力廣大企業國際化。目前已有超過2萬個第三方應用接入。華為、OPPO、中興、三星等手機廠商,金山詞霸、靈格斯詞霸、敦煌網等眾多產均接入了百度翻譯API。世界智慧財產權組織(WIPO)也將百度翻譯API集成到官網,供用戶將專利信息翻譯成不同語種查詢。

砥礪前行:不斷創新,擴大領先優勢

「NMT時代我們走在了世界前列,我們需要適應並一直保持領跑者的角色。以前我們是跟跑、並跑,現在我們要帶著別人跑」吳華在活動上如是說道。

事實上,這不僅是對機器翻譯而言,對於整體的科學技術領域,中國科技企業正逐步擺脫跟跑、並跑。

本文系轉載,不代表參考消息網的觀點。參考消息網對其文字、圖片與其他內容的真實性、及時性、完整性和準確性以及其權利屬性均不作任何保證和承諾,請讀者和相關方自行核實。

相關焦點

  • 神經網絡機器翻譯技術及應用(下)
    何中軍,百度機器翻譯技術負責人。本文根據作者2018年12月在全球架構師峰會上的特邀報告整理而成。神經網絡機器翻譯技術及應用(上)篇,我們為大家介紹了神經網絡機器翻譯的基本原理和挑戰,(下)篇繼續為大家講述機器翻譯的應用與未來。前面我們講了機器翻譯的原理以及神經網絡翻譯的發展、以及面臨的挑戰,我們現在看一看,機器翻譯現在有哪些應用?
  • 將科幻變成現實,谷歌百度用神經機器翻譯踐行人類的「巴別塔之夢」
    過去幾年,機器智能的快速發展已經給我們的語音識別和圖像識別能力帶來了巨大的提升,但改進機器翻譯仍然是一個高難度的目標。而隨著眾多公司對神經機器翻譯的研究,我們已經階段性的解決了機器翻譯問題。神經網絡機器翻譯技術成為人工智慧翻譯主流。該技術通過「端到端」的方法將翻譯平行語料進行映射,以「編碼器—注意力機制—解碼器」的結構來解決翻譯問題。
  • 陽光學院打造「語用神經網絡機器翻譯」系統
    中國網海峽訊 隨意打開一個英文網頁,複製相關內容到「語用神經網絡機器翻譯」系統裡,不一會兒就能準確翻譯出中文,而且詞語和語法邏輯均順暢可讀…近日,在陽光學院外國語與海外教育學院召開的「語料庫與語用神經網絡機器翻譯研究」專家論證會上,陽光學院「
  • 百度大腦開放日召開機器翻譯專場 百度AI同傳翻譯性能可媲美人類
    機器翻譯作為人工智慧關鍵技術之一,正日益成為企業智能化升級的重要應用場景。12月1日,百度大腦開放日舉辦了以「機器翻譯 溝通全世界」為主題的專場活動。IDC中國副總裁兼首席分析師武連峰、百度AI技術生態部總經理劉倩、百度人工智慧技術委員會主席何中軍進行主題演講,同時與在場的40多位來自金融、製造、能源等行業企業信息化負責人聚焦機器翻譯的價值、企業應用需求、未來發展趨勢等話題展開深入的互動討論,分享最佳實踐經驗,助力企業更好的提升機器翻譯大規模產業化應用,推動企業智能化升級。會上,武連峰講到,企業具備全球化信息能力非常重要。
  • 百度機器翻譯團隊獲得WMT2019中英翻譯冠軍
    8月1日,WMT2019國際機器翻譯大賽研討會在義大利佛羅倫斯召開。本屆大賽,百度機器翻譯團隊在中文-英文翻譯任務上獲得冠軍。今年中英方向參賽隊伍有來自微軟、字節跳動、金山、愛丁堡大學、東北大學、日本情報通信研究院等國內外知名機器翻譯團隊。本屆大賽,百度翻譯團隊憑藉在數據處理、模型架構、數據增強、模型集成等方面的創新性突破,最終力壓群雄,取得第一。
  • Google發布神經網絡機器翻譯系統:支持中英
    基於短語的機器學習會將輸入句子分解成詞和短語,然後對其中的大部分進行獨立翻譯。神經網絡機器翻譯則將整個輸入句子視作翻譯的基本單元,優點是所需調整更少,很快就在中等規模的公共基準數據集上達到了與基於短語的翻譯系統不相上下的準確度。
  • 如何評價Google神經機器翻譯(GNMT)系統?
    幾年前,Google開始使用循環神經網絡來直接學習一個輸入序列(如一種語言的一個句子)到一個輸出序列(另一種語言的同一個句子)的映射。其中基於短語的機器學習(PBMT)將輸入句子分解成詞和短語,然後對它們的大部分進行獨立翻譯,而神經網絡機器翻譯(NMT)則將整個輸入句子視作翻譯的基本單元。
  • 號稱地表最強的神經機器翻譯,為什麼還是不盡如人意?
    題圖來自:視覺中國14年到16年,機器翻譯領域可以說是翻天覆地。這期間發生的大事,是以神經網絡作為基礎的機器翻譯,開始在全面超越此前以統計模型為基礎的統計機器翻譯(SMT),並快速成為在線翻譯系統的主流標配。在這場革命之後,機器翻譯徹底進入了Neural Machine Translation,即NWT神經機器翻譯時代。
  • 機器之心獨家對話百度 NLP:先解決語義理解,再談機器翻譯取代人類
    機器之心原創作者:虞喵喵9 月 28 日,Google 在 Research Blog 中介紹其神經網絡機器翻譯系統(GNMT)進展,譯文質量的大幅提升引發業內極大關注。據稱,在雙語評估者的幫助下,通過對維基百科和新聞網站的例句測定,在多個樣本的翻譯中谷歌神經網絡機器翻譯系統將錯誤降低了 55-85%甚至更多。
  • 英漢翻譯so easy!谷歌發布神經網絡翻譯系統
    谷歌發布神經網絡翻譯系統 Google今天宣布發布Google神經網路機器翻譯系統(Google Neural Machine Translation),簡稱GNMT,使用當前最先進的訓練技術,能夠實現到迄今為止機器翻譯質量的最大提升。
  • 神經網絡加持,即時拍照翻譯哪家強?
    在谷歌新一輪的更新之後,即時相機翻譯再次進化,支持語種數量達到了88種,可譯語言更是超過了100種。以前的版本還只支持中英文互譯,現在,無論是日語韓語馬來語,還是法語德語阿拉伯語,通通都能在相機裡直接顯示成中文。甚至沒有網絡,也依然好用。
  • 谷歌翻譯啟用全新神經網絡機器翻譯支持印地語、俄國和越南語
    《谷歌翻譯啟用全新神經網絡機器翻譯支持印地語、俄國和越南語》文章已經歸檔,不再展示相關內容,編輯建議你查看最新於此相關的內容:牽手Google,王雪紅意欲成就HTC再次起飛HTC與Google籤署戰略合作協議的消息傳出後
  • 對話百度王海峰:機器能翻譯,還需要學外語嗎?
    百度提供圖片  「百度翻譯在科研水平和應用價值兩方面都有很大優勢,在國際上處於領先水平,符合國家科技進步獎的標準。」他說。  2010年,剛剛加入百度的王海峰著手研發機器翻譯。「當時,我預料這個領域的研究一定會有重大突破。
  • 谷歌翻譯新技能 離線也可使用神經機器翻譯
    【TechWeb報導】6月13日消息,近日谷歌宣布將更新Android與iOS版本的Google Translate應用,此次更新最值得關注的一點便是,即使終端設備處於無法聯網的狀態,也可使用神經機器翻譯(NMT)技術進行翻譯,全新版本已於即日起陸續進行推送。
  • 全球AI翻譯服務代表性提供商揭曉 百度翻譯價值凸顯強勢入圍
    近日,全球權威的技術研究與諮詢機構Gartner發布最新報告《Market Guide for AI-Enabled Translation Services》,百度憑藉在機器翻譯方面出色的表現強勢入圍全球AI翻譯服務代表性提供商(representative vendor)。
  • 學界| 對比神經機器翻譯和統計機器翻譯:NMT的六大挑戰
    作者:Ozan alayan機器之心編譯參與:蔣思源、Smith本文總結了最近發表的論文「神經機器翻譯的六大挑戰(Six Challenges for Neural Machine Translation)」,並希望讀者能看到神經機器翻譯的不足和未來的發展方向。
  • 百度翻譯閃耀MIT年度科技大會 吳華現場展示翻譯機
    其中,百度受邀作為機器翻譯領域的代表,向全世界展示機器翻譯最新進展,無疑是對百度翻譯乃至中國科技競爭力的極大肯定。  現場,吳華結合百度的具體實踐,介紹了機器翻譯的歷史以及神經網絡機器翻譯取得的巨大進步。吳華表示,世界語言的多樣性使得人類一直存在「巴別塔困境」,而機器翻譯的使命正是運用人工智慧打破人與人之間交流的障礙,這同時也是人工智慧的終極目標之一。
  • 百度機器翻譯獲國家科技進步獎
    1月8日,2015年度國家科學技術獎勵大會在人民大會堂舉行,百度機器翻譯項目獲頒國家科學技術進步獎二等獎,這是該獎項首次出現網際網路巨頭(BAT)的身影。   機器翻譯一直被公認為人工智慧領域最難的課題之一,百度機器翻譯的突破性成果,使我國掌握了網際網路機器翻譯的核心技術,佔領了技術制高點。
  • BAT、谷歌、Facebook都在搞的神經機器翻譯,真的就地表最強了嗎?
    2014年到2016年,機器翻譯領域可以說是翻天覆地。這期間發生的大事,是以神經網絡作為基礎的機器翻譯,開始在全面超越此前以統計模型為基礎的統計機器翻譯(SMT),並快速成為在線翻譯系統的主流標配。在這場革命之後,機器翻譯徹底進入了Neural Machine Translation,即NMT神經機器翻譯時代。很多人為此歡欣鼓舞。
  • 百度翻譯每天響應超千億字符翻譯請求 跨越世界自由溝通的「語言...
    機器翻譯作為人工智慧關鍵技術之一,正日益成為企業智能化升級的重要應用場景。12月1日,百度大腦開放日舉辦了以「機器翻譯 溝通全世界」為主題的專場活動。IDC中國副總裁兼首席分析師武連峰、百度AI技術生態部總經理劉倩、百度人工智慧技術委員會主席何中軍進行主題演講,同時與在場的40多位來自金融、製造、能源等行業企業信息化負責人聚焦機器翻譯的價值、企業應用需求、未來發展趨勢等話題展開深入的互動討論,分享最佳實踐經驗,助力企業更好的提升機器翻譯大規模產業化應用,推動企業智能化升級。會上,武連峰講到,企業具備全球化信息能力非常重要。