有道段亦濤:人工智慧將顛覆機器翻譯

2020-11-27 IT168

  【IT168 廠商動態】2017GMIC(全球移動網際網路大會)未來創新峰會上,網易有道首席科學家段亦濤發表了《機器翻譯皆有道》的主題演講,分享了其在神經網絡翻譯領域的研究,並表示該技術將在有道詞典、有道翻譯官、有道翻譯網頁版等產品上陸續上線,這意味著超7億有道用戶將便捷地享受到這一技術帶來的便利。段亦濤表示,神經網絡翻譯是人工智慧在翻譯領域的具體應用,是目前最前沿的機器翻譯技術,它帶來的翻譯質量提升是過去十年的總和。

  

  以下是其演講原文(有刪減):

  大家好,很高興有機會在這裡跟大家分享有道在機器翻譯方面做的一些探索。先簡單自我介紹,我是網易有道首席科學家,本科和碩士在北航學飛機設計專業,博士在加州大學伯克利分校學計算機科學。之後我就加入了網易有道,目前主要關注機器學習領域,尤其是深度學習在機器翻譯、圖象識別、在線教育等方面的應用。

  神經網絡翻譯質量提升 是過去十年總和

  有道其實很早就開始做機器翻譯,我們在2008年就推出了機器翻譯的服務,應該是國內最早推出這一服務的網際網路公司。這兩年我們更關注把深度學習接入機器翻譯領域,我們研究成果是非常顯著的,我們的機器翻譯質量有非常大的提升。

  我們先看兩個例子,給大家一個直觀的感受。第一個例子是英譯中的,我們隨便從外媒選取了一段新聞報導,報導內容是關於前段時間巴黎恐怖事件。我們用各個翻譯引擎來進行了翻譯,第一個是統計翻譯模型,第二個是我們的神經網絡翻譯模型,第三種是某海外的神經網絡翻譯引擎。

  

  從上面的結果可以看出來,統計翻譯模型的結果拼湊感非常明顯,而且有些片斷翻譯還搞錯了,整體來看很不通順;有道的翻譯結果,可以看到是相當的準確和流暢的;第三個國外神經網絡翻譯模型的結果,可以看到不少的不準確的地方。

  

  我們再來看一個中譯英的例子,我們摘取了機器之心前段時間發布的一條消息。我們主要看看各家神經網絡翻譯的結果,可以看到,有道上線的神經網絡翻譯的結果,仍然是通順和準確的,這裡面幾乎沒有任何語法錯誤。這個結果,即使是普通人中等英文水平,都很難達到,但是我們的神經網絡翻譯做到了。再來看另個國外神經網絡模型的翻譯結果,其實還是看出有明顯的不合適的地方,比如「起起伏伏」以及一些詞之間的關係搞錯。

  也許有人會問,這些例子是不是精心挑選出來的。事實上,以上兩個例子只是我們隨機選出的兩個,沒有特別的篩選。我們對質量的評測非常嚴格和客觀,我們採用龐大的評測數據集,並在這個數據集上看整體的質量。大家可以下載有道翻譯官App直接體驗這個最新的翻譯結果。

  另外我們再看兩個數字,首先有道過去兩年研究神經網絡翻譯所帶來的質量提升差不多是過年十年質量提升的總和,同時這個技術很快會被有道旗下的超過7億的用戶便捷地享受到。

  人工智慧改變翻譯 更聰明更高效

  神經網絡模型是一個很前沿的技術,那它為什麼能夠在機器翻譯領域能起到如此大的作用呢?實際上,神經網絡模型模仿了人腦的工作機制,整個模型由大量的「神經元」來構成,一個「神經元」完成一些簡單的任務,然後通過對這些「神經元」的組合來協調工作,最終得到更加出色的效果。

  而以前的統計翻譯模型更像一個機械系統,它由很多個組件來構成,包括短語組件、分詞組件、條序組件還有原模型等等。每個模塊都是有各自的功能和各自的目標,然後機械地拼裝在一起,完成一個翻譯的結果。和它相比,神經網絡翻譯模型更像一個有機體,模型裡面有很多參數,這些參數都是為同一個目標來調整和優化的;它們中間的結合和交互更加有機,所以整體效果會更好。

  另一個不同是,兩種模型的內部信息的表達方式也不一樣。在統計翻譯模型裡,其表達方式能夠識別詞,但卻不能夠表達詞與詞之間的關係,比如兩個詞的詞義是相似還是相反的。而我們的神經網絡翻譯模型,它使用一個十數位的向量來表達每個詞,它的表達能力更豐富、更靈活,以及能夠更好地來表達詞和詞之間的關係。比如說「計算機」和「電腦」這兩個詞,那麼它們很可能在向量空間裡離得很近。這種表達方式能夠顧及到更多這樣的關係,它的內部表達是一個有機整體,從而生成更通順的翻譯結果。

  

  正如剛才所說,有道很早就開始研究機器翻譯領域,我們今天之所以在神經網絡翻譯領域能夠獲得這樣的效果,有幾方面的原因。

  首先,有道在機器翻譯領域深耕了近十年,我們積累了大量的優質的語料和技術。我們依託有道詞典積累的語料和用戶數據,能夠在英語學習這種翻譯場景下做到最好。其次,我們更加關注中文和其他外語之間的翻譯,所以火力更加集中,我們針對中文特有的語言現象做了非常多的優化,包括中文的分詞等等。這些優化都直接體現在最終的翻譯結果中。另外,我們集合網易公司的研發之力,和網易杭州研究院一起,攻克了數據處理、大規模框架、模型優化、領域適配等技術難題,開發了一些我們特有的技術,比如我們自己的領域適配技術,使得我們的模型能夠自動識別不同場景。目前已經在新聞、學習、口語和一些科技領域等場景下做到了最優。」

  我們做的神經網絡翻譯技術,目前可以很便捷讓用戶體驗到。比如用我們的翻譯引擎來做文本翻譯,翻譯效果比以前有了很大的提升;有道翻譯官的拍照翻譯,用戶只需要對文本進行拍照,就可實時展現出神經網絡翻譯的結果。另外,我們人工翻譯的團隊也開始全面使用有道上線的神經網絡翻譯技術,推出了「有道人機翻譯」服務:客戶提交訂單後,神經網絡翻譯模型會先做一版初步翻譯,譯員們再在這個基礎上進一步調整,這就很大地提高了翻譯效率,同時翻譯費用降低了50%。

  

  有道翻譯官拍照翻譯中的應用

  機器翻譯的未來 打破語言障礙

  回到問題的最初,我們為什麼要投入這麼巨大的人力物力財力,研究神經網絡機器翻譯呢?

  最直接和現實的價值就是,神經網絡翻譯能夠幫助人打破語言的障礙,使得信息的流通更加通常。縱觀歷史,信息交流的變革都是對人類技術進步有很強的刺激作用,往遠看有印刷術、造紙術,近代有無線和有線電報等,以及到今天網際網路。雖然目前來看,信息技術的發展使得數據傳輸不再是瓶頸,但是另一個面臨的問題就是語言的障礙,比如數據傳過來沒有問題,但能不能看懂和理解就是另外回事。那麼神經網絡翻譯能夠幫助人們打破這個障礙,使人的交流更加通常,這個意義是非常重大的。

  同時,神經網絡翻譯對整個人工智慧領域有明顯的促進作用。語言和文字體系是人類特有的特性,所以如果我們沒有真正的理解語言的機制,那麼就不可能說我們真正理解和做到人工智慧。而在神經網絡翻譯的研究過程中,既包括了對語言的理解,也包括了語言的生成,所以對它的研究能夠很好地促進人工智慧整體發展。

  也正因為如此,有道以及網易公司將以神經網絡翻譯技術為契機,進一步探索人工智慧與機器翻譯的結合,推動行業的技術創新和發展。

相關焦點

  • 網易有道上線神經網絡翻譯質量媲美英語八級
    作為受到丁磊親自「過問」、網易最重要技術創新之一,此次在有道上線的NMT技術,由網易有道與網易杭州研究院歷時兩年合力研發,將服務於有道詞典、有道翻譯官、有道翻譯網頁版、有道e讀等產品;這不但意味著借力於NMT技術,有道產品在語言翻譯質量方面將有巨大的提升——超過7億用戶將享受到NMT帶來的高效與便利,更意味著低調務實的網易,早已在人工智慧的領域未雨綢繆,並早於業界實現人工智慧技術在更廣泛網民中的深度使用
  • 網易「有道搜索」推出在線翻譯服務
    核心提示:昨天,網易公司相關人士向《第一財經日報》透露,網易旗下的「有道搜索」已推出在線翻譯服務測試版,成為國內首家採用自主技術開發機器翻譯的搜尋引擎廠商。
  • 深度揭秘Google翻譯:人工智慧的覺醒
    Google最新分部設立在倫敦國王十字區(King’s Cross),該分部的建成將成為Google轉型為「A.I.(人工智慧)第一」初期階段的裡程碑。外界眾說紛紜,不過不少人猜測,Google 公司的產品今後將不再是基於傳統電腦編程,而是機器學習。5年前建立的Google Brain部門就是基於這個思想:人工「神經網絡」將具備學習能力,甚至能像人類一樣。
  • 新華社人工智慧領域最具人氣APP影響力大獎揭曉,恭喜有道翻譯官上榜!
    網易有道旗下的有道翻譯官憑藉前沿的AI技術應用和優質翻譯服務,斬獲人工智慧領域最具影響力APP大獎,一同獲獎的APP還有搜狗輸入法、360瀏覽器、松鼠AI等知名應用。本次「青春中國-最具人氣APP推薦活動」由新華社主辦,旨在搭建業界高端交流平臺、探索中國網際網路新趨勢,是行業管理部門和億萬網民直接參與的全網絡APP產業盛事,社會影響非常廣泛。
  • 網易有道上線神經網絡翻譯,質量提升超過去十年總和
    IT之家4月28日消息 在日前舉行的GMIC(全球移動網際網路大會)未來創新峰會上,網易有道宣布:由網易公司自主研發的神經網絡翻譯( Neural Machine Translation,以下簡稱NMT)技術正式上線,該技術將服務於有道詞典、有道翻譯官、有道翻譯網頁版、有道e讀等產品,並給有道產品在語言翻譯質量方面帶來巨大提升
  • 百度機器翻譯獲國家科技進步獎
    1月8日,2015年度國家科學技術獎勵大會在人民大會堂舉行,百度機器翻譯項目獲頒國家科學技術進步獎二等獎,這是該獎項首次出現網際網路巨頭(BAT)的身影。   機器翻譯一直被公認為人工智慧領域最難的課題之一,百度機器翻譯的突破性成果,使我國掌握了網際網路機器翻譯的核心技術,佔領了技術制高點。
  • 機器翻譯七十年:百度領跑神經網絡翻譯時代
    中新網12月22日電 機器翻譯距今已有70年的發展歷史。自上世紀40年代起,基於規則、實例以及統計的機器翻譯方法漸次登場,各領風騷。近兩年,神經網絡機器翻譯(Neural Machine Translation, NMT)技術異軍突起,取得了翻譯質量的大幅躍升。
  • 人工智慧領域突破百度發布在線翻譯系統
    日前,百度在機器翻譯技術上取得重大突破,發布了融合統計和深度學習方法的在線翻譯系統。該系統藉助海量計算機模擬的神經元,模仿人腦「理解語言,生成譯文」,同時結合百度已有的統計機器翻譯技術,使得機器翻譯質量實現了質的飛躍。百度,再一次站到網際網路前沿技術的領先位置。  機器翻譯一直被公認為是人工智慧領域最難的課題之一。
  • 網易有道詞典筆,適合中小學生的翻譯神器
    想要用手機翻譯,但是手機又可能是中小學生的「違禁品」,對於中小學生來說,網絡可能會導致孩子學習成績下降。怎麼養來營造一個純淨的學習氛圍是老師和家長比較苦惱的,網絡帶來的負面影響的確很大,但是電子產品又的確可以給學習提供幫助,網易就根據這種情況,研發出了一款可以隨身攜帶的翻譯神器,網易有道詞典筆。
  • 圖像識別與人工智慧圖像識別和機器視覺有什麼區別
    人工智慧領域發展到現在,ai與人工智慧、圖像識別領域、計算機視覺領域等近年來越來越多的整合和融合。首先,人工智慧在生活工作中將普遍應用;其次,人工智慧在不同的工作場景都有其應用,從金融到醫療,從服務到工廠,應用無處不在;最後,人工智慧正在與自動駕駛技術等聯繫在一起。
  • 網易有道翻譯官 你身邊最懂各國語言的翻譯專家
    川北在線核心提示:原標題:網易有道翻譯官,你身邊最懂各國語言的翻譯專家 隨著網絡時代的發展,網絡對於我們生活和工作都產生了非常大的影響。例如在翻譯活動中,很多在線翻譯工具正在被大眾廣泛使用。據統計,在我國有高達73.7%的人們依靠在線翻譯工具來進行英文翻譯類的活動。
  • 谷歌的神經翻譯系統意味著機器翻譯到盡頭了?
    整個的報告以機器翻譯為主線展開,大概分四部分:第一叫做機器翻譯的波瀾史,幾十年的發展一波三折,非常有意思;第二是機器翻譯現在主流的技術神經機器翻譯,還是可以改進的。我可以給大家看一些例子,並不是谷歌就做到頭了,還有很多的空間。
  • 主流在線人工翻譯平臺評測:有道、語翼、百度、我譯網
    主流在線人工翻譯平臺評測:有道、語翼、百度、我譯網 谷歌翻譯最近尷了個尬。機器翻譯固然有他的優勢,但如果是有一定要求的翻譯,大家還是尋求正規的翻譯平臺吧。
  • 有道翻譯官推出網頁翻譯功能 覆蓋全球網站
    1月28日消息, 網易有道公司旗下實時翻譯工具「有道翻譯官」全新升級,將PC端的網頁翻譯功能移植到移動端,幫助用戶隨時獲取全球資訊。用戶只需在首頁文本框中輸入待翻譯網頁地址,即可輕鬆獲取雙語對照的外文網頁。目前,有道翻譯官全新版本已在iOS和Android平臺發布。
  • 百度機器翻譯團隊獲得WMT2019中英翻譯冠軍
    8月1日,WMT2019國際機器翻譯大賽研討會在義大利佛羅倫斯召開。本屆大賽,百度機器翻譯團隊在中文-英文翻譯任務上獲得冠軍。圖1 人工評價結果WMT全稱是Workshop on Machine Translation,是業界公認的國際頂級機器翻譯比賽之一,其中中文-英文翻譯任務是歷年參賽隊伍最多、競爭最為激烈的機器翻譯任務之一。
  • 百度機器翻譯現在都能預測你未來幾秒要說的話了!
    先給大家看一張動圖:上面的中文是人類說的話,下面的英文是百度 AI 給出的實時翻譯。可以看到,沒等說到「莫斯科」的時候,AI 自動翻譯的英語就已經出現了「meet」,也就是漢語句末的「會晤」。難道現在 AI 已經掌握了讀心術?其實這是百度在機器同傳中研發的最新技術,有預測和可控延遲能力,能實現兩種語言之間的高質量、低延遲翻譯。
  • 專訪Google Brain 工程師,谷歌神經網絡翻譯會是機器翻譯的極限嗎?
    當兩天前 Google 推出了全新的整合神經網絡的翻譯工具——GNMT(Google Neural Machine Translation)谷歌神經機器翻譯系統,並且這一系統將最先投入到最困難的漢英互譯領域時,科技圈炸了鍋。
  • WIPO新型翻譯工具將率先用於中文等譯為英文
    日前從世界智慧財產權組織(WIPO)官網獲悉,WIPO將在其開發的基於人工智慧的神經機器翻譯工具率先用於在中文專利文獻翻譯成英文的服務上。WIPO總幹事弗朗西斯·高銳表示:「中國在智慧財產權和科學技術上的實力不斷增強,去年14%的通過《專利合作條約》(PCT)途徑提交的國際申請來自中國,我們預計今年的比例將達到17%或18%,甚至更高。伴隨從『中國製造』走向『中國創造』的戰略,中國的研發趨勢還將繼續。」高銳表示,專利申請正在越來越多地以東亞語言提出,尤其是中文,這是一個全球趨勢。
  • 支持屏幕取詞劃詞 有道詞典翻譯更順暢
    有道詞典具有屏幕取詞與劃詞功能作為目前最火的翻譯軟體,有道詞典因其強大的功能而被人們關注。通過有道詞典的屏幕取詞與劃詞功能,我們可以對不認識的詞句進行即時翻譯,掃清我們的閱讀障礙。    有道詞典在同類產品中首先實現了IE9、Chrome瀏覽器的屏幕取詞功能。它的也支持手動劃詞功能,支持多瀏覽器環境,可針對詞彙進行百科查詢,可以對任意段落或長句進行檢索、翻譯。更值得一提的是,有道詞典具備OCR取詞功能,圖片PDF文檔中輕鬆取詞。
  • 人工智慧真有那麼可怕嗎?從哲學看科幻電影的套路
    從後來人工智慧領域的發展來看,似乎大部分工程師並不在意這些「定義」,而直接將智能分拆為各種具體的技能——弱人工智慧(weak AI),例如推理、分析、學習、計劃、自然語言、感知等,希望它們可以部分替代人的能力。