谷歌用神經機器系統把漢語翻譯成英語 錯誤率最高下降85%

2020-11-29 千龍網

谷歌今天宣布,網絡和移動版的谷歌翻譯現在使用新的神經機器翻譯系統,並用於漢譯英,目前,谷歌翻譯應用每天翻譯約1800萬次。谷歌也在發布一篇關於該方法的學術論文。

此前谷歌也曾表示在谷歌翻譯中使用神經網絡,但具體用於實時視頻翻譯功能。而今年早些時候,谷歌高級研究員傑夫·迪恩(Jeff Dean)告訴VentureBeat,谷歌正致力於研究將深入學習功能更多地整合到谷歌翻譯中。今天發布的就是這項工作的成果。

谷歌已經把深層神經網絡整合到越來越多的應用中,包括智能即時通訊工具Google Allo和Gmail Inbox,同時也幫助谷歌更有效地運行數據中心。

就谷歌神經機器翻譯(GNMT)而言,該公司正在依託八層長短期記憶遞歸神經網絡(LSTM RNNs)。一旦神經網絡得到了充分的訓練,在圖形處理單元(GPU)的幫助下,谷歌即可依靠最近推出的張量處理單元(TPU)對新數據加以推斷。

神經機器翻譯並不總是最理想的,但谷歌的研究成果在某些情況下顯示出優勢。

「使用者評價表明,與以前的許多語言對系統:英語?法語、英語?西班牙語和英語?漢語相比,GNMT可將翻譯錯誤減少60%,」研究者在論文中寫道。「更多的實驗表明,翻譯系統的譯文質量接近於普通的人類譯者。」

在今天發布的一篇博客文章中,谷歌大腦團隊的研究科學家富國樂(Quoc Le)和麥克·舒斯特(Mike Schuster)指出,「在雙語評委的幫助下,從維基百科和新聞網站選取的幾種語言對樣句,」翻譯錯誤實際上下降了55-85%。

即便如此,這套系統也不完美。

「GNMT仍然可以作出翻譯人員不可能犯的重大錯誤,如漏譯和誤譯專有名稱或罕見術語,而且,翻譯句子是孤立的,沒有考慮上下文或頁面的語境,「富國樂和舒斯特寫道。「還有很多工作要做,我們為用戶服務得更好。然而,GNMT代表了一個重要的裡程碑。」

相關焦點

  • 重磅| 谷歌大腦養成記:從識別貓到突破性機器翻譯
    他們告訴 Hughes 2016 年是個不錯的時機,可以用神經網絡重整一下谷歌翻譯——數百名工程師超過十年編出來的代碼。這個舊系統採用的是 30 年來所有機器翻譯系統採用的方法:它能將連續的句子片段隔開,在一個大型統計衍生詞彙表中檢索句子中的單詞,然後使用一組後處理規則附上適當的結果,再重新排列起來組合成句子。
  • 機器翻譯:谷歌翻譯是如何對幾乎所有語言進行翻譯的?
    全文共13204字,預計學習時長34分鐘谷歌翻譯大家想必都不陌生,但你有沒有想過,它究竟是如何將幾乎所有的已知語言翻譯成我們所選擇的語言?本文將解開這個謎團,並且向各位展示如何用長短期記憶網絡(LSTM)構建語言翻譯程序。本文分為兩部分。第一部分簡單介紹神經網絡機器翻譯(NMT)和編碼器-解碼器(Encoder-Decoder)結構。
  • 人工智慧替代人工翻譯 機器翻譯世界盃誰能贏
    機器翻譯,是利用計算機將一種自然語言(源語言)轉換為另一種自然語言(目標語言)的過程,是AI(人工智慧)的終極目標之一。1954年,美國喬治敦大學研製出世界首個英俄機器翻譯系統。從早期的詞典匹配,到詞典結合語言學專家知識的規則翻譯,再到基於語料庫的統計機器翻譯,機器翻譯的技術研發歷程,可謂曠日持久。然而,計算機系統始終難以理解人類的語言,滿足不了生活工作所需的「聰明」程度。
  • Transformer新型神經網絡在機器翻譯中的應用|公開課筆記
    神經網絡機器翻翻譯是目前比較主流的機器翻譯方法,它是「Sequence to Sequence」model,也就是端到端的翻譯框架。如左圖所示,我們輸入一個待翻譯的句子,通過神經網絡編碼器,去把這個句子的信息編碼成中間狀態,就是這個圖中紅色的部分,它用數值的隱層來表示。經過中間狀態、經過神經網絡解碼器去生成對應的翻譯,是編碼、解碼的過程。
  • 谷歌同志是位好「翻譯」!
    它不是直接翻譯語言,而是先將文本翻譯成英文,然後轉譯到目標語言。但因為準確度的問題,谷歌翻譯曾多次受到批評和嘲笑,據測算,不同語言之間的準確度差異也很大。所以,在2016年11月,谷歌宣布,谷歌翻譯將改用神經機器翻譯引擎——谷歌神經機器翻譯(Google Neural Machine Translation,GNMT),它可以「一次翻譯整句,而不是逐句翻譯」,使之更像人類說話時的正確語法。
  • 機器翻譯七十年:百度領跑神經網絡翻譯時代
    中新網12月22日電 機器翻譯距今已有70年的發展歷史。自上世紀40年代起,基於規則、實例以及統計的機器翻譯方法漸次登場,各領風騷。近兩年,神經網絡機器翻譯(Neural Machine Translation, NMT)技術異軍突起,取得了翻譯質量的大幅躍升。
  • 巨頭扎堆的小市場:不學外語,機器翻譯搞定一切?
    2016年的一部《翻譯官》火了,這是國內首部聚焦翻譯領域的電視劇,讓人們對於翻譯行業尤其是同聲傳譯,有了新的認識。但是同時,隨處可見的翻譯機廣告充斥著整個社會:「有了它,媽媽再也不用擔心我出國不會說英語了」,「用超過100種語言探索世界」,如此等等。
  • 在AI科學家、翻譯家眼裡,谷歌翻譯其實沒那麼神?
    目前 Google 神經機器翻譯系統已經支持中譯英功能,可以看得出來 Google 對於未來的野心與規劃。Google 新的翻譯系統用的是深度神經網絡中一種叫 LSTM 的技術,即 「長短記憶型遞歸神經網絡(long short-term memory)」。區別於之前的「階段式機器學習」 翻譯,LSTM 可以保持短期與長期的信息,就像人的記憶系統。
  • 除了葷段子翻譯傳神,中國翻譯軟體到底能和谷歌競爭什麼?
    上周我在虎嗅撰文,文中有兩處提到谷歌翻譯和百度翻譯的對比:一處是說百度領先谷歌一年上線基於NMT神經網絡的翻譯系統,一處是說百度翻譯的功能體驗不如谷歌方便。巧的是幾天之後,3月29日,谷歌翻譯APP就重返中國大陸,引起一片歡騰。致意吳恩達先生的離職此次谷歌優化了中國大陸地區的用(bú)戶(yóng)體(fan)驗(qiáng),有網友一邊感嘆,一邊順帶懷念了谷歌全家。
  • 「機器翻譯」技術到底有哪些現實應用?
    為了實現這一夢想,以IBM、谷歌、微軟、科大訊飛為代表的國內外科研機構和企業均相繼成立機器翻譯團隊,專門從事智能翻譯研究,矢志打破語言障礙。  IBM從2001起就開始大規模開展該領域的研究,並在英語、阿拉伯語和中文之間的互譯領域進行重點投入。2009年9月IBM正式推出了ViaVoice Translator機器翻譯軟體。
  • 機器之心獨家對話百度 NLP:先解決語義理解,再談機器翻譯取代人類
    據稱,在雙語評估者的幫助下,通過對維基百科和新聞網站的例句測定,在多個樣本的翻譯中谷歌神經網絡機器翻譯系統將錯誤降低了 55-85%甚至更多。事實上百度的在線翻譯系統,一年前就應用了基於神經網絡的翻譯方法(NMT)。去年百度曾在 ACL 會議上發表論文《Multi-Task Learning for Multiple Language Translation》,探討用 NMT 技術解決多語言翻譯及語料稀疏的問題。
  • 不用輸入就能翻譯的翻譯器!谷歌翻譯推新功能 拍照即可識別
    7月11日消息,據外媒phonearena報導,谷歌翻譯APP近期推出了一項新功能,該功能支持通過手機攝像頭拍攝並掃描文本來進行翻譯,在沒有蜂窩數據或Wi-Fi聯網的條件下依舊可以使用。
  • AI翻譯離無障礙交流有多遠
    百度技術委員會聯席主席、自然語言處理部技術負責人吳華表示,百度翻譯支持全球28種語言互譯、756個翻譯方向,每日響應過億次的翻譯請求。除百度外,科大訊飛也走在語音交互前列,推出了訊飛聽見升級版產品,加入多語種翻譯功能,五種語言同步翻譯成漢語,還發布了智能翻譯產品「曉譯翻譯機」。
  • 重建巴別塔,機器翻譯的前世今生丨語言學午餐
    圖靈在二戰期間利用機器破譯密文的事跡給了他機器翻譯的靈感:翻譯也可以看成是一種編碼和解碼的過程!當我看到俄文文章,我說「它就是以英語寫成,只是被古怪符號加密而已。現在我要破解密碼。」1966年,美國科學院成立了自動語言處理諮詢委員會 (Automatic Language Processing Advisory Committee),並發布了名為《語言與機器》的報告,徹底否定了機器翻譯的研究價值,認為人類在有限的未來裡不可能發明具有實際價值的機器翻譯系統。機器翻譯一度陷入泥沼,進入低潮期。
  • 谷歌ReCaptcha系統被破解,機器語音驗證準確率高達85%
    圖片來源圖蟲:已授站長之家使用文/靈火K1 月 2 日雷鋒網報導,美國馬裡蘭大學的四位研究員開源了一個名為UnCaptcha的工具,能夠破解谷歌的驗證碼系統ReCaptcha,其進行語音驗證的準確率高達85%。
  • 谷歌AI翻譯系統準確率正在接近人類水平
    據外媒報導,谷歌是全球AI語言翻譯服務的領先者之一,日前,這家公司表示,他們新開發的一項技術將進一步大幅提高其翻譯水準。
  • "機器翻譯"2017年預計實現突破 人們不必再學外語?
    2、人類基因編輯科學家研究出通過CRISPR/Cas9系統(規律成簇間隔短回文重複系統)編輯基因的方法。遺傳病的起因是病人基因組的60億個「字符」——DNA中有1個「錯字」。試想一下,在不損壞整本書的情況下,在《蘇聯大百科全書》中找到唯一的錯字並改正。是不是難以完成?的確如此。
  • 《集異璧》作者侯世達瘋狂吐槽谷歌翻譯:AI替代人類譯者為時尚早
    然而,令我驚訝的是,在晚上閒聊的過程中,他們居然習慣性地用「谷歌翻譯」交換信息。弗蘭克用英文寫下文字,然後用「谷歌翻譯」轉譯成丹麥語;而他的朋友則用丹麥語寫下文字,然後用「谷歌翻譯」轉譯成英語。這太奇怪了!為什麼會講對方語言的兩個聰明人要用這種方式溝通呢?我對機器翻譯的體驗總是讓我對它不夠信任。但這兩個朋友顯然沒有我的那種疑慮。
  • 谷歌/百度翻譯「蘋果/安卓很卡頓」:很好笑!
    【PConline資訊】雖然如今的機器翻譯已經達到了相當高的水準,還有神經網絡、機器學習、人工智慧等高大上技術的加持,但機器畢竟是機器,對於很多語境的理解完全無法和人類相提並論。  比如說手機很卡頓,這是大家耳熟能詳的一個說法,但是在谷歌、百度翻譯那裡,卻完全走了樣。  先來看谷歌:
  • Line推出實時翻譯耳機,可翻譯10種語言
    科技改變生活12月4日,即時通訊應用開發商Line推出了一款叫做Mars的實時翻譯耳機,可翻譯漢語、韓語、英語、日語、西班牙語、法語、義大利語、越南語、泰語及印度尼西亞語10種語言。據悉,這款耳機搭載的即時翻譯系統是Line母公司NAVER研發的Papago,這是一款內置深度神經網絡的即時翻譯系統。