親測|Google翻譯內核升級:大型數據集神經機器翻譯加持 稱誤差再降...

2020-12-24 金融界

來源:TechWeb.com.cn

【TechWeb】5月8日消息,近期,Google翻譯悄然升級了其翻譯內核。據Google官方提供的數據顯示,Google翻譯搭載的Google的神經機器翻譯(GNMT:Google Neural Machine Translation)系統使用了當前最先進的訓練技術,因而提升了機器翻譯水平,將翻譯誤差再度降低了55%-85%。

Google展示的翻譯模型質量

十多年前,Google發布了Google翻譯,早年基於短語的統計機器翻譯,會將輸入句子分解成詞和短語,然後對它們進行獨立翻譯。這種翻譯方式的劣勢非常明顯:句子中原本完整的信息被碎片化,無法連貫地進行表達。而這種現象在英中互譯的情況下顯得尤其明顯。

而Google神經機器翻譯則將輸入的句子作為一個整體翻譯。

以中英翻譯為例,Google神經機器翻譯首先將這句中文的詞編碼成一個向量列表,其中每個向量都表示了到目前為止所有被讀取到的詞的含義(編碼器「Encoder」)。讀取完整個句子,解碼器就開始工作——一次生成英語句子的一個詞(解碼器「Decoder」)。

上圖展示了Google神經機器翻譯的中英翻譯原理

為了在每一步都生成翻譯正確的詞,解碼器重點注意了與生成英語詞最相關編碼的中文向量的權重分布。

在被首次提出時,神經機器翻譯系統在中等規模的數據集上就與基於短語的翻譯系統水平相當。

現在,Google方面表示,通過讓神經機器翻譯戰勝在非常大型的數據集上工作的許多挑戰,打造了在速度和準確度上都更好翻譯的系統。

目前,Google神經機器翻譯系統已投入到了中文-英語的翻譯中。現在,移動版和網頁版的Google翻譯的中英翻譯已完全使用神經機器翻譯——每天大約1800萬條翻譯。

有經過大型數據集考驗的Google神經機器翻譯系統加持,最新的Google翻譯效果究竟如何呢?

我們做了一個簡單的比較測試。當然,還是在中英翻譯場景下。

測試場景:PC端 Google翻譯網頁版

隨機選擇了一則英文消息,原文如下:

Since COVID-19 began, we』ve heard from our retail and brand manufacturing partners that they’re hungry for more insights on how consumer interests are changing, given fluctuations in consumer demand. We see these changes reflected in how people are searching on Google. Last month, there were spikes in search interest for household supplies and jigsaw puzzles as people spent more time at home. This month we』ve seen surging interest for sewing machines and baking materials in the U.S., and tetherball sets and chalk in the United Kingdom and Australia.

Businesses are using a variety of resources to understand changing consumer interests—including Google Trends, social listening, surveys, and their own data—in order to help make decisions on the fly. But if they don’t know what to look for, there isn’t an easy way to understand which product categories are gaining in popularity, and might pose an opportunity.

That’s why we’re launching a rising retail categories tool on Think with Google. It surfaces fast-growing, product-related categories in Google Search, the locations where they’re growing, and the queries associated with them. This is the first time we』ve provided this type of insight on the product categories that people are searching for.

舊版Google翻譯給出的英譯中結果:

升級後Google翻譯給出的英譯中新結果,紅色標記字部分為與舊翻譯結果的不同地方。新版翻譯具體如下:

對比兩段翻譯結果,可以看出區別還挺大的。整體而言,新版翻譯結果中標紅文字的表述明顯更符合漢語的語法和表述習慣。

另外,最後一段的翻譯結果優化則更為明顯,對Google產品名稱「Think with Google」進行了準確識別,避免了亂翻譯的尷尬。

確實更智能啦!

相關焦點

  • 谷歌同志是位好「翻譯」!|翻譯|谷歌|谷歌翻譯|google translate
    既然GNMT是通過應用基於實例的的機器翻譯方法來改進翻譯質量,那麼系統就需要會從數百萬個乃至更多的示例中學習,從這些來源中推斷出最相關的翻譯,然後將結果重新排列並組成基於符合人類語言的語法翻譯。這也就意味著,當GNMT進行學習時,需要目標語言有大量文本數據。
  • 拍照就能翻譯:Google翻譯的即時攝像頭翻譯得到了升級
    與我們最近在Google Lens中啟用的實時翻譯功能類似,這是一種了解周圍環境的直觀方法,當您出國旅行時尤其有用,因為即使您未連接到WLAN或使用手機數據。今天,我們將對此功能進行新的升級,使其更加有用。
  • 落地機器翻譯服務,Atman推出TransGod翻譯工具
    數據顯示,2014年全球翻譯行業市場規模大達到371.9億美元,同比增長6.23%,預計2020年將達到530億美元左右。近年來,隨著算力的大幅提升,大型語料庫、記憶庫的出現,深度學習算法成熟,機器翻譯技術出現了長足進步。利用機器翻譯相關技術以提升人類譯者的工作效率成為可能。我們此前報導的國內初創公司Atman就在做機器翻譯技術及應用方向的創新。
  • Atman 劉昌芳:醫學機器翻譯與機器寫作
    我們為醫學領域用戶提供機器翻譯、機器寫作、知識圖譜和大數據人工智慧產品,致力於成為醫學領域的語言智能專家。目前,Atman 已為跨國藥企提供機器翻譯、機器寫作產品,2017、2018 年還被評為人工智慧 50 強企業。我們雖然是一家初創企業,但是大部分人成員都是行業裡的老人。
  • 谷歌揭秘自家翻譯系統:如何利用AI技術提高翻譯質量 | 網際網路數據...
    但並不是所有語言都具備豐富可用訓練的文字資料,這樣一來,如何在數據不多的情況下,訓練出更好的翻譯器,成為機器翻譯領域裡需要解決的問題之一。近日,谷歌在自己的博客上介紹了公司最新的翻譯創新技術,這些技術提升了谷歌翻譯的用戶體驗。目前谷歌翻譯可支持108種語言,平均每天翻譯1500億個單詞。谷歌翻譯最早亮相於2006年,在過去的13年間,翻譯水平有了重大飛躍。
  • Google翻譯增加了對五種新語言的支持
    谷歌今天宣布將在其翻譯服務中增加對五種新語言的支持。Google Translate四年來首次添加了Kinyarwanda,Odia(Oriya),Tatar,Turkmen和維吾爾語等語言。總體而言,Google通過其翻譯應用程式提供了對超過108種語言的支持。超過7千5百萬人說五種語言。Google翻譯將支持每種語言的文本和網站翻譯。對於Kinyarwanda,Tatar和維吾爾族,Google也將支持虛擬鍵盤輸入。Kinyarwanda是盧安達的官方語言,有超過1200萬人使用。
  • 百度大腦開放日召開機器翻譯專場 百度AI同傳翻譯性能可媲美人類
    機器翻譯作為人工智慧關鍵技術之一,正日益成為企業智能化升級的重要應用場景。12月1日,百度大腦開放日舉辦了以「機器翻譯 溝通全世界」為主題的專場活動。IDC中國副總裁兼首席分析師武連峰、百度AI技術生態部總經理劉倩、百度人工智慧技術委員會主席何中軍進行主題演講,同時與在場的40多位來自金融、製造、能源等行業企業信息化負責人聚焦機器翻譯的價值、企業應用需求、未來發展趨勢等話題展開深入的互動討論,分享最佳實踐經驗,助力企業更好的提升機器翻譯大規模產業化應用,推動企業智能化升級。會上,武連峰講到,企業具備全球化信息能力非常重要。
  • 百度機器翻譯團隊獲得WMT2019中英翻譯冠軍
    8月1日,WMT2019國際機器翻譯大賽研討會在義大利佛羅倫斯召開。本屆大賽,百度機器翻譯團隊在中文-英文翻譯任務上獲得冠軍。今年中英方向參賽隊伍有來自微軟、字節跳動、金山、愛丁堡大學、東北大學、日本情報通信研究院等國內外知名機器翻譯團隊。本屆大賽,百度翻譯團隊憑藉在數據處理、模型架構、數據增強、模型集成等方面的創新性突破,最終力壓群雄,取得第一。
  • 機器翻譯:谷歌翻譯是如何對幾乎所有語言進行翻譯的?
    第一部分簡單介紹神經網絡機器翻譯(NMT)和編碼器-解碼器(Encoder-Decoder)結構。第二部分提供了使用Python創建語言翻譯程序的詳細步驟。機器翻譯是計算語言學的一個分支,主要研究如何將一種語言的源文本自動轉換為另一種語言的文本。在機器翻譯領域,輸入已經由某種語言的一系列符號組成,而計算機必須將其轉換為另一種語言的一系列符號。神經網絡機器翻譯是針對機器翻譯領域所提出的主張。
  • 機器翻譯革命強勢來襲 人類翻譯將無路可走?
    應用場景日漸豐富「兩年前,人工智慧的翻譯質量往好了說,也就是讓你能對文本的內容有個大致了解,專業翻譯寧願自己從頭開始翻,」「一小時翻譯」執行長紹尚說,「今天,通過神經機器翻譯,人們只要對機器翻譯內容進行少量修改,就能獲得人性化翻譯。」 機器翻譯應用量正呈加速增加態勢。
  • 102個模型、40個數據集,這是你需要了解的機器翻譯SOTA論文
    其實機器翻譯也走過一條漫漫長路,從早期基於規則與實例的方法,到基於統計的機器翻譯,再到目前基於深度神經網絡的翻譯系統,我們探索了非常多的可能性與思路。有的在剛提出來就受到很多關注,有的則受限於計算資源,直到今天才展現出其強大的能力。1954 年,人類第一次嘗試俄語到英語的自動翻譯,這種基於規則的翻譯第一次證明機器翻譯是可行的。1954 年的機器翻譯報導。
  • 機器輔助翻譯之TRADOS知多少
    然而,傳統的純人工翻譯方式因成本高、耗時長等原因似乎已經不能滿足翻譯市場某些客戶稿件數量大、時間緊的需求。於是,機器輔助翻譯應運而生。那麼,什麼是機器輔助翻譯呢?在說機器輔助翻譯之前,我先說下我對機器翻譯的理解。機器翻譯(Machine Translation,簡稱MT)是利用計算機把一種語言轉變成另一種語言的過程,是由機器自動完成的。
  • 百度機器翻譯獲國家科技進步獎
    1月8日,2015年度國家科學技術獎勵大會在人民大會堂舉行,百度機器翻譯項目獲頒國家科學技術進步獎二等獎,這是該獎項首次出現網際網路巨頭(BAT)的身影。   機器翻譯一直被公認為人工智慧領域最難的課題之一,百度機器翻譯的突破性成果,使我國掌握了網際網路機器翻譯的核心技術,佔領了技術制高點。
  • AI領域再突破!OPPO榮獲全國機器翻譯大賽多項第一名
    此次評選結果的含金量非常高,要知道OPPO參加的全國機器翻譯大會,是由中國中文信息學會機器翻譯專委會定期舉辦的全國年度學術會議,至今已成功舉辦16屆,並組織了9次機器翻譯評測
  • 機器翻譯七十年:百度領跑神經網絡翻譯時代
    中新網12月22日電 機器翻譯距今已有70年的發展歷史。自上世紀40年代起,基於規則、實例以及統計的機器翻譯方法漸次登場,各領風騷。近兩年,神經網絡機器翻譯(Neural Machine Translation, NMT)技術異軍突起,取得了翻譯質量的大幅躍升。
  • 人工翻譯 or 機器翻譯?這份來自歐盟的調查可能出乎你的預料
    歐盟委員會發布的一項針對2800多家中小企業的調查顯示,近40%的受訪者在這項研究之前沒有使用過機器翻譯工具。此外,雖然絕大多數中小企業在商務活動中仍然更喜歡人工翻譯,如合同談判和與其他國家的公共部門打交道等,但超過70%的中小企業表示,機器翻譯對其業務還是有幫助的。
  • 百度何中軍:機器翻譯——從設想到大規模應用
    報告內容:70多年前,第一臺計算機誕生後不久,科學家就提出了利用計算機進行翻譯的設想。此後,隨著技術不斷更迭,算力大幅提升,以及網際網路帶來的數據井噴式增長,機器翻譯質量持續提高。尤其近年來神經網絡機器翻譯的出現及快速發展,使得機器翻譯水平大幅躍升,在人們的生產生活中得到了廣泛應用。
  • 谷歌翻譯是如何藉助多項新興AI技術提高翻譯質量的
    ,谷歌還升級了一個有幾十年歷史的爬蟲程序。實際上,這些模型一開始基於所有的數據進行訓練,然後逐漸基於更小、更純淨的數據子集進行訓練,這種方法在人工智慧研究領域被稱為課程學習。對於資源較少的語言,谷歌在谷歌翻譯中採用了一個回譯機制,來強化並行訓練數據,即語言中的每個句子都與其譯文相配對。(機器翻譯傳統上依賴於源語言和目標語言成對句子的語料庫的統計。)
  • Transformer:隱藏的機器翻譯高手,效果趕超經典 LSTM!
    Seq2Seq 模型很適用於翻譯,它可以將一種語言的單詞序列轉換為另一種語言中的單詞序列。通常 Seq2Seq 模型是基於長短期記憶(LSTM)而建立,LSTM 模塊通過序列的相關數據,可以賦予序列意義,同時記住(或忘記)它判定為重要(或不重要)的部分。正因為句子依賴於序列,單詞的順序對於理解句子至關重要,所以 LSTM 是處理此類數據的不二選擇。
  • 為什麼說Google不可能讓專業翻譯丟飯碗?
    不少人驚呼翻譯要失業了,甚至建議國家完全沒有必要在開設外語專業了,以後我們直接用軟體就行了。但我認為這只是一種誇大的說法,Google Translate雖然比起傳統翻譯先進,但是功能和重要性遠沒有那麼誇張。我們來對比下傳統翻譯和全新的 Google Translate的區別。傳統的翻譯系統其實是基於「詞組」來進行的。