全球首個翻譯引擎進化歸來 「細節狂魔」搞定方言

2020-12-05 新浪科技

來源:創事記

歡迎關注「創事記」微信訂閱號:sinachuangshiji

文/劉俊寰

來源:大數據文摘(ID:BigDataDigest)

最近,一款在線機器翻譯軟體在日本大火。

這款翻譯軟體名叫DeepL,大火的原因正是因為它工作太負責了,翻譯得太過準確,在日本引起了熱議。

從日本網友的民間測評來看,不僅日語方言翻譯效果槓槓的,連文言文也被拿下,要知道,這可是連谷歌翻譯都無法做到的事。

但是有多精確呢?作為一個嚴謹的科技軟體,當然還是要用數據來說話,DeepL官方也公開了日英互譯和中英互譯的盲測結果,如下圖所示,可以看出,DeepL簡直就是碾壓級的存在嘛:

盲測就是在專業譯員評審們不知道哪個翻譯版本是由哪個網站翻譯的情況下,對翻譯文本進行評估,這也一直是DeepL的測試方式之一。

DeepL由於極好的準確性,也同樣引爆了Reddit,有網友指出,DeepL不是像谷歌翻譯那樣從字詞上進行翻譯,從Textractor的設置上可以看到,DeepL還支持用以前的翻譯作為上下文對翻譯結果進行改善

也有不少網友直呼「DeepL牛逼」!

3年前,DeepL剛出現在大眾視野的時候就已經吸引到了不少目光,DeepL執行長Gereon Frahling曾表示,DeepL的目標不止於翻譯任務,神經網絡將從理解文本開始,開啟更多可能。

至於更多可能是如何被開發出來的,文摘菌做了一次小小的測評,然後再一起來圍觀DeepL的發家史,小板凳已經放好,歡迎就坐~

方言、文言文、學術論文,機器翻譯神仙打架!

不管是民間測評還是DeepL官方的盲測結果,都暗示著DeepL可能是目前準確率最高的機器翻譯,到底成色怎樣,還是要親自動手試試才知道。

既然本次更新也包含了簡體中文,抱著一點點的懷疑和一點點的好奇,文摘菌也對DeepL進行了一次簡單的測評,和目前主流的谷歌翻譯、微軟翻譯、百度翻譯、有道翻譯進行了比較

本次測評分為三輪,第一輪方言,第二輪文言文,第三輪學術論文。好,現在我們有請五位選手入場。

第一輪,我們來看看方言。

大家都知道,中國方言文化博大精深,要是不能正確譯出方言,那這個準確率還是要打上問號的。

我們選擇了東北話十級題目:「我嘞個去,你長得也太磕磣了」。本題有兩個得分點,一個是「我嘞個去」,一個是「磕磣」。讓我們來看看五位選手的表現。

在第一個得分點上,谷歌翻譯成了「I'll go there」,微軟和百度認為這是「I'll go」的意思,有道則給出「I don't know」的答案,DeepL表現很好,正確翻譯成了帶有驚訝語氣的「oh my god」。

在第二個得分點上,五位選手都給出了不同的答案,谷歌「shy」、微軟「snobful」、百度「shabby」、有道「bad」,DeepL「ugly」。

從得分點上看,百度在第二題表現尚可,有道…勉強過關吧,谷歌和微軟則全軍覆沒。我們來欣賞一下DeepL的滿分試卷

這才第一題,不要擔心,還有翻身的機會。接下來我們來看看文言文,既然DeepL都能翻譯古日文,要是不能翻譯古漢語可就不對了。

第二輪,文言文。

文言文部分我們以著名唐代詩人張九齡《望月遠懷》中的名句「海上生明月,天涯共此時」為考題,這句詩的意思是,在遼闊無邊的大海上升起一輪明月,使人想起了遠在天涯海角的親友,他此時此刻也該是望著同一輪明月吧。

本題的得分點是看看各位選手能否用英文把整句詩的意境表達出來。好了,中文版的標準答案已經公布,那麼五位選手的表現如何呢?

首先從句意上看,谷歌、微軟和百度都直接放棄了後半句的翻譯,有道把後半句譯成「Tianya at this time」;在前半句的翻譯上,微軟和百度都用到了born這個詞,但是微軟的譯文是「The sea is born」????

我們來看看DeepL,前半句和谷歌的答案一模一樣,但是後半句的翻譯是不是達到了信達雅的水平文摘菌不知道,但是讀上去感覺非常舒服,大家也來品品

第三題,也是最後一道壓軸題,我們要考察的是各位選手對學術論文的中英互譯。

學術論文的關鍵除了語句通順外,還需要在專業詞彙上做到準確,這也是本次考察的重點。

中譯英部分,我們選擇的是去年刊登在《國際新聞界》上的一篇文章,研究者調查的是社交媒體信任對隱私風險感知和自我表露的影響。

原文:實證結果顯示:1.隱私風險感知與自我表露並無顯著相關性;2.社交媒體信任負向影響用戶的隱私風險感知,網絡人際信任在其中發揮中介作用;3.社交媒體信任正向影響用戶的自我表露,網絡人際信任在其中發揮中介作用。

從翻譯結果上看,五位選手給出的答案都比較讓人滿意,句型和語法也都沒有問題,只是在一些具體的用詞上各有千秋。比如,「自我表露」,DeepL和微軟用的是「self-expression」,其餘三位選手用的是「self-disclosure」;而「網絡人際信任」,有道、百度和微軟譯成「network interpersonal trust」,谷歌給出「online interpersonal trust」的答案,DeepL則譯為「cyber-interpersonal trust」。

照例,我們還是來看看DeepL的答案。

在英譯中部分,我們選擇了上周文摘菌報導的帝國理工大學論文的導論部分。在用戶體驗上文摘菌要插播一下,從中譯英切換到英譯中的時候,只有百度、有道和DeepL做到了自動識別,谷歌和微軟仍需要手動選擇語言。

原文:The global impact of COVID-19 has been profound, and the public health threat it represents is the most serious seen in a respiratory virus since the 1918 H1N1 influenza pandemic. Here we present the results of epidemiological modelling which has informed policymaking in the UK and other countries in recent weeks. In the absence of a COVID-19 vaccine, we assess the potential role of a number of public health measures – so-called non-pharmaceutical interventions (NPIs) – aimed at reducing contact rates in the population and thereby reducing transmission of the virus. In the results presented here, we apply a previously published microsimulation model to two countries: the UK (Great Britain specifically) and the US. We conclude that the effectiveness of any one intervention in isolation is likely to be limited, requiring multiple interventions to be combined to have a substantial impact on transmission.

從結果上看,五位選手的學術造詣都比較高,學術語言使用的規範性也都相差不大。但是,細節見真知,只有有道保留了雙破折號的使用,但這在中文中其實並不常見;除有道外,其他三位選手在「非藥物幹預措施(NPI)」的表達上都沒有做到盡善盡美。

仍然,笑到最後的還是DeepL,雖然還存在各種小問題,無法得到滿分,但也是一張妥妥的高分試卷了:

以上就是本次測評全部的考題了,可以看出DeepL不愧是頭號種子選手,不管是方言、文言文還是學術話語,都有不錯的表現,看來DeepL官方還是很誠實的嘛。

從Linguee蛻變,機器學習賦能DeepL

見識到了DeepL的「獨秀」表現,接下來,我們就重點介紹一下本次測評表現最佳的頭號種子DeepL。

不知道DeepL?那Linguee應該聽說過吧,就是那個運營十多年的在線外語詞典,DeepL的前身正是Linguee。Linguee是一款出現多年的翻譯工具,儘管使用廣泛,也有一批忠實用戶,但其翻譯質量尚無法與谷歌翻譯相提並論,尤其是考慮到後者品牌和地位的巨大優勢。

真正重要的是Linguee的技術積累,Linguee的聯合創始人Gereon Frahling之前就在谷歌研究院工作,2007年,他選擇開啟新的徵程,團隊數年來一直致力於機器翻譯,直到2016年,他們才開始全力開發全新的系統,建設新公司,也就是DeepL。

Linguee的核心競爭優勢就是爬蟲和機器學習系統,前者能夠抓取網際網路上超過10億句翻譯結果和查詢的大型資料庫,後者在網頁上搜索相似片段的真實翻譯方法並對其評估,兩者結合使Linguee成為了當時「世界上首個翻譯搜尋引擎」

十年積累下來,Linguee無論在數據和對算法的研究上都不可小覷,而這也直接成為DeepL的絕對優勢,為團隊訓練新模型打好了堅實的基礎。

DeepL變革性的神經架構在冰島的一臺超級計算機上運行,該計算機能力為5.1 petaFLOPS(每秒5100萬億次操作)不到一秒內能翻譯100萬單詞。「冰島可再生能源豐富,因此我們可以在這裡用非常低廉的成本訓練我們的神經網絡。我們將繼續專注於高性能硬體」,DeepL的CTO Jaroslaw Kutylowski說。

「我們的神經網絡架構已經實現了多個顯著改善」,Gereon Frahling表示,「通過用不同的方式安排神經元及其連接,我們的網絡比目前其他神經網絡更全面地映射自然語言。

大學、研究機構和Linguee的競爭對手發布的研究進展表明,卷積神經網絡才是機器翻譯的正確道路,而非DeepL之前使用的循環神經網絡,但現在不是探討二者區別的時候,對於相關詞語的長、複雜字符串,只要你能夠控制其弱點,卷積神經網絡效果會更好。

例如,CNN一次處理一個單詞,當句末單詞決定句首單詞的形成時,這就成了問題。查找整個句子尋找句首單詞,如果網絡獲取到的第一個單詞是錯誤的,就太浪費了,還得使用該知識重新開始,因此DeepL和機器學習領域的其他機構在CNN轉向下一個單詞或詞組時,使用能夠監控此類潛在問題的「注意力機制」來解決。

DeepL在最新版本增加了對日語和中文(簡體)的支持,包括日語漢字,平假名和片假名以及數千個漢字。目前,DeepL支持的語言數量增加到11種,雖然語言支持不如其他翻譯服務廣泛,如Google Translate和Bing Microsoft Translator均支持一百多種不同的語言,但翻譯精度也是不可忽視的關鍵點。

掌握多國語言的Techcrunch編輯Frederic曾這麼評價DeepL:「谷歌翻譯的風格非常直接,但卻錯過了一些細節和習語(或者把這些習語翻譯錯了),而 DeepL 經常可以提供更加自然的翻譯效果,就像訓練有素的人類翻譯一樣。」

說了這麼多,還是那句話,真真假假還是自己試了才知道,有興趣的同學可以親自動手試試,要是遇到什麼好玩的翻譯結果還記得告訴文摘菌噢~

最後,官網連結雙手奉上:

https://www.deepl.com/translator

相關焦點

  • 硬核測評,谷歌翻譯被碾壓!全球首個翻譯引擎進化歸來,「細節狂魔...
    從日本網友的民間測評來看,不僅日語方言翻譯效果槓槓的,連文言文也被拿下,要知道,這可是連谷歌翻譯都無法做到的事。第一輪,我們來看看方言。大家都知道,中國方言文化博大精深,要是不能正確譯出方言,那這個準確率還是要打上問號的。我們選擇了東北話十級題目:「我嘞個去,你長得也太磕磣了」。本題有兩個得分點,一個是「我嘞個去」,一個是「磕磣」。讓我們來看看五位選手的表現。
  • 全球首個翻譯引擎進化
    從日本網友的民間測評來看,不只日語方言翻譯效果槓槓的,連文言文也被拿下,要知道,這但是連谷歌翻譯都無法做到的事。但是有多準確呢?我們選擇了東北話十級標題:「我嘞個去,你長得也太磕磣了」。本題有兩個得分點,一個是「我嘞個去」,一個是「磕磣」。讓我們來看看五位選手的表現。
  • 33種外語、4種方言、拍照也能翻譯:科大訊飛發布翻譯「新科技」
    新華社北京4月21日電(記者陳芳、胡喆)支持中文與33種語言互譯,粵語、四川話、東北話、河南話也能翻譯,還能拍照翻譯……20日下午,科大訊飛在京正式發布了訊飛翻譯「新科技」,能夠全球上網的訊飛翻譯機2.0。
  • 離線翻譯更準確,科大訊飛翻譯機中英文離線翻譯水平達到6級
    帶上科大訊飛翻譯機就能輕鬆搞定所有的語言交流難題。因為這款智能翻譯設備的翻譯語種已經覆蓋了全球200多個國家和地區,而且翻譯精準度也非常高。由科大訊飛研發的訊飛翻譯機3.0集合了訊飛智能翻譯內核、高通八核CPU和全球部署CDN的三大「利器」,再搭配訊飛原創的「端到端」翻譯模式,能夠根據語義理解正確的翻譯多音詞和多義詞,智能理解語義。訊飛翻譯機3.0採用軟硬體一體化的智能翻譯解決方案,輕鬆實現「翻譯快、翻譯準」的效果。
  • 全球首個突破200種語言互譯的翻譯引擎 百度翻譯打破世界溝通壁壘
    (IDC中國副總裁兼首席分析師武連峰)隨著企業業務和生態系統不斷向全球不同區域擴展,未來機器翻譯將成為剛需。自2010年以來,百度翻譯在大規模產業化機器翻譯模型、海量翻譯知識獲取、多語言翻譯統一框架、機器同聲傳譯等方面進行了系統而深入的研究,取得重大技術突破,研製了具有完全自主智慧財產權、技術先進、功能豐富的機器翻譯系統,實時準確地響應全球海量複雜多樣的翻譯請求。
  • 三大在線翻譯評測!誰能搞定方言和文言文?
    來源:新浪眾測作者:烈日冰峰在線翻譯是很多人都經常需要用到的工具之一。無論你的英語多麼精通,對比一下翻譯軟體總是需要用到的。 這裡參與對比的是很多用戶最常使用的谷歌翻譯,有道翻譯,以及一家小眾翻譯平臺,但最近大熱的---DeepL。
  • 支持33種語言即時互譯、方言翻譯、拍照翻譯 訊飛推出境外自由行...
    中青在線北京4月20日電(中國青年報·中青在線記者 齊徵)今天下午,「世界聊得來」科大訊飛翻譯戰略暨新品上市發布會在北京舉行。    發布會上,訊飛執行總裁胡鬱從機器翻譯進展和產業聯盟合作層面公布了訊飛翻譯機「人類命運共同體、世界語言大互通」的願景,並正式發布訊飛翻譯機2.0。
  • AI 如何成為百度翻譯 DAU 高速增長的引擎?
    公開資料顯示,百度翻譯目前已經支撐 200 個語種,近 4 萬個翻譯方向,每天來自世界各地的翻譯請求字符量超過千億,做一個換算,相當於 2000 部大英百科全書的字符,換句話說,平均每秒鐘就要翻譯超過 100 萬字符。
  • AI翻譯會取代人工翻譯嗎?
    反過來說,如果你的發音不標準,帶有濃重的地方口音,那結果可就不那麼樂觀了,很多人認為方言和官方語言僅僅是發音不同,一個發音的翻譯搞定了,其他發音就很簡單了。 然而現實卻沒有那麼美好,方言之所以只能成為方言,概因其缺乏規範,隨意性很高,AI很難找到統一的語法規律。
  • 專業翻譯更靠譜,科大訊飛翻譯機可用於方言直接與英語對接
    而科大訊飛翻譯機就可以幫助大家解決語言溝通不暢的問題,哪方面都可以給我們提供翻譯服務。據了解,科大訊飛翻譯機覆蓋全球近200個國家和地區,支持中文與58種外國語種的在線翻譯,離線翻譯支持的語種數量及準確性都穩居同類產品之首。其次,科大訊飛翻譯機的翻譯功能更加的豐富,可以獲得更好更準確的翻譯。這臺翻譯機設備支持拍照翻譯、方言翻譯以及行業AI翻譯。
  • 翻譯機器人可「領會」使用意圖 河南首個自然語言處理實驗室發布新...
    6月29日,河南省首個自然語言處理技術前沿實驗室—鄭州大學與中業科技自然語言處理聯合實驗室在河南省國家大學科技園成功舉行科技成果發布會。   據了解,創辦於2010年的鄭州中業科技,是一家以人工智慧翻譯為核心,服務於全球網際網路社交、跨境貿易、政務等相關跨境領域的網際網路高科技企業。從創立之初,便異軍突起,憑藉其自主研發的中國首個國際跨語言社交平臺——GaGaHi,昂首進軍人工智慧網際網路跨語言翻譯領域。
  • 翻譯器可翻譯方言和文言文 超出谷歌微軟的翻譯軟體能力
    翻譯器可翻譯方言和文言文 超出谷歌微軟的翻譯軟體能力 站長之家(ChinaZ.com) 4月1日 消息:最近,一款名叫DeepL的在線機器翻譯軟體在日本大火
  • 2019年6月六級英語翻譯真題句句解析:方言
    翻譯原文中國幅員遼闊,人口眾多,很多地方人們都說自己的方言。方言在發音上差別最大,詞彙和語法差別較小。有些方言,特別是北方和南方的方言,差異很大,以至於說不同方言的人常常很難聽懂彼此的講話。方言被認為是當地文化的一個組成部分,但近年來能說方言的人數不斷減少。
  • 微信翻譯有彩蛋?微信:翻譯引擎訓練不夠,正緊急修復
    最近,充當微信聊天當中翻譯的工具被挖出了諸如此類的有趣小細節。3 月 3 日消息,有網友發現,通過特殊句式 + 人名拼音在微信翻譯得出的結果有點讓人頗有些哭笑不得,例如:You are so Sunxiaochuan:你真是陽光明媚。
  • 他是「學術大家」嚴復,日本留學歸來後,翻譯《天演論》
    他是「學術大家」嚴復,日本留學歸來後,翻譯《天演論》文/文化傳承你我他近代戰爭開始之後,清政府也逐漸開始認識到自身的沒落,以及和時代的格格不入,在這種情況下,應當效仿當年日本等國的遣唐使等形式,通過委派人員外出學習的方式
  • 2020年12月英語六級翻譯押題:方言
    新東方網>大學教育>四六級>複習輔導>六級>六級輔導>翻譯>正文2020年12月英語六級翻譯押題:方言
  • 日軍截獲我軍「方言」情報,日軍翻譯一頭霧水
    還特意顯得自己有文化學起了漢語,你敢學就敢累死你,都知道我們國家可是有56個民族組成的哦!語言的精妙就不用說了,不用56種語言都成來,一半28種語言出來你就傻逼了,再不說28種語言,就隨便來一段方言你聽懂就怪了。
  • 訊飛翻譯機3.0,遠程或面對面溝通都能快速準確翻譯!
    訊飛翻譯機3.0,遠程或面對面溝通都能快速準確翻譯!,針對原有的口語學習功能,場景增加到16個類別,新增了大量的適合成人及兒童練習的口語例句。除此之外,還可以直接通過語音翻譯隨時隨地學習多語種表達,英文支持語音拼讀查單詞,方便快捷。訊飛翻譯機3.0支持中文與13種語言拍照互譯,看不懂的外語直接拍譯,原文還能播報跟讀練習。翻譯記錄隨時可導出到手機、電腦,方便後續查閱,鞏固學習效果。
  • Memsource翻譯軟體,為你提供最佳機器翻譯引擎
    在人工智慧高速發展的今天,機器翻譯技術取得了突破性進展,市面上湧現了大量的商家提供機器翻譯服務,機器翻譯的質量在不同行業、語種下的差距越來越大。而在進行翻譯時,所選擇的機器翻譯引擎是影響翻譯效果的重要因素。因此,如何選擇翻譯引擎是我們面臨的重要任務。
  • 小米有品翻譯機:內置24個翻譯引擎,支持100多種語言互譯
    Langogo翻譯機內置了微軟、google、百度、思必馳、騰訊等24家引擎,其可以自動匹配不同語種的最佳翻譯引擎,和單一的引擎翻譯相比,翻譯會更加準確,另外,在設置了兩個語種之後