機器翻譯怎樣搞定「東北話十級」?-虎嗅網

2021-01-12 虎嗅APP


最近,一款在線機器翻譯軟體在日本大火。



這款翻譯軟體名叫DeepL,大火的原因正是因為它工作太負責了,翻譯得太過準確,在日本引起了熱議。


從日本網友的民間測評來看,不僅日語方言翻譯效果槓槓的,連文言文也被拿下,要知道,這可是連谷歌翻譯都無法做到的事。



但是有多精確呢?作為一個嚴謹的科技軟體,當然還是要用數據來說話,DeepL官方也公開了日英互譯和中英互譯的盲測結果,如下圖所示,可以看出,DeepL簡直就是碾壓級的存在嘛:



盲測就是在專業譯員評審們不知道哪個翻譯版本是由哪個網站翻譯的情況下,對翻譯文本進行評估,這也一直是DeepL的測試方式之一。


DeepL由於極好的準確性,也同樣引爆了Reddit,有網友指出,DeepL不是像谷歌翻譯那樣從字詞上進行翻譯,從Textractor的設置上可以看到,DeepL還支持用以前的翻譯作為上下文對翻譯結果進行改善。



也有不少網友直呼「DeepL牛逼」!



3年前,DeepL剛出現在大眾視野的時候就已經吸引到了不少目光,DeepL執行長Gereon Frahling曾表示,DeepL的目標不止於翻譯任務,神經網絡將從理解文本開始,開啟更多可能


至於更多可能是如何被開發出來的,文摘菌做了一次小小的測評,然後再一起來圍觀DeepL的發家史,小板凳已經放好,歡迎就坐~


方言、文言文、學術論文,機器翻譯神仙打架!


不管是民間測評還是DeepL官方的盲測結果,都暗示著DeepL可能是目前準確率最高的機器翻譯,到底成色怎樣,還是要親自動手試試才知道。


既然本次更新也包含了簡體中文,抱著一點點的懷疑和一點點的好奇,文摘菌也對DeepL進行了一次簡單的測評,和目前主流的谷歌翻譯、微軟翻譯、百度翻譯、有道翻譯進行了比較。


本次測評分為三輪,第一輪方言,第二輪文言文,第三輪學術論文。好,現在我們有請五位選手入場。


第一輪,我們來看看方言。


大家都知道,中國方言文化博大精深,要是不能正確譯出方言,那這個準確率還是要打上問號的。


我們選擇了東北話十級題目:「我嘞個去,你長得也太磕磣了」。本題有兩個得分點,一個是「我嘞個去」,一個是「磕磣」。讓我們來看看五位選手的表現。


在第一個得分點上,谷歌翻譯成了「I'll go there」,微軟和百度認為這是「I'll go」的意思,有道則給出「I don't know」的答案,DeepL表現很好,正確翻譯成了帶有驚訝語氣的「oh my god」。


在第二個得分點上,五位選手都給出了不同的答案,谷歌「shy」、微軟「snobful」、百度「shabby」、有道「bad」,DeepL「ugly」。


從得分點上看,百度在第二題表現尚可,有道…勉強過關吧,谷歌和微軟則全軍覆沒。我們來欣賞一下DeepL的滿分試卷:



這才第一題,不要擔心,還有翻身的機會。接下來我們來看看文言文,既然DeepL都能翻譯古日文,要是不能翻譯古漢語可就不對了。


第二輪,文言文。


文言文部分我們以著名唐代詩人張九齡《望月遠懷》中的名句「海上生明月,天涯共此時」為考題,這句詩的意思是,在遼闊無邊的大海上升起一輪明月,使人想起了遠在天涯海角的親友,他此時此刻也該是望著同一輪明月吧。


本題的得分點是看看各位選手能否用英文把整句詩的意境表達出來。好了,中文版的標準答案已經公布,那麼五位選手的表現如何呢?


首先從句意上看,谷歌、微軟和百度都直接放棄了後半句的翻譯,有道把後半句譯成「Tianya at this time」;在前半句的翻譯上,微軟和百度都用到了born這個詞,但是微軟的譯文是「The sea is born」????


我們來看看DeepL,前半句和谷歌的答案一模一樣,但是後半句的翻譯是不是達到了信達雅的水平文摘菌不知道,但是讀上去感覺非常舒服,大家也來品品:



第三題,也是最後一道壓軸題,我們要考察的是各位選手對學術論文的中英互譯。


學術論文的關鍵除了語句通順外,還需要在專業詞彙上做到準確,這也是本次考察的重點。


中譯英部分,我們選擇的是去年刊登在《國際新聞界》上的一篇文章,研究者調查的是社交媒體信任對隱私風險感知和自我表露的影響。


原文:實證結果顯示:1.隱私風險感知與自我表露並無顯著相關性;2.社交媒體信任負向影響用戶的隱私風險感知,網絡人際信任在其中發揮中介作用;3.社交媒體信任正向影響用戶的自我表露,網絡人際信任在其中發揮中介作用。


從翻譯結果上看,五位選手給出的答案都比較讓人滿意,句型和語法也都沒有問題,只是在一些具體的用詞上各有千秋。比如,「自我表露」,DeepL和微軟用的是「self-expression」,其餘三位選手用的是「self-disclosure」;而「網絡人際信任」,有道、百度和微軟譯成「network interpersonal trust」,谷歌給出「online interpersonal trust」的答案,DeepL則譯為「cyber-interpersonal trust」。


照例,我們還是來看看DeepL的答案。



在英譯中部分,我們選擇了上周文摘菌報導的帝國理工大學論文的導論部分。在用戶體驗上文摘菌要插播一下,從中譯英切換到英譯中的時候,只有百度、有道和DeepL做到了自動識別,谷歌和微軟仍需要手動選擇語言。


原文:The global impact of COVID-19 has been profound, and the public health threat it represents is the most serious seen in a respiratory virus since the 1918 H1N1 influenza pandemic. Here we present the results of epidemiological modelling which has informed policymaking in the UK and other countries in recent weeks. In the absence of a COVID-19 vaccine, we assess the potential role of a number of public health measures – so-called non-pharmaceutical interventions (NPIs) – aimed at reducing contact rates in the population and thereby reducing transmission of the virus. In the results presented here, we apply a previously published microsimulation model to two countries: the UK (Great Britain specifically) and the US. We conclude that the effectiveness of any one intervention in isolation is likely to be limited, requiring multiple interventions to be combined to have a substantial impact on transmission.


從結果上看,五位選手的學術造詣都比較高,學術語言使用的規範性也都相差不大。但是,細節見真知,只有有道保留了雙破折號的使用,但這在中文中其實並不常見;除有道外,其他三位選手在「非藥物幹預措施」的表達上都沒有做到盡善盡美。


仍然,笑到最後的還是DeepL,雖然還存在各種小問題,無法得到滿分,但也是一張妥妥的高分試卷了:



以上就是本次測評全部的考題了,可以看出DeepL不愧是頭號種子選手,不管是方言、文言文還是學術話語,都有不錯的表現,看來DeepL官方還是很誠實的嘛。


從Linguee蛻變,機器學習賦能DeepL


見識到了DeepL的「獨秀」表現,接下來,我們就重點介紹一下本次測評表現最佳的頭號種子DeepL。


不知道DeepL?那Linguee應該聽說過吧,就是那個運營十多年的在線外語詞典,DeepL的前身正是Linguee。Linguee是一款出現多年的翻譯工具,儘管使用廣泛,也有一批忠實用戶,但其翻譯質量尚無法與谷歌翻譯相提並論,尤其是考慮到後者品牌和地位的巨大優勢。


但真正重要的是Linguee的技術積累,Linguee的聯合創始人Gereon Frahling之前就在谷歌研究院工作,2007年,他選擇開啟新的徵程,團隊數年來一直致力於機器翻譯,直到2016年,他們才開始全力開發全新的系統,建設新公司,也就是DeepL。


Linguee的核心競爭優勢就是爬蟲和機器學習系統,前者能夠抓取網際網路上超過10億句翻譯結果和查詢的大型資料庫,後者在網頁上搜索相似片段的真實翻譯方法並對其評估,兩者結合使Linguee成為了當時「世界上首個翻譯搜尋引擎」。


十年積累下來,Linguee無論在數據和對算法的研究上都不可小覷,而這也直接成為DeepL的絕對優勢,為團隊訓練新模型打好了堅實的基礎。



DeepL變革性的神經架構在冰島的一臺超級計算機上運行,該計算機能力為5.1 petaFLOPS,不到一秒內能翻譯100萬單詞。「冰島可再生能源豐富,因此我們可以在這裡用非常低廉的成本訓練我們的神經網絡。我們將繼續專注於高性能硬體」,DeepL的CTO Jaroslaw Kutylowski說。


「我們的神經網絡架構已經實現了多個顯著改善」,Gereon Frahling表示,「通過用不同的方式安排神經元及其連接,我們的網絡比目前其他神經網絡更全面地映射自然語言。」


大學、研究機構和Linguee的競爭對手發布的研究進展表明,卷積神經網絡才是機器翻譯的正確道路,而非DeepL之前使用的循環神經網絡,但現在不是探討二者區別的時候,對於相關詞語的長、複雜字符串,只要你能夠控制其弱點,卷積神經網絡效果會更好。


例如,CNN一次處理一個單詞,當句末單詞決定句首單詞的形成時,這就成了問題。查找整個句子尋找句首單詞,如果網絡獲取到的第一個單詞是錯誤的,就太浪費了,還得使用該知識重新開始,因此DeepL和機器學習領域的其他機構在CNN轉向下一個單詞或詞組時,使用能夠監控此類潛在問題的「注意力機制」來解決。


DeepL在最新版本增加了對日語和中文的支持,包括日語漢字,平假名和片假名以及數千個漢字。目前,DeepL支持的語言數量增加到11種,雖然語言支持不如其他翻譯服務廣泛,如Google Translate和Bing Microsoft Translator均支持一百多種不同的語言,但翻譯精度也是不可忽視的關鍵點。


掌握多國語言的Techcrunch編輯Frederic曾這麼評價DeepL:「谷歌翻譯的風格非常直接,但卻錯過了一些細節和習語,而 DeepL 經常可以提供更加自然的翻譯效果,就像訓練有素的人類翻譯一樣。」



說了這麼多,還是那句話,真真假假還是自己試了才知道,有興趣的同學可以親自動手試試,要是遇到什麼好玩的翻譯結果還記得告訴文摘菌噢~



相關焦點

  • 英國人請美國翻譯中文採訪福原愛 中國媳婦十級東北話爆表
    一個完全不會中文的英國記者,在2010年國際桌球聯賽英國站的比賽結束後採訪一個東北話十級的日本小姑娘,請了一個剛學4個月中文的美國人來翻譯,結果。。而這個日本姑娘就是福原愛,接受英國記者採訪,因為英文不靈光找不到翻譯,臨時請一位美國裁判幫忙,結果這位美國裁判只學過4個月中文,奉獻了史上最扯淡的翻譯。首先英國記者先誇讚了福原愛一番:你很興奮進了女單半決賽,今天贏了沈燕飛,昨天贏了孫蓓蓓,給你今天比賽多少信心呢?美國人翻譯:...(沒聽懂)...今天你特別準備了這個比賽,為什麼?
  • 「中文十級」難題,AI怎樣解讀
    資料圖片 新華社記者 方喆 攝「中文十級」難題,AI怎樣解讀產業界陶玉祥 本報記者 盛 利在人工智慧領域,「懂語言者得天下」是普遍的共識。當人工智慧自然語言處理技術遇到「要你管和不要你管」「掉地上和掉地下」「我一把把把把住了」等中文「繞口令」,「小意思」「意思意思」等多義詞時,及「俺們那疙」「中不中」等方言時,該怎樣「聽懂」這些「中文十級」語句呢?日前在成都舉辦的科大訊飛未來科棧活動上,記者採訪了相關專家。
  • 「咋整」「歐了」「槓槓的」東北話十級的吉娜,母語竟然是德語?
    東北話十級但是,就在大家認為這是位名副其實的女神時,她的人設卻「崩塌」了。一檔《幸福三重奏》的播出,讓大家對她的印象產生了360度的翻轉。節目中,只要吉娜一開口,可謂畫風突變。但美其名曰教吉娜中文,實際上卻是當起了東北話傳播大使,節目中每一個教學片斷都是名場面。比如,當郎朗問起吉娜:「我將……將是什麼意思」,得到的回答是「做飯的姜」,這是什麼人間小可愛呀~而九月二十八的「八」本該是第一聲,到吉娜嘴裡就成了第二聲,成了二十拔日。
  • 東北方言十級,東北話「磕磣」怎麼讀?什麼意思?
    東北方言十級,東北話「磕磣」怎麼讀?什麼意思?冰城北北君——東北話十級(家鄉文化印記)上一期,北北君給大家講的是東北方言「埋汰」,今天繼續給大家帶來有趣的東北方言——「磕磣」,想看之前的內容,可以點擊關注,看往期作品。「磕磣」,東北話中較為常見的一個詞,準確讀音:k—e—kē,ch—en,發輕音。
  • 你的東北話達到10級標準了嗎!
    開始之前,我們進行一個簡單的小測試~那些年你聽過的東北話…有一種回答叫~有一種解決叫~有一種浪費叫請這波操作真是難為我們香港大妹子了~大兄dei們隨意感受一下~只要你身邊有一個東北話十級的朋友更有南方大妹子普通話8級的的親情奉獻~你叭叭叭叭叭叭啥呀?更有因為東北話dei到了愛情~愛情這搭嘎,老鐵也控制不住阿!更有過分者!
  • 機器翻譯的膚淺面-虎嗅網
    實際上,很多受過良好教育的人對於機器翻譯都抱有相當大的熱情,很少對它產生質疑。這讓我頗感困惑。作為一個語言愛好者和翻譯熱愛者,作為一個認知科學家和一個人類精妙心智的終身敬畏者,幾十年來我一直在關注機器翻譯的進展。當我最初在1970年代對它產生興趣時,我讀過一封信,是數學家、機器翻譯早期倡議者沃倫·韋弗於1947年寫給控制論專家諾伯特·維納的。
  • 福原愛十級東北話,問懵江宏傑,經紀人連「咋地」都不知道
    福原愛運動員時期,是國乒球迷非常喜歡的一位日乒球員,不僅僅是因為她可以說一口流利的普通話,更是因為他可愛的性格,以及常年在東北打球,國乒球迷已經將福原愛認為是中國的一名球員,而退役之後福原愛嫁到了我們的中國寶島臺灣,成為了地地道道的中國媳婦。
  • 東北話十級的都不行~
    東北話十級的都不行~ 2020-12-06 10:29 來源:澎湃新聞·澎湃號·媒體
  • 搜狗翻譯帶你用英文看「鯽魚兄弟」的東北話
    安吉更是因其可愛的形象及耿直的性格被觀眾稱為首席「東北綜藝槓把子」,圈粉無數。同時,安吉「嘎哈」、「這啥啊」等標識性東北味兒金句更是被網友不斷調侃。那麼,「你瞅啥」等流行的東北話該如何用英文表達,來接軌國際呢?搜狗翻譯將給你答案。得益於搜狗搜索十幾年間在中文自然語言理解領域的積累,加上應用領先的神經網絡機器翻譯框架,搜狗翻譯可以實現中英精準互譯,即使是東北話也能用英文將其意思表達的淋漓盡致。
  • 小牛翻譯,做最好的機器翻譯發動機
    點擊上方東北大學校友總會關注我們小牛翻譯是目前支持語種最多的機器翻譯系統,能夠支持中文與118種語言互譯,包括英日韓俄法西等語種、「一帶一路」沿線所有國家的官方語言,是業內唯一能實現「維蒙藏哈朝彝壯」七大少數民族語言翻譯的系統。這就是僅60餘人的小牛翻譯團隊在激烈的市場競爭中取得的驕人成績。
  • 整不明白的東北話
    東北話入門級教學前幾日,正恰清明假期,在緬懷先人思念之情的慫恿下,我約上了三五好友來了一場說飄就飄的宿醉,沒錯我喝大了。不是因為酒太烈,也不是因為這思念太強烈,而是因為一個福建哥們跟我說:「你造嘛?出來這麼些年,除了我的家鄉話,我就感覺你們東北話最好聽,真的!」確實,東北話真的有魔力,並且可以同化一切方言。記得當年我陪姐姐去上海的一所高校進行研究生的複試。一起考試的還有河南、江西的兩名學生。
  • 賽爾筆記 | 篇章級機器翻譯簡介
    因此,逐句翻譯容易忽略語句之間的邏輯性和流暢性,文檔級翻譯通過引入上下文信息改進這一點。本文介紹目前在文檔級機器翻譯領域的主要工作。通過文檔級機器翻譯,我們的意圖是利用句子間上下文信息進一步提升性能,這些信息包括文檔的語篇方面或文檔中源語句的周圍句子。除此之外,我們還將介紹為評估該領域的改進而引入的評估策略。
  • 四六級白考了?機器翻譯已到6級水平……| 兩會青觀察 第十期
    導讀 中國青年報·中青在線「兩會青觀察」第十期來啦!本期,又有哪些與青年有關的「聲音」?還有哪些不容錯過的精彩?一探究竟吧! 話 · 兩會劉慶峰說,如今,科大訊飛的語音合成技術已經讓機器能開口說話,「我們用機器模仿川普講話,連美國人都信以為真」。人工智慧也越來越有溫度,並超過了人類最好的速記員。在英文識別比賽中,科大訊飛也獲得了所有指標的第一名。    劉慶峰說,人工智慧正在進入生活每一個領域。
  • 巨頭扎堆的小市場:不學外語,機器翻譯搞定一切?
    另一方面,隨著智能翻譯的興起,越來越多語言專業的學生和翻譯行業的工作人士抱怨,神經網絡翻譯等技術的出現,讓原本就競爭激烈的翻譯市場迅速進入了冰凍期。但是,未來機器翻譯真的會完全取代人類,讓翻譯員們下崗嗎?網易智能梳理了目前主流的機器翻譯技術與應用,一探智能機器翻譯行業究竟。
  • 東北話十級的愛醬宣布退役了,又是一代人的回憶
    雖然愛醬的運動員生涯到此畫上了一個句號,但乒壇上依然會流傳著「東北話十級」的她與中國隊「大魔王」的傳說……愛醬在中國能有這麼大的名氣也不是沒有原因的,粉絲們喜歡她不僅僅是因為她的球技,更是因為她不服輸的性格。
  • 福原愛秀十級東北話!把中國老公說懵 一句「你咋地」搞暈經紀人
    現在小愛已經成為中國兒媳,近日她在參加中日青年友好使者沙龍時,現場展示了自己的十級東北話,更是把大家逗得合不攏嘴!福原愛首先分享了一些婚後生活的小片段,她表示自己在家說東北話時:「我婆婆我老公都聽不懂」。有一次,福原愛把飯煮好後,用東北方言跟老公江宏傑說:「你把飯kuǎi-kuǎi。」江宏傑很迷惑地用臺灣腔問道:「那是森麼?」
  • 特稿| 巨頭扎堆的小市場:不學外語,機器翻譯搞定一切?
    網易智能梳理了目前主流的機器翻譯技術與應用,一探智能機器翻譯行業究竟。而 NMT的翻譯單位則是句子,它將整個句子視作翻譯單元,對句子中的每一部分進行帶有邏輯的關聯翻譯,翻譯每一個字或單詞時都包含著整句話的邏輯。
  • 四六級白考了?機器翻譯已到6級水平
    導讀 中國青年報·中青在線「兩會青觀察」第十期來啦!本期,又有哪些與青年有關的「聲音」?還有哪些不容錯過的精彩?一探究竟吧!話 · 兩會全國人大代表、科大訊飛股份有限公司董事長劉慶峰 中青在線 圖劉慶峰說「科大訊飛的夢想,就是讓機器像人一樣,能說話、會思考。」劉慶峰說,如今,科大訊飛的語音合成技術已經讓機器能開口說話,「我們用機器模仿川普講話,連美國人都信以為真」。人工智慧也越來越有溫度,並超過了人類最好的速記員。
  • 笑瘋了,這些字幕組神翻譯都是中文十級的段子手!
    精彩的從來不是劇情,而是注入了翻譯者無數心血的,字幕。話不多說,我們就一起來看看這些年笑死我們的字幕吧。一看就不正經組來來來,我不看劇情了,你來寫:如果你不說破的話,我覺得我也就看完了:還有這種,伏地魔看了想打死你哦:一看就是東北人組
  • 東北大學「小牛翻譯」,讓你暢通無阻!
    目前基於自主研發的神經機器翻譯技術,小牛翻譯團隊構建了小牛翻譯開放平臺,採用線上/線下結合的方式,面向企業級大數據的翻譯需求提供機器翻譯服務解決方案,已經與騰訊、科大訊飛、京東、攜程去哪兒、中國聯通、東軟集團、