不靠譜翻譯大賽笑話頻出,機器翻譯依然任重而道遠

2020-12-17 黑科技精選

在進行論文寫作,資料學習及新語言學習的過程中,機器翻譯軟體已經成為不可或缺的一部分。然而,機器翻譯軟體質量良莠不齊,翻譯效果在大多數情況下並不盡如人意,甚至頻頻鬧出笑話,成為眾多網紅短視頻調侃的對象,甚至某短視頻平臺還進行了「不靠譜翻譯大賽」短視頻活動,每每令人捧腹。為何到了21世紀,機器翻譯仍然不靠譜?下面就從技術原理方面進行解析。

(圖源網絡)

機器翻譯於上世紀80年代開始將基於規則的機器翻譯走向實際應用,這也是第一代機器翻譯技術。它擁有3種技術路線,第一種是直接翻譯,將源語言與目標語言從字面意義上對每個分詞、短語進行翻譯,再進行拼接,但效果並不理想。第二種則是根據語言學的相關規則,對源語言的句子進行語法分析,結合目標語言的語法規則進行翻譯,但每一種語言的語法規則都比較複雜,並且存在相當多的特例情況,這種技術路線也不太合適。另外一種技術路線,則是藉助人的大腦翻譯來實現機器翻譯,但這會涉及到中間語言轉化,對翻譯精確性有一定影響。

(圖源網絡)

針對第一代機器翻譯技術的不足,產生了第二代翻譯技術,即基於統計的機器翻譯。它通過對源語言進行段譽切分,再翻譯每一個源短語,隨後按照統計結果,結合相應的語法規則等按照一定的順序將翻譯後的短語組合成句子。但這種翻譯方式,在翻譯時往往會由於模型假設較多,上下文建模能力不足,導致調序困難,導致翻譯出的句子比較生硬,但相比第一代翻譯技術已經有了長足進步。

而第三代基於端到端的神經機器翻譯,它不僅包含編碼和解碼兩部分,還額外引入了注意力機制以幫助調序,在翻譯時,它首先會通過分詞得到輸入源語言詞序列,並通過「詞向量」來表示,再通過RNN神經網絡得到正向碼表示,隨後,通過反向的RNN得到反向碼表示,然後結合注意力機制來預測編碼的拼接順序,經過一定的算法,可以得到目標語言的譯文。

(圖源網絡)

然而,截止到今天,即便是第三代神經機器翻譯依然無法解決不同語言之間的大段落文檔翻譯問題,尤其對於句型複雜、表意豐富的中文,仍然需要藉助輔助筆譯(人工)最終完成翻譯過程,機器翻譯之路仍然任重而道遠。

相關焦點

  • B站「不靠譜」翻譯大賽:機器翻譯,還遠不能取代人工翻譯
    在國內知名的彈幕視頻網站bilibili上,很多up主上傳了令人啼笑皆非的機器翻譯視頻。網友們把一些影視劇、動漫或者其他著名場面中的臺詞用谷歌翻譯重新加工。如果只是翻譯一遍的話,可能效果還不理想——它們錯得還不夠精彩。於是,網友們把谷歌翻譯的結果再翻譯成第三種語言,然後再翻譯成第四種語言,最後再用谷歌翻譯回中文。
  • 2020國際機器翻譯大賽:火山翻譯力奪五項冠軍
    在11月下旬結束的自然語言處理頂級學術會議EMNLP2020上,國際機器翻譯大賽(WMT20)公布了賽事最終結果,來自字節跳動火山引擎旗下的火山翻譯(Volctrans)在39支參賽隊伍中殺出重圍,以顯著優勢在「中文-英語」語向翻譯項目上拿下了冠軍。
  • 2020 國際機器翻譯大賽:火山翻譯力奪五項冠軍
    在11月下旬結束的自然語言處理頂級學術會議EMNLP2020上,國際機器翻譯大賽(WMT20)公布了賽事最終結果,來自字節跳動火山引擎旗下的火山翻譯(Volctrans)在39支參賽隊伍中殺出重圍,以顯著優勢在「中文-英語」語向翻譯項目上拿下了冠軍。
  • 百度文言文在線翻譯近日爆紅 專家:機器不靠譜
    原標題:百度文言文在線翻譯近日爆紅 專家:機器不靠譜   原標題:百度颳起「最炫文言風」  機器文白翻譯爆紅網絡  「打我啊」譯成「戰餘兮」  機器代替人工,進行文言文與白話文的互譯,真的可能嗎?今年3月底上線的百度文言文在線翻譯近日爆紅網絡。
  • OPPO榮獲全國機器翻譯大賽兩個賽道冠、亞軍 AI翻譯技術受學界認可
    OPPO參加近期在南昌舉辦的2019年全國機器翻譯大賽(CCMT2019),並在大賽中獲得了日英多語言專利翻譯冠軍、英漢新聞領域翻譯亞軍以及漢英新聞翻譯前五的優異成績,展示OPPO在機器翻譯這一重點AI技術上已有充分技術積累。
  • 連續兩年獲全國機器翻譯大賽第一,OPPO AI翻譯解鎖新成就
    機器翻譯作為近幾年爆發的新興技術領域,受到越來越多人的認可。在剛剛過去的2020年全國機器翻譯大會中,有一家企業在翻譯領域取得了非常不錯的成績,成為本次大賽中最亮眼的存在。在全國機器翻譯大會公布的離線任務的評測結果中,OPPO繼去年參賽並獲得了兩條賽道的冠亞軍後,今年再次斬獲多個第一。具體來看,OPPO參加了全部6條翻譯賽道,獲得5個賽道的第一名,1個賽道的第二名;同時參與了語料過濾賽道,獲得了該賽道子任務(5億詞規模)的第一名。
  • 阿里獲WMT國際機器翻譯大賽5項冠軍
    供圖中新網杭州5月24日電 (黃慧)在WMT2018國際機器翻譯大賽上,阿里巴巴達摩院機器智能-NLP翻譯團隊在提交的5項比賽中全數獲得冠軍。其中,這5個項目包括英文-中文翻譯、英文-俄羅斯語互譯、英文-土耳其語互譯。
  • —— 機器翻譯與譯後編輯大賽成功舉辦
    ·第二屆機器翻譯與譯後編輯大賽在同濟大學舉行盛大的頒獎儀式。同濟大學外國語學院院長吳贇、上海科技翻譯學會副理事長潘衛民、同濟大學MTI中心主任李梅、上海外語音像出版社副社長熊雪芳、搜狗翻譯AI研究部武靜、搜狗翻譯產品負責人梁穎、上海一者信息科技有限公司CEO張井、51找翻譯CEO施少峰等領導共同出席。本次大賽以商業科技文為賽題,搭載YiCAT智能翻譯管理平臺,機器譯文採自搜狗翻譯引擎。
  • 經濟學人:機器翻譯無法取代人工翻譯
    阿拉伯世界的報紙以乏味的官腔聞名,這也不全是空穴來風。比方說某天,你可能會讀到:伊朗外交部相關人士向《生活報》(Al-Hayat)透露,「只要對方不違反核協議,德黑蘭就會繼續遵守條約」。過去幾個月裡,免費在線翻譯的質量一下子提高了不少,這可能給在線翻譯平臺的老用戶們帶來了驚喜。而就在11月,谷歌又推出了新版翻譯系統。舊版翻譯是「以短語為單位」的機器翻譯,把一句話分成幾塊單獨翻譯,譯文通常斷斷續續,錯誤頻出。新版翻譯仍然會犯錯,不過與舊版的錯誤百出相比,情況好了很多。
  • 機器翻譯到底哪家強?
    記者7月8日獲悉,被譽為「全球學術界最具權威的機器翻譯比賽」的WMT 2020國際機器翻譯大賽的榜單停止提交結果並發布排名,騰訊微信AI團隊在「中文-英文」翻譯任務上奪得冠軍。WMT是機器翻譯領域的國際頂級評測比賽之一,自2006年創辦至今已經成功舉辦15屆。大賽每年都吸引了眾多來自全球的企業、科研機構和高校所組成的頂尖團隊。
  • 院系新聞| 高翻學子在「騰訊TranSmart第三屆全國機器翻譯與譯後翻譯編輯大賽」獲得佳績
    騰訊TranSmart第三屆全國機器翻譯與譯後翻譯編輯大賽,旨在提升參賽者翻譯能力、人機協作能力,提升市場競爭力,發掘新時代高素質翻譯人才。本屆大賽的指導單位為全國翻譯專業學位研究生教育指導委員會;由同濟大學外國語學院、上海市科技翻譯學會與江蘇省科技翻譯工作者協會聯合主辦;上海一者信息科技有限公司(Tmxmall)與南京微語人信息科技有限公司(51找翻譯)聯合承辦。
  • 機器翻譯新突破,微軟中英新聞翻譯達人類水平
    微軟亞洲研究院副院長、自然語言計算組負責人周明表示:「這也是為什麼機器翻譯比純粹的模式識別任務複雜得多,人們可能用不同的詞語來表達完全相同的意思,但未必能準確判斷哪一個更好。」這也是為什麼科研人員在機器翻譯上攻堅了數十年,甚至曾經很多人都認為機器翻譯永遠不可能達到人類翻譯的水平。
  • 流量小鮮肉的名字被翻譯成了傻蛋 AI翻譯到底靠不靠譜?
    都市快報 記者 萬禺 最近,微信的翻譯功能鬧了個笑話,它把圈內一位頂級流量明星的名字翻譯成了「傻蛋」,還把另一位當紅小生的名字改成了形容詞「可愛」。憤怒的粉絲們直接把#微信翻譯是認真的嗎?#這個話題頂上了微博熱搜。
  • WMT國際機器翻譯大賽結果流出,微信AI拔得頭籌
    作為全球學術界最具權威的機器翻譯比賽,近日,WMT2020國際機器翻譯大賽的榜單停止提交結果並發布排名,其中騰訊微信AI團隊在「中文-英文」翻譯任務上奪得冠軍。 大賽每年都吸引了眾多來自全球的企業、科研機構和高校所組成的頂尖團隊,包括微軟、Facebook、百度、金山、日本情報通信研究機構(NICT)。在賽制上,組委會根據中英、英中、中日等不同翻譯任務提供測試集,參賽者在線提交機器翻譯結果,組委會將根據在國際上具有廣泛認可度的BLEU自動評估指標對參賽者提交的機器譯文和標準答案進行擬合計算,擬合程度高者排在前面。
  • 機器翻譯產品全景圖
    聲明:本文僅代表個人觀點,不代表任何機構立場「不謀全局者,不足謀一域。」 ——古語機器翻譯在2018的科技媒體絕對是一個高頻詞。看過WMT和IWLST等國際大賽中國玩家奪得好名次的消息,也見識過《揭秘進博會同聲傳譯背後:不是人,是機器人》這樣的驚悚標題;見過實時字幕投屏的機器同傳的驚豔,也經歷過「人機耦合」的刷屏;看過一場場翻譯機翻譯蛋翻譯耳機的發布會新聞,也等到了百元級別價格屠夫的出現……但作為一個好奇執著的翻譯產品關注者,觀察君更關注的是,機器翻譯這個近兩年日漸成熟的技術,在這一番熱鬧之下,在產品層面如何的演化
  • 微信翻譯軟體頻出Bug,為什麼迄今為止一直沒有準確的語言翻譯?
    翻譯軟體頻出Bug 這不是微信翻譯第一次「胡亂自主」翻譯了,之前曾出現過「ohh」的翻譯Bug。用戶在微信輸入「ohh」三個字母,點擊翻譯,其結果為:留在我身邊。 這是翻譯嗎?感覺是在通暗號呢?是不是覺得這機器翻譯訓練來訓練去,都快成精了!不僅會撩妹,還會吐預言! 幸好後來谷歌公司回應道,「這只是將無意義的話放進系統,再產生無意義的話的一種功能。」 潛臺詞是大家別那麼無聊,都散了吧。 機器翻譯的不足與未來 大家還記得幾年前的機器翻譯是如何嗎?生硬、語句不通、無法使用。
  • 騰訊TranSmart開啟第三屆全國機器翻譯與譯後編輯大賽新玩法
    近年來迅速崛起的神經網絡機器翻譯大幅提升了人工翻譯效率,實現翻譯項目在時間、質量與成本的最佳平衡。
  • 騰訊微信AI首次奪冠WMT2020國際機器翻譯大賽中英方向
    文/福布斯中國近日,作為全球學術界最具權威的機器翻譯比賽, WMT2020國際機器翻譯大賽的榜單停止提交結果並發布排名
  • 微信翻譯把明星的名字翻成了傻蛋 AI翻譯產品到底靠不靠譜?
    最近,微信的翻譯功能鬧了個笑話,它把圈內一位頂級流量明星的名字翻譯成了「傻蛋」,還把另一位當紅小生的名字改成了形容詞「可愛」。憤怒的粉絲們直接把#微信翻譯是認真的嗎?#這個話題頂上了微博熱搜。  像微信翻譯這類人工智慧(AI)翻譯產品到底靠不靠譜?在翻譯方言和專有名詞時,「翻車」機率大不大?昨天,快報記者作了個測評。
  • 外語翻譯謬譯頻出 暴露的不只是「手藝糙」
    先說幾個比較典型的例子,《民族:國家與暴力》一書中,「Mencius」(孟子) 被錯譯為令人摸不著頭腦的「門修斯」;《隱疾:名人與人格障礙》裡,一些音樂專業術語翻得太不靠譜,把「bass」(貝斯手)翻譯成低音區樂手等。有網友怒批,翻譯門檻何以降到這麼低,逼得人只能去找原版看。還有曾經做過翻譯的網友跳出來自曝:「大部分譯者都是兼職,或為所在高校的導師項目打工。很多出版社只給一兩個月交稿時間。