日漫迷有福了!這個系統可以全自動翻譯日漫,再也不用啃生肉了

2021-01-08 騰訊網

機器之心報導

機器之心編輯部

買了心儀的漫畫全集,卻又苦於看不懂上面的文字,翻譯成了一大難題。對於這個令人頭疼的問題,來自 Mantra 公司、雅虎日本和東京大學的研究者幫你解決了。他們提出了一個全自動漫畫翻譯系統,可將漫畫中的文字翻譯成英文和中文。

漫畫在世界各地都很流行,但大多數漫畫中的文字沒有翻譯。如果能夠迅速將漫畫中的文字翻譯成各種語言,那可就太棒了。近日,來自 Mantra 公司、雅虎日本和東京大學的研究者聯合發表了一篇論文,提出了一種快速翻譯漫畫文本的方法。就像這樣:

該研究解決了日漫(Japanese comics)的機器翻譯問題,這涉及兩個重要問題:語境感知和多模態翻譯。在漫畫中,文本和圖像是以非結構化的方式混合在一起的,因此從圖像中獲取語境至關重要。但如何從圖像中提取語境併集成到機器翻譯模型中仍是一個尚待解決的問題。

論文地址:https://arxiv.org/pdf/2012.14271v1.pdf

此外,目前還沒有用於訓練和評估此類模型的語料庫和基準。該論文為日漫翻譯研究奠定了基礎,主要貢獻包括以下 4 點:

首先,該研究提出了一種多模態的語境感知翻譯框架,也是首個結合漫畫圖像來獲取語境信息的研究。該方法能夠翻譯對話氣泡中的文本,這類文本通常需要語境信息(如其他對話氣泡中的文本、說話者的性別等)才能夠翻譯;

其次,為了訓練模型,研究者提出了基於成對的原始日漫及其譯文自動構建語料庫的方法。使用該方法可以構建大型平行語料庫,且無需任何人工標註;

第三,該研究創建了一個新的日漫翻譯評估基準;

最後,該研究在提出方法的基礎上,設計了一個用於全自動日漫翻譯的新系統。

語境感知日漫翻譯

該研究提出的語境感知日漫翻譯框架包括兩個主要部分:語境提取和翻譯。

多模態語境提取

該方法提取 3 類語境:場景、閱讀順序、視覺信息(如圖 2 左側所示),這三者對多模態語境感知翻譯都有重要作用。

圖 2:該研究提出的日漫翻譯框架。其中,N』 表示源句子 N 的譯文。

1)場景分組:單個漫畫頁面包括多個畫框,每個畫框代表一個場景。翻譯故事時,同一場景中的文本通常比其他場景中的文本更加有用。因此,該研究按場景將文本進行分組,以選出可以用做語境的文本。

2)文本排序:接下來要預估文本的閱讀順序。更正式的說,該方法對無序集合 T 進行排序,形成有序集合 {t_1,...,t_N}。由於在日漫中,單個句子通常被分為多個文本區域,因此確保文本順序正確是非常重要的。日漫是按畫框閱讀的,因此文本的閱讀順序是根據以下順序確定的:畫框;每個畫框中的文本。

3) 視覺語義信息提取:最後,該研究提取了場景中出現的物體等視覺語義信息。為了利用每個場景中的視覺語義信息,研究人員使用 illustration2vec 模型來預測每個場景中的語義標籤。

需要強調的是該框架並不局限於日漫。通過適當地定義場景,該框架可被擴展到電影、動畫等具備多模態語境的媒介中。例如,按照以下步驟提取語境,該方法可以輕鬆翻譯電影字幕:將視頻分割成場景;對文本按時間進行排序;通過視頻分類提取語義標籤。

語境感知翻譯模型

為了將提取到的多模態語境集成到 MT 模型,該研究採用了一種簡單而有效的連接方法:連接多個連續文本,並使用句子級 NMT 模型進行一次性翻譯。這裡注意一點,任何 NMT 架構都可以與該方法合併。該研究選擇了 Transformer (big) 模型並按照《Attention is All you Need》設置默認參數。

圖 2 右側展示了三種模型:模型 1:2+2 翻譯;模型 2:基於場景的翻譯;模型 3:具有視覺特徵的基於場景的翻譯。

構建大型平行語料庫

除了日漫翻譯框架以外,該研究還提出了一種自動語料庫構建方法,以便訓練翻譯模型。輸入為兩本漫畫書,一本是日本漫畫,另一本是其英文版,目標是提取具有語境信息的平行文本,這些信息可用來訓練該研究提出的模型。

術語和可用的標註數據:圖 4 列舉了對話氣泡、文本區域以及文本行。對話氣泡包含一或多個文本區域(即段落),每個文本區域包含一或多個文本行。

圖 4:日漫文本中的術語定義。

該研究假設訓練模型只能獲取對話氣泡的標註,文本行和文本區域的標註不可用。此外,對話氣泡和任何目標語言數據的分割掩碼也不可用。

注意,該研究提出的方法並不依賴於特定語言。除了英語,該研究還將漢語作為目標語言,稍後在圖 9 中演示。

訓練檢測器:該研究訓練了兩個目標檢測器:對話氣泡檢測器和文本行檢測器,這是語料庫構建 pipeline 的基本構建塊。該研究使用以 ResNet101 為主幹網絡的 Faster R-CNN 模型來訓練目標檢測器。

由於無法獲取文本行標註,該研究以弱監督方式基於對話氣泡標註生成文本行標註,參見下圖 6:

圖 6:生成文本行標註。

提取平行文本區域

下圖 5 展示了提取平行文本區域的 pipeline,包括:a) 頁面配對、b) 文本框檢測、c) 對話氣泡的像素級估計、d) 分割連接的對話氣泡、e) 不同語言之間的對齊操作、f) 文本識別,g) 語境提取。

圖 5:平行語料庫構建框架。

全自動日漫翻譯系統

研究人員基於其模型和構建的語料庫提出了一個全自動日漫翻譯系統。給出日漫頁面,該系統可以自動識別文本、將文本翻譯為目標語言,並將譯文替換掉原始文本。

該系統包括以下步驟:文本檢測與識別;翻譯;清除原始日語文本;將譯文填充進原始文本區域,下圖展示了該系統的翻譯過程。實驗結果表明該該系統能夠自動將日漫翻譯成英文或中文。

圖 9:全自動日漫翻譯系統的示例,分別從日語翻譯成英語和中文。

實驗

數據集:該研究建立了兩個新型日漫數據集:OpenMantra 和 PubManga,一個用來評估 MT(機器翻譯),另一個用來評估構建的語料庫。

機器翻譯評估

為了驗證該研究提出的模型和 Manga 語料庫的效果,該研究在 OpenMantra 數據集上進行了翻譯實驗。參與評估的 6 個系統參見下表 1:

表 1:在 OpenMantra Ja–En 數據集上進行評估的所有翻譯系統及其性能。「*」表明結果顯著優於 Sentence-NMT (Manga) ,p

從表 1 中可以看到人工和自動評估結果。與谷歌翻譯與 Sentence-NMT (OS18) 相比,SentenceNMT (Manga) 的性能有顯著提升,這表明該研究提出的 Manga 語料庫構建策略有效。

與人工評估的結果相反,語境感知模型的 BLEU 值不如 Sentence-NMT (Manga)(表 1 第 4-6 行),這表明 BLEU 值不適合作為日漫翻譯的評估指標。下圖 7 展示了在人工評估中 Scene-NMT 優於 SentenceNMT (Manga) 的一個示例,但前者的 BLEU 值較低。

圖 7:基於句子(中間圖)與基於畫框(右側圖)的模型輸出。H 和 B 後面的值分別表示每個頁面的人工評測值和 BLEU 值。

語料庫構建評估

為了評估語料庫構建的性能,該研究比較了以下四種方法:Box、Box-parallel、Mask w/o split、Mask w/ split,結果如下表所示:

表 2:在 PubManga 數據集上對語料構建性能進行評估。

該結果表明,該研究利用掩碼估計的語料庫構建方法顯著優於僅使用邊界框區域的兩種方法,掩碼分割也能顯著提升查準率和查全率。

THE END

轉載請聯繫本公眾號獲得授權

投稿或尋求報導:content@jiqizhixin.com

相關焦點

  • 有了這個翻譯器,以後啃不動的生肉就交給它吧!
    結果語音翻譯軟體沒找著,倒是被世超發現了一款免費好用的字幕自動翻譯神器——「 糰子翻譯器 」。 它可以翻譯包括英文、日文、韓文在內的多種形式的字幕,起初是由 B 站一個名叫 「 胖次の糰子 」 的 up 主所製作,現在軟體被她分享在 GitHub
  • 美劇「生肉」實時翻譯成中文字幕,這個平板厲害了!
    【天極網IT新聞頻道】華為最新發布的Mate 40系列帶來了許多令人耳目一新的新功能,其中就包括系統級翻譯和AI字幕。最近,旗艦平板MatePad Pro用戶也陸續收到了EMUI 11的推送,系統升級後,在平板上也能體驗到這兩個在手機端備受好評的「黑科技」。
  • 華為平板EMUI 11升級,AI字幕讓「啃生肉」成為過去時
    華為最新發布的Mate 40系列帶來了許多令人耳目一新的新功能,其中就包括系統級翻譯和AI字幕。最近,旗艦平板MatePad Pro用戶也陸續收到了EMUI 11的推送,系統升級後,在平板上也能體驗到這兩個在手機端備受好評的「黑科技」。
  • 日漫三巨頭都有誰?原本是「死火海」,《龍珠》夠不夠排面?
    幾天前筆者分享了一張《海賊王》路飛、《七龍珠》孫悟空、《火影忍者》鳴人在一起的圖片,並加上了「日漫三巨頭」的配文,一時間引起了不少漫迷的熱切討論,有人對這個組合提出了質疑,也有人說三巨頭另有其人,那就這個問題聊一聊大家心目中的「日漫三巨頭」吧。
  • 編輯試用翻譯機:同聲轉譯精準,從此無「生肉」
    有了它,從此就再也沒有「生肉」視頻  無意中發現現在訊飛的翻譯機擁有了一個「同聲字幕」的功能,可以在我看外語直播/視頻時,實時且同步的在電腦上生成中英文字幕。  這個功能對我來說就很有用。像我們的日常工作中,同事經常會去外網扒一些「生肉」視頻/直播,翻譯成中文來撰寫資訊,而我這種外語不好的就只能眼巴巴地看著別人去賺這種流量。
  • 用AI重新定義翻譯,人人譯視界發布視頻翻譯黑科技
    5月28日,由人人譯視界聯合主辦的「AI翻譯與傳統翻譯共存並贏」主題發布會在北京東方花園酒店成功舉辦,本次發布會上人人譯視界、百聿集團和網易AI事業部強強聯手,三方就如何為語言服務行業帶來第一解決方案進行了深入探討。
  • 淺析為什麼日漫漢化組都喜歡用繁體字?其實都是為了最初的報恩
    這幾天,相信很多漫迷都聽說了一個消息,那就是鼠繪漢化組的創始人被判刑,宣告了這個民間漢化組的正式結束。鼠繪漢化組的消失對於很多漫迷來說都會覺得非常可惜,雖說不是正版,但確確實實是當初很多漫迷的福音,版權時代的到來註定鼠繪會消失在歷史的長河中。
  • 這個專門翻譯日漫的字幕組,地氣接的很社會!
    而這次要給大家介紹的,是一個專門翻譯日漫的字幕組——像《海賊王》、《火影忍者》、《名偵探柯南》都有這個組織的痕跡,尤為特別的是,這個字幕組簡直相當的接地氣呀!他就是——天空樹!要說起來,這個字幕組的確是秉承了中日友好的原則,不僅將日語中的口語表現的淋漓盡致,更是與國內的土話、社會話對應的相當精妙。具體有多厲害呢?就先看看小編最熟悉的《名偵探柯南》裡這位組織的身影。
  • So easy EMUI11升級版翻譯神器 哪裡不會點哪裡
    比如開會時,PPT展示的一些英文內容,別人還需要依賴第三方APP拍照翻譯,我就可以直接利用系統自帶的AR翻譯功能,讓翻譯內容直接顯示在手機屏幕上,無須拍攝一目了然。我們只要打開系統相機,點擊左上角的智慧視覺圖標,然後將模式調到「翻譯」即可。多虧有了它,在別人還要重複拍攝,糾結照片不夠清晰的時候,我已經可以了解完全文含義了。
  • EMUI11升級版翻譯神器,哪裡不會點哪裡
    比如開會時,PPT展示的一些英文內容,別人還需要依賴第三方APP拍照翻譯,我就可以直接利用系統自帶的AR翻譯功能,讓翻譯內容直接顯示在手機屏幕上,無須拍攝一目了然。我們只要打開系統相機,點擊左上角的智慧視覺圖標,然後將模式調到「翻譯」即可。多虧有了它,在別人還要重複拍攝,糾結照片不夠清晰的時候,我已經可以了解完全文含義了。
  • 升級EMUI 11全能翻譯助手幫你解決
    都能一鍵搞定其實在我的P40 Pro在沒升級的時候,一些翻譯功能就十分「哇塞」。比如開會時,PPT展示的一些英文內容,別人還需要依賴第三方APP拍照翻譯,我就可以直接利用系統自帶的AR翻譯功能,讓翻譯內容直接顯示在手機屏幕上,無須拍攝一目了然。我們只要打開系統相機,點擊左上角的智慧視覺圖標,然後將模式調到「翻譯」即可。
  • 日漫中流傳的「貓又」到底是種什麼生物?最好不要看傳說
    在日漫中,出現過很多被改變過的「貓又」角色,比如《火影忍者》中的二尾又旅,又叫做二尾「貓又」,因為翻譯不同。關於二尾的形象,作者岸本也借鑑過神話傳說中的「貓又」形象。很多經典的角色,包括《境界的彼方》裡面的角色新堂愛,就是以「貓又」為原型的。
  • 日本女漫迷真是瘋狂,前有破迪士尼記錄,後又與二次元角色結婚
    於是乎……日漫在動漫界有著舉足輕重的地位,他們的製作組在動漫人物化上面都下過不少細節。相信老爺們都知道《百變少女魔術卡》的作品,這部作品在童年時期屬於相當優秀的一部動漫。主角小櫻也深受老爺們的喜愛,以及她的兩隻守護小可和月;註:看的是國語版本,名字與日漫翻譯是不對等的。《百變小櫻》這部動漫不僅僅是影響力,線下也有許多老爺收集《百變小櫻》的手辦。
  • 「ili」離線翻譯神器面世 旅遊終於實現溝通零障礙啦!
    正如其名,四大特色第一大就是在無信號無WIFI的狀況下仍能正常使用,操作界面也十分簡單,使用者只要按下執行按鈕,然後對著機器上面的麥克風說出要翻譯的內容,然後擴音翻譯給溝通對象就可以了。目前,ili的內設翻譯有中文,日文和英文,可完成中翻英,英翻日,日翻中三種語言轉換,每個翻譯系統內涵蓋了五萬個單詞和旅遊常用句子,僅用0.2秒即可完成翻譯。(谷歌翻譯百度翻譯,你們看看人家,好好反省反省!)
  • 《我的英雄學院》可能被禁播,作者故意激怒粉絲,漫迷不選擇原諒
    提到最近幾年的日漫佳作,恐怕大多數漫迷會第一個想到的是《我的英雄學院》,這部作品在國內確實非常受歡迎,也因此收穫了一大批的粉絲,從第一季再到第四季,評分和播放量都是直線上漲,然而最近作者卻飄了,他開始在漫畫中用侮辱性的詞彙觸犯國內外漫迷的底線。
  • AI翻譯如何與傳統翻譯並存共贏:這一次「翻譯」的概念將被重新定義
    AI翻譯一直是近年來熱門話題,從谷歌推出神經網絡機器翻譯(NMT)、搜狗AI進擊,到博鰲同傳機器人,人工智慧在翻譯領域一直在持續不斷的嘗試。可以說,迄今為止,AI在翻譯行業的應用都是一場巨大的人工智慧實驗。
  • 嗶哩嗶哩日漫翻譯再升級!用心關注粉絲觀看體驗
    不久前,嗶哩嗶哩漫畫正式宣布將會與國內的35家漢化組達成合作,了解就會得知,目前已經有35家的漢化組承接了高達166部正版日漫的漢化工作。嗶哩嗶哩的這一舉動可謂是引起了諸多圈內人士們的關注,對於二次元朋友們來說,漢化的質量和水平對於觀看是有著直接影響的,高質量的漢化作品不僅能夠更好的還原日漫的內在和精髓,看起來也讓人覺得賞心悅目。據悉,在過去正版日漫的翻譯工作很多時候其實都是 版權方自行來進行組織的,這就很容易出現質量參差不齊的情況。
  • 大連這些家長有福嘍!接送孩子再也不用擔心停車被罰啦~
    從3月1日開始,各位仙尊就要到凡間歷劫了,品嘗人間六大疾苦:送娃、接娃、看娃學習、帶娃上課、早起給娃備早膳、晚睡給娃查作業。
  • 看圖說話,美漫應該打不過日漫,日漫:「情懷」打敗一切
    作為一名合格的漫迷,應該熟知動漫的各種分類與排名。其實這個世界上的動漫,按照國家來劃分,可以分為四類:日漫、美漫、國漫和其他動漫。在這裡最出名的就是日漫與美漫,在日漫與美漫的作品中,都充斥著自己民族特有的文化傳統,日漫的熱血,美漫的英雄。如果把日漫與美漫放在一起,誰「吊打」誰呢?
  • 我的世界全自動釣魚機,用了這玩意兒之後,釣魚再也不枯燥了
    我的世界全自動釣魚機,用了這玩意兒之後,釣魚再也不枯燥了 說到我的世界中的全自動生活,各位小夥伴們可能會想到刷鐵機