黑科技!漫畫文字自動翻譯

2021-01-07 CSDN

【CSDN 編者按】相信不少漫畫迷都曾為了追漫畫特地去學習外語,學外語的時候很累,看漫畫的時候很爽。現在,東京大學兩位博士研發了漫畫文字自動翻譯的一個工具,追漫再也不累了!

作者 | 神經星星 責編 | 張文

內容概要:一項關於漫畫文字自動翻譯的研究,引發了熱議,由兩位東京大學博士組成的 Mantra 團隊發布了一篇論文,目前已被 AAAI 2021 收錄,該 Mantra 項目旨在為日本漫畫提供自動化的機器翻譯工具。

最近,由東京大學 Mantra 團隊、雅虎(日本)等機構聯合發布的《Towards Fully Automated Manga Translation 實現漫畫全自動翻譯》論文,引發了學界和二次元界的關注。

如圖所示:左一為日文原版,自動化輸出英文版(右二)和中文版(右一)

Mantra 團隊成功地實現了將漫畫的中的對話、氣氛詞、標籤等文字自動識別,並做到了區分角色、聯繫上下文,最後將翻譯文字準確替換、嵌入氣泡區域。

有了這個翻譯神器,估計翻譯組、追漫的小夥伴們都該偷著樂了。

發論文、公開數據集、商業化一條龍

在科研方面,目前該篇論文已經被 AAAI 2021 接收,研究團隊還開源了一個包含五部不同風格(幻想、愛情、戰鬥、懸疑、生活)的漫畫,所組成的翻譯評估數據集。

OpenMantra 漫畫翻譯評估數據集論文地址:https://arxiv.org/abs/2012.14271數據格式:帶注釋的 JSON 文件和原始圖像數據內容:1593 個句子、848 個場景、214 頁漫畫數據大小:36.8 MB更新時間:2020 年 12 月 7 日下載地址:https://hyper.ai/datasets/14137

在產品化方面,Mantra 計劃上線封裝好的自動翻譯引擎,不僅面向出版社提供漫畫的自動化翻譯與發行服務,也會發布面向個人用戶的服務。

具體的實現步驟,Mantra 研究團隊在論文《Towards Fully Automated Manga Translation 實現漫畫全自動翻譯》中進行了詳細的解釋。

定位文字

在實現漫畫自動化翻譯的第一步,就是提取文字區域。

但由於漫畫的特殊性,來自不同角色的對話、效果擬聲詞、文字標註等等,都會展現在一幅漫畫圖片裡,漫畫師會用氣泡、不同的字體、誇張的字體來展現不同效果的文字。

漫畫中的手繪、異形文字的識別成為了難點

研究團隊發現,由於漫畫中的這些各種字體和手繪樣式,即使使用最先進的OCR 系統(例如 Google Cloud Vision API),在漫畫文本上的表現很不理想。

因此,團隊開發了針對漫畫優化的文本識別模塊,通過檢測文本行和識別每個文本行的字符來實現對異形文字的識別。

內容識別

在漫畫中,最常見的文字就是角色之間的對話,對話文字氣泡還會被切割成多塊。

這就要求自動化機器翻譯需要準確區分角色,還得聯繫上下文注意主語的銜接、避免重複,這都對機器翻譯提出了更高的要求。

點擊放大查看場景分類、文本順序和情感識別流程

在這一步中,要通過上下文感知、情感識別等方式來實現,在上下文感知中,Mantra 團隊用了文本分組、文本閱讀順序、提取視覺語義三種方式,實現了多模態的上下文感知。

自動嵌字

Mantra 這一自動化引擎,不僅能夠區分角色、聯繫上下文準確翻譯以外,還很好地解決了漫畫翻譯中的耗時最久、人力成本最高的環節——嵌字。

在嵌字這一環節中,首先要擦除嵌字區域,再進行嵌字,由於日文、中文、英文字符的形態、拼寫、組合、連讀方式都不一樣,所以這一環節的難度也尤其大。

在這一步中,需要進行:頁面匹配→檢測文本框→文字氣泡的像素統計→拆分連接的氣泡→語言間的對齊→文字識別→上下文提取。

實驗: 數據集與模型測試

在論文中的實驗部分,Mantra 團隊提到目前並沒有包含多種語言的漫畫數據集,所以他們創建了 OpenMantra(已開源) 和 PubManga 數據集,其中OpenMantra 用於評估機器翻譯,包含 1593 個句子、848 個場景畫面和 214 頁漫畫,Mantra 團隊已經請專業翻譯人員將數據集翻譯成英文和中文。

OpenMantra 漫畫翻譯評估數據集(同上文)論文地址:https://arxiv.org/abs/2012.14271數據格式:帶注釋的 JSON 文件和原始圖像數據內容:1593 個句子、848 個場景、214 頁漫畫數據大小:36.8 MB更新時間:2020 年 12 月 7 日下載地址:https://hyper.ai/datasets/14137

PubManga 數據集用於評估構建的語料庫,該數據集包含注釋:

文本和框架的邊框日語和英語的文本(字符序列)框架和文本的閱讀順序為了訓練模型,團隊準備了 842097 對日文、英文版的漫畫頁面,共 3979205 對日語-英語的句子。具體的方法可以閱讀論文,最終的模型效果評估由人工完成,Mantra 團隊邀請了五位專業的日文-英文翻譯人員,以專業的翻譯評估程序給句子打分。

項目背後:有趣的靈魂一起學習

目前該篇論文已經被 AAAI 2021 收錄,產品化的工作也在穩步推進中,從 Mantra 團隊的推特中,我們看到已經有不少漫畫成功使用了 Mantra 進行自動化機器翻譯。

這樣的寶藏項目,是由兩位東京大學的博士生完成的,CEO石和祥之介 (Shonosuke Ishiwatari),CTO 日南涼太(Ryota Hinami) 同在東京大學博士畢業,在 2020 年創立了 Mantra 團隊。

Mantra CEO 石和祥之介(上)和 CTO 日南涼太(下)

CEO 石和祥之介,是東京大學信息科學系本科 2010 級入學,博士畢業於 2019 年。他主要專注於自然語言處理領域的研究和開發,包括機器翻譯和字典生成,也是本篇論文的第二作者。

值得一提的是,石和祥之介的研究經驗豐富,不僅曾經在 CMU 交流訪學,還曾於 2016-17 年在位於北京的微軟亞洲研究院實習半年,當時他在 MSRA 首席研究員劉樹傑團隊從事 NLC (Natural Language Computing) 自然語言計算的研究。

CTO 日南涼太石和祥之介同年入學,專注於圖像識別領域。在 2016-17 年同期和石和祥之介,一同在微軟亞洲研究院實習。

這樣的一對技能互補的小夥伴,完成了 Mantra 的大部分工作,是不是從發量到成果都很讓人羨慕呢?

如果想了解更多關於 Mantra 的信息,大家可以訪問論文(https://arxiv.org/abs/2012.14271)、項目官網(https://mantra.co.jp/)或下載數據集(https://hyper.ai/datasets/14137),進一步研究。

相關焦點

  • 「黑科技」究竟是什麼「黑」
    29日,國家語言文字工作委員會發布「語言生活白皮書」,其中《中國語言生活狀況報告2018》(以下簡稱《報告》)專闢章節,解讀「黑科技」的「黑」,究竟是什麼「黑」。《報告》指出,根據現代漢語詞典,「黑」有八個義項,其中四個為形容詞性義項:1.像墨和煤那樣的顏色,與「白」相對;2.暗,光線不足;3.隱蔽的,非法的;4.惡毒。
  • 遊戲黑科技!RetroArch模擬器為遊戲加入配音及實時翻譯
    遊戲黑科技!最近,提供一站式老遊戲模擬解決方案的RetroArch開發出了一種聽起來非常黑科技的新功能——為模擬器遊戲自動翻譯! 1.7.8版RetroArch新增加了一個名為「AI服務按鈕」,該功能使用OCR技術掃描玩家屏幕上顯示的文字,並立刻翻譯成英文字幕顯示在遊戲的上層。原本在遊戲中的「蝌蚪文」立刻被機翻成了能夠讀懂的文字,當然因為使用的是機器翻譯,因此翻譯出的意思不可能完全準確。 另外,使用Text to Speech文本閱讀技術,RetroArch模擬器還做到了為老遊戲配音的功能!
  • 黑科技語音滑鼠!快鼠滑鼠,說話打字,即時翻譯,太智能了!
    黑科技語音滑鼠!快鼠滑鼠,說話打字,即時翻譯,太智能了!據悉,快鼠滑鼠是盤古盈時科技(深圳)有限公司旗下品牌,與中國最大的智能語音技術提供商科大訊飛進行合作,在快鼠智能語音滑鼠創新語音識別技術加持下,實現說話就可以打字和翻譯,讓用戶享受科技帶來的高效。
  • 日均翻譯過萬張,「秒翻」探索自動化漫畫翻譯模式
    漫畫翻譯組使用的工具大多為Photoshop(簡稱「PS」)。作為專業修圖軟體,PS有較高的學習成本,且並不完全匹配漫畫翻譯的需求。漫畫翻譯組需要人工對圖片中的文字信息進行提取翻譯,擦除圖片中的原文後,再逐一對應嵌入譯文,將字體和排版調整至適合原畫面再導出。AI圖片翻譯平臺「秒翻」的出現,正是瞄準了這一痛點。
  • 黑科技語音滑鼠!語音打字上網、26國語言翻譯!科大訊飛再出黑科技...
    提到【科大訊飛】,就是三個字:黑科技!大家對他一定不陌生,這個總理都點讚的品牌。研製出一款智能語音滑鼠!黑科技語音滑鼠!語音打字上網、26國語言翻譯!科大訊飛再出黑科技!和各國客戶交流,不需要費勁吐著中式英語,只要有咪鼠,26種語言信手拈來,膩害膩害~黑科技語音滑鼠!
  • 漫畫翻譯、嵌字 AI,東京大學論文被 AAAI』21 收錄
    內容概要:一項關於漫畫文字自動翻譯的研究,引發了熱議,由兩位東京大學博士組成的 Mantra 團隊發布了一篇論文,目前已被 AAAI 2021 收錄,該 Mantra 項目旨在為日本漫畫提供自動化的機器翻譯工具。
  • 還在為英文翻譯而發愁?推薦2款超級實用的黑科技小程序,真好用
    還在為英文翻譯而發愁?推薦2款超級實用的黑科技小程序,真的好用!1、AI拍照掃描翻譯AI拍照掃描翻譯:最近geek君因閱讀英文出現較大障礙,為了一鍵解決翻譯問題,嘗試了很多軟體,結果無意中發現一個絕對很黑的智能掃描英文翻譯黑科技小程序
  • 語音打字上網、26國語言翻譯!妥妥的黑科技!
    除了顏值,MiMouse S擁有不得不提的各種黑科技功能,讓這款滑鼠內外兼修而充滿魅力。還在為一大推文字錄入電腦而頭疼,還在擔心上網查找資料速度慢,還在為打開之前電腦中保存的文件而煩惱嗎?這些問題統統交給MiMouse S,簡短的語音指令就可以快速完成語音上網、語音打字、語音翻譯等操作。革命性地簡化用戶在使用電腦進行操作中的難題,從此人機互動不再只是說說而已。語音上網:你說MiMouse S來執行,滿足您的全方位需求。
  • 科技三巨頭合力打造,32種語言翻譯的黑科技誕生了
    7月3號,在上海總部的Sweetalk新品發布會上,Sweetalk推出了線下全方位的顛覆語言的黑科技硬體——「Dounts智能耳機」,這一款帶著滿滿黑科技味道的產品一經發布就受到所有網友的大呼驚嘆,這就是集Sweetalk、科大訊飛、Google共同的技術合作
  • 騰訊翻譯君「同傳」黑科技解決溝通難題
    除了通過日常學習生活中的點滴積累逐步提升英文水平之外,職場新人還可以常備一款智能翻譯App來應對工作中出現的各類棘手的語言問題。騰訊翻譯君作為一款以AI內核為驅動的智能翻譯軟體,於近日升級推出全新「同聲傳譯」功能,可以幫助用戶進行高效便捷的中英跨語言溝通,同時還能提供專業詞典、拍照翻譯、口語跟讀等豐富功能,全面滿足用戶在日常工作中的各類口語表達、文本處理、會議溝通等翻譯需求。
  • 人人譯視界:針對影視劇字幕組推出「視頻翻譯黑科技」,提高80%翻譯...
    傳統視頻翻譯流程中,譯者需要在多個視頻後期軟體中來回切換,且這些軟體大多安裝不易且操作複雜,想換臺電腦都非常麻煩。近日,一款被稱為」視頻翻譯黑科技」的翻譯協作神器人人譯視界進入公眾視野。其背後的創始團隊在翻譯行業有著十四年的從業經驗,形成了一套完善的協作流程體系。
  • 華為手機自帶翻譯黑科技,按下這個按鈕,即可翻譯多國語言
    用過華為手機的朋友都知道,手機中有很多黑科技功能,除了一些經常使用到手機技巧。其實華為手機中還隱藏了一個非常實用的辦公黑科技。手機自帶大翻譯功能相信很少有人知道怎麼使用,下面就帶大家了解一下。一、手機拍照翻譯華為手機自帶的相機功能除了用來拍照以外,還可以當作翻譯功能。當我們遇到看到不懂的英文單詞,只要拿出手機打開相機對準需要翻譯的英文單詞進行拍照,等待2秒就可以將英文翻譯成中文,不但如此還可以實現互譯功能。
  • 科學家研發黑科技耳機,隨時隨地雙向翻譯,讓語言溝通再無障礙
    導語:科學家研發黑科技耳機,隨時隨地雙向翻譯,讓語言溝通再無障礙耳機是我們買手機時的標準配件,不管是用於聽歌打發時間,還是學習外語都會使用到它。現在我們可以在手機上看到各種翻譯軟體,為我們出國旅遊解決了不少問題,但是手機軟體只能幫我們翻譯,不能自由的溝通。於是科學家研發了這款黑科技耳機TRAGL,隨時隨地都能雙向翻譯,讓語言溝通再無障礙。TRAGL不只翻譯一種語言,它能夠轉換三十多個國家的語言。發明者亞利克斯,因喜歡環遊世界卻語言不通,所以組織研發團隊發明這款產品。
  • 日本地方博物館推出「黑科技」 戴眼鏡即可看翻譯
    日本地方博物館推出「黑科技」 戴眼鏡即可看翻譯
  • 騰訊翻譯君「同傳」黑科技解決溝通難題
    除了通過日常學習生活中的點滴積累逐步提升英文水平之外,職場新人還可以常備一款智能翻譯 App 來應對工作中出現的各類棘手的語言問題。騰訊翻譯君作為一款以 AI 內核為驅動的智能翻譯軟體,於近日升級推出全新「同聲傳譯」功能,可以幫助用戶進行高效便捷的中英跨語言溝通,同時還能提供專業詞典、拍照翻譯、口語跟讀等豐富功能,全面滿足用戶在日常工作中的各類口語表達、文本處理、會議溝通等翻譯需求。
  • 有道詞典拍照翻譯黑科技 英語翻譯拍立得
    有道詞典拍照翻譯黑科技 英語翻譯拍立得  隨著開學季的到來,受不少學生用戶青睞的有道詞典也發布了其全新的7.3開學版。
  • 島國黑科技:全球首個中二病語言翻譯軟體
    對於未知的好奇總是讓十幾歲的青少年痴迷於各種魔幻題材的漫畫、遊戲、小說以及影視作品,但如果你入戲太深,難以自拔,那麼就有很大機率患上「中二病」。「中二病」雖然不會對人體造成損害,但卻會讓人變得難以與周圍人交流。
  • 自動寫文案的AI黑科技
    畢竟谷歌的Alpha Go都已經將人類腦力運動的佼佼者斬於馬下,像文字編輯這樣的相對簡單的腦力工作,AI想做一些輕量級的文案,肯定是綽綽有餘。其實,淘寶就做出了一個自動寫文案的AI黑科技,一起來看看吧。
  • 原來藏了這麼多黑科技!谷歌翻譯深度體驗
    下面,我們就帶大家體驗谷歌翻譯APP,看看它有哪些讓人慾罷無能的「黑科技」!在生活中,要用到翻譯的主要有以下幾個場景:一是出國旅行。相機翻譯:可以即拍即翻谷歌翻譯的相機實時翻譯功能令人驚豔,開啟該功能後將攝像頭對準英文,就可以自動獲得中文翻譯並展現在屏幕之上,取代原本的英文語句。目前,這個功能僅支持英文翻譯。
  • 訊飛輸入法面對面翻譯黑科技 與外國人交流無壓力
    別慌,訊飛輸入法面對面翻譯黑科技來也,讓你與戰鬥民族談笑風生!作為AI賦能具有多語種翻譯能力的「隨身翻譯官」,訊飛輸入法率先將Attention模型應用到機器翻譯中,有效提高了機器的文本分析、機器翻譯等能力。