漫畫翻譯、嵌字 AI,東京大學論文被 AAAI』21 收錄

2021-01-11 騰訊網

內容概要:一項關於漫畫文字自動翻譯的研究,引發了熱議,由兩位東京大學博士組成的 Mantra 團隊發布了一篇論文,目前已被 AAAI 2021 收錄,該 Mantra 項目旨在為日本漫畫提供自動化的機器翻譯工具。

關鍵詞:機器翻譯 情感識別 漫畫 AI

最近,由東京大學 Mantra 團隊、雅虎(日本)等機構聯合發布的《Towards Fully Automated Manga Translation 實現漫畫全自動翻譯》(論文地址https://arxiv.org/abs/2012.14271)論文,引發了學界和二次元界的關注。

如圖所示:左一為日文原版,自動化輸出英文版(右二)和中文版(右一)

Mantra 團隊成功地實現了將漫畫的中的對話、氣氛詞、標籤等文字自動識別,並做到了區分角色、聯繫上下文,最後將翻譯文字準確替換、嵌入氣泡區域

有了這個翻譯神器,估計翻譯組、追漫的小夥伴們都該偷著樂了。

發論文、公開數據集、商業化一條龍

在科研方面,目前該篇論文已經被 AAAI 2021 接收,研究團隊還開源了一個包含五部不同風格(幻想、愛情、戰鬥、懸疑、生活)的漫畫,所組成的翻譯評估數據集。

OpenMantra 漫畫翻譯評估數據集

論文地址:https://arxiv.org/abs/2012.14271

數據格式:帶注釋的 JSON 文件和原始圖像

數據內容:1593 個句子、848 個場景、214 頁漫畫

數據大小:36.8 MB

更新時間:2020 年 12 月 7 日

下載地址:https://hyper.ai/datasets/14137

在產品化方面,Mantra 計劃上線封裝好的自動翻譯引擎,不僅面向出版社提供漫畫的自動化翻譯與發行服務,也會發布面向個人用戶的服務。

下面是我們從 Mantra 官方推特上選取的日漫《周邊男子》的部分翻譯成果,這部多格、輕耽美風格的漫畫,以生活常用的數碼設備擬人化為背景,充滿歡樂與基情

滑動查看《周邊男子》日文原版及自動化機器翻譯的中英文版本

識別、翻譯、嵌字,一步也不能少

具體的實現步驟,Mantra 研究團隊在論文《Towards Fully Automated Manga Translation 實現漫畫全自動翻譯》中進行了詳細的解釋。

第一步 定位文字

在實現漫畫自動化翻譯的第一步,就是提取文字區域。

但由於漫畫的特殊性,來自不同角色的對話、效果擬聲詞、文字標註等等,都會展現在一幅漫畫圖片裡,漫畫師會用氣泡、不同的字體、誇張的字體來展現不同效果的文字。

漫畫中的手繪、異形文字的識別成為了難點

研究團隊發現,由於漫畫中的這些各種字體和手繪樣式,即使使用最先進的OCR 系統(例如 Google Cloud Vision API),在漫畫文本上的表現很不理想。

因此,團隊開發了針對漫畫優化的文本識別模塊,通過檢測文本行和識別每個文本行的字符來實現對異形文字的識別。

第二步 內容識別

在漫畫中,最常見的文字就是角色之間的對話,對話文字氣泡還會被切割成多塊。

這就要求自動化機器翻譯需要準確區分角色,還得聯繫上下文注意主語的銜接、避免重複,這都對機器翻譯提出了更高的要求。

點擊放大查看場景分類、文本順序和情感識別流程

在這一步中,要通過上下文感知、情感識別等方式來實現,在上下文感知中,Mantra 團隊用了文本分組、文本閱讀順序、提取視覺語義三種方式,實現了多模態的上下文感知。

第三步 自動嵌字

Mantra 這一自動化引擎,不僅能夠區分角色、聯繫上下文準確翻譯以外,還很好地解決了漫畫翻譯中的耗時最久、人力成本最高的環節——嵌字。

在嵌字這一環節中,首先要擦除嵌字區域,再進行嵌字,由於日文、中文、英文字符的形態、拼寫、組合、連讀方式都不一樣,所以這一環節的難度也尤其大。

在這一步中,需要進行:頁面匹配檢測文本框文字氣泡的像素統計拆分連接的氣泡語言間的對齊文字識別上下文提取。

實驗:數據集與模型測試

在論文中的實驗部分,Mantra 團隊提到目前並沒有包含多種語言的漫畫數據集,所以他們創建了 OpenMantra(已開源)和 PubManga 數據集,其中OpenMantra 用於評估機器翻譯,包含 1593 個句子、848 個場景畫面和 214 頁漫畫,Mantra 團隊已經請專業翻譯人員將數據集翻譯成英文和中文

OpenMantra 漫畫翻譯評估數據集

(同上文)

論文地址:https://arxiv.org/abs/2012.14271

數據格式:帶注釋的 JSON 文件和原始圖像

數據內容:1593 個句子、848 個場景、214 頁漫畫

數據大小:36.8 MB

更新時間:2020 年 12 月 7 日

下載地址:https://hyper.ai/datasets/14137

PubManga 數據集用於評估構建的語料庫,該數據集包含注釋:1)文本和框架的邊框;2)日語和英語的文本(字符序列);3)框架和文本的閱讀順序。

為了訓練模型,團隊準備了842097 對日文、英文版的漫畫頁面,共 3979205 對日語-英語的句子。具體的方法可以閱讀論文,最終的模型效果評估由人工完成,Mantra 團隊邀請了五位專業的日文-英文翻譯人員,以專業的翻譯評估程序給句子打分。

項目背後:有趣的靈魂一起學習

目前該篇論文已經被 AAAI 2021 收錄,產品化的工作也在穩步推進中,從 Mantra 團隊的推特中,我們看到已經有不少漫畫成功使用了 Mantra 進行自動化機器翻譯。

這樣的寶藏項目,是由兩位東京大學的博士生完成的,CEO石和祥之介(Shonosuke Ishiwatari),CTO 日南涼太(Ryota Hinami)同在東京大學博士畢業,在 2020 年創立了 Mantra 團隊。

Mantra CEO 石和祥之介(左)和 CTO 日南涼太(右)

CEO 石和祥之介,東京大學信息科學系本科 2010 級入學,博士畢業於 2019 年。他主要專注於自然語言處理領域的研究和開發,包括機器翻譯和字典生成,也是本篇論文的第二作者。

值得一提的是,石和祥之介的研究經驗豐富,不僅曾經在 CMU 交流訪學,還曾於 2016-17 年在位於北京的微軟亞洲研究院實習半年,當時他在MSRA 首席研究員劉樹傑團隊從事 NLC (Natural Language Computing) 自然語言計算的研究。

CTO 日南涼太石和祥之介同年入學,專注於圖像識別領域。在 2016-17 年同期和石和祥之介,一同在微軟亞洲研究院實習。

這樣的一對技能互補的小夥伴,完成了 Mantra 的大部分工作,是不是從發量到成果都很讓人羨慕呢?

如果想了解更多關於 Mantra 的信息,大家可以訪問論文(https://arxiv.org/abs/2012.14271)、項目官網(https://mantra.co.jp/)或下載數據集(https://hyper.ai/datasets/14137),進行進一步研究。

—— 完 ——

歡迎個人轉發到朋友圈

相關焦點

  • 漫畫文字自動翻譯
    【CSDN 編者按】相信不少漫畫迷都曾為了追漫畫特地去學習外語,學外語的時候很累,看漫畫的時候很爽。現在,東京大學兩位博士研發了漫畫文字自動翻譯的一個工具,追漫再也不累了!作者 | 神經星星 責編 | 張文內容概要:一項關於漫畫文字自動翻譯的研究,引發了熱議,由兩位東京大學博士組成的 Mantra 團隊發布了一篇論文,目前已被 AAAI 2021 收錄,該 Mantra 項目旨在為日本漫畫提供自動化的機器翻譯工具。
  • 日本東京大學鄭仁成博士訪問自動化學院
    本站訊(通訊員 姜秀蓮)5月5日,日本東京大學鄭仁成博士應邀訪問天津大學,與自動化學院師生進行學術交流,並就機器人領域相關研究在26教學樓E座206會議室做了學術報告。   鄭仁成博士畢業於日本高知工科大學智能機械系統工程專業,現任東京大學生產技術研究所特任研究員,東京大學智能交通系統研究中心項目研究主任。研究方向主要涉及人體穿戴式傳感器、非線性振動發電系統、自動駕駛、汽車駕駛模擬器的開發應用等方面。目前,共發表學術論文171篇,其中期刊論文49篇,會議論文121篇,SCI收錄16篇,EI收錄30篇。
  • 日均翻譯過萬張,「秒翻」探索自動化漫畫翻譯模式
    AI圖片翻譯平臺「秒翻」打破傳統「漢化組」式漫畫翻譯工作模式,將人工翻譯、嵌字、排版調整的流程自動化,每天可完成上千章節的漫畫翻譯,漫畫出海為秒翻的應用提供了更多機會。作者 | 任彤瑤這是「新商業情報NBT」報導的第554家創業公司翻閱過異國漫畫的人,對「漢化組」一詞都不會陌生。
  • 嗶哩嗶哩漫畫與國內35家民間漢化組達成合作!渣翻譯不再有,我們...
    目前國內主要的電子正版日漫平臺有騰訊動漫、快看漫畫、布卡漫畫、漫番漫畫、新漫畫、嗶哩嗶哩漫畫等,嗶哩嗶哩漫畫背靠國內最大二次元彈幕視頻站B站,所以影響力也是非常高,期間更是把網易漫畫收購了,這也大幅充實了嗶哩嗶哩漫畫的內容。
  • 東京舉辦體育紀實漫畫作品展
    新華社東京11月24日電(記者王子江 楊光)日本體育紀實漫畫作品展24日在東京大學附近的SHANBARA藝術空間開展,日本知名漫畫原創作家門脅正法拿出了
  • CLAMP漫畫名作改編動畫《東京巴比倫2021》21年開播!
    大家好,今天分享CLAMP漫畫原作改編的TV動畫《東京巴比倫2021》公布了為主要角色配音的聲優名單,並同時公布了第二彈PV。該作由曾製作動畫《K》的動畫公司GoHands負責動畫製作,將於2021年4月正式開播。
  • AI界的State of the Art都在這裡了
    機器之心編輯參與:劉曉坤、思源近日,來自 MIT 和 UNAM 的四名學生構建了一個收錄了最優算法的網站,他們按領域、任務和數據集採集了最先進水平(SOTA)的論文,並為不同的任務提供了不同的性能度量標準。如果我們需要處理特定數據集或任務,這能大大減少搜索論文的時間,同時還能快速了解當前最優的解決方案。
  • 一般醫學SCI期刊會收錄哪些論文?
    想要在醫學SCI期刊上發表論文,毫無疑問,需要先了解醫學SCI期刊會收錄什麼論文。只有這樣,才能據此選擇自己的寫作方向,提高論文被收錄的機率。那麼,醫學SCI期刊會收錄什麼論文呢?今天總結一些,供大家參考。
  • 螞蟻安全實驗室與中科院聯合論文被AAAI-21收錄
    摘要:以創新的雙維度時序建模框架提升交易風險評估效率人工智慧領域的國際頂級學術會議AAAI於近期公布了2021年會議的審稿結果,螞蟻安全天筭實驗室安全專家、安全機器智能團隊成員宋博文(花名千輕)與中科院計算所莊福振副研究員團隊的聯合研究論文《Modeling the Field Value Variations and Field
  • AI研究實力最強的25所高校,據NIPS2017論文數統計
    NIPS 2017在加州長灘舉辦,吸引了8000名參會者,從3240篇提交的論文中接收了679篇,接收率為21%。根據這679篇論文,統計得到以下結果。根據論文統計,全球TOP25的大學:1.CMU,卡內基梅隆大學2. MIT,麻省理工大學3. Stanford U,史丹福大學4. UC Berkeley,加州大學伯克利分校5. UIUC,伊利諾伊大學香檳分校6.
  • 9名女大學生一個月翻譯10萬字熱銷漫畫
    近日,漢譯英版漫畫《功成神就》(中文版由《知音》集團出版)將在海外通過手機APP線上熱銷。而作為此書主要翻譯的9名在校大學生也因為有顏又有才成了校園「網紅」。參與此次翻譯任務的成員均來自武昌工學院國際教育學院譯思通翻譯工作室。由該校翻譯1601班戈香子、鄧芯、柳金秀、陳蕾、吳娟,英語1605班張雪姣、吳晨嫣、吳慶鑫,英語1703班林澤菲9名學生組成。
  • 螞蟻安全實驗室論文被人工智慧頂級學術會議AAAI-21收錄
    螞蟻安全天筭實驗室、機器智能團隊端雲共享智能算法團隊成員申書恆(花名永巖),以第一作者身份完成的聯邦學習算法研究《STL-SGD:Speeding Up Local SGD with Stagewise Communication Period》成功被AAA1-21收錄。這是螞蟻安全天筭實驗室中稿AAAI-21的第2篇論文,同時也是螞蟻安全實驗室於2020年中稿全球頂級會議的第9篇論文。
  • 原來豐子愷是中國「漫畫之父」,也是與魯迅「撞車」的翻譯家
    短短一個月展期,館內門庭若市,吸引了3萬餘參觀者,足見「豐子愷」三字的號召力。上海文聯日前也透露,該展不日將移師文聯展廳,以饗觀眾。「豐子愷」意味著什麼?一千個讀者有一千個答案。但不可否認的是,無論是他的漫畫、翻譯,還是美育理念乃至音樂思想,都對後人產生了深遠影響。
  • 日本東京大學著名細胞生物學家渡邊嘉典論文造假坐實
    經過近一年的調查,日本東京大學著名細胞生物學家渡邊嘉典被認定存在學術造假行為。 《科技日報》8月6日報導,去年8月,日本東京大學接到匿名舉報材料,舉報該校6個實驗室的22篇論文存在人為造假的圖片和數據,該校隨即成立專門調查委員會,對涉嫌造假的實驗室進行調查。近日,東京大學召開新聞發布會公布了最終結果。
  • 翻譯的論文竟能躲過論文查重系統的火眼金睛?
    對於許多即將走出校園的同學來說,論文是一座大山,再艱難也得翻過去。在撰寫論文之初,各種選題、撰寫、修改都讓大多數同學都焦頭爛額,各種論文撰寫方法和降重的技巧在網絡上層出不窮令所有人茫然,不知從何下筆。最近在網絡上看到有一前輩分享的技巧很有意思,就是通過翻譯外文的論文,再稍加修改竟能輕鬆躲過論文查重系統的檢測並且順利通過論文答辯。成為許多還在為論文而搜腸刮肚的同學們的成功案例,繼而紛紛效仿。一番操作下來最後是喜憂參半,為什麼會有這樣的結果?論文大師今天為大家一一道來。
  • 螞蟻安全實驗室論文被人工智慧頂級學術會議AAAI-21收錄—中國經濟網
    螞蟻安全實驗室論文被人工智慧頂級學術會議AAAI-21收錄 2020
  • 日本小哥3年為東京手繪100張插畫,看完想把年假用光!
    相信很多年輕人,會拍下生活中熱鬧的街景、湛藍的天空或者夕陽下的公園……住在東京的日本插畫師Shinji Tsuchimoch(つちもちしんじ),也同樣有著一顆熱愛生活的心。2013年夏天,30歲的他搬到東京日暮裡,在這片極富生活氣息的地方,他走走停停,用3年的時間親手為東京繪出100幅插畫作品,並在2016年整理出版成書《東京下町百景(100 views of Tokyo)》。而在今年年初,Shinji Tsuchimoch又受邀前往法國南部,向法國人民介紹他所描繪的東京的風景和文化。
  • 檸檬研|東京外國語大學研究生申請條件大變動
    東京外國語大學的前身是東京大學的外國語學部,是日本頂尖、世界一流的著名外語類國立大學,同時也是日本頂尖單科類國立大學聯合「東京四國立」(一橋大學、東京工業大學、東京外國語大學、東京醫科牙科大學)的成員之一。因此,頗受留學生們的喜愛, 東京外國語大學研究生的入學只有4月一期,並無10月入學。