本文簡要介紹了最近被IEEE TIP 2020 錄用的論文 「EraseNet:End-to-end Text Removal in the Wild」的相關工作。該論文主要針對場景文字擦除的問題,首先從已有的場景文字檢測與識別的公開數據集收集圖片,通過人工標註構建了文字擦除的資料庫SCUT-EnsText,並提出了EraseNet文字擦除模型,可以在整圖級別不需要文本位置信息的先驗下對場景中的文字進行擦除,最後也在該數據集以及之前在[1]提出的合成數據集上與之前方法進行了實驗對比,驗證了我們方法的有效性,建立了場景文字擦除問題的基準(Benchmark),以便於後續研究工作的開展。
場景文字擦除在近幾年得到了越來越多的關注,這項技術在隱私保護、視覺信息翻譯和圖片內容編輯等方面都有著很重要的作用。文字擦除不僅僅是給自然場景中的文字打上馬賽克這樣簡單,而是要考慮在擦掉文字的同時保持文本區域背景的原特徵,這就為這個任務帶來了挑戰。目前圍繞這一課題學者們也提出了諸如SceneTextEraser[2],EnsNet[1],MTRNet[3]等文字擦除模型,但這些模型基本都是基於合成數據SynthText[4]以及少量真實數據進行訓練,當這些算法應用到真實場景中可能不具備泛化能力。因此,為了促進文字擦除技術的發展,亟待建立一個場景文字擦除的資料庫,提供可靠的數據和分析用以評價不同擦除模型的性能。今天介紹的文章提出了新的真實場景下的文字擦除數據集SCUT-EnsText,並提出了EraseNet模型,該方法在文字擦除任務中取得了不錯的性能。
圖1展示了SCUT-EnsText的一些樣本。這批數據主要採集自如ICDAR 2013,ICDAR 2015,SCUT CTW1500等公開數據集,數據來源如表格1所示。該數據集總共包含3562張場景圖片,有著2w餘個文本實例。這些文本涵蓋中英文以及數字等不同字形,也將水平文本、任意四邊形文本和曲線文本等考慮在內;同時考慮到背景複雜度對文字擦除的影響,也刻意挑選了不同背景、不同亮度的文本背景圖片。這些特性增加了數據集的挑戰性和對不同數據類型的適應性和泛化性。SCUT-EnsText訓練集包含2749張圖片,測試集813張圖片,它為場景文字擦除任務建立了新的基準。
這篇文章同時提出了一個端到端場景文字擦除模型,通過引入兩階段的編解碼器(Coarse-to-refinement)以及一個額外的文本感知分支構建了文字擦除生成對抗網絡EraseNet,模型的流程圖如圖2所示。
生成器 EnsNet的輸出很多時候存在擦除不徹底的問題,比如文本只擦了一部分或者會留有明顯的文本輪廓,於是EraseNet在EnsNet生成器的基礎上額外加了一個編解碼網絡作為對第一階段輸出結果的進一步微調(Refinement),訓練的時候會對兩個階段的輸出都進行有效的監督以確保生成圖片的質量。此外,考慮到整圖級別的端到端文字擦除會存在文本遺漏的問題,一個簡單直接的想法便是額外加入一個文本感知分支,將網絡作為一個多任務學習的模型,在進行擦除的同時能比較準確的定位文字區域的位置,對於這個分支,考慮到樣本不均衡的問題我們使用Dice Loss去優化,Dice Loss的定義如下:
判別器為了保證生成器輸出結果的質量(文字擦除區域的質量以及該區域與非文本背景區域的連續性等), 本文使用了局部-全局(local-global)FCN作為判別器。它最終將全局和局部的特徵Patch拼接在一起進行真或假的判定。
考慮到生成對抗網絡(GAN)訓練的不穩定性(如模式坍塌和不收斂的問題),EraseNet使用基於譜歸一化(SN)[5]的GAN(SN-Patch-GAN)為基本網絡框架,譜歸一化通過對每一層網絡的權重矩陣的譜範數約束來滿足Lipschitz條件,以增強GAN訓練的穩定性。最終GAN的損失函數形式如下:除了上述介紹的Dice Loss和Ganloss,本文還引入了Local-aware Reconstruction Loss, Content Loss(包含Style Loss [6]和Perceptual Loss [7])。
Local-aware reconstruction lossM代表訓練為輸入的文本Mask,和分別代表Coarse階段輸出和最終微調後的輸出。實驗主要在SCUT-EnsText和EnsNet[1]提出的8800張(8000用於訓練,800測試)合成數據集上進行。
量化結果對比和可視化結果圖都驗證了EraseNet各模塊的有效性以及Content Loss在文字擦除任務中的積極作用。
B.與之前SOTA方法的對比實驗結果如下,其中圖表IV和V為SCUT-EnsText的結果,圖5為合成數據的結果:C.此外,還進行了與一些Image Inpainting方法和弱監督方法的對比,結果如圖7所示。這也論證了EraseNet的有效性。D/I Weakly表示先檢測後用預訓練的Image Inpainting模型進行文字區域填補。本文提出了一個真實場景下用於場景文字擦除的數據集,能夠用於文字擦除以及後續進行文本編輯等方面的研究。本文構建了一個端到端場景文字擦除的網絡EraseNet,它可以在整圖級別不需要文本位置信息的先驗下對場景中的文字進行擦除,並能取得較好的性能。EraseNet論文連結:https://ieeexplore.ieee.org/document/9180003EraseNet代碼:https://github.com/lcy0604/EraseNetSCUT-EnsText數據集連結:https://github.com/HCIILAB/SCUT-EnsText
[1] S. Zhang, Y. Liu, L. Jin, Y. Huang, andS. Lai, 「Ensnet: Ensconce text in the wild,」 in Proceedings of AAAI, vol. 33,2019, pp. 801–808.
[2] T. Nakamura, A. Zhu, K. Yanai, and S.Uchida, 「Scene text eraser,」 in Proceedings of ICDAR, vol. 01, 2017, pp.832–837.
[3] O. Tursun, R. Zeng, S. Denman, S.Sivapalan, S. Sridharan, and C. Fookes, 「Mtrnet: A generic scene text eraser,」in Proceedings of ICDAR, 2019, pp. 39–44.
[4] A. Gupta, A. Vedaldi and A. Zisserman,"Synthetic Data for Text Localisation in Natural Images," 2016IEEE Conference on Computer Vision and Pattern Recognition (CVPR), LasVegas, NV, 2016, pp. 2315-2324.
[5] T. Miyato, T. Kataoka, M. Koyama, andY. Yoshida, 「Spectral normalization for generative adversarial networks,」 in Proceedings of ICLR, 2018.
[6] L. A. Gatys, A. S. Ecker, and M.Bethge, 「Image style transfer using convolutional neural networks,」 in Proceedings of CVPR, 2016, pp. 2414–2423.
[7] J. Johnson, A. Alahi, and L. Fei-Fei,「Perceptual losses for real-time style transfer and super-resolution,」 in Proceedings of ECCV, 2016, pp. 694–711.
原文作者: Chongyu Liu, Yuliang Liu, Lianwen Jin, Shuaitao Zhang, Canjie Luo,Yongpan Wang
審校:連宙輝
發布:金連文
免責聲明:(1)本文僅代表撰稿者觀點,撰稿者不一定是原文作者,其個人理解及總結不一定準確及全面,論文完整思想及論點應以原論文為準。(2)本文觀點不代表本公眾號立場。 徵稿啟事:本公眾號將不定期介紹文檔圖像分析與識別及相關領域的論文、數據集、代碼等成果,歡迎自薦或推薦相關領域最新論文/代碼/數據集等成果給本公眾號審閱編排後發布。(掃描識別如上二維碼加關注)