論文推薦|[IEEE TIP 2020]EraseNet:端到端的真實場景文本擦除方法

2021-02-13 CSIG文檔圖像分析與識別專委會

本文簡要介紹了最近被IEEE TIP 2020 錄用的論文 「EraseNet:End-to-end Text Removal in the Wild」的相關工作。該論文主要針對場景文字擦除的問題,首先從已有的場景文字檢測與識別的公開數據集收集圖片,通過人工標註構建了文字擦除的資料庫SCUT-EnsText,並提出了EraseNet文字擦除模型,可以在整圖級別不需要文本位置信息的先驗下對場景中的文字進行擦除,最後也在該數據集以及之前在[1]提出的合成數據集上與之前方法進行了實驗對比,驗證了我們方法的有效性,建立了場景文字擦除問題的基準(Benchmark),以便於後續研究工作的開展。

場景文字擦除在近幾年得到了越來越多的關注,這項技術在隱私保護、視覺信息翻譯和圖片內容編輯等方面都有著很重要的作用。文字擦除不僅僅是給自然場景中的文字打上馬賽克這樣簡單,而是要考慮在擦掉文字的同時保持文本區域背景的原特徵,這就為這個任務帶來了挑戰。目前圍繞這一課題學者們也提出了諸如SceneTextEraser[2],EnsNet[1],MTRNet[3]等文字擦除模型,但這些模型基本都是基於合成數據SynthText[4]以及少量真實數據進行訓練,當這些算法應用到真實場景中可能不具備泛化能力。因此,為了促進文字擦除技術的發展,亟待建立一個場景文字擦除的資料庫,提供可靠的數據和分析用以評價不同擦除模型的性能。今天介紹的文章提出了新的真實場景下的文字擦除數據集SCUT-EnsText,並提出了EraseNet模型,該方法在文字擦除任務中取得了不錯的性能。

圖1展示了SCUT-EnsText的一些樣本。這批數據主要採集自如ICDAR 2013,ICDAR 2015,SCUT CTW1500等公開數據集,數據來源如表格1所示。該數據集總共包含3562張場景圖片,有著2w餘個文本實例。這些文本涵蓋中英文以及數字等不同字形,也將水平文本、任意四邊形文本和曲線文本等考慮在內;同時考慮到背景複雜度對文字擦除的影響,也刻意挑選了不同背景、不同亮度的文本背景圖片。這些特性增加了數據集的挑戰性和對不同數據類型的適應性和泛化性。SCUT-EnsText訓練集包含2749張圖片,測試集813張圖片,它為場景文字擦除任務建立了新的基準。

這篇文章同時提出了一個端到端場景文字擦除模型,通過引入兩階段的編解碼器(Coarse-to-refinement)以及一個額外的文本感知分支構建了文字擦除生成對抗網絡EraseNet,模型的流程圖如圖2所示。

生成器 EnsNet的輸出很多時候存在擦除不徹底的問題,比如文本只擦了一部分或者會留有明顯的文本輪廓,於是EraseNet在EnsNet生成器的基礎上額外加了一個編解碼網絡作為對第一階段輸出結果的進一步微調(Refinement),訓練的時候會對兩個階段的輸出都進行有效的監督以確保生成圖片的質量。此外,考慮到整圖級別的端到端文字擦除會存在文本遺漏的問題,一個簡單直接的想法便是額外加入一個文本感知分支,將網絡作為一個多任務學習的模型,在進行擦除的同時能比較準確的定位文字區域的位置,對於這個分支,考慮到樣本不均衡的問題我們使用Dice Loss去優化,Dice Loss的定義如下:

判別器為了保證生成器輸出結果的質量(文字擦除區域的質量以及該區域與非文本背景區域的連續性等), 本文使用了局部-全局(local-global)FCN作為判別器。它最終將全局和局部的特徵Patch拼接在一起進行真或假的判定。 

考慮到生成對抗網絡(GAN)訓練的不穩定性(如模式坍塌和不收斂的問題),EraseNet使用基於譜歸一化(SN)[5]的GAN(SN-Patch-GAN)為基本網絡框架,譜歸一化通過對每一層網絡的權重矩陣的譜範數約束來滿足Lipschitz條件,以增強GAN訓練的穩定性。最終GAN的損失函數形式如下:

除了上述介紹的Dice Loss和Ganloss,本文還引入了Local-aware Reconstruction Loss, Content Loss(包含Style Loss [6]和Perceptual Loss [7])。

Local-aware reconstruction loss

M代表訓練為輸入的文本Mask,分別代表Coarse階段輸出和最終微調後的輸出。

實驗主要在SCUT-EnsText和EnsNet[1]提出的8800張(8000用於訓練,800測試)合成數據集上進行。

量化結果對比和可視化結果圖都驗證了EraseNet各模塊的有效性以及Content Loss在文字擦除任務中的積極作用。

B.與之前SOTA方法的對比實驗結果如下,其中圖表IV和V為SCUT-EnsText的結果,圖5為合成數據的結果

C.此外,還進行了與一些Image Inpainting方法和弱監督方法的對比,結果如圖7所示。這也論證了EraseNet的有效性。D/I Weakly表示先檢測後用預訓練的Image Inpainting模型進行文字區域填補。

本文提出了一個真實場景下用於場景文字擦除的數據集,能夠用於文字擦除以及後續進行文本編輯等方面的研究。本文構建了一個端到端場景文字擦除的網絡EraseNet,它可以在整圖級別不需要文本位置信息的先驗下對場景中的文字進行擦除,並能取得較好的性能。

 

EraseNet論文連結:https://ieeexplore.ieee.org/document/9180003EraseNet代碼:https://github.com/lcy0604/EraseNetSCUT-EnsText數據集連結:https://github.com/HCIILAB/SCUT-EnsText

[1] S. Zhang, Y. Liu, L. Jin, Y. Huang, andS. Lai, 「Ensnet: Ensconce text in the wild,」 in Proceedings of AAAI, vol. 33,2019, pp. 801–808.

[2] T. Nakamura, A. Zhu, K. Yanai, and S.Uchida, 「Scene text eraser,」 in Proceedings of ICDAR, vol. 01, 2017, pp.832–837.

[3] O. Tursun, R. Zeng, S. Denman, S.Sivapalan, S. Sridharan, and C. Fookes, 「Mtrnet: A generic scene text eraser,」in Proceedings of ICDAR, 2019, pp. 39–44.

[4] A. Gupta, A. Vedaldi and A. Zisserman,"Synthetic Data for Text Localisation in Natural Images," 2016IEEE Conference on Computer Vision and Pattern Recognition (CVPR), LasVegas, NV, 2016, pp. 2315-2324.

[5] T. Miyato, T. Kataoka, M. Koyama, andY. Yoshida, 「Spectral normalization for generative adversarial networks,」 in Proceedings of ICLR, 2018.

[6] L. A. Gatys, A. S. Ecker, and M.Bethge, 「Image style transfer using convolutional neural networks,」 in Proceedings of CVPR, 2016, pp. 2414–2423.

[7] J. Johnson, A. Alahi, and L. Fei-Fei,「Perceptual losses for real-time style transfer and super-resolution,」 in Proceedings of ECCV, 2016, pp. 694–711.

 

原文作者: Chongyu Liu, Yuliang Liu, Lianwen Jin, Shuaitao Zhang, Canjie Luo,Yongpan Wang

審校:連宙輝

發布:金連文

免責聲明:(1)本文僅代表撰稿者觀點,撰稿者不一定是原文作者,其個人理解及總結不一定準確及全面,論文完整思想及論點應以原論文為準。(2)本文觀點不代表本公眾號立場。 

徵稿啟事:本公眾號將不定期介紹文檔圖像分析與識別及相關領域的論文、數據集、代碼等成果,歡迎自薦或推薦相關領域最新論文/代碼/數據集等成果給本公眾號審閱編排後發布。

(掃描識別如上二維碼加關注)

相關焦點

  • 論文推薦丨[IEEE TIP2020、IEEE T-ITS2020]場景文本檢測中的錨點機制探索及改進方法(有源碼)
    然而,由於場景文本的多方向分布及尺寸角度變化的多樣性,這類方法常常需要設計複雜多樣的錨點來匹配各式各樣的文本;場景文本檢測中的錨點機制需要深入的探索,並進行有效的改進與創新。本文主要介紹兩篇對於文本檢測中錨點機制進行改進創新的論文:隱式錨點機制 HAM(IEEE TIP2020: HAM: Hidden Anchor Mechanism for Scene Text Detection)和注意力錨點機制 AAM(IEEE T-ITS 2020: Detecting Text in Scene and Traffic Guide Panels With Attention
  • ESIR:通過迭代矯正圖像的端到端場景文本識別系統
    這篇論文講述的是一種識別彎曲文本的方法。    今天我們要介紹這篇論文的4個部分,分別是簡介、方法、實驗和結論。    場景中文本的自動識別多年來一直存在挑戰,這主要是由於文本在透視變形,文本彎曲,文本樣式和不同類型人工字體的任意變化引起的。而最近深層網絡在人工字體和文本樣式變化的情況下有較好的表現,但是在處理具有透視和彎曲的場景文本時仍然面臨各種問題。
  • 阿德萊德大學博士後劉禹良:端到端可訓練任意形狀的實時場景文本...
    而場景文本檢測與識別,是指識別自然場景圖片中的文字信息。由於在計算機視覺中的廣泛應用而受到越來越多的關注。但儘管最近取得了巨大的進展,由於其在大小、長寬比、字體樣式、透明失真和形狀等方面的多樣性,檢測與識別野生文本在很大程度上還未解決。近年來,許多端到端方法顯著提高了任意形狀場景文本定位的性能。
  • 帶你讀論文 | 端到端語音識別模型
    隨著端到端神經網絡在機器翻譯、語音生成等方面的進展,端到端的語音識別也達到了和傳統方法可比的性能。不同於傳統方法將語音識別任務分解為多個子任務(詞彙模型,聲學模型和語言模型),端到端的語音識別模型基於梅爾語譜作為輸入,能夠直接產生對應的自然語言文本,大大簡化了模型的訓練過程,從而越來越受到學術界和產業界的關注。
  • DeepMind端到端對抗語音合成
    推薦:在合成和真實數據集上的實驗結果表明,研究者提出的方法有助於理解和驗證訓練過的 GNN。推薦:本研究榮獲 ICRA 2020 最佳論文獎以及最佳人機互動論文獎(Best Paper Award on Human-Robot Interaction)。
  • 論文推薦|[AAAI 2020] TextScanner:依序閱讀分類的魯棒場景文本識別
    該論文分析了現有的場景文本方法,包括基於RNN注意力的方法以及基於語義分割的方法的局限性,針對上述方法存在的不足之處提出改進。圖1 本文方法的對比結果場景文本識別任務在近幾年得到很大的關注,現有的場景文本識別的方法主要分為兩種,一種是基於RNN Attention的方法[1][2],通過對編碼後的圖片特徵序列使用注意力機制來對準字符同時進行解碼
  • 雲從科技 OCR 新突破:端到端的深度學習文本檢測框架 Pixel-Anchor
    隨著深度學習的發展,在 OCR 的文本檢測領域中,也湧現出一系列端到端的深度學習檢測框架,OCR 所能處理的對象逐步從高質量的文檔圖像擴展到成像質量高低不等、背景複雜、字體多樣、文本方向任意的自然場景中。應用範圍也從文檔識別擴展到圖片廣告過濾、場景理解、商品識別、街景定位、票據識別等廣泛的領域。下圖是幾個自然場景文本檢測的例子。
  • 論文精讀 | LaneNet 端到端車道線檢測的實例分割方法
    所以,"論文精講"主題系列正式啟動,今天推薦一篇IEEE IV 2018的優秀論文,希望可以為你的學習添加一點知識。這種手工標記的方法主要是基於顏色的特徵[7],結構張量[25],條形過濾器[34],脊線特徵[26]等,它們可能與霍夫變換 [23], [37]或卡爾曼濾波器[18],[8],[34] 相結合。識別車道線後,採用後處理技術來濾除誤檢以形成最終車道。通常,這些傳統方法很容易由於道路場景變化而導致魯棒性問題。
  • CRNN:端到端不定長文字識別算法
    https://github.com/meijieru/crnn.pytorch  https://github.com/bai-shang/crnn_ctc_ocr_tf❞這是2015年就發表的一篇基於深度學習的OCR文章,且不用文字切割、可以處理任意長度的端到端文字識別方法。
  • 深度學習的端到端文本OCR:使用EAST從自然場景圖片中提取文本
    或者怎樣才能閱讀數字文檔中的文本,如發票、法律文書等。但它到底是如何工作的呢?這篇文章是關於在自然場景圖像中進行文本識別的光學字符識別(OCR)。我們將了解為什麼這是一個棘手的問題,用於解決的方法,以及隨之而來的代碼。But Why Really?
  • 基於元學習和人機協同的端到端對話模型
    一個省信訪外呼對話例子如下:上述例子是一個滿意度回訪調查的場景,由於沒有複雜的知識推理、語義解析等,是端到端對話系統特別適用的場景。一般來說,端到端對話模型可分為檢索式和生成式,檢索式模型就是給定對話歷史從預定義回復候選集合中選出最佳回復作為當前系統輸出,生成式模型則是給定對話歷史直接生成回復。兩種方式都可以通過和用戶多輪交互完成最終的對話任務。
  • [IJCV 2020] 融合自下而上和自上而下處理的殘差雙尺度場景文本識讀方法
    「Residual Dual Scale Scene Text Spotting by Fusing Bottom-Up and Top-Down Processing」,此論文已被IJCV錄用,它主要解決了自然場景圖像中任意形狀文本的端到端識別問題。
  • Bengio等人提出 Char2Wav:實現端到端的語音合成
    選自arXiv機器之心編譯參與:吳攀、李亞洲近日,來自印度理工學院坎普爾分校、INRS-EMT、加拿大高等研究院(CIFAR)的研究者在 arXiv 上發布了一篇 workshop track 論文,介紹他們在端到端語音合成上的研究成果 Char2Wav。據介紹,該模型可以直接根據文本生成高質量的音頻。
  • 紐約大學提出端到端優化圖像壓縮方法,全面超越JPEG 2000 | ICLR...
    在ICLR 2017會議上,來自紐約大學的Johannes Balle 等研究者提出了一種端到端優化的圖像壓縮方法,並發表了論文:《End-to-End Optimized Image Compression》。這種方法包含了三個過程,分別是:非線性分析變換,均勻量化器,以及非線性合成變換。這些變換是在卷積線性濾波器和非線性激活函數的三個連續階段中構建的。
  • 青雲QingCloud發布端到端場景化解決方案,激活萬物喚醒智能
    【城宇互聯】報導,騰訊新聞推薦企業級混合雲服務商青雲QingCloud(qingcloud.com)日前宣布,正式發布物聯網平臺、EdgeWize邊緣計算,並面向智慧數據中心、智慧建築和智慧交通等新基建核心場景,發布圍繞雲網邊端一體化架構構建的端到端場景化解決方案(qingcloud.com
  • 百度發布Deep Speaker:大規模聲紋識別的端對端系統
    最近使用神經網絡來進行聲紋識別的論文已經改進了傳統的i-vector方法(參考Interspeech教程的原始論文或者幻燈片)。i-vector方法認為說話內容可以被分為兩個部分,一個部分依賴於說話者和信道可變性,另一個部分依賴於其它的相關因素。
  • 端到端指代消解算法 Coreference Resolution
    本文介紹第一篇使用神經網絡進行端到端指代消解的論文《End-to-end Neural Coreference Resolution》,該方法超越了之前的所有指代消解方法,後續很多技術都用到了這一論文的思想。
  • 重建「巴別塔」:谷歌推出全新端到端語音翻譯系統
    這種系統系統通常可以分為三個部分:將源語音轉換為文本的自動語音識別、將得到的文本翻譯為目標語言文本的機器翻譯以及從翻譯文本生成目標語言語音的文本 - 語音合成(TTS)。這種將任務分為幾個階段的級聯模式一直以來都非常成功,支撐了很多商業語音到語音的翻譯產品,包括谷歌的 Google Translate。然而,這種 「三步走」 的方法能否再簡化一下?
  • 端到端問答新突破:百度提出RocketQA,登頂MSMARCO榜首
    百度從面向端到端問答的檢索模型出發,提出了RocketQA訓練方法,大幅提升了對偶式檢索模型的效果,為實現端到端問答邁出了重要的一步。RocketQA已逐步應用在百度搜索、廣告等核心業務中,並將在更多場景中發揮作用。
  • 紐約大學提出端到端優化圖像壓縮方法,全面超越JPEG2000|ICLR2017
    在ICLR 2017會議上,來自紐約大學的Johannes Balle 等研究者提出了一種端到端優化的圖像壓縮方法,並發表了論文:《End-to-End Optimized Image Compression》。這種方法包含了三個過程,分別是:非線性分析變換,均勻量化器,以及非線性合成變換。這些變換是在卷積線性濾波器和非線性激活函數的三個連續階段中構建的。