GNNets:自然場景下文字檢測的幾何歸一化網絡 | ICCV 2019

2020-12-14 雷鋒網

雷鋒網AI科技評論按:本文由商湯科技投稿,簡要介紹商湯科技研究團隊在 ICCV2019 上錄用的一篇文章:Geometry NormalizationNetworks for Accurate Scene Text Detection(GNNets),針對自然場景下文字檢測的幾何歸一化網絡。

該文章通過對待處理圖像的特徵圖進行幾何變換,從而將待處理圖像中幾何分布差異較大的文本框歸一化到一定的幾何分布範圍內,提高了自然場景下文本測檢的效果。


一、研究背景

隨著深度學習的迅速發展,計算機視覺技術對實際生產具有影響越來越重要的影響。對圖像中的文本進行檢測和識別,有助於計算機理解視覺內容。

由於卷積神經網絡(CNN)方法的通用性,自然場景文本檢測受益於常規物體檢測而快速發展。但由於自然場景中的文本在實際應用場景中具有較大的幾何變化(例如寬高比或文字方向),所以其自身仍存在巨大的挑戰。

對於尺度變化問題,現有方法一般通過使用一個檢測頭(detection header)對不同層級的特徵進行檢測,利用 NMS 融合結果後作為輸出或者使用類似 FPN [1] 的網絡將多尺度特徵融合然後進行文本檢測。

對於角度變化問題,現有方法一般通過直接回歸文本框角度或使用對方向敏感的卷積來預測任意方向。

但目前的方法中要求檢測頭(detection header)需要學習到文字巨大的幾何差異或者檢測頭(detectionheader)僅在所有訓練樣本中一個子集進行學習,這可能導致性能欠佳。

作者研究了幾何分布對場景文本檢測的影響,發現基於 CNN 的檢測器只能捕獲有限的文本幾何分布,但充分利用所有訓練的樣本可以提高其泛化能力。

為了解決上述難題,作者提出了一種新穎的幾何規範化模塊(GNM)。每個自然場景圖片中的文本實例可以通過 GNM 歸一化到一定的幾何分布範圍內。這樣所有訓練樣本均被歸一化為有限的分布,因此可以有效地訓練一個共享的文本檢測頭。

本文提出的 GNM 是通用的,可以直接將該模塊插入到任何基於 CNN 的文本檢測器中。為了驗證提出方法的有效性,作者針對文字方向的差異性新建了一個測試集(Benchmark)並發布。雷鋒網(公眾號:雷鋒網)


二、方法描述 

Fig.1. Overall architecture.

Fig. 1 是 GNNets 的整體網絡結構圖。總體網絡結構由 Backbone,GNM,SharedText Detection Header 組成。通過 Backbone 提取的特徵圖會被輸入到具有多個分支的幾何規範化模塊(GNM)中,每個分支由一個尺度歸一化單元(SNU)和方向歸一化單元(ONU)組成。

SNU 有兩個不同比例的尺歸一化單位(S,S1/2)和四個方向歸一化單位(O,Or,Of,Or + f)。通過 SNU 和 ONU 的不同組合,GNM 會生成不同的幾何歸一化特徵圖,這些特徵圖將被輸入到一個共享文本檢測標頭中。 

Fig.2. ONU.

Fig.2 是作者提出的 ONU 模塊的示意圖。通過應用 ONU 可以更改文本框方向。如圖所示「綠色」框是原始框,「灰色」框是轉換過程中的中間框,「紅色」框是 ONU 的輸出的結果框。

θ和θ' 分別是原始框和結果框的角度。(a),(b),(c)和(d)分別是 O,Or,Of,Or + f 的過程的示意圖。由上圖可以簡單明了的表示 ONU 具有將 [0,π/4],[-π/2,-π/4],[-π/4,0] 和 [π/4,π/2] 角度的文本轉換為在 [0,π/4] 角度的文本。

Fig.3. Architecture of GNM.

 Fig. 3 展示了 GNM 在網絡中的結構設置。對於 SNU 中的 S 使用 1x1 的卷積操作和 3x3 的卷積操作;S1/2 使用 1X1 的卷積,步長為 2 的下採樣以及 3x3 的卷積。對於 ONU 中的 O,Or,Of,Or + f 中的 Operations 則分別採用不操作,旋轉 feature maps,翻轉 feature maps 和旋轉後再翻轉 feature maps。

由於多分支網絡的影響,作者提出了一個針對 GNNets 的抽樣訓練策略。

在訓練期間,作者隨機採樣一個文本實例,並通過旋轉和調整大小 7 次來對其進行擴充,以使 GNM 的每個分支在每批次中都具有有效的文本實例用於訓練。這樣可以對 GNM 的所有分支進行統一訓練。並且在訓練過程中如果文本實例不在預先設定的幾何區間內,則忽略分支中的該文本實例。

在測試過程中,作者將 GNM 中所有分支輸出文本框相應地反向投影到原始比例和方向。不在分支預先設定的幾何區間內的文本框會被丟棄。其餘的文本框通過 NMS 合併。


三、實驗結果

Table 1. Comparison with the state-of-the-art methods on both ICDAR 2015 and ICDAR 2017MLT.

與原始的 PSENet[2] 相比,作者提出的 GNNets 在 ICDAR 2015[3] 和 ICDAR 2017 MLT [4] 上分別實現了約 1.3%和 2.1%的性能提升。

與 ICDAR 2015 上的 EAST[5] 和 ITN [6] 相比,GNNet 的 F-score 比它們分別高出 8%和 9%。與 FTSN [7] 相比,獲得了 4.5%的性能提升。GNNets 在 ICDAR 2015 上的表現優於 FOTS [8],在 ICDAR 2017 MLT 上的 F-score 更超出其 7.3%。並且 FOTS 使用了文字識別的數據。

在單尺度測試中,作者提出的 GNNets 在 ICDAR 2015 和 ICDAR2017 MLT 上均達到了 state-of-the-art 的性能。Fig. 5 可視化了 GNNets 和其他文本檢測方法在 ICDAR 2015 和 ICDAR 2017 MLT 上的檢測結果。

Fig.5. Qualitative results on ICDAR2015 and ICDAR 2017 MLT. The right column shows GNNets results.


四、總結及討論

1、在本文中,作者提出了一種新穎的幾何歸一化模塊(GNM)以生成多個幾何感知特徵圖。並且 GNM 是通用的,可以應用到任何基於 CNN 的檢測器中,以構建端到端的幾何歸一化網絡(GNNet)。

實驗表明,GNNet 在檢測幾何分布較大的文本實例方面相較於 baseline 表現出出色的性能。並且,GNNet 在兩個文字檢測主流的數據集上較最新的方法獲得了顯著的性能提升。

2、文中研究了幾何分布對場景文本檢測的影響,發現基於 CNN 的檢測器只能捕獲有限的文本幾何分布,但充分利用所有訓練的樣本可以提高其泛化能力,對後續文字檢測以及其他相關領域有啟發性影響。

3、綜上所述,文本檢測是 OCR 任務的首要前提,但自然場景下文字的字體變化、懸殊的寬高比、任意角度給檢測任務帶來巨大的挑戰,本文為我們提出了目前研究方向上忽略的點,並提供了一個新穎的解決方法,但是相較與常規物體檢測,文本檢測領域仍然有其特殊性以及較大的提升空間。


參考文獻

[1]Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, Bharath Hariharan,and Serge Belongie. Feature Pyramid Networks for Object Detection. In CVPR,2017.

[2]Xiang Li, Wenhai Wang, Wenbo Hou, Ruo-Ze Liu, Tong Lu, and Jian Yang. ShapeRobust Text Detection with Progressive Scale Expansion Network. arXiv preprintarXiv:1806.02559, 2018.

[3]Dimosthenis Karatzas, Lluis Gomez-Bigorda, Anguelos Nicolaou, Suman Ghosh,Andrew Bagdanov, Masakazu Iwamura, Jiri Matas, Lukas Neumann, Vijay RamaseshanChandrasekhar, Shijian Lu, and Others. ICDAR 2015 Competition on RobustReading. In ICDAR, 2015.

[4]ICDAR2017 Competition on Multi-Lingual Scene Text Detection and ScriptIdentification. http://rrc.cvc.uab.es/?ch=8&com=introduction, 2017.

[5]Xinyu Zhou, Cong Yao, He Wen, Yuzhi Wang, Shuchang Zhou, Weiran He, andJiajun Liang. EAST: An Efficient and Accurate Scene Text Detector. In CVPR,2017.

[6]Fangfang Wang, Liming Zhao, Xi Li, Xinchao Wang, and Dacheng Tao.Geometry-Aware Scene Text Detection with Instance Transformation Network. InCVPR, 2018.

[7]Yuchen Dai, Zheng Huang, Yuting Gao, Youxuan Xu, Kai Chen, Jie Guo, andWeidong Qiu. Fused Text Segmentation Networks for Multi-Oriented Scene TextDetection. In ICPR, 2018.

[8]Xuebo Liu, Ding Liang, Shi Yan, Dagui Chen, Yu Qiao, and Junjie Yan. Fots:Fast Oriented Text Spotting with a Unified Network. In CVPR, 2018.

雷鋒網報導。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 商湯聯手華科:提出文字檢測模型GNNets,新穎模塊可解決幾何分布難題
    本文簡要介紹商湯科技研究團隊在ICCV2019上錄用的一篇文章:Geometry Normalization Networks for Accurate Scene Text Detection(GNNets),針對自然場景下文字檢測的幾何歸一化網絡。
  • 雲從科技與中科院聯合奪得ICCV 2019無人機目標檢測冠軍
    這是繼今年三月份跨鏡追蹤(ReID)、3D人體重建技術、自然語言處理技術分別創造世界紀錄後,雲從科技在人工智慧領域再一次領跑全球。同時,這也是雲從科技第十四次獲得世界冠軍。此次VisDrone 2019(無人機目標檢測)挑戰賽,要從無人機獲取的視覺數據中進行物體檢測和跟蹤,吸引了來自海內外知名高校、科研機構和企業,包括中科院、清華大學、馬裡蘭大學、伊利諾伊大學厄巴納-香檳分校、雲從科技、三星研究院等近百支隊伍參賽。本屆挑戰賽包含了四個任務,聯合研究團隊參加了"任務3:單目標跟蹤挑戰",最後在眾多參賽隊中脫穎而出獲得冠軍。
  • ICCV 引用量最高的10篇論文!何愷明兩篇一作論文:Mask R-CNN和PReLU,Facebook佔據四席!
    本文就來盤點ICCV 2015-2019年引用量最高的10篇論文。根據此數據,一方面能看出這段深度學習黃金時期的研究熱點,另一方面查漏補缺,看看這些必看的Top級論文是不是都掌握了。_2017/html/Lin_Focal_Loss_for_ICCV_2017_paper.htmlRetinaNet 當年一出,直接幹翻SSD和YOLOv2,下面這幅圖非常著名!
  • ICCV 2019 | 解讀北大提出的期望最大化注意力網絡EMANet
    近年來,基於全卷積網絡(FCN[2])的一系列研究,在該任務上取得了卓越的成績。這些語義分割網絡,由骨幹網絡和語義分割頭組成。全卷積網絡受制於較小的有效感知域,無法充分捕獲長距離信息。為彌補這一缺陷,諸多工作提出提出了高效的多尺度上下文融合模塊,例如全局池化層、Deeplab[3] 的空洞空間卷積池化金字塔、PSPNet[4] 的金字塔池化模塊等。
  • 旋轉目標(遙感/文字)檢測方法整理(2017-2019)
    relate work部分,趁機把近幾年遙感(主要關注)、場景文字旋轉目標檢測論文方法和code整理一下,時間倉促有疏漏之處望多多指出。DOTA旋轉目標賽道實時排名(2019年12-22)以下方法介紹按照論文提交時間順序1.RRPN(兩階段文字檢測 復旦大學等)時間:3 Mar 2017題目:《Arbitrary-Oriented Scene
  • VALSE Webinar 20-27期 看圖識字:文字檢測與識別新進展
    目前場景文字檢測識別都取得了很大的進展,在具體場景的落地應用中,還存在哪些檢測識別方面的瓶頸?3. 在具體的落地應用中,有沒有哪一種方法比較通用,可以適用所有場景,怎麼看待通用的OCR技術?4. 關於生僻字,OCR模型的泛化(比如不同場景,不同字體等)性能方面的研究有什麼進展?5. 手寫文字識別的最新研究進展如何,與一般的場景文字檢測識別有什麼區別?
  • ICCV 2019 | 曠視研究院推出基於深度強化學習的繪畫智能體
    曠視研究院共有 11 篇接收論文,涵蓋通用物體檢測及數據集、文字檢測與識別、半監督學習、分割算法、視頻分析、影像處理、行人/車輛再識別、AutoML、度量學習、強化學習、元學習等眾多領域。在此之前,曠視研究院將每周介紹一篇 ICCV 2019 接收論文,助力計算機視覺技術的交流與落地。
  • 中科院團隊斬獲ICCV 2019無人機目標檢測冠軍—新聞—科學網
    中科院團隊斬獲ICCV 2019無人機目標檢測冠軍 獲獎證書 10月27日~11月2日,由美國電氣和電子工程師學會(IEEE)主辦的2019國際計算機視覺大會(ICCV 2019)在韓國首爾召開。據了解,VisDrone 2019的挑戰項目是「無人機目標檢測」,要求實現從無人機獲取的視覺數據中進行物體檢測和跟蹤。 VisDrone 2019數據集由天津大學機器學習與數據挖掘實驗室的AISKYEYE團隊收集,全部基準數據集由無人機捕獲,共288個視頻片段,包括261908幀和10209個靜態圖像。這些幀由260多萬個常用目標(如行人、汽車、自行車和三輪車)的手動標註框組成。
  • 複雜場景下的 OCR 如何實現——深度學習算法綜述
    弭寶瞳為中國人民大學計算機博士,曾在奇虎 360 任產品經理、研發工程師。一、背景知識文本是人類最重要的信息來源之一,自然場景中充滿了形形色色的文字符號。在過去的十幾年中,研究人員一直在探索如何能夠快速準確的從圖像中讀取文本信息,也就是現在OCR技術。
  • ICDAR 2019-ArT任意形狀文字識別國際競賽!獎金豐厚
    ,任意形狀場景文字識別)國際學術競賽將於2019年3月1日正式開賽。自2003 年ICDAR 設立「Robust Reading Competitions」系列學術競賽以來,該競賽就成了評測和檢驗自然場景/網絡圖片文本自動提取與智能識別最新技術研究進展的重要國際賽事及標準,競賽中的諸多方法對光學字符識別(Optical Character Recognition,OCR)技術發展具有強大推動力。
  • 曠視科技提出SPCNet:一種任意形狀的場景文本檢測算法
    【AAAI 2019】SPCNet這篇文章是謝恩澤在face++實習期間完成的一個工作,被AAAI2019接收,主要是做任意形狀的場景文本檢測,同時抑制錯誤樣本的檢測。arXiv:https://arxiv.org/abs/1811.08605Motivation過去場景文字檢測模型大多分為如下兩類:1,基於語義分割的檢測。2,基於邊界框回歸的檢測。這些方法的劣勢在於不能很好的處理彎曲文字,而彎曲文字在自然場景中也是大量存在的。
  • 論文推薦|[ACM Multimedia 2019]一種基於圖像上下文信息和多任務學習的單階段任意形狀文字檢測方法
    該論文主要解決自然場景中任意形狀文字的檢測問題,文中提出的Pixel-to-Quad文字實例分割方法,結合了高層檢測信息和底層分割信息,即使較長文字語義分割響應斷裂,也可以得到較為準確的實例分割結果。基於語義分割的場景文字檢測方法一般會面臨以下問題:1)距離較近的文字實例難以分割;2)過長的文字條的響應可能出現斷裂;另外,為了保證檢測的精度,目前基於語義分割的主流方法都在輸入圖像的原始尺度進行後處理,冗餘計算較多,整體算法的耗時較長。
  • 營銷經典培訓案例分享:榮耀×歌手2019,場景化跨界營銷如何做閉環?
    不過,更加讓人關注的是,作為《歌手》2019官方指定手機品牌,通過本次歷時三個月的音樂競技類綜藝,榮耀手機通過科技與音樂跨界聯手,在賽程中不著痕跡的巧妙設計,不僅實現了與年輕人的有效溝通,更提升了榮耀品牌的用戶好感度,也為創新的融合式場景化營銷,創造了一個有傳播、有路徑、有承接、有轉化的經典場景案例,為當下「叫好難叫座」的品牌綜藝娛樂跨界營銷,探索出一條流量變現的出創新營銷路徑
  • 商湯科技57篇論文入選ICCV 2019,13項競賽奪冠
    商湯科技及聯合實驗室共有57篇論文入選ICCV 2019(包含11篇Oral),同時在Open Images、COCO、LVIS等13項重要競賽中奪冠!特別是Open Images,它是目前通用物體檢測和實例分割兩個領域中數據量最大、數據分布最複雜、最有挑戰性的競賽,比COCO數據大一個量級,標註更不規則,場景更複雜。
  • 曠視科技 CSG 算法負責人姚聰:深度學習時代的文字檢測與識別技術...
    目前在曠視科技(Face++)擔任雲服務業務算法負責人,主持自然場景OCR、人臉活體檢測等技術的研發工作,為FaceID網際網路身份驗證服務、Face++開放平臺等提供算法支持。首先,它與傳統 OCR(光學字符識別)有所區別,因自然場景之中文字變化非常之多,如下所示,左邊是一張典型的掃描文檔圖像,右邊則是自然場景中採集的多張圖像。
  • 專欄 | 阿里 AI LAB ICCV 2017 錄用論文詳解:語言卷積神經網絡應用於圖像標題生成的經驗學習
    圖像描述的發展圖像描述自動生成是一個融合計算機視覺、自然語言處理和機器學習的綜合問題,它類似於翻譯一副圖片為一段描述文字。該任務不僅需要利用模型去理解圖片的內容並且還需要用自然語言去表達它們之間的關係。
  • ctpn:圖像文字檢測方法
    文字目標的特殊性,一個很大的先驗是,文字總是水平排列的。2. 文字的特徵總感覺體現在edge上。3. 自然場景文字檢測的難點在於:小目標,遮擋,仿射畸變。本文使用VGG16,只使用conv5,可能對小文字的檢測效果不好。
  • AI 場景化引領下一個十年,中國企業騰飛的時代到了?
    日前,諮詢機構IDC聯合中國AI晶片企業嘉楠,發布了2020世代首份AI報告——《場景化AI,讓智能觸手可及》,展示了AI在2020世代進一步場景化落地的美好圖景。進入2020世代,以5G、物聯網、區塊鏈為代表的新一代技術,也在助力AI不斷升級。
  • 雲從獲ICCV 2019無人機目標檢測冠軍
    11月11日消息,在ICCV 2019 Workshop舉辦的Vision Meets Drone: A Challenge(簡稱:VisDrone 2019)挑戰賽上,雲從科技研究院與中科院信息工程研究所葛仕明研究員團隊(以下簡稱「聯合研究團隊」)獲得了Task3「單目標跟蹤挑戰(Single
  • 7500人參會,國內接收論文數量超越美國,ICCV 2019最佳論文揭曉
    圖 4:SinGAN 的多尺度生成流程,模型由 GAN 的一種金字塔方案組成,每一層都是一個生成對抗網絡,它們從下到上學習著不同尺度的圖像生成效果。SinGAN 的訓練和推斷過程都是從粗粒度到細粒度的方向進行。研究者在最後還表明,SinGAN 生成的圖像經常被人類弄混,它們與真實圖像沒什麼差別。