加入「公開課」交流群,獲取更多學習資料、課程及熱招崗位等信息
編輯 | Jane
出品 | AI科技大本營(ID:rgznai100)
【導讀】今年的ICCV,商湯科技及聯合實驗室共有57篇論文入選ICCV 2019(包含11篇Oral),同時在Open Images、COCO、LVIS等13項重要競賽中奪冠!
本文簡要介紹商湯科技研究團隊在ICCV2019上錄用的一篇文章:Geometry Normalization Networks for Accurate Scene Text Detection(GNNets),針對自然場景下文字檢測的幾何歸一化網絡。該文章通過對待處理圖像的特徵圖進行幾何變換,從而將待處理圖像中幾何分布差異較大的文本框歸一化到一定的幾何分布範圍內,提高了自然場景下文本測檢的效果。
一、研究背景
隨著深度學習的迅速發展,計算機視覺技術對實際生產具有影響越來越重要的影響。對圖像中的文本進行檢測和識別,有助於計算機理解視覺內容。由於卷積神經網絡(CNN)方法的通用性,自然場景文本檢測受益於常規物體檢測而快速發展。但由於自然場景中的文本在實際應用場景中具有較大的幾何變化(例如寬高比或文字方向),所以其自身仍存在巨大的挑戰。
對於尺度變化問題,現有方法一般通過使用一個檢測頭(detection header)對不同層級的特徵進行檢測,利用NMS融合結果後作為輸出或者使用類似FPN [1]的網絡將多尺度特徵融合然後進行文本檢測。對於角度變化問題,現有方法一般通過直接回歸文本框角度或使用對方向敏感的卷積來預測任意方向。但目前的方法中要求檢測頭(detection header)需要學習到文字巨大的幾何差異或者檢測頭(detection header)僅在所有訓練樣本中一個子集進行學習,這可能導致性能欠佳。
作者研究了幾何分布對場景文本檢測的影響,發現基於CNN的檢測器只能捕獲有限的文本幾何分布,但充分利用所有訓練的樣本可以提高其泛化能力。為了解決上述難題,作者提出了一種新穎的幾何規範化模塊(GNM)。每個自然場景圖片中的文本實例可以通過GNM歸一化到一定的幾何分布範圍內。這樣所有訓練樣本均被歸一化為有限的分布,因此可以有效地訓練一個共享的文本檢測頭。
本文提出的GNM是通用的,可以直接將該模塊插入到任何基於CNN的文本檢測器中。為了驗證提出方法的有效性,作者針對文字方向的差異性新建了一個測試集(Benchmark)並發布。
二、方法描述
Fig.1. Overall architecture.
Fig. 1是GNNets的整體網絡結構圖。總體網絡結構由Backbone,GNM,Shared Text Detection Header組成。通過Backbone提取的特徵圖會被輸入到具有多個分支的幾何規範化模塊(GNM)中,每個分支由一個尺度歸一化單元(SNU)和方向歸一化單元(ONU)組成。SNU有兩個不同比例的尺歸一化單位(S,S1/2)和四個方向歸一化單位(O,Or,Of,Or + f)。通過SNU和ONU的不同組合,GNM會生成不同的幾何歸一化特徵圖,這些特徵圖將被輸入到一個共享文本檢測標頭中。
Fig.2. ONU.
Fig. 2是作者提出的ONU模塊的示意圖。通過應用ONU可以更改文本框方向。如圖所示「綠色」框是原始框,「灰色」框是轉換過程中的中間框,「紅色」框是ONU的輸出的結果框。θ和θ』分別是原始框和結果框的角度。(a),(b),(c)和(d)分別是O,Or,Of,Or + f的過程的示意圖。由上圖可以簡單明了的表示ONU具有將[0,π/4],[-π/2,-π/4],[-π/4,0]和[π/4,π/2]角度的文本轉換為在[0,π/4]角度的文本。
Fig.3. Architecture of GNM.
Fig. 3展示了GNM在網絡中的結構設置。對於SNU中的S使用1x1的卷積操作和3x3的卷積操作;S1/2使用1X1的卷積,步長為2的下採樣以及3x3的卷積。對於ONU中的O,Or,Of,Or + f中的Operations則分別採用不操作,旋轉feature maps,翻轉feature maps和旋轉後再翻轉feature maps。
由於多分支網絡的影響,作者提出了一個針對GNNets的抽樣訓練策略。在訓練期間,作者隨機採樣一個文本實例,並通過旋轉和調整大小7次來對其進行擴充,以使GNM的每個分支在每批次中都具有有效的文本實例用於訓練。這樣可以對GNM的所有分支進行統一訓練。並且在訓練過程中如果文本實例不在預先設定的幾何區間內,則忽略分支中的該文本實例。在測試過程中,作者將GNM中所有分支輸出文本框相應地反向投影到原始比例和方向。不在分支預先設定的幾何區間內的文本框會被丟棄。其餘的文本框通過NMS合併。
三、實驗結果
Table 1. Comparison with the state-of-the-art methods on both ICDAR 2015 and ICDAR 2017 MLT.
與原始的PSENet[2] 相比,作者提出的GNNets在ICDAR 2015[3]和ICDAR 2017 MLT [4]上分別實現了約1.3%和2.1%的性能提升。與ICDAR 2015上的EAST[5]和ITN [6]相比,GNNet的F-score比它們分別高出8%和9%。與FTSN [7]相比,獲得了4.5%的性能提升。GNNets在ICDAR 2015上的表現優於FOTS [8],在ICDAR 2017 MLT上的F-score更超出其7.3%。並且FOTS使用了文字識別的數據。在單尺度測試中,作者提出的GNNets在ICDAR 2015和ICDAR 2017 MLT上均達到了state-of-the-art的性能。Fig. 5可視化了GNNets和其他文本檢測方法在ICDAR 2015和ICDAR 2017 MLT上的檢測結果。
Fig.5. Qualitative results on ICDAR 2015 and ICDAR 2017 MLT. The right column shows GNNets results.
四、總結及討論
1. 在本文中,作者提出了一種新穎的幾何歸一化模塊(GNM)以生成多個幾何感知特徵圖。並且GNM是通用的,可以應用到任何基於CNN的檢測器中,以構建端到端的幾何歸一化網絡(GNNet)。實驗表明,GNNet在檢測幾何分布較大的文本實例方面相較於baseline表現出出色的性能。並且,GNNet在兩個文字檢測主流的數據集上較最新的方法獲得了顯著的性能提升。
2. 文中研究了幾何分布對場景文本檢測的影響,發現基於CNN的檢測器只能捕獲有限的文本幾何分布,但充分利用所有訓練的樣本可以提高其泛化能力,對後續文字檢測以及其他相關領域有啟發性影響。
3. 綜上所述,文本檢測是OCR任務的首要前提,但自然場景下文字的字體變化、懸殊的寬高比、任意角度給檢測任務帶來巨大的挑戰,本文為我們提出了目前研究方向上忽略的點,並提供了一個新穎的解決方法,但是相較與常規物體檢測,文本檢測領域仍然有其特殊性以及較大的提升空間。