商湯聯手華科:提出文字檢測模型GNNets,新穎模塊可解決幾何分布難題

2020-12-14 AI科技大本營

加入「公開課」交流群,獲取更多學習資料、課程及熱招崗位等信息

編輯 | Jane

出品 | AI科技大本營(ID:rgznai100)

【導讀】今年的ICCV,商湯科技及聯合實驗室共有57篇論文入選ICCV 2019(包含11篇Oral),同時在Open Images、COCO、LVIS等13項重要競賽中奪冠!

本文簡要介紹商湯科技研究團隊在ICCV2019上錄用的一篇文章:Geometry Normalization Networks for Accurate Scene Text Detection(GNNets),針對自然場景下文字檢測的幾何歸一化網絡。該文章通過對待處理圖像的特徵圖進行幾何變換,從而將待處理圖像中幾何分布差異較大的文本框歸一化到一定的幾何分布範圍內,提高了自然場景下文本測檢的效果。

一、研究背景

隨著深度學習的迅速發展,計算機視覺技術對實際生產具有影響越來越重要的影響。對圖像中的文本進行檢測和識別,有助於計算機理解視覺內容。由於卷積神經網絡(CNN)方法的通用性,自然場景文本檢測受益於常規物體檢測而快速發展。但由於自然場景中的文本在實際應用場景中具有較大的幾何變化(例如寬高比或文字方向),所以其自身仍存在巨大的挑戰。

對於尺度變化問題,現有方法一般通過使用一個檢測頭(detection header)對不同層級的特徵進行檢測,利用NMS融合結果後作為輸出或者使用類似FPN [1]的網絡將多尺度特徵融合然後進行文本檢測。對於角度變化問題,現有方法一般通過直接回歸文本框角度或使用對方向敏感的卷積來預測任意方向。但目前的方法中要求檢測頭(detection header)需要學習到文字巨大的幾何差異或者檢測頭(detection header)僅在所有訓練樣本中一個子集進行學習,這可能導致性能欠佳。

作者研究了幾何分布對場景文本檢測的影響,發現基於CNN的檢測器只能捕獲有限的文本幾何分布,但充分利用所有訓練的樣本可以提高其泛化能力。為了解決上述難題,作者提出了一種新穎的幾何規範化模塊(GNM)。每個自然場景圖片中的文本實例可以通過GNM歸一化到一定的幾何分布範圍內。這樣所有訓練樣本均被歸一化為有限的分布,因此可以有效地訓練一個共享的文本檢測頭。

本文提出的GNM是通用的,可以直接將該模塊插入到任何基於CNN的文本檢測器中。為了驗證提出方法的有效性,作者針對文字方向的差異性新建了一個測試集(Benchmark)並發布。

二、方法描述

Fig.1. Overall architecture.

Fig. 1是GNNets的整體網絡結構圖。總體網絡結構由Backbone,GNM,Shared Text Detection Header組成。通過Backbone提取的特徵圖會被輸入到具有多個分支的幾何規範化模塊(GNM)中,每個分支由一個尺度歸一化單元(SNU)和方向歸一化單元(ONU)組成。SNU有兩個不同比例的尺歸一化單位(S,S1/2)和四個方向歸一化單位(O,Or,Of,Or + f)。通過SNU和ONU的不同組合,GNM會生成不同的幾何歸一化特徵圖,這些特徵圖將被輸入到一個共享文本檢測標頭中。

Fig.2. ONU.

Fig. 2是作者提出的ONU模塊的示意圖。通過應用ONU可以更改文本框方向。如圖所示「綠色」框是原始框,「灰色」框是轉換過程中的中間框,「紅色」框是ONU的輸出的結果框。θ和θ』分別是原始框和結果框的角度。(a),(b),(c)和(d)分別是O,Or,Of,Or + f的過程的示意圖。由上圖可以簡單明了的表示ONU具有將[0,π/4],[-π/2,-π/4],[-π/4,0]和[π/4,π/2]角度的文本轉換為在[0,π/4]角度的文本。

Fig.3. Architecture of GNM.

Fig. 3展示了GNM在網絡中的結構設置。對於SNU中的S使用1x1的卷積操作和3x3的卷積操作;S1/2使用1X1的卷積,步長為2的下採樣以及3x3的卷積。對於ONU中的O,Or,Of,Or + f中的Operations則分別採用不操作,旋轉feature maps,翻轉feature maps和旋轉後再翻轉feature maps。

由於多分支網絡的影響,作者提出了一個針對GNNets的抽樣訓練策略。在訓練期間,作者隨機採樣一個文本實例,並通過旋轉和調整大小7次來對其進行擴充,以使GNM的每個分支在每批次中都具有有效的文本實例用於訓練。這樣可以對GNM的所有分支進行統一訓練。並且在訓練過程中如果文本實例不在預先設定的幾何區間內,則忽略分支中的該文本實例。在測試過程中,作者將GNM中所有分支輸出文本框相應地反向投影到原始比例和方向。不在分支預先設定的幾何區間內的文本框會被丟棄。其餘的文本框通過NMS合併。

三、實驗結果

Table 1. Comparison with the state-of-the-art methods on both ICDAR 2015 and ICDAR 2017 MLT.

與原始的PSENet[2] 相比,作者提出的GNNets在ICDAR 2015[3]和ICDAR 2017 MLT [4]上分別實現了約1.3%和2.1%的性能提升。與ICDAR 2015上的EAST[5]和ITN [6]相比,GNNet的F-score比它們分別高出8%和9%。與FTSN [7]相比,獲得了4.5%的性能提升。GNNets在ICDAR 2015上的表現優於FOTS [8],在ICDAR 2017 MLT上的F-score更超出其7.3%。並且FOTS使用了文字識別的數據。在單尺度測試中,作者提出的GNNets在ICDAR 2015和ICDAR 2017 MLT上均達到了state-of-the-art的性能。Fig. 5可視化了GNNets和其他文本檢測方法在ICDAR 2015和ICDAR 2017 MLT上的檢測結果。

Fig.5. Qualitative results on ICDAR 2015 and ICDAR 2017 MLT. The right column shows GNNets results.

四、總結及討論

1. 在本文中,作者提出了一種新穎的幾何歸一化模塊(GNM)以生成多個幾何感知特徵圖。並且GNM是通用的,可以應用到任何基於CNN的檢測器中,以構建端到端的幾何歸一化網絡(GNNet)。實驗表明,GNNet在檢測幾何分布較大的文本實例方面相較於baseline表現出出色的性能。並且,GNNet在兩個文字檢測主流的數據集上較最新的方法獲得了顯著的性能提升。

2. 文中研究了幾何分布對場景文本檢測的影響,發現基於CNN的檢測器只能捕獲有限的文本幾何分布,但充分利用所有訓練的樣本可以提高其泛化能力,對後續文字檢測以及其他相關領域有啟發性影響。

3. 綜上所述,文本檢測是OCR任務的首要前提,但自然場景下文字的字體變化、懸殊的寬高比、任意角度給檢測任務帶來巨大的挑戰,本文為我們提出了目前研究方向上忽略的點,並提供了一個新穎的解決方法,但是相較與常規物體檢測,文本檢測領域仍然有其特殊性以及較大的提升空間。

相關焦點

  • GNNets:自然場景下文字檢測的幾何歸一化網絡 | ICCV 2019
    但目前的方法中要求檢測頭(detection header)需要學習到文字巨大的幾何差異或者檢測頭(detectionheader)僅在所有訓練樣本中一個子集進行學習,這可能導致性能欠佳。作者研究了幾何分布對場景文本檢測的影響,發現基於 CNN 的檢測器只能捕獲有限的文本幾何分布,但充分利用所有訓練的樣本可以提高其泛化能力。
  • CVPR 2020 | 商湯提出 Anchor-free 目標檢測新網絡
    -3DAR-身份認證與視頻感知團隊提出了基於向心偏移的anchor-free目標檢測網絡centripetalnet,為基於關鍵點的目標檢測方法研究帶來了新思路。  3  模型設計  CetripetalNet可以分為4個部分:特徵提取網絡,角點檢測與特徵調節,向心偏移模塊,實例分割模塊
  • 商湯科技入選 CVPR 2018 的 44 篇論文,都研究什麼?
    CVPR 作為計算機視覺領域級別最高的研究會議,其錄取論文代表了計算機視覺領域在 2018 年最新和最高的科技水平以及未來發展潮流。CVPR 官網顯示,今年有超過 3300 篇的大會論文投稿,錄取的 979 篇論文,比去年增長了 25%(2017 年論文錄取 783 篇)。這些錄取的最新科研成果,涵蓋了計算機視覺領域各項前沿工作。
  • 一騎絕塵 商湯科技44篇論文入選CVPR 2018
    商湯科技CVPR 2018錄取論文在以下領域實現突破:大規模分布式訓練、人體理解與行人再識別、自動駕駛場景理解與分析、底層視覺算法、視覺與自然語言的綜合理解、物體檢測、識別與跟蹤、深度生成式模型、視頻與行為理解等。這些新穎的計算機視覺算法不僅有著豐富的應用場景,使得更多的智能視覺算法能應用於日常生活之中,還為後續研究提供了可貴的經驗和方向。
  • 一騎絕塵 商湯科技 44 篇論文入選 CVPR 2018
    商湯科技 CVPR 2018 錄取論文在以下領域實現突破:大規模分布式訓練、人體理解與行人再識別、自動駕駛場景理解與分析、底層視覺算法、視覺與自然語言的綜合理解、物體檢測、識別與跟蹤、深度生成式模型、視頻與行為理解等。這些新穎的計算機視覺算法不僅有著豐富的應用場景,使得更多的智能視覺算法能應用於日常生活之中,還為後續研究提供了可貴的經驗和方向。
  • 商湯科技57篇論文入選ICCV 2019,13項競賽奪冠
    此次主辦方提供了千萬級別的實例框,涵蓋了500類結構性類別,其中包含大量漏標、類別混淆和長尾分布等問題。競賽中,得益於團隊提出的兩個全新技術:頭部空間解耦檢測器(Spatial Decoupling Head)和模型自動融合技術(Auto Ensemble)。前者可以令任意單模型在COCO和Open Images上提升3~4個點的mAP,後者相對於樸素模型融合能提升0.9mAP。
  • 8比特數值也能訓練模型?商湯提出訓練加速新算法丨CVPR 2020
    雖然論文錄取難度逐年增大,但是商湯科技在CVPR的成績一直領先行業,今年的CVPR成績依舊斐然。 本文提出了用於加速卷積神經網絡訓練過程的INT8訓練技術,採用8比特數值訓練模型,可以極大地提升訓練速度,減少計算損耗,而且訓練精度幾乎無損,該論文也入選了CVPR 2020。
  • 訓練輪數降至1/10、性能卻更好,商湯等提出升級版DETR目標檢測器
    機器之心專欄 機器之心編輯部 今年 5 月底,Facebook AI 提出了DETR,利用 Transformer 去做目標檢測,該方法去除了許多目標檢測中的人工設計組件,同時展現了非常好的性能。
  • 港中大-商湯聯合實驗室等提出:Guided Anchoring: 物體檢測器也能自己學 Anchor
    ,出了很多paper(難道為了趕頂會ddl),CVer也立即跟進報導(點擊可訪問):本文介紹一篇同樣很棒的paper,由香港中文大學-商湯聯合實驗室提出,後面有原作者的論文解讀。之後採用一個 Feature Adaption 模塊進行 anchor 特徵的調整,得到新的特徵圖供之後的預測(anchor 的分類和回歸)使用。整個方法可以 end-to-end training,而且相比之前只是增加了 3 個 1x1 conv 和一個 3x3 deformable conv,帶來的模型參數量的變化很小。
  • 基石小夥伴 | 商湯科技62篇論文入選CVPR 2019,多個競賽項目奪冠
    作者發明了一種新的網絡模塊PCD 對齊模塊,使用Deformable卷積進行視頻的對齊,整個過程可以端到端訓練。而且在挖掘時域(視頻前後幀)和空域(同一幀內部)的信息融合時,作者發明了一種時空注意力模型進行信息融合。此次比賽的EDVR算法代碼已開源(https://github.com/xinntao/EDVR)。
  • CVPR 2018 中國論文分享會之「分割與檢測」
    在第一個報告中,來自西北工業大學的戴玉超教授介紹了他們在物體檢測方面的工作。其工作的新穎之處在於,他們將較為經濟的但不太精確的傳統手工方法應用於深度學習網絡當中,即將傳統手工方法得到的結果視作預測結果 + 噪聲,從而作為監督信號來同時訓練預測模型和噪聲模型,實現了傳統方法在深度學習時代的又一春。
  • 曠視科技 CSG 算法負責人姚聰:深度學習時代的文字檢測與識別技術...
    文字識別則更進一步,它在文字檢測基礎之上把文字區域轉化為計算機可讀取和編輯的符號的過程。▊挑戰目前,文字檢測與識別面臨諸多挑戰。為什麼提出這種方法?這源於實際場景文字實例有時相鄰較近甚至粘連,分割和檢測變得無濟於事。這時通過兩個分支進行處理,一個分支定位文字區域的角點,另一個分支進行文字區域分割,結合這兩種信息文字輸出文字位置和置信度。
  • 大連理工大學國際信息與軟體學院幾何計算與智能技術研究所取得...
    Conference on Machine Learning (ICML)錄用;這2項成果中,第1項成果通過菲爾茲獎得主Figalli的最優傳輸映射的正則性理論對生成過程中常常出現的模式崩潰或模式混合問題進行了理論解釋,並將流形嵌入和概率分布兩個任務解耦,採用AE-OT模型避免了用DNN表示不連續映射的問題,有效地避免了模式崩潰和模式混合;第2項成果從樂觀雙層優化和聯合上下層信息的角度重構雙層規劃
  • 機器學習如何做好分布外異常檢測?谷歌這篇 NeurIPS 2019 論文提出...
    谷歌在 NeurIPS 2019 論文中提出並發布了針對基因組序列 OOD 檢測的現實基準數據集,進而提出一種基於似然比的解決方案,可顯著提高 OOD 檢測的準確性。AI 科技評論將谷歌對該方法的官方解讀編譯如下。深度學習科學家要成功部署機器學習系統,需要系統能夠區分出異常數據或與訓練中使用的數據有顯著差異的數據。
  • AAAI 2020論文解讀:商湯科技提出新弱監督目標檢測框架
    該團隊提出了一種端到端的物體實例挖掘弱監督目標檢測框架,引入了基於空間圖及外觀圖的信息傳播機制,在網絡迭代學習過程中,嘗試挖掘每張圖像中全部的物體實例。為了解決這個局限性,僅使用圖片級別標註(既標註僅包含圖片中物體的類別)的弱監督目標檢測技術在近幾年受到了廣泛的關注和研究,具有重要的意義。
  • 談談「二項分布與超幾何分布的異同」
    二項分布與超幾何分布是兩個非常重要的、應用廣泛的概率模型,實際中的許多問題都可以利用這兩個概率模型來解決.在實際應用中,理解並區分兩個概率模型是至關重要的.下面結合概念並舉例進行對比辨析.超幾何分布和二項分布都是離散型分布.超幾何分布和二項分布的區別:超幾何分布需要知道總體的容量,而二項分布不需要;超幾何分布是不放回抽取,而二項分布是放回抽取(獨立重複)當總體的容量非常大時,超幾何分布近似於二項分布...
  • CVPR2020 oral | 解決目標檢測長尾問題簡單方法:Balanced Group Softmax
    v=ikdVuadfUo8使用基於深度學習的模型來解決長尾 large vocabulary目標檢測是一項具有挑戰性而艱巨的任務,然而,這項工作尚未得到充分研究。在本文的工作中,首先對針對長尾分布問題所提出SOTA模型的性能進行了系統分析,找出其不足之處。發現當數據集極度偏斜時,現有的檢測方法無法對few-shot類別進行建模,這可能導致分類器在參數大小上的不平衡。
  • 商湯首發全新智慧出行解決方案
    在此次5G大會上,商湯首發全新路側感知解決方案。該方案基於雷射雷達、攝像頭等基礎感知設備,提供路端融合感知技術,算法魯棒性高且支持不同傳感器組合方式。,高精度地進行不同類型機動車、非機動車和行人等交通參與者及其他動態物體的檢測和跟蹤、障礙物檢測和屬性識別、可行駛區域檢測、車道標識線識別。
  • 港中文、上交大、商湯聯合提出兩種軌跡預測新方法
    針對前兩個問題, 我們提出TPNet: Trajectory Proposal Network for Motion Prediction。為了輸出多模態的預測結果,之前的方法大多學習一個軌跡的分布,通過採樣、最大化後驗概率的方法得到一個或多個概率較大的軌跡。
  • 速度提高100萬倍,哈佛醫學院提出可預測蛋白質結構的新深度模型
    蛋白質結構預測是生命科學領域的一大難題。近日,來自哈佛大學醫學院的研究人員提出了一種基於胺基酸序列預測蛋白質結構的新方法,準確率可媲美當前最佳方案,但預測速度提升了100萬倍。生命所必需的每一次基礎生物學進展幾乎都是由蛋白質帶來的。