論文推薦丨[IEEE TIP2020、IEEE T-ITS2020]場景文本檢測中的錨點機制探索及改進方法(有源碼)

2021-02-13 CSIG文檔圖像分析與識別專委會

在自然場景文本檢測技術中,基於錨點的回歸方法是其中的一種主流方法[1,2,3,4]。然而,由於場景文本的多方向分布及尺寸角度變化的多樣性,這類方法常常需要設計複雜多樣的錨點來匹配各式各樣的文本;場景文本檢測中的錨點機制需要深入的探索,並進行有效的改進與創新。本文主要介紹兩篇對於文本檢測中錨點機制進行改進創新的論文:隱式錨點機制 HAM(IEEE TIP2020: HAM: Hidden Anchor Mechanism for Scene Text Detection)和注意力錨點機制 AAM(IEEE T-ITS 2020: Detecting Text in Scene and Traffic Guide Panels With Attention Anchor Mechanism)。

這兩篇論文首先將錨點進行長度、高度、角度的解耦合[5],然後採用不同的改進方法將錨點重構為最終的文本檢測結果,能夠克服錨點設計的複雜性,自適應的檢測不同方向、不同尺度的場景文本。其中,隱式錨點機制 HAM將所有錨點的預測值當做一個隱藏層,然後將所有的預測結果融合,使得網絡的輸出類似於直接回歸方法。注意力錨點機制 AAM使用注意力機制預測寬度、高度和角度錨點,然後根據預測出來的錨點來進行最終檢測文本的回歸。

目前基於錨點的文本方法都會設計很多複雜的錨點來使其符合多變的文本。這使得算法的複雜度變高,不利於不同場景下的文本檢測,遇到沒有對應的設計錨點,此時的文本檢測往往表現不好。本文介紹的兩篇論文則是,針對錨點設計複雜性問題,分別設計了機制隱式錨點機制和注意力錨點,來提升基於錨點的算法對於多方向複雜文本檢測的性能。

隱式錨點機制將錨點的輸出層作為一個網絡的隱層,並將每個錨點的預測結果加權求和,從而得出最終的預測結果。如圖1所示,論文提出的隱式錨點機制將直接回歸方法(例如EAST [6])和基於錨點回歸的方法相結合,將錨點的輸出結果作為網絡的中間隱層,將其重新組合成為最終的輸出預測結果,使得網絡的輸出結果和直接回歸方法一樣簡潔,能夠方便的進行計算與訓練。

隱式錨點機制原理如圖2所示,在解耦合錨點機制基礎上,在特徵圖的每一個像素點,隱式錨點機制為每一個錨點值預測一個回歸值與錨點值的比例,以及一個分類的置信度,即每個錨點均預測回歸值。其中同一維度(寬度/高度/角度)錨點的分類置信度之和(包括背景類置信度)為1,使用Softmax來進行分類監督。最後,同一維度(寬度/高度/角度)錨點的預測值將分類置信度作為權重,進行加權求和,得到最終預測的寬度、高度和角度。

如圖6所示,論文還提出了一種迭代回歸框的機制(IRB)來作為後處理,進一步提升方法的性能。

其中,預測的寬高角度如公式1、2和3所示,最終的分類結果和預測框如公式4和5所示,整個網絡的最終輸出結果與直接回歸類方法EAST類型。

 

這裡,損失函數參考了FOTS [7],額外增加了La來對每個錨點進行分配。損失函數如公式6到10所示,Lcls,La,LAABB,Lθ分別為分類損失,錨點分配損失,回歸框損失和角度的損失函數。L為最終的損失函數,其中設置為10,在前10萬輪為0.1,之後為0。

從表VI和IV可以看出,該方法在MSRA-TD500和ICDAR 2015上都取得了State-of-the-art的檢測效果。其中+IRB代表使用了本文提出的迭代回歸框的後處理方法,

上圖展示了一些可視化的場景文本數據集MSRA-TD500, ICDAR 2015和ICDAR 2017 MLT的檢測結果圖。


注意力錨點機制的原理如圖2所示,主幹網絡類似於FPN,其中添加了RFB模塊來增強網絡的感受野。論文對於解耦合之後的錨點使用了注意力機制,將注意力機制預測的權重作為每個錨點的權重,並將每個維度的錨點進行加權求和,從而預測出一個適合當前文本的錨點,即為注意力錨點。在注意力錨點的基礎上,本文的方法預測了文本的真值和錨點的比例,從而預測出文本的寬度,高度以及角度。

預測的注意力機制權重如公式1所示;注意力機制之後預測出來的錨點值為公式2、3、4;預測的寬、高、角度值為公式5、6、7;最終的預測分類結果為公式8,回歸框為公式9。

注意力錨點機制的損失函數與FOTS類似,與隱式錨點機制相比沒有La來對錨點進行顯式地分配,而是用注意力機制自動分配。

從表III和V可以看出,該方法在MSRA-TD500和ICDAR 2015上都取得了State-of-the-art的檢測效果。

本文介紹了兩篇對錨點機制進行改進的自然場景文本檢測方法,對基於錨點機制的場景文本檢測方法進行了較深入的探索及相應性的改進創新。在多個文本檢測數據集上的實驗表明這兩種方法均取得了良好的性能。

HAM: https://ieeexplore.ieee.org/document/9143459AAM: https://ieeexplore.ieee.org/document/9113429代碼連結:https://github.com/hjbplayer/HAM

 

[1] M. Liao, B. Shi, X. Bai, X. Wang, and W. Liu, 「Textboxes: A fast text detector with a single deep neural network,」 in AAAI, 2017, pp. 4161–4167.[2] Lao, B. Shi, and X. Bai, 「Textboxes++: A single-shot oriented scene text detector,」 IEEE Trans. Image Processing, vol. 27, no. 8, pp.3676–3690, 2018.[3] J. Ma, W. Shao, H. Ye, L. Wang, H. Wang, and Y. Z. and Xiangyang Xue, 「Arbitrary-oriented scene text detection via rotation proposals,」 IEEE TMM, vol. 20, no. 11, pp. 3111–3122, 2018.[4] Q. Yang, M. Cheng, W. Zhou, Y. Chen, M. Qiu, and W. Lin,「Inceptext:A new inception-text module with deformable psroi pooling for multioriented scene text detection,」 in IJCAI, 2018, pp. 1071–1077.[5] L. Xie, Y. Liu, L. Jin, and Z. Xie, 「Derpn: Taking a further step toward more general object detection,」 in AAAI, 2019, pp. 9046–9053.[6] X. Zhou, C. Yao, H. Wen, Y. Wang, S. Zhou, W. He, and J. Liang, 「EAST: An efficient and accurate scene text detector,」 in CVPR, 2017, pp. 2642–2651.[7] X. Liu, D. Liang, S. Yan, D. Chen, Y. Qiao, and J. Yan, 「FOTS:Fast oriented text spotting with a unified network,」 in Proc. IEEE/CVFConf.Comput. Vis. Pattern Recognit., Jun. 2018, pp. 5676–5685.

 

原文作者:(論文1)Jie-Bo Hou, Xiaobin Zhu,Chang Liu, Kekai Sheng, Long-Huang Wu, Hongfa Wang, Xu-Cheng Yin(論文2)Jie-Bo Hou, Xiaobin Zhu,Chang Liu, Chun Yang,  Long-Huang Wu, Hongfa Wang, Xu-Cheng Yin

編排:高 學

審校:連宙輝

發布:金連文

免責聲明:(1)本文僅代表撰稿者觀點,撰稿者不一定是原文作者,其個人理解及總結不一定準確及全面,論文完整思想及論點應以原論文為準。(2)本文觀點不代表本公眾號立場。 

徵稿啟事:本公眾號將不定期介紹文檔圖像分析與識別及相關領域的論文、數據集、代碼等成果,歡迎自薦或推薦相關領域最新論文/代碼/數據集等成果給本公眾號審閱編排後發布。

(掃描識別如上二維碼加關注)

相關焦點

  • 論文推薦|[IEEE TIP 2020]EraseNet:端到端的真實場景文本擦除方法
    該論文主要針對場景文字擦除的問題,首先從已有的場景文字檢測與識別的公開數據集收集圖片,通過人工標註構建了文字擦除的資料庫SCUT-EnsText,並提出了EraseNet文字擦除模型,可以在整圖級別不需要文本位置信息的先驗下對場景中的文字進行擦除,最後也在該數據集以及之前在[1]提出的合成數據集上與之前方法進行了實驗對比,驗證了我們方法的有效性,建立了場景文字擦除問題的基準(Benchmark),以便於後續研究工作的開展
  • 論文推薦|[AAAI 2020] TextScanner:依序閱讀分類的魯棒場景文本識別
    該論文分析了現有的場景文本方法,包括基於RNN注意力的方法以及基於語義分割的方法的局限性,針對上述方法存在的不足之處提出改進。圖1 本文方法的對比結果場景文本識別任務在近幾年得到很大的關注,現有的場景文本識別的方法主要分為兩種,一種是基於RNN Attention的方法[1][2],通過對編碼後的圖片特徵序列使用注意力機制來對準字符同時進行解碼
  • 中科大提出ContourNet:更準確的任意形狀場景文本檢測新方法
    近年來場景文本檢測的研究發展迅速,但其中有兩個困難的挑戰未被很好解決,算法容易產生偽召回(False Positives)以及對尺度變化劇烈的文本檢測不準確。場景文字圖片中,文本尺度變化大,背景紋理複雜等困難導致了現有的場景文本檢測算法普遍存在兩個問題,偽召回(False Positives)多,以及對尺度變化劇烈的文本檢測不準確。
  • ieee限制華為相關專家參與審稿 ieee是什麼組織機構
    ieee限制華為相關專家參與審稿 ieee是什麼組織機構  今日,一封郵件傳遍了學術界:IEEE禁止華為的同事擔任審稿人或編輯。  IEEE全稱「電氣電子工程師學會」,成立於1963年1月1日,是目前全球最大的專業技術組織,在全球 160 多個國家擁有 430000 多名會員。
  • IEEEtrans 系列官方LATEX模板說明總結
    下面介紹\documentclass中的可選項,標題中高亮的選項是默認選項。• 9pt, 10pt, 11pt, 12pt除了一些科技說明要求9pt字號和一些會議論文要求11pt字號之外,絕大多數IEEE論文也要求用10pt的字號。
  • CVPR 2020論文開源項目一頁看盡,附代碼論文
    via Adaptive Training Sample Selection本文首先指出了基於錨點檢測與無錨點檢測的本質區別,在於如何定義正、負訓練樣本,從而導致兩者之間的性能差距。它顯著地提高了基於錨點和無錨點探測器的性能,並彌補了兩者之間的差距。最後,還討論了在圖像上每個位置平鋪多個錨點來檢測目標的必要性。
  • 領摯科技與上海交通大學郭小軍教授課題組合作發表IEDM和IEEE EDL論文
    該論文所涵蓋主要研究內容是,在10cm×10cm尺寸的大面積基板上,實現了基於溶液法製備的具有出色均勻性(對於>100被測器件,閾值電壓偏差約200mV)的低功率有機場效應電晶體技術。該論文將小分子有機半導體和聚合物粘合劑共混而成的半導體墨水通過軟接觸塗布技術快速(20mm/s)印刷在高解析度光刻電極上,利用接觸誘導效應控制溝道處結晶成核生長,從而獲得形貌高度均勻的結晶溝道,可大面積製備具有較低的帶隙間態密度、低工作電壓(亞閾值擺幅約80mV/decade)以及出色均勻性的有機場效應電晶體器件,並且該器件在所有工作狀態下均具有優良的偏置穩定性。
  • Python繼續霸榜,上古語言Cobol獲關注,IEEE2020程式語言榜單揭曉
    如果你對權重有異議,可以在 IEEE 的交互頁面上設置自己想要的權重:接下來,我們來看 IEEE 2020 程式語言排行榜的具體數據。參考連結:https://spectrum.ieee.org/at-work/tech-careers/top-programming-language-2020?
  • 系列報導 | 2021 IEEE Fellow學術大盤點(6)
    IEEE Fellow 即 IEEE 會士/院士,為學會最高等級會員,是IEEE授予的最高榮譽,在學術科技界被認定為權威的榮譽和重要的職業成就,每年由同行專家在做出突出貢獻的會員中評選出,由於每年當選的 IEEE Fellow 數量較少,當選科學家基本都是在科學與工程技術領域內取得重要成就的傑出科學家。
  • CVPR 2020文本圖像檢測與識別論文/代碼
    Auto-Encoding Twin-Bottleneck Hashing論文:Auto-Encoding Twin-Bottleneck HashingCVPR 2020 所有文本圖像(text)相關論文,主要分為手寫文本和場景文本兩大方向,總計16篇,對文獻進行了細緻的分類,大部分論文是圍繞識別問題的研究
  • 計算機視覺領域2019推薦論文列表
    VL-BERT: Pre-training of Generic Visual-Linguistic Representations論文連結:https://arxiv.org/pdf/1908.08530.pdf該文發表於ICLR 2020,是最早提出圖像和文本聯合預訓練模型的論文之一。
  • 22篇入選CVPR 2020,百度 15 篇精選論文詳解
    本屆大會中,百度共有22篇論文入選,涉及主題涵蓋人臉檢測&識別、視頻理解&分析、圖像超分辨、及自動駕駛中的車輛檢測、場景實例級分割等領域。以下為其中 15 篇入選論文介紹。近期,關於人臉檢測器利用錨點構建一個結合分類和坐標框回歸的多任務學習問題,有效的錨點設計和錨點匹配策略使得人臉檢測器能夠在大姿態和尺度變化下精準定位人臉。
  • 旋轉目標(遙感/文字)檢測方法整理(2017-2019)
    relate work部分,趁機把近幾年遙感(主要關注)、場景文字旋轉目標檢測論文方法和code整理一下,時間倉促有疏漏之處望多多指出。Text Detection via Rotation Proposals》連結:https://arxiv.org/abs/1703.01086創新:應該是第一個基於RPN架構引入旋轉候選框實現任意方向的場景文本檢測。
  • 計算機視覺「奧斯卡」CVPR 2020公布收錄論文
    近日,計算機視覺領域「奧斯卡」CVPR 2020官方公布論文收錄結果,伴隨投稿數量激增,接收率開始經歷了一個持續下降的過程。今年,在6656篇有效投稿中,共有1470篇論文被接收,接收率為22%左右,相較去年25%的入選率,同比下降3%。
  • 騰訊優圖非對稱卡通臉檢測算法ACFD,獲IJCAI 2020挑戰賽冠軍
    近日,在人工智慧國際會議 (IJCAI) 舉辦的2020 iCartoonFace挑戰賽中,騰訊優圖實驗室基於自研的「千尋」檢測平臺,首次提出面向動漫場景的卡通臉檢測算法ACFD,並從國內頂尖學術機構和商業公司中脫穎而出,取得第一名的成績。目前,論文已在arXiv公開。
  • IEEE史上首位華人主席,馬裡蘭大學終身教授劉國瑞當選
    北京時間 10 月 13 日,國際電氣與電子工程師協會(IEEE)官方正式發布了 2020 年度選舉結果,美國馬裡蘭大學終身教授、華人學者劉國瑞(K. J. RAY LIU)當選 2021 IEEE 候任主席。
  • 今日Paper|虛假新聞檢測;馬爾可夫決策過程;場景文本識別;博弈論...
    :https://paper.yanxishe.com/review/7954推薦理由:這篇論文被AAAI 2020接收,考慮的是虛假新聞檢測的問題。Sohaib發表時間:2019/12/27論文連結:https://paper.yanxishe.com/review/7949推薦理由:強化學習見證了量子編程中各種任務的最新應用。基本假設是,這些任務可以建模為馬爾可夫決策過程(MDP)。本文中,作者通過探索該假設對量子編程中兩個最簡單的任務的影響來研究該假設的可行性:狀態準備和門編譯。
  • 論文推薦 | 深度學習應用於交通流預測後的奇妙效應(2020-09-22)
    ,第 45 期,論文推薦  交通流預測一直是熱點研究問題,尤其是隨著深度學習技術的發展。本文推薦了 3 篇基於深度學習方法預測交通流的論文,不僅梳理和翻譯了論文的題錄信息、摘要,而且提供了必要的拓展學習資源。此外,論文中可利用的數據也單獨列出,以供大家學習使用。1. 堆疊式自動編碼器與深度學習的結合1.1 論文基本資訊理論文題目(中文參考)
  • 今日Paper|動態圖像檢索;實時場景文本定位;感知場景表示;雙重網絡等
    from=leiphonecolumn_paperreview0303推薦原因這篇論文被CVPR 2020接收,考慮的是場景文本檢測和識別的問題。現有方法基於字符或基於分段,要麼在字符標註上成本很高,要麼需要維護複雜的工作流,都不適用於實時應用程式。
  • ICLR 2020丨微軟亞洲研究院精選論文解讀
    作者 | 微軟亞院編輯 | 叢 末1、BERT 在神經機器翻譯中的應用論文連結:https://arxiv.org/pdf/2002.06823.pdfBERT 在自然語言理解任務如文本分類、閱讀理解上取得了巨大的成功,然而在機器翻譯等文本生成任務上的應用仍缺乏足夠的探索