在自然場景文本檢測技術中,基於錨點的回歸方法是其中的一種主流方法[1,2,3,4]。然而,由於場景文本的多方向分布及尺寸角度變化的多樣性,這類方法常常需要設計複雜多樣的錨點來匹配各式各樣的文本;場景文本檢測中的錨點機制需要深入的探索,並進行有效的改進與創新。本文主要介紹兩篇對於文本檢測中錨點機制進行改進創新的論文:隱式錨點機制 HAM(IEEE TIP2020: HAM: Hidden Anchor Mechanism for Scene Text Detection)和注意力錨點機制 AAM(IEEE T-ITS 2020: Detecting Text in Scene and Traffic Guide Panels With Attention Anchor Mechanism)。
這兩篇論文首先將錨點進行長度、高度、角度的解耦合[5],然後採用不同的改進方法將錨點重構為最終的文本檢測結果,能夠克服錨點設計的複雜性,自適應的檢測不同方向、不同尺度的場景文本。其中,隱式錨點機制 HAM將所有錨點的預測值當做一個隱藏層,然後將所有的預測結果融合,使得網絡的輸出類似於直接回歸方法。注意力錨點機制 AAM使用注意力機制預測寬度、高度和角度錨點,然後根據預測出來的錨點來進行最終檢測文本的回歸。
目前基於錨點的文本方法都會設計很多複雜的錨點來使其符合多變的文本。這使得算法的複雜度變高,不利於不同場景下的文本檢測,遇到沒有對應的設計錨點,此時的文本檢測往往表現不好。本文介紹的兩篇論文則是,針對錨點設計複雜性問題,分別設計了機制隱式錨點機制和注意力錨點,來提升基於錨點的算法對於多方向複雜文本檢測的性能。
隱式錨點機制原理如圖2所示,在解耦合錨點機制基礎上,在特徵圖的每一個像素點,隱式錨點機制為每一個錨點值預測一個回歸值與錨點值的比例,以及一個分類的置信度,即每個錨點均預測回歸值。其中同一維度(寬度/高度/角度)錨點的分類置信度之和(包括背景類置信度)為1,使用Softmax來進行分類監督。最後,同一維度(寬度/高度/角度)錨點的預測值將分類置信度作為權重,進行加權求和,得到最終預測的寬度、高度和角度。
預測的注意力機制權重如公式1所示;注意力機制之後預測出來的錨點值為公式2、3、4;預測的寬、高、角度值為公式5、6、7;最終的預測分類結果為公式8,回歸框為公式9。
注意力錨點機制的損失函數與FOTS類似,與隱式錨點機制相比沒有La來對錨點進行顯式地分配,而是用注意力機制自動分配。
從表III和V可以看出,該方法在MSRA-TD500和ICDAR 2015上都取得了State-of-the-art的檢測效果。
本文介紹了兩篇對錨點機制進行改進的自然場景文本檢測方法,對基於錨點機制的場景文本檢測方法進行了較深入的探索及相應性的改進創新。在多個文本檢測數據集上的實驗表明這兩種方法均取得了良好的性能。
HAM: https://ieeexplore.ieee.org/document/9143459AAM: https://ieeexplore.ieee.org/document/9113429代碼連結:https://github.com/hjbplayer/HAM[1] M. Liao, B. Shi, X. Bai, X. Wang, and W. Liu, 「Textboxes: A fast text detector with a single deep neural network,」 in AAAI, 2017, pp. 4161–4167.[2] Lao, B. Shi, and X. Bai, 「Textboxes++: A single-shot oriented scene text detector,」 IEEE Trans. Image Processing, vol. 27, no. 8, pp.3676–3690, 2018.[3] J. Ma, W. Shao, H. Ye, L. Wang, H. Wang, and Y. Z. and Xiangyang Xue, 「Arbitrary-oriented scene text detection via rotation proposals,」 IEEE TMM, vol. 20, no. 11, pp. 3111–3122, 2018.[4] Q. Yang, M. Cheng, W. Zhou, Y. Chen, M. Qiu, and W. Lin,「Inceptext:A new inception-text module with deformable psroi pooling for multioriented scene text detection,」 in IJCAI, 2018, pp. 1071–1077.[5] L. Xie, Y. Liu, L. Jin, and Z. Xie, 「Derpn: Taking a further step toward more general object detection,」 in AAAI, 2019, pp. 9046–9053.[6] X. Zhou, C. Yao, H. Wen, Y. Wang, S. Zhou, W. He, and J. Liang, 「EAST: An efficient and accurate scene text detector,」 in CVPR, 2017, pp. 2642–2651.[7] X. Liu, D. Liang, S. Yan, D. Chen, Y. Qiao, and J. Yan, 「FOTS:Fast oriented text spotting with a unified network,」 in Proc. IEEE/CVFConf.Comput. Vis. Pattern Recognit., Jun. 2018, pp. 5676–5685.
原文作者:(論文1)Jie-Bo Hou, Xiaobin Zhu,Chang Liu, Kekai Sheng, Long-Huang Wu, Hongfa Wang, Xu-Cheng Yin(論文2)Jie-Bo Hou, Xiaobin Zhu,Chang Liu, Chun Yang, Long-Huang Wu, Hongfa Wang, Xu-Cheng Yin
編排:高 學
審校:連宙輝
發布:金連文
免責聲明:(1)本文僅代表撰稿者觀點,撰稿者不一定是原文作者,其個人理解及總結不一定準確及全面,論文完整思想及論點應以原論文為準。(2)本文觀點不代表本公眾號立場。(掃描識別如上二維碼加關注)