該專題第二批共錄用了6篇論文和4篇短文, 涵蓋了語義分割、目標檢測、圖像合成、文本識別、年齡估計等有挑戰性的重要視覺任務, 發表於 SCIENCE CHINA Information Sciences 2020年63卷第2期, 歡迎閱讀!
Progressive rectification network for irregular text recognition
Yunze GAO, Yingying CHEN*, Jinqiao WANG & Hanqing LU
專題論文|PRN:面向不規則文字識別的漸進矯正網絡
提出了一種漸進式矯正網絡, 可將不規則形狀的文本迭代轉換為水平排列的規則視圖, 從而顯著提升了文本識別的精度.
Ordinal distribution regression for gait-based age estimation
Haiping ZHU, Yuheng ZHANG, Guohao LI, Junping ZHANG* & Hongming SHAN
通過嘗試將年齡的順序關係作為一個重要線索, 設計了一種新的序數分布損失函數, 能有效用於基於步態的年齡估計. 該方法具有一定的通用性, 同樣適用於基於人臉的年齡估計.
FACLSTM: ConvLSTM with focused attention for scene text recognition
Qingqing WANG, Ye HUANG, Wenjing JIA, Xiangjian HE, Michael BLUMENSTEIN, Shujing LYU & Yue LU*
論文介紹|面向場景文本識別的帶聚焦注意力機制的convLSTM
提出了一種命名為ConvLSTM文本識別模型, 能夠從二維空間直接識別場景文本. 在此基礎之上, 該方法引入了注意力機制和字符中心位置來進一步對文本識別精度進行了提升.
CGNet: cross-guidance network for semantic segmentation
Zhijie ZHANG & Yanwei PANG*
提出了一個新的網絡框架CGNet, 能夠同時進行語義分割、邊緣檢測和顯著性檢測三種視覺任務. 在邊緣檢測與顯著性檢測子網絡的引導下, CGNet的語義分割性能能獲得顯著提升.
SynthText3D: synthesizing scene text images from 3D virtual worlds
Minghui LIAO, Boyu SONG, Shangbang LONG, Minghang HE, Cong YAO & Xiang BAI*
提出了一種通過三維虛擬世界產生場景文本圖像的特別思路. 通過三維虛擬環境產生的文本圖像數據具有理想的視覺效果, 涵蓋了透視變換、光照與遮擋等多種變化, 可用於訓練更魯棒的文本檢測模型.
Preserving details in semantics-aware context for scene parsing
Shuai MA, Yanwei PANG*, Jing PAN & Ling SHAO