今日Paper|動態圖像檢索;實時場景文本定位;感知場景表示;雙重網絡等

2020-12-10 雷鋒網

目錄

Sketch Less for More:基於細粒度草圖的動態圖像檢索

ABCNet:基於自適應Bezier-Curve網絡的實時場景文本定位

通過逐步增加蒙版區域來修復圖像

BlockGAN:從未標記的圖像中學習3D對象感知場景表示

用於行人重識別的交叉分辨對抗性雙重網絡

Sketch Less for More:基於細粒度草圖的動態圖像檢索

論文名稱:Sketch Less for More: On-the-Fly Fine-Grained Sketch Based Image Retrieval

作者:Bhunia Ayan Kumar /Yang Yongxin /Hospedales Timothy M. /Xiang Tao /Song Yi-Zhe

發表時間:2020/2/24

論文連結:https://paper.yanxishe.com/review/12442?from=leiphonecolumn_paperreview0303

推薦原因

這篇論文被CVPR 2020接收,考慮的是基於草圖的細粒度圖像檢索,即在給定用戶查詢草圖的情況下檢索特定照片樣本的問題。

繪製草圖花費時間,且大多數人都難以繪製完整而忠實的草圖。為此這篇論文重新設計了檢索框架以應對這個挑戰,目標是以最少筆觸數檢索到目標照片。這篇論文還提出一種基於強化學習的跨模態檢索框架,一旦用戶開始繪製,便會立即開始檢索。此外,這篇論文還提出一種新的獎勵方案,該方案規避了與無關的筆畫筆觸相關的問題,從而在檢索過程中為模型提供更一致的等級列表。在兩個公開可用的細粒度草圖檢索數據集上的實驗表明,這篇論文所提方法比當前最佳方法具有更高的早期檢索效率。

ABCNet:基於自適應Bezier-Curve網絡的實時場景文本定位

論文名稱:ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve Network

作者:Liu Yuliang /Chen Hao /Shen Chunhua /He Tong /Jin Lianwen /Wang Liangwei

發表時間:2020/2/24

論文連結:https://paper.yanxishe.com/review/12441?from=leiphonecolumn_paperreview0303

推薦原因

這篇論文被CVPR 2020接收,考慮的是場景文本檢測和識別的問題。

現有方法基於字符或基於分段,要麼在字符標註上成本很高,要麼需要維護複雜的工作流,都不適用於實時應用程式。這篇論文提出了自適應貝塞爾曲線網絡(Adaptive Bezier-Curve Network ,ABCNet),包括三個方面的創新:1)首次通過參數化的貝塞爾曲線自適應擬合任意形狀文本;2)設計新的BezierAlign層,用於提取具有任意形狀的文本樣本的準確卷積特徵,與以前方法相比顯著提高精度;3)與標準圖形框檢測相比,所提貝塞爾曲線檢測引入的計算開銷可忽略不計,從而使該方法在效率和準確性上均具優勢。對任意形狀的基準數據集Total-Text和CTW1500進行的實驗表明,ABCNet達到當前最佳的準確性,同時顯著提高了速度,特別是在Total-Text上,ABCNet的實時版本比當前最佳方法快10倍以上,且在識別精度上極具競爭力。

通過逐步增加蒙版區域來修復圖像

論文名稱:Learning to Inpaint by Progressively Growing the Mask Regions

作者:Hedjazi Mohamed Abbas /Genc Yakup

發表時間:2020/2/21

論文連結:https://paper.yanxishe.com/review/12259?from=leiphonecolumn_paperreview0303

推薦原因

這篇論文考慮的是圖像修復問題。

生成模型可以產生視覺上合理的圖像,但是隨著被遮擋區域的增大,以往的方法難以生成正確的結構和顏色。這篇論文對這個問題引入了一種新的課程樣式訓練方法,在訓練時間內逐漸增加遮罩區域的大小,而在測試時,用戶可以在任意位置給出隨機尺寸的遮罩。這種訓練方法可以使得生成對抗模型的訓練更加平穩,提供更好的顏色一致性並且捕捉對象的連續性。

BlockGAN:從未標記的圖像中學習3D對象感知場景表示

論文名稱:BlockGAN: Learning 3D Object-aware Scene Representations from Unlabelled Images

作者:Nguyen-Phuoc Thu /Richardt Christian /Mai Long /Yang Yong-Liang /Mitra Niloy

發表時間:2020/2/20

論文連結:https://paper.yanxishe.com/review/12258?from=leiphonecolumn_paperreview0303

推薦原因

這篇論文提出了一個名為BlockGAN的圖像生成模型,可以直接從未標註的2D圖像中學習對象感知的3D場景表示。BlockGAN首先生成背景和前景對象的3D特徵,然後將它們組合為整個場景的3D特徵,最後將它們渲染為逼真的圖像。BlockGAN可以推理出對象的外觀(例如陰影和照明)之間的遮擋和交互作用,並提供對每個對象的3D姿勢和身份的控制,同時保持圖像的逼真度。BlockGAN的效果可以在項目主頁中查看。

用於行人重識別的交叉分辨對抗性雙重網絡

論文名稱:Cross-Resolution Adversarial Dual Network for Person Re-Identification and Beyond

作者:Li Yu-Jhe /Chen Yun-Chun /Lin Yen-Yu /Wang Yu-Chiang Frank

發表時間:2020/2/19

論文連結:https://paper.yanxishe.com/review/12257?from=leiphonecolumn_paperreview0303

推薦原因

這篇論文要解決的是行人重識別問題。

考慮到真實場景中攝像機和目標人之間距離不同可能會帶來解析度不匹配的情況,會降低行人重識別算法的表現。這篇論文提出了一種的新的生成對抗網絡來解決跨解析度的行人重識別,可以學習解析度不變的圖像表示,同時能恢復低解析度輸入圖像丟失的細節,共同用於改善重識別的性能。在五個標準行人重識別基準上的實驗結果證實了該方法的有效性,尤其是在訓練過程中不知道輸入解析度的情況下。此外,兩個車輛重識別基準測試的實驗結果也證實了該模型在交叉解析度視覺任務上的通用性。

論文作者團隊招募

為了更好地服務廣大 AI 青年,AI 研習社正式推出全新「論文」版塊,希望以論文作為聚合 AI 學生青年的「興趣點」,通過論文整理推薦、點評解讀、代碼復現。致力成為國內外前沿研究成果學習討論和發表的聚集地,也讓優秀科研得到更為廣泛的傳播和認可。

我們希望熱愛學術的你,可以加入我們的論文作者團隊。

加入論文作者團隊你可以獲得

1.署著你名字的文章,將你打造成最耀眼的學術明星

2.豐厚的稿酬

3.AI 名企內推、大會門票福利、獨家周邊紀念品等等等。

加入論文作者團隊你需要:

1.將你喜歡的論文推薦給廣大的研習社社友

2.撰寫論文解讀

雷鋒網雷鋒網雷鋒網

相關焦點

  • 今日Paper | COVID-19;深度興趣網絡;COVIDX-NET;場景文本遷移等
    射線圖像中COVID-19的深度學習分類器框架COVID-NET:一種用於從胸部X光圖像中檢測COVID-19病例的定製深度卷積神經網絡設計用於點擊率預測的深度興趣網絡CVPR 2020 | SwapText: 基於圖像的場景文本遷移論文名稱:Mapping the Landscape of Artificial Intelligence Applications
  • 阿德萊德大學博士後劉禹良:端到端可訓練任意形狀的實時場景文本...
    OCR(Optical Character Recognition, 光學字符識別)是指對輸入掃描文檔圖像進行分析處理,進而識別出圖像中文字信息的技術。而場景文本檢測與識別,是指識別自然場景圖片中的文字信息。由於在計算機視覺中的廣泛應用而受到越來越多的關注。
  • 今日Paper|虛假新聞檢測;馬爾可夫決策過程;場景文本識別;博弈論...
    為了幫助各位學術青年更好地學習前沿研究成果和技術,AI科技評論聯合Paper 研習社(paper.yanxishe.com),重磅推出【今日 Paper】欄目, 每天都為你精選關於人工智慧的前沿學術論文供你學習參考。
  • 今日Paper | 虛擬試穿網絡;人群計數基準;聯邦元學習;目標檢測等
    為了幫助各位學術青年更好地學習前沿研究成果和技術,AI科技評論聯合Paper 研習社(paper.yanxishe.com),重磅推出【今日 Paper】欄目, 每天都為你精選關於人工智慧的前沿學術論文供你學習參考。
  • 今日Paper|虛擬試穿網絡;人群計數基準;聯邦元學習;目標檢測等
    為了幫助各位學術青年更好地學習前沿研究成果和技術,AI科技評論聯合Paper 研習社(paper.yanxishe.com),重磅推出【今日 Paper】欄目, 每天都為你精選關於人工智慧的前沿學術論文供你學習參考。
  • ESIR:通過迭代矯正圖像的端到端場景文本識別系統
    我們從圖1中可以看到,論文所提出的系統由一個迭代校正網絡和一個識別網絡組成,這個Rectification Network迭代地校正場景文本,而Recognition Network識別最終校正後的場景文本圖像(迭代矯正網絡中的圖像說明了迭代場景文本校正過程),其中虛線顯示了梯度的向後傳播。
  • 今日Paper | RevealNet;時間序列預測;無監督問答;實時語義立體...
    from=leiphonecolumn_paperreview0331推薦原因本文已經被提交到ECCV2020。Image Matting是眾多圖像編輯應用中的一個關鍵技術,其需要將對象從圖片分割出來並估計其不透明蒙版。基於深度學習的方法也取得了很大的進展,但大多數現有網絡僅預測alpha遮罩,需要藉助後處理方法來恢復透明區域中的原始前景色和背景色。
  • 今日Paper | 可視問答模型;神經風格差異轉移;圖像壓縮系統 ;K-SVD...
    from=leiphonecolumn_paperreview0211 推薦原因這篇論文考慮的是圖像壓縮的問題。在基於深度神經網絡的有損圖像壓縮中,重要性圖方法被廣泛應用,以根據圖像內容的重要性來實現比特分配,然而這種方法容易出現嚴重失真。
  • 今日Paper|TRANSFORMER結構;圖像到圖像翻譯;缺失標註目標檢測解決...
    目錄REFORMER:一個高效的TRANSFORMER結構具有文本指導的圖像到圖像的翻譯解決背景重校準損失下的缺失標註目標檢測問題MLFcGAN:基於多級特徵融合的條件GAN水下圖像顏色校正 具有文本指導的圖像到圖像的翻譯 論文名稱:Image-to-Image Translation with Text Guidance作者:Li Bowen /Qi Xiaojuan /Torr Philip H. S.
  • 今日Paper|RevealNet;時間序列預測;無監督問答;實時語義立體匹配等
    from=leiphonecolumn_paperreview0331推薦原因本文已經被提交到ECCV2020。Image Matting是眾多圖像編輯應用中的一個關鍵技術,其需要將對象從圖片分割出來並估計其不透明蒙版。
  • 今日Paper | TRANSFORMER結構;圖像到圖像翻譯;缺失標註目標檢測...
    REFORMER:一個高效的TRANSFORMER結構具有文本指導的圖像到圖像的翻譯解決背景重校準損失下的缺失標註目標檢測問題MLFcGAN:基於多級特徵融合的條件GAN水下圖像顏色校正from=leiphonecolumn_paperreview0221推薦原因這篇論文提出了一個新的圖像到圖像遷移方法,通過生成對抗網絡將可控因素(即自然語言描述)嵌入到圖像到圖像的遷移中,從而使文字描述可以確定合成圖像的視覺屬性。
  • 圖像分類:一個更魯棒的場景分類模型
    如何根據圖像的視覺內容為圖像賦予一個語義類別(例如,教室、街道等)是圖像場景分類的目標,也是圖像檢索、圖像內容分析和目標識別等問題的基礎。但由於圖片的尺度、角度、光照等因素的多樣性以及場景定義的複雜性,場景分類一直是計算機視覺中的一個挑戰性問題。本次任務從400萬張網際網路圖片中精選出8萬張圖片,分屬於80個日常場景類別,例如航站樓、足球場等。每個場景類別包含600-1100張圖片。
  • 視頻圖像中文本的檢測、定位與提取
    而視頻本質上是由文本、視頻和音頻等多種媒質融合而成,它們之間存在語義關聯,一種媒質和另外一種媒質表示同一語義或是其補充。只有通過挖掘構成視頻的各種媒質所表達的豐富語義信息,克服單純的視覺特徵語義表達能力較弱這一缺點,充分提取視頻中的高層語義,才能符合人們對視頻信息的理解習慣,實現實用的基於內容的視頻檢索系統。
  • 人工智慧核心核心技術及應用場景
    ,並通過識別軟體將圖像中的文字轉換成文本格式,供文字處理軟體進一步編輯加工的技術。文字識別在文本檢測的基礎上,對文本內容進行識別,將圖像中的文本信息轉化為計算機可識別和處理的文本信息。文字識別主要解決的問題是每個文字是什麼。
  • 今日Paper | 多人姿勢估計;對話框語義分析;無監督語義分析;自然...
    創新點:為了解剛才所提出的問題,本論文提出了一種新的動態神經網絡語義分析框架,應用了一種弱監督的獎勵引導搜索。研究意義:通過這種方式來搭建的網絡模型,可以完成精確的回答(是在作者們自己收集的數據中)。
  • 論文推薦|[IEEE TIP 2020]EraseNet:端到端的真實場景文本擦除方法
    該數據集總共包含3562張場景圖片,有著2w餘個文本實例。這些文本涵蓋中英文以及數字等不同字形,也將水平文本、任意四邊形文本和曲線文本等考慮在內;同時考慮到背景複雜度對文字擦除的影響,也刻意挑選了不同背景、不同亮度的文本背景圖片。這些特性增加了數據集的挑戰性和對不同數據類型的適應性和泛化性。SCUT-EnsText訓練集包含2749張圖片,測試集813張圖片,它為場景文字擦除任務建立了新的基準。
  • 向量檢索的應用
    作者: 侯宇,業務架構師 在深度學習的浪潮下,無論是文本、語音、圖像、時間序列還是消費者特徵,都可以用一組形如 [0.6, 0.3, 0.7,......0.19] 的實數來表徵。這一組實數被稱為特徵向量。
  • 深度學習的端到端文本OCR:使用EAST從自然場景圖片中提取文本
    數據集與MNIST不同,因為SVHN具有不同背景下的門牌號圖像。數據集在每個數字周圍都有包圍框,而不是像MNIST中那樣有幾個數字圖像。場景文本數據集該數據集包含3000張不同設置(室內和室外)和光照條件(陰影、光線和夜晚)的圖像,文本為韓文和英文。有些圖像還包含數字。
  • 今日Paper | 模態平衡模型;組合語義分析;高表達性SQL查詢;多人...
    /review/9324這篇論文研究的是深度神經網絡的對抗性攻擊。Paper | 多人線性模型;身體捕捉;會話問答;自然語言解析;神經語義今日 Paper | 手部和物體重建;三維人體姿態估計;圖像到圖像變換等今日 Paper | 動態手勢識別;領域獨立無監督學習;基於BERT的在線金融文本情感分析等今日 Paper | 新聞推薦系統;多路編碼;知識增強型預訓練模型等今日 Paper
  • 今日Paper|小樣本學習;視覺情感分類;神經架構搜索;自然圖像摳像等
    為了幫助各位學術青年更好地學習前沿研究成果和技術,AI 研習社重磅推出【今日 Paper】欄目,每天都為你精選關於人工智慧的前沿學術論文供你學習參考。from=leiphonecolumn_paperreview0117推薦原因:這篇論文嘗試將深度學習進一步應用於慣性導航研究中。慣性測量單元被廣泛部署在智能設備和移動機器人上。在新興的物聯網中,利用慣性數據獲得準確可靠的行人導航支持是一項重要的服務。近年來,運用深度神經網絡處理動作感知和坐標估計逐漸變得流行。