[計算機視覺論文速遞] 2018-03-31

2021-02-26 CVer

通知:這篇文章有10篇論文速遞信息,涉及Re-ID、深度估計、超解析度、顯著性檢測、GAN、VOA和卷積神經網絡綜述等方向

往期回顧

[計算機視覺論文速遞] 2018-03-30

TensorFlow和深度學習入門教程

你現在應該閱讀的7本最好的深度學習書籍

Re-ID

[1]《Pose-Driven Deep Models for Person Re-Identification》

Abstract:行人重識別(re-id)是識別和匹配不重疊視圖的攝像機記錄的不同位置人員的任務。re-id的主要挑戰之一是人物姿態和攝像機角度的巨大差異,因為它們都不會受re-id系統的影響。在這項工作中,介紹了一種有效的方法來將粗略的相機視圖信息和細粒度姿態信息整合到用於學習區分性重新嵌入的卷積神經網絡(CNN)模型中。在最近的工作中,姿勢信息或者在重新識別系統內被明確地建模,或者明確地用於預處理,例如通過姿勢規範化人員圖像。相反,所提出的方法表明,將相機視圖以及檢測到的身體關節位置直接用於標準CNN可以用於顯著提高所學習的re-id嵌入的魯棒性。在四個具有挑戰性的監控和視頻重新標識數據集上,已經實現了對當前技術水平的重大改進。此外,引入了MARS數據集的一種新的重新排序,稱為X-MARS,以允許在軌跡數據上進行針對單圖像重新識別訓練的模型的交叉驗證。

arXiv:https://arxiv.org/abs/1803.08709

[2]《Weighted Bilinear Coding over Salient Body Parts for Person Re-identification》

Abstract:深度卷積神經網絡(CNN)已經證明了在行人重識別(Re-ID)方面的有很大的作用。現有的基於CNN的方法利用全局平均池(GAP)來聚合Re-ID的中間卷積特徵。但是,該策略僅考慮局部特徵的一階統計量,並將同一重要位置處的局部特徵視為同等重要,導致次優特徵表示。為了解決這些問題,我們提出了一種新穎的用於CNN網絡中局部特徵聚合的加權雙線性編碼(WBC)模型,以追求更具代表性和區分性的特徵表示。具體而言,雙線性編碼被用於編碼信道方面的特徵相關性以捕獲更豐富的特徵交互。同時,對雙線性編碼應用加權方案,根據識別的重要性自適應調整不同位置的局部特徵權值,進一步提高特徵聚合的可辨性。為了處理空間偏差問題,我們使用顯著的部分網絡來導出顯著的身體部位,並將WBC模型應用於每個部分。通過連接每個部分的WBC編碼特徵形成的最終表示既具有區分性又能抵抗空間不對齊。包括Market-1501,DukeMMC-reID和CUHK03三個基準的實驗證明了我們的方法與其他最先進的方法的良好表現。

arXiv:https://arxiv.org/abs/1803.08580

深度估計

[3]《Revisiting Single Image Depth Estimation: Toward Higher Resolution Maps with Accurate Object Boundaries》

Abstract:我們重新討論從單個RGB圖像估計場景深度的問題。 儘管近期深度學習方法取得了成功,但我們表明,通過訓練由兩個子網絡組成的深層網絡,在兩個方面仍有改進的空間; 用於提供初始深度估計的基礎網絡,以及用於提煉它的精化網絡。 首先,可以使用以順序方式訓練的子網絡之間的跳躍連接來改進估計的深度圖的空間解析度。 其次,我們可以通過使用建議的使用深度梯度的損失函數來提高場景中物體邊界的估計精度。 實驗結果表明,所提出的網絡和方法提高了基線網絡的深度估計性能,特別是對於小物體的重建和邊緣失真的細化,並且優於基準數據集上的最新方法。

arXiv:https://arxiv.org/abs/1803.08673

超解析度

[4]《Fast, Accurate, and, Lightweight Super-Resolution with Cascading Residual Network》

Abstract:近年來,深度學習方法已成功應用於單幅圖像超解析度任務。 儘管它們表現出色,但由於計算量大,所以深度學習方法無法輕易應用到實際應用中。 在本文中,我們通過提出一個準確而輕量級的圖像超解析度深度學習模型來解決這個問題。 詳細來說,我們設計了一個在殘差網絡上實現級聯機制的架構。 我們還提出了提出的級聯殘餘網絡的變體模型,以進一步提高效率。 我們廣泛的實驗表明,即使參數和操作少得多,我們的模型也能達到與最先進方法相媲美的性能。

arXiv:https://arxiv.org/abs/1803.08664

顯著性檢測

[5]《PDNet: Prior-model Guided Depth-enhanced Network for Salient Object Detection》

ICME 2018

Abstract:全卷積神經網絡(FCNs)在包括顯著物體檢測在內的許多計算機視覺任務中表現出色。然而,在基於深度學習的顯著性檢測中仍然需要解決兩個問題。一個是缺乏大量的注釋數據來訓練網絡。另一個是缺乏魯棒性來提取包含複雜場景的圖像中的顯著物體。在本文中,我們提出了一種新的體系結構-PDNet,這是一種用於RGB-D顯著物體檢測的強大的先前模型引導深度增強網絡。與現有的將圖像像素的RGB-D值直接饋送到網絡的作用相比,所提出的體系結構由用於處理RGB值的主網絡和充分利用深度提示並包含深度的子網絡組成基於網絡的功能。為了克服用於訓練的標記RGB-D數據集的有限尺寸,我們使用大的傳統RGB數據集來預訓練主網絡,這證明對最終準確度有很大貢獻。對五個基準數據集進行廣泛的評估表明,我們提出的方法對於最先進的方法有良好的表現。

arXiv:https://arxiv.org/abs/1803.08636

github:https://github.com/cai199626/PDNet

GAN

[6]《Generative Adversarial Autoencoder Networks》

Abstract:我們引入一個有效的模型來克服訓練生成對抗網絡(GAN)時模式崩潰的問題。首先,我們提出一個新的生成器,發現它更好地處理模式崩潰。並且,我們應用獨立的自動編碼器(AE)來約束髮生器,並將其重構樣本視為「真實」樣本,以減慢鑑別器的收斂,從而減少梯度消失問題並穩定模型。其次,從AE提供的潛在和數據空間之間的映射,我們進一步通過潛在和數據樣本之間的相對距離來規範AE,以明確防止發生器陷入模式崩潰設置。當我們找到一種可視化MNIST數據集模式崩潰的新方法時,這個想法就來了。就我們所知,我們的方法是第一個成功提出並應用潛在和數據樣本的相對距離來穩定GAN的方法。第三,我們提出的模型,即生成對抗自動編碼器網絡(GAAN),在合成,MNIST,MNIST-1K,CelebA和CIFAR-10數據集上經驗證明,它是穩定的,既沒有梯度消失也沒有模式崩潰問題。實驗結果表明,我們的方法可以近似良好的多模態分布,並取得比這些基準數據集上最先進的方法更好的結果。

arXiv:https://arxiv.org/abs/1803.08887

github:https://github.com/tntrung/gaan

[7]《Fictitious GAN: Training GANs with Historical Model》

Abstract:生成對抗網絡(GAN)是學習生成模型的強大工具。 實際上,訓練可能會因缺乏convergence而受到影響。 GAN通常被視為兩個神經網絡之間的two player zero-sum遊戲。 在這裡,我們利用這種博弈論的觀點來研究訓練過程的收斂行為。 受虛擬遊戲學習過程的啟發,引入了一種稱為Fictitious GAN的新型訓練方法。 Ficititous GAN使用歷史模型的混合來訓練深度神經網絡。 具體來說,鑑別器(或生成器)根據對來自一系列先前訓練的生成器(或鑑別器)的混合輸出的最佳響應而被更新。 結果表明,Fictitious GAN可以有效解決標準訓練方法無法解決的一些收斂問題。 證明,生成器輸出的平均值與數據樣本具有相同的分布。

arXiv:https://arxiv.org/abs/1803.08647

VOA

[8]《Explicit Reasoning over End-to-End Neural Architectures for Visual Question Answering》

AAAI 2018

Abstract:除了數據驅動的圖像和自然語言處理外,許多視覺和語言任務都需要常識推理。在這裡,我們採用視覺問答(VQA)作為示例任務,系統需要用自然語言回答關於圖像的問題。當前最先進的系統嘗試使用深度神經架構來解決任務,並取得了令人滿意的性能。但是,由此產生的系統通常是不透明的,他們很難理解需要額外知識的問題。在本文中,我們在一組倒數第二個基於神經網絡的系統之上提出了一個明確的推理層。推理層可以在需要額外知識的情況下推理和回答問題,同時為最終用戶提供可解釋的界面。具體而言,推理層採用基於概率軟邏輯(PSL)的引擎來推理一籃子輸入:視覺關係,問題的語義解析以及來自word2vec和ConceptNet的背景知識本體。在VQA數據集上生成的答案和關鍵證據預測的實驗分析驗證了我們的方法。

arXiv:https://arxiv.org/abs/1803.08896

綜述

[9]《What Do We Understand About Convolutional Networks?》

Abstract:本文將回顧使用多層卷積體系結構的最重要的方法。重要的是,典型的卷積網絡的各個組成部分將通過回顧不同的方法來進行討論,這些方法的設計決策基於生物學發現和/或合理的理論基礎。此外,將通過可視化和實證研究來了解ConvNets的不同嘗試。 最終目標是闡明ConvNet體系結構中每一層處理的作用,提煉我們目前對ConvNets的理解,並強調關鍵的開放問題。

arXiv:https://arxiv.org/abs/1803.08834

其它

[10]《Geometric and Physical Constraints for Head Plane Crowd Density Estimation in Videos》

Abstract:在擁擠的場景中進行人數統計的最先進的方法依賴於深度網絡來估計圖像平面中的人員密度。透視失真(perspective distortion)效果可以通過學習尺度不變特徵或者估計不同尺寸小片的密度來隱式處理,這兩者都不能說明尺度變化必須在整個場景中保持一致的事實。在本文中,我們表明,向網絡提供一個顯著的尺度變化模型會顯著提高性能。另外一個好處是,它可以讓我們根據每平方米地面上的人數進行推理,從而使我們能夠實施不需要學習的物理啟發性時間一致性約束。 這產生了一種算法,在擁擠的場景中勝過最先進的方法,尤其是當透視效果很強時。

arXiv:https://arxiv.org/abs/1803.08805

--我是可愛的分割線--      

若喜歡Amusi推送的文章,請掃描下方二維碼關注CVer公眾號!

--我還是可愛的分割線--   

喜歡CVer的文章,一定動動手點讚哦!

點擊下面閱讀原文,也可以進入Amusi的知乎專欄,歡迎大家關注,一起進步!

相關焦點

  • [計算機視覺論文速遞] 2018-03-20
    通知:這篇推文有13篇論文速遞信息,涉及圖像分割、SLAM、顯著性、深度估計、車輛計數等方向往期回顧
  • [計算機視覺論文速遞] ECCV 2018 專場9
    點擊上方「CVer」,選擇「置頂公眾號」重磅乾貨,第一時間送達前戲Amusi 將日常整理的論文都會同步發布到link: https://github.com/amusi/daily-paper-computer-visionECCV 2018是計算機視覺領域中的頂級會議,目前已經公開了部分已錄用的paper。
  • [計算機視覺論文速遞] 2018-03-03
    通知:這篇推文很長,有32篇論文速遞信息
  • [計算機視覺論文速遞] 2018-03-05
    通知:這篇推文有16篇論文速遞信息
  • [計算機視覺論文速遞] 2018-07-02 圖像分割專場
    點擊上方「CVer」,選擇「置頂公眾號」重磅乾貨,第一時間送達這篇文章有2篇論文速遞
  • 計算機視覺論文速遞
    通知:這篇推文有18篇論文速遞信息,涉及目標檢測、圖像分割和GAN等方向。Augmentation for increased CNN Performance in Liver Lesion Classification》   Preprint submitted to Neurocomputing   Abstract:深度學習方法,特別是卷積神經網絡(CNN),已經導致了廣泛的計算機視覺任務的巨大突破
  • 2018最具突破性計算機視覺論文Top 10
    在2018年,我們看到計算機視覺領域出現了許多新穎的架構設計,這些設計改進性能基準,也擴大了機器學習的模型可以分析的媒介範圍。我們在不久前總結了2018年的頂級機器學習論文。由於計算機視覺和圖像生成對於AI應用的重要性和普及性,本文中,我們總結了2018年最重要的10篇視覺相關的研究。
  • 計算機視覺/圖像處理學術速遞[02.03]
    www.arxivdaily.com上線啦,論文摘要、多學科、收藏、評論、搜索……,點擊文末「
  • 【收藏】2018年不容錯過的20大人工智慧/機器學習/計算機視覺等頂會時間表
    本文介紹了2018年值得關注的20個頂會,包括人工智慧、機器學習、計算機視覺、自然語言處理、體系結構等領域。目錄人工智慧/機器學習計算機視覺/模式識別自然語言處理/計算語言學體系結構數據挖掘/信息檢索計算機圖形學1.
  • 計算機視覺領域的王者與榮耀丨CCF-GAIR 2018
    當計算機視覺研究與落地大潮湧動之際,第三屆CCF-GAIR全球人工智慧與機器人峰會「計算機視覺專場」,眾多科技巨頭首席技術官、獨角獸首席科學家、國際學術頂會主席、世界名校AI實驗室主任將會公開分享最前沿的計算機視覺技術研究與商用成果。
  • 騰訊優圖學術再進階 論文入選計算機視覺領頂級會議CVPR 2018
    據外媒報導,即將在6月美國鹽湖城舉行的計算機視覺頂級會議CVPR 2018,騰訊優圖的其中兩篇入選論文,由於其較高的應用價值,受到學術界和產業界的關注。騰訊優圖論文再次入庫頂級學術會議作為計算機視覺領域最高級別的會議之一的CVPR,其論文集通常代表著計算機視覺領域最新的發展方向和水平。這也是騰訊優圖繼2017年在另一計算機視覺頂級會議ICCV會議中獲得12篇論文被收錄,包含3篇口頭報告(該類論文僅佔總投稿數2.1%)的成績後,2018年,科研成果再次豐收,論文被CVPR2018收錄。
  • ...生以第一作者身份在計算機視覺國際頂級會議ECCV2020發表論文
    近日,計算機視覺國際頂級會議ECCV2020(European Conference on Computer Vision)接收結果公布。理學院數學系應用數學和人工智慧研究團隊在ECCV2020上發表題為SingleImage Super-Resolution via a Holistic Attention Network論文。
  • 計算機視覺論文速遞[08.14]
    公眾號後臺回復'search 關鍵詞'可查詢相關的最新論文。連結:https://arxiv.org/abs/1908.04519【4】 Fine-Tuning Models Comparisons on Garbage Classification for Recyclability作者: Umut Ozkaya, Levent Seyfi 備註:published in ISAS 2018
  • 計算機科學技術學院研究生在計算機視覺頂級期刊發表論文
    新聞網訊 近日,計算機科學技術學院2017級研究生王國濤撰寫的學術論文Improved Robust Video Saliency Detection based on Longterm Spatial-temporal Information在計算機視覺領域國際頂級刊物IEEE Transactions
  • 【每日速遞】計算機視覺與模式識別/圖像處理最新學術論文[1.13]
    點擊上方「計算機視覺社區」,選擇加"星標"重磅乾貨,第一時間送達
  • 計算機視覺/圖像處理學術速遞[03.05]
    Shahriar Haque 連結:https://arxiv.org/abs/2003.01936【2】 Reveal of Domain Effect: How Visual Restoration Contributes to Object Detection in Aquatic Scenes標題:域效應的揭示:視覺恢復對水生場景中目標檢測的貢獻
  • 騰訊優圖25篇論文入選全球頂級計算機視覺會議CVPR 2019
    全球計算機視覺頂級會議 IEEE CVPR 2019(Computer Vision and Pattern Recognition,即IEEE國際計算機視覺與模式識別會議)即將於6月在美國長灘召開。本屆大會總共錄取來自全球論文1299篇。
  • 計算機視覺領域2019推薦論文列表
    Relation Networks for Object Detection論文連結:https://arxiv.org/pdf/1711.11575.pdf在CVPR 2018上,該論文提出了一種即插即用的物體關係模塊,第一次實現了完全端到端的物體檢測器,該方法也是自注意力模型在視覺領域最早的應用之一。9.
  • 解讀計算機視覺論文投稿到接收,不可不知的關鍵環節
    今天,我們將介紹智源青年科學家、北大計算機係數字媒體研究所研究員施柏鑫的報告《計算機視覺會議論文從投稿到接收》。 本次報告,施柏鑫從作者、審稿人、領域主席、期刊編委等視角,圍繞計算機視覺領域,為我們講述了該領域頂級會議論文從寫文章、投文章(包括Rebuttal)、審文章、擴期刊各環節的經驗心得和關鍵注意事項。
  • 來了解下計算機視覺的八大應用
    64 篇文章本文大約7000字,建議收藏閱讀之前通過三篇文章簡單介紹了機器學習常用的幾種經典算法,當然也包括了目前很火的 CNNs 算法了這些算法各有各的優缺點和適用的領域,了解熟悉它們是很有必要的,但如何應用它們還需要具體問題具體分析,而機器學習常見的應用方向,包括以下幾個:計算機視覺