魚羊 發自 凹非寺
量子位 報導 | 公眾號 QbitAI
ICCV 2019最終論文接收結果終於全部公布,這一次,一共有1077篇論文被接收,接受率為25%。
ICCV的全稱是 IEEE International Conference on Computer Vision,即國際計算機視覺大會,由IEEE主辦,與計算機視覺模式識別會議(CVPR)和歐洲計算機視覺會議(ECCV)並稱計算機視覺方向的三大頂會。
ICCV每兩年才召開一次,以論文錄用率低著稱,是三大會議中公認級別最高的。
這一屆ICCV將於10月27日至11月2日在韓國首爾COEX會議中心舉行。
此番,AI獨角獸曠視有11篇論文入選,從文本到繪畫,從數據集到新模型,內容可謂相當豐富。快跟量子位一起來學習一下吧~
論文介紹
1、論文名稱:Objects365: A Large-scale, High-quality Dataset for Object Detection
論文連結:暫無
開源連結:https://www.objects365.org/overview.html
關鍵詞:物體檢測、數據集
摘要:
在本文中,我們介紹了一個新的大型物體檢測數據集Objects365,它有超過60萬張圖片,365個類別,超過1000萬個高質量的邊界框。由精心設計的三步注釋管道手動標記,它是迄今為止最大的物體檢測數據集(帶有完整注釋),並為社區建立了更具挑戰性的基準。
Objects365可以作為更好的特徵學習數據集,用於目標檢測和分割等定位敏感任務。
Objects365預訓練模型明顯優於ImageNet預訓練模型:在COCO上訓練90K / 540K次迭代時AP提高了5.6(42 vs 36.4)/ 2.7(42 vs 39.3)。同時,當達到相同的精度時,fine-tune時間可以大大減少(最多10倍差距)。在CityPersons,VOC Segmentation和ADE中也驗證了Object365更好的泛化能力。我們將發布數據集以及所有預訓練的模型。
Objects365是曠視研究院發布的通用物體檢測數據集,研究團隊由曠視科技首席科學家孫劍帶領。
在此之前,針對Objects365以及之前發布的大規模擁擠場景數據集CrowdHuman,曠視科技與北京智源人工智慧研究院還啟動了Detection In the Wild 2019(DIW 2019)挑戰賽,登上2019 CVPR Workshop。
2、論文名稱:ThunderNet: Towards Real-time Generic Object Detection
論文連結:https://arxiv.org/abs/1903.11752
關鍵詞:通用物體檢測
摘要:
在計算機視覺領域中,如何在行動裝置上實現實時目標檢測是一個非常重要而又十分有挑戰性的任務。然而,目前基於CNN的目標檢測網絡往往都需要巨大的計算開銷,導致這些網絡模型無法在行動裝置上進行部署應用。
在這篇文章中,我們探索了兩階段目標檢測模型在移動端實時目標檢測任務上的有效性,並提出了一種輕量級的兩階段目標檢測模型ThunderNet。在骨幹網部分,我們分析了之前的輕量級骨幹網絡的缺點,並提出了一種針對目標檢測任務設計的輕量級骨幹網絡。在檢測網部分,我們採用了極為簡潔的RPN和檢測頭的設計。為了產生更有判別性的特徵表示,我們設計了兩個網絡模塊:上下文增強模塊(CEM)和空間注意力模塊(SAM)。最後,我們探討了輕量級目標檢測模型的輸入解析度、骨幹網和檢測頭之間計算開銷的平衡關係。
與之前的輕量級一階段目標檢測模型相比,ThunderNet僅僅需要40%的計算開銷就可以在Pascal VOC和COCO數據集上實現更好的檢測精度。ThunderNet還在行動裝置上實現了24.1fps的實時檢測。據知,這是在ARM平臺上報告的第一個實時檢測模型。
論文的共同一作是CS在讀博士Zheng Qin,他曾在曠視實習。
另一位是曠視研究院研究員黎澤明。
3、論文名稱:Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network
論文連結:暫無
關鍵詞:文本檢測
摘要:
場景文本檢測是場景文本閱讀系統的重要一步,隨著卷積神經網絡的快速發展,場景文字檢測也取得了巨大的進步。儘管如此,仍存在兩個主要挑戰,它們阻礙文字檢測部署到現實世界的應用中。
第一個問題是速度和準確性之間的平衡。第二個是對任意形狀的文本實例進行建模。最近,已經提出了一些方法來處理任意形狀的文本檢測,但是它們很少去考慮算法的運行時間和效率,這可能在實際應用環境中受到限制。
在本文中,我們提出了一種高效且準確的任意形狀文本檢測器,稱為PSENet V2,它配備了低計算成本的分割模塊和可學習的後處理方法。更具體地,分割模塊由特徵金字塔增強模塊(FPEM)和特徵融合模塊(FFM)組成。FPEM是一個可級聯的U形模塊,可以引入多級、信息來指導更好的分割。FFM可以將不同深度的FPEM給出的特徵匯合到最終的分割特徵中。可學習的後處理由像素聚合模塊(PA)實現,其可以通過預測的相似性向量精確地聚合文本像素。
幾個標準基準測試的實驗驗證了所提出的PSENet V2的優越性。值得注意的是,我們的方法可以在CTW1500上以84.2 FPS實現79.9%的F-measure。據我們所知,PSENet V2是第一種能夠實時檢測任意形狀文本實例的方法。
4、論文名稱:Semi-supervised Skin Detection by Network with Mutual Guidance
論文連結:暫無
關鍵詞:半監督學習、皮膚分割
摘要:
我們提出一種新的數據驅動的皮膚分割方法,可以從單張人像圖中魯棒地算出皮膚區域。
不像先前的方法,我們利用人體區域作為弱語義引導,考慮到大量人工標註的皮膚數據非常難以獲得。具體說來,我們提出了一種雙任務的網絡通過半監督的學習策略來聯合地檢測皮膚和身體。該網絡包含了一個共享的編碼器、兩個獨立的解碼器分別檢測皮膚和身體。對於任意一個解碼器,其輸出也扮演著另外一個解碼器引導的角色。這樣以來,兩個解碼器實際上是相互引導。
大量實驗證明了相互引導策略的有效性,並且結果也顯示該方法在皮膚分割的任務上比現有方法更好。
5、論文名稱:Semi-Supervised Video Salient Object Detection Using Pseudo-Labels
論文連結:暫無
關鍵詞:半監督學習、視頻檢測
摘要:
基於深度學習的視頻重點區域檢測已經超過了大量無監督的方法。但該方法依賴大量人工標註的數據。
在本文中,我們利用偽標籤來解決半監督的視頻重點區域檢測問題。具體說來,我們提出了一個視頻重點區域檢測器,其包含了一個空間信息改良網絡和一個時空模塊。基於這樣的結構以及光流,我們提出了一個從稀疏標註的幀中生成像素級偽標籤的方法。利用生成的偽標籤以及部分人工標註,我們的檢測器學習到了時空中對比度和幀間一致性的線索,從而得到了準確的重點區域。
實驗證明了本方法在多個數據集上大幅度超過了現有的全監督的方法。
6、論文名稱:Disentangled Image Matting
論文連結:暫無
關鍵詞:圖像去背
摘要:
我們提出了圖像去背 (Image Matting) 問題的一種全新框架。多數之前的圖像去背算法根據輸入三分圖 (trimap) 在圖像的指定區域中計算阿法值 (alpha)。對於被劃入三分圖待確認 (unknown) 區域中的完全背景和前景像素,這些方法期望精確地產生 0 和 1 的阿法值。
本文指出,之前解法實際上將兩個不同的問題混在了一起:1. 區分待確認區域中的前景、背景和混合像素; 2. 為混合像素精確地計算阿法值。其中我們稱第一個任務被稱為三分圖調整 (Trimap Adaptation),第二個任務為阿法值估計 (Alpha Estimation)。其中三分圖調整是典型的分類問題,阿法值估計是典型的回歸問題,本文提出的端到端的 AdaMatting 框架,通過使用多任務學習 (Multi-task Learning) 的方式分開解決這兩個問題,在多個圖像數據集上的所有常用指標中取得了目前最佳的結果。
7、論文名稱:Re-ID Driven Localization Refinement for Person Search
論文連結:暫無
關鍵詞:行人搜索
摘要:
在很多應用中,檢測器作為上遊任務,其結果直接影響下遊任務,尤其檢測框的定位精度。目前的主流做法是將檢測器單獨進行訓練,而沒有考慮下遊任務,因此得到的檢測框對下遊任務未必最優。
在本文中,我們以行人搜索任務為例,提出了一種新的優化檢測框定位精度的方法,使其更加適合給定任務。行人搜索旨在從完整的圖片中檢測並識別行人,分為檢測和行人重識別(Re-ID)兩個任務。文章提出一種re-ID驅動的定位調整框架,用re-ID loss對檢測網絡產生的檢測框進行微調。文章設計了一個可導的ROI轉換模塊,能夠根據檢測框的坐標從原圖中crop出對應位置圖片,再送入re-ID網絡。由於整個過程可導,re-ID loss能夠對檢測框的坐標進行監督,從而使檢測網絡能夠生成更適合行人搜索這個任務的檢測框。
通過大量的實驗結果證明,論文的方法多個數據集上取得了當前最先進的性能。
8、論文名稱:Vehicle Re-identification with Viewpoint-aware Metric Learning
論文連結:暫無
關鍵詞:車輛再識別、度量學習
摘要:
在車輛重識別任務中,極端的視角變化(變化視角可達180度)給現有的方法帶來了巨大挑戰。
受到人類識別車輛時認知方式的啟發,我們提出了一種基於視角感知的度量學習方法。該方法針對相似視角和不同視角,分別在兩個特徵空間學習兩種度量標準,由此產生了視角感知網絡(VANet)。在訓練過程,我們施加了兩種約束進行聯合訓練。在測試過程,我們首先估計車輛的視角,並基於估計結果採用對應的度量方式進行度量。
實驗結果證實了VANet能夠顯著地提高車輛重識別的準確度,在識別拍攝視角不同的車輛對時效果更為明顯。我們的方法在兩個基準數據集上都實現了目前最好的結果。
9、論文名稱:MetaPruning: Meta Learning for Automatic Neural Network Channel Pruning
論文連結:https://arxiv.org/abs/1903.10258
關鍵詞:模型壓縮、元學習
摘要:
Channel Pruning 是一種有效的模型壓縮方法,我們的方法MetaPruning提出了一種新的Pruning思路。
傳統Pruning往往需要人工或基於一些經驗準則設定各層的壓縮比例,然後迭代選擇去除哪些channel,這個過程較耗時耗力。MetaPruning,跳過選擇哪個channel,直接搜索每層保留多少channel。為了既高效又準確地找到最優的每層channel組合,MetaPruning 首先訓練一個PruningNet,用meta-learning預測各個可能的裁剪後網絡(PrunedNet)的精度。借用Network Architecture Search的思想,用進化算法搜索最優的PrunedNet。PruningNet 直接為PrunedNet預測了可靠的精度,使得進化搜索非常高效。
最後MetaPruning 比MobileNet V1/V2 baseline精度提升高達9.0%/9.9%。相比於當前最優的AutoML-based Pruning 方法,MetaPruning也取得了更高的精度。並且MetaPruning非常靈活,可以適用於FLOPs限制下的pruning或者針對特定硬體速度限制的pruning。
這篇論文是香港大學,清華大學,曠視以及華中科技大學聯合出品。
論文一作是來自香港大學的博士Zechun Liu。
10、論文名稱:Symmetry-constrained Rectification Network for Scene Text Recognition
論文連結:暫無
關鍵詞:文字識別
摘要:
由於文字字體、形狀的多樣性以及自然場景的複雜性,自然場景的文字識別一直是一項十分具有挑戰性的任務。近些年來,不規則形狀場景文字的識別問題吸引了越來越多研究者的目光,其中一個有效且直觀的研究方向,就是對文字區域進行識別前的矯正,即在識別之前把不規則的文字進行矯正成正常形狀。然而,簡單的文字矯正可能會對極度變形或者彎曲的文字失去作用。
為了解決這一問題,我們提出了ScRN(Symmetry-constrained Rectification Network),一個利用文字對稱性約束的文字矯正網絡。ScRN利用了文字區域的很多數學屬性,包括文字的中心線、字符大小以及字符方向信息。這些信息可以幫助ScRN生成精確的文字區域描述,使得ScRN獲得比已有方法更優的矯正效果,從而帶來更高的識別精度。
我們在多個不規則數據集上(ICDAR 2015, SVT-Perspective, CUTE80)都取得了較高的識別精度提升。
11、論文名稱:Learning to Paint with Model-based Deep Reinforcement Learning
論文連結:https://arxiv.org/abs/1903.04411
開原始碼:https://github.com/hzwer/ICCV2019-LearningToPaint
關鍵詞:強化學習、繪畫
摘要:
如何讓機器像畫家一樣,用寥寥數筆創造出迷人的畫作?結合深度強化學習方法和神經網絡渲染器,我們讓智能體在自我探索中學會用數百個筆畫繪製出紋理豐富的自然圖像,每一個筆畫的形狀、位置和顏色都是由它自主決定的。智能體的訓練過程不需要人類繪畫的經驗或筆畫軌跡數據。
這篇論文的作者是北大本科生黃哲威,信息學競賽出身,曾入選過福建省隊。在進入北大信科一年之後,他成為了曠視科技智能計算組(IC組)的實習生。
對這隻AI寫意畫家,量子位曾做過詳細報導:
—完—
加入社群 | 與優秀的人交流
小程序 | 全類別AI學習教程
喜歡就點「好看」吧 !