ICCV 2019接收論文提前看,曠視11篇入選文章放出

2021-01-10 騰訊網

魚羊 發自 凹非寺

量子位 報導 | 公眾號 QbitAI

ICCV 2019最終論文接收結果終於全部公布,這一次,一共有1077篇論文被接收,接受率為25%。

ICCV的全稱是 IEEE International Conference on Computer Vision,即國際計算機視覺大會,由IEEE主辦,與計算機視覺模式識別會議(CVPR)和歐洲計算機視覺會議(ECCV)並稱計算機視覺方向的三大頂會。

ICCV每兩年才召開一次,以論文錄用率低著稱,是三大會議中公認級別最高的。

這一屆ICCV將於10月27日至11月2日在韓國首爾COEX會議中心舉行。

此番,AI獨角獸曠視有11篇論文入選,從文本到繪畫,從數據集到新模型,內容可謂相當豐富。快跟量子位一起來學習一下吧~

論文介紹

1、論文名稱:Objects365: A Large-scale, High-quality Dataset for Object Detection

論文連結:暫無

開源連結:https://www.objects365.org/overview.html

關鍵詞:物體檢測、數據集

摘要:

在本文中,我們介紹了一個新的大型物體檢測數據集Objects365,它有超過60萬張圖片,365個類別,超過1000萬個高質量的邊界框。由精心設計的三步注釋管道手動標記,它是迄今為止最大的物體檢測數據集(帶有完整注釋),並為社區建立了更具挑戰性的基準。

Objects365可以作為更好的特徵學習數據集,用於目標檢測和分割等定位敏感任務。

Objects365預訓練模型明顯優於ImageNet預訓練模型:在COCO上訓練90K / 540K次迭代時AP提高了5.6(42 vs 36.4)/ 2.7(42 vs 39.3)。同時,當達到相同的精度時,fine-tune時間可以大大減少(最多10倍差距)。在CityPersons,VOC Segmentation和ADE中也驗證了Object365更好的泛化能力。我們將發布數據集以及所有預訓練的模型。

Objects365是曠視研究院發布的通用物體檢測數據集,研究團隊由曠視科技首席科學家孫劍帶領。

在此之前,針對Objects365以及之前發布的大規模擁擠場景數據集CrowdHuman,曠視科技與北京智源人工智慧研究院還啟動了Detection In the Wild 2019(DIW 2019)挑戰賽,登上2019 CVPR Workshop。

2、論文名稱:ThunderNet: Towards Real-time Generic Object Detection

論文連結:https://arxiv.org/abs/1903.11752

關鍵詞:通用物體檢測

摘要:

在計算機視覺領域中,如何在行動裝置上實現實時目標檢測是一個非常重要而又十分有挑戰性的任務。然而,目前基於CNN的目標檢測網絡往往都需要巨大的計算開銷,導致這些網絡模型無法在行動裝置上進行部署應用。

在這篇文章中,我們探索了兩階段目標檢測模型在移動端實時目標檢測任務上的有效性,並提出了一種輕量級的兩階段目標檢測模型ThunderNet。在骨幹網部分,我們分析了之前的輕量級骨幹網絡的缺點,並提出了一種針對目標檢測任務設計的輕量級骨幹網絡。在檢測網部分,我們採用了極為簡潔的RPN和檢測頭的設計。為了產生更有判別性的特徵表示,我們設計了兩個網絡模塊:上下文增強模塊(CEM)和空間注意力模塊(SAM)。最後,我們探討了輕量級目標檢測模型的輸入解析度、骨幹網和檢測頭之間計算開銷的平衡關係。

與之前的輕量級一階段目標檢測模型相比,ThunderNet僅僅需要40%的計算開銷就可以在Pascal VOC和COCO數據集上實現更好的檢測精度。ThunderNet還在行動裝置上實現了24.1fps的實時檢測。據知,這是在ARM平臺上報告的第一個實時檢測模型。

論文的共同一作是CS在讀博士Zheng Qin,他曾在曠視實習。

另一位是曠視研究院研究員黎澤明。

3、論文名稱:Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network

論文連結:暫無

關鍵詞:文本檢測

摘要:

場景文本檢測是場景文本閱讀系統的重要一步,隨著卷積神經網絡的快速發展,場景文字檢測也取得了巨大的進步。儘管如此,仍存在兩個主要挑戰,它們阻礙文字檢測部署到現實世界的應用中。

第一個問題是速度和準確性之間的平衡。第二個是對任意形狀的文本實例進行建模。最近,已經提出了一些方法來處理任意形狀的文本檢測,但是它們很少去考慮算法的運行時間和效率,這可能在實際應用環境中受到限制。

在本文中,我們提出了一種高效且準確的任意形狀文本檢測器,稱為PSENet V2,它配備了低計算成本的分割模塊和可學習的後處理方法。更具體地,分割模塊由特徵金字塔增強模塊(FPEM)和特徵融合模塊(FFM)組成。FPEM是一個可級聯的U形模塊,可以引入多級、信息來指導更好的分割。FFM可以將不同深度的FPEM給出的特徵匯合到最終的分割特徵中。可學習的後處理由像素聚合模塊(PA)實現,其可以通過預測的相似性向量精確地聚合文本像素。

幾個標準基準測試的實驗驗證了所提出的PSENet V2的優越性。值得注意的是,我們的方法可以在CTW1500上以84.2 FPS實現79.9%的F-measure。據我們所知,PSENet V2是第一種能夠實時檢測任意形狀文本實例的方法。

4、論文名稱:Semi-supervised Skin Detection by Network with Mutual Guidance

論文連結:暫無

關鍵詞:半監督學習、皮膚分割

摘要:

我們提出一種新的數據驅動的皮膚分割方法,可以從單張人像圖中魯棒地算出皮膚區域。

不像先前的方法,我們利用人體區域作為弱語義引導,考慮到大量人工標註的皮膚數據非常難以獲得。具體說來,我們提出了一種雙任務的網絡通過半監督的學習策略來聯合地檢測皮膚和身體。該網絡包含了一個共享的編碼器、兩個獨立的解碼器分別檢測皮膚和身體。對於任意一個解碼器,其輸出也扮演著另外一個解碼器引導的角色。這樣以來,兩個解碼器實際上是相互引導。

大量實驗證明了相互引導策略的有效性,並且結果也顯示該方法在皮膚分割的任務上比現有方法更好。

5、論文名稱:Semi-Supervised Video Salient Object Detection Using Pseudo-Labels

論文連結:暫無

關鍵詞:半監督學習、視頻檢測

摘要:

基於深度學習的視頻重點區域檢測已經超過了大量無監督的方法。但該方法依賴大量人工標註的數據。

在本文中,我們利用偽標籤來解決半監督的視頻重點區域檢測問題。具體說來,我們提出了一個視頻重點區域檢測器,其包含了一個空間信息改良網絡和一個時空模塊。基於這樣的結構以及光流,我們提出了一個從稀疏標註的幀中生成像素級偽標籤的方法。利用生成的偽標籤以及部分人工標註,我們的檢測器學習到了時空中對比度和幀間一致性的線索,從而得到了準確的重點區域。

實驗證明了本方法在多個數據集上大幅度超過了現有的全監督的方法。

6、論文名稱:Disentangled Image Matting

論文連結:暫無

關鍵詞:圖像去背

摘要:

我們提出了圖像去背 (Image Matting) 問題的一種全新框架。多數之前的圖像去背算法根據輸入三分圖 (trimap) 在圖像的指定區域中計算阿法值 (alpha)。對於被劃入三分圖待確認 (unknown) 區域中的完全背景和前景像素,這些方法期望精確地產生 0 和 1 的阿法值。

本文指出,之前解法實際上將兩個不同的問題混在了一起:1. 區分待確認區域中的前景、背景和混合像素; 2. 為混合像素精確地計算阿法值。其中我們稱第一個任務被稱為三分圖調整 (Trimap Adaptation),第二個任務為阿法值估計 (Alpha Estimation)。其中三分圖調整是典型的分類問題,阿法值估計是典型的回歸問題,本文提出的端到端的 AdaMatting 框架,通過使用多任務學習 (Multi-task Learning) 的方式分開解決這兩個問題,在多個圖像數據集上的所有常用指標中取得了目前最佳的結果。

7、論文名稱:Re-ID Driven Localization Refinement for Person Search

論文連結:暫無

關鍵詞:行人搜索

摘要:

在很多應用中,檢測器作為上遊任務,其結果直接影響下遊任務,尤其檢測框的定位精度。目前的主流做法是將檢測器單獨進行訓練,而沒有考慮下遊任務,因此得到的檢測框對下遊任務未必最優。

在本文中,我們以行人搜索任務為例,提出了一種新的優化檢測框定位精度的方法,使其更加適合給定任務。行人搜索旨在從完整的圖片中檢測並識別行人,分為檢測和行人重識別(Re-ID)兩個任務。文章提出一種re-ID驅動的定位調整框架,用re-ID loss對檢測網絡產生的檢測框進行微調。文章設計了一個可導的ROI轉換模塊,能夠根據檢測框的坐標從原圖中crop出對應位置圖片,再送入re-ID網絡。由於整個過程可導,re-ID loss能夠對檢測框的坐標進行監督,從而使檢測網絡能夠生成更適合行人搜索這個任務的檢測框。

通過大量的實驗結果證明,論文的方法多個數據集上取得了當前最先進的性能。

8、論文名稱:Vehicle Re-identification with Viewpoint-aware Metric Learning

論文連結:暫無

關鍵詞:車輛再識別、度量學習

摘要:

在車輛重識別任務中,極端的視角變化(變化視角可達180度)給現有的方法帶來了巨大挑戰。

受到人類識別車輛時認知方式的啟發,我們提出了一種基於視角感知的度量學習方法。該方法針對相似視角和不同視角,分別在兩個特徵空間學習兩種度量標準,由此產生了視角感知網絡(VANet)。在訓練過程,我們施加了兩種約束進行聯合訓練。在測試過程,我們首先估計車輛的視角,並基於估計結果採用對應的度量方式進行度量。

實驗結果證實了VANet能夠顯著地提高車輛重識別的準確度,在識別拍攝視角不同的車輛對時效果更為明顯。我們的方法在兩個基準數據集上都實現了目前最好的結果。

9、論文名稱:MetaPruning: Meta Learning for Automatic Neural Network Channel Pruning

論文連結:https://arxiv.org/abs/1903.10258

關鍵詞:模型壓縮、元學習

摘要:

Channel Pruning 是一種有效的模型壓縮方法,我們的方法MetaPruning提出了一種新的Pruning思路。

傳統Pruning往往需要人工或基於一些經驗準則設定各層的壓縮比例,然後迭代選擇去除哪些channel,這個過程較耗時耗力。MetaPruning,跳過選擇哪個channel,直接搜索每層保留多少channel。為了既高效又準確地找到最優的每層channel組合,MetaPruning 首先訓練一個PruningNet,用meta-learning預測各個可能的裁剪後網絡(PrunedNet)的精度。借用Network Architecture Search的思想,用進化算法搜索最優的PrunedNet。PruningNet 直接為PrunedNet預測了可靠的精度,使得進化搜索非常高效。

最後MetaPruning 比MobileNet V1/V2 baseline精度提升高達9.0%/9.9%。相比於當前最優的AutoML-based Pruning 方法,MetaPruning也取得了更高的精度。並且MetaPruning非常靈活,可以適用於FLOPs限制下的pruning或者針對特定硬體速度限制的pruning。

這篇論文是香港大學,清華大學,曠視以及華中科技大學聯合出品。

論文一作是來自香港大學的博士Zechun Liu。

10、論文名稱:Symmetry-constrained Rectification Network for Scene Text Recognition

論文連結:暫無

關鍵詞:文字識別

摘要:

由於文字字體、形狀的多樣性以及自然場景的複雜性,自然場景的文字識別一直是一項十分具有挑戰性的任務。近些年來,不規則形狀場景文字的識別問題吸引了越來越多研究者的目光,其中一個有效且直觀的研究方向,就是對文字區域進行識別前的矯正,即在識別之前把不規則的文字進行矯正成正常形狀。然而,簡單的文字矯正可能會對極度變形或者彎曲的文字失去作用。

為了解決這一問題,我們提出了ScRN(Symmetry-constrained Rectification Network),一個利用文字對稱性約束的文字矯正網絡。ScRN利用了文字區域的很多數學屬性,包括文字的中心線、字符大小以及字符方向信息。這些信息可以幫助ScRN生成精確的文字區域描述,使得ScRN獲得比已有方法更優的矯正效果,從而帶來更高的識別精度。

我們在多個不規則數據集上(ICDAR 2015, SVT-Perspective, CUTE80)都取得了較高的識別精度提升。

11、論文名稱:Learning to Paint with Model-based Deep Reinforcement Learning

論文連結:https://arxiv.org/abs/1903.04411

開原始碼:https://github.com/hzwer/ICCV2019-LearningToPaint

關鍵詞:強化學習、繪畫

摘要:

如何讓機器像畫家一樣,用寥寥數筆創造出迷人的畫作?結合深度強化學習方法和神經網絡渲染器,我們讓智能體在自我探索中學會用數百個筆畫繪製出紋理豐富的自然圖像,每一個筆畫的形狀、位置和顏色都是由它自主決定的。智能體的訓練過程不需要人類繪畫的經驗或筆畫軌跡數據。

這篇論文的作者是北大本科生黃哲威,信息學競賽出身,曾入選過福建省隊。在進入北大信科一年之後,他成為了曠視科技智能計算組(IC組)的實習生。

對這隻AI寫意畫家,量子位曾做過詳細報導:

加入社群 | 與優秀的人交流

小程序 | 全類別AI學習教程

喜歡就點「好看」吧 !

相關焦點

  • 十年來最難的一屆CVPR:接收率22%,百度入選19篇,曠視17篇
    本屆CVPR共有198位區域主席、3664位審稿人參與,共收到6656篇投稿,有1470篇論文被接收,接收率約22%。注意,雖然論文編號排到了10000多,但其實沒這麼多論文,編號出現了一些玄學(見文末彩蛋)。比起NeurIPS 2019的6743篇投稿,1428篇接收,21%的接收率,競爭難度幾乎一樣。
  • 7500人參會,國內接收論文數量超越美國,ICCV 2019最佳論文揭曉
    而在論文方面,ICCV 2019 共收到 4303 篇論文,是上一屆大會 ICCV 2017 論文投稿數量(2143)的 2 倍以上。最終大會接收了 1075 篇論文,接收率為 25.02%,其中 200 篇為 oral 論文(4.6% 接收率)。值得一提的是,今年 ICCV 接收論文中,中國論文量最多,高達 350 多篇,第二名為美國,其次為德國、韓國。
  • 《自動化學報》20篇文章入選2019「領跑者5000」頂尖論文
    F5000中國科學技術信息研究所在中國精品科技期刊中遴選優學術論文,建設了「領跑者5000-中國精品科技期刊頂尖學術論文平臺(F5000)」,集中對外展示和交流我國的優秀學術論文,進一步推動我國科技期刊的發展,提高整體水平,更好地宣傳和利用我國的優秀學術成果,起到引領和示範作用。
  • ICCV 2019 提前看|三篇論文,解讀神經網絡壓縮
    機器之心原創作者:立早編輯:H4O本文是一篇關於神經網絡壓縮領域的論文解讀,通過對ICCV 2019中的三篇論文進行分析,讀者可以了解目前的發展趨勢。在 ICCV2019 中,不少的研究單位和學者都發表了神經網絡壓縮方向的論文。本文主要以其中三篇論文來研究神經網絡壓縮的目前發展趨勢。
  • 交大90後男神博士:3年看1800篇論文,研發成果超越谷歌,還入選福布斯精英榜
    張祥雨做的第一個深度學習相關的工作,就是復現深度學習經典論文AlexNet。他花了兩個月的時間對論文進行了復現,包括寫完底層全部代碼。復現 AlexNet 的經歷算是深度學習的入門,當時深度學習的框架非常少,於是張祥雨乾脆自己寫了一個。
  • CVPR 2019 | 奪取6項冠軍的曠視如何築起算法壁壘
    論文方面,來自全球的 14,104 位作者提交了 5000 多篇論文。不遠千裡來到長灘會議中心的曠視研究員,在今年的 CVPR 上滿載而歸:拿下 6 個挑戰賽世界冠軍,包括自動駕駛、細粒度識別等等,數量位列今年國內參會公司之首;首次在 CVPR 舉辦研討會和挑戰賽,吸引了超過 300 多支隊伍註冊參加;14 篇論文入選了今年的 CVPR,比去年多出 6 篇,其中 1 篇入選口頭報告(Oral Presentation,5.6%
  • 乾貨| 2019 AI 國際頂級學術會議一覽表
    已經截稿會議時間:5.20-5.24官網:https://www.icra2019.org/1.13 論文接收通知;2.28 提交終稿; 2.28 早鳥票截止>相關文章:CVPR 2018 | 8篇論文、10+Demo、雙料挑戰賽冠軍,曠視科技掀起CVPR產學研交流熱潮ACL 2019@佛羅倫斯,義大利國際計算語言學協會 (ACL,The Association
  • 十年來最難的一屆CVPR 酷家樂兩篇論文成功入選
    作為十年來論文接受率最低的一屆CVPR,足見CVPR2020沉甸甸的含金量。而在入選的中國企業名單中,除了百度、騰訊、華為、曠視,家居SaaS獨角獸酷家樂也赫然在列。資料顯示,本屆CVPR共收到6656篇有效投稿,比去年增加了近29%,其中有1470篇論文被接收,接收率約22%,是近十年接受率最低的一屆。被錄取的論文主要涵蓋計算機視覺領域的最新科研成果。值得注意的是,深根於家居行業,酷家樂前沿技術實驗室KooLab遞交的兩篇論文皆被錄用,躋身中國論文發布成功的少數科技公司之一。
  • 曠視入選機器之心人工智慧年度獎項全球三十大最佳AI創業公司
    2020年1月16日,2019機器之心「Synced Machine Intelligence Awards」年度獎項正式公布。其中,曠視憑藉成熟的技術解決方案和商業模式,入選「全球三十大最佳AI創業公司」。
  • 騰訊優圖的 ICCV 2017:12篇論文入選 CV 頂會,3篇Oral|ICCV 2017
    被譽為計算機視覺領域三大頂級會議之一的ICCV(另外兩個為CVPR、ECCV)近日揭曉收錄論文名單,騰訊優圖共有12篇論文入選,其中3篇被選做口頭報告(Oral),該類論文僅佔總投稿數的2.1%(45/2143)。本屆 ICCV 共收到2143篇論文投稿,其中621篇被選為大會論文,錄用比例29%。
  • 嚴禁一稿多投:NeurIPS 2019剛剛斃掉了19篇論文
    機器之心報導參與:澤南、杜偉上星期,人工智慧頂級學術會議 NeurIPS 2019 的論文評審結果剛剛放出。昨天,本屆 NeurIPS 程序主席、谷歌大腦研究員 Hugo Larochelle 等人發出了一篇公告,宣布大會剛剛因為一稿多投拒掉了 19 篇論文。
  • 全球計算機視覺頂會CVPR 2019論文出爐:騰訊優圖25篇論文入選
    全球計算機視覺頂級會議 IEEE CVPR 2019(Computer Vision and Pattern Recognition,即IEEE國際計算機視覺與模式識別會議) 即將於6月在美國長灘召開。本屆大會總共錄取來自全球論文1299篇。
  • Cell Research 年度最佳論文出爐,共4篇論文入選
    2019年11月5號,Cell Research雜誌公布了2018年度優秀論文,共有4篇論文入選。reappraisal of CTLA-4 checkpoint blockade in cancer immunotherapy及Uncoupling therapeutic from immunotherapy-related adverse effects for safer and effective anti-CTLA-4 antibodies in CTLA4 humanized mice2篇文章
  • 騰訊優圖25篇論文入選全球頂級計算機視覺會議CVPR 2019
    全球計算機視覺頂級會議 IEEE CVPR 2019(Computer Vision and Pattern Recognition,即IEEE國際計算機視覺與模式識別會議) 即將於6月在美國長灘召開。本屆大會總共錄取來自全球論文1299篇。
  • 浙江大學校友靳遠祥論文入選2019年中國百篇最具影響國際學術論文
    近日,國家科學技術部中國科學技術信息研究所發布了《中國卓越論文統計報告》,評選出2019年中國百篇最具影響國際學術論文。浙江工業大學生物工程學院靳遠祥教授為第一作者、傅正偉教授為通訊作者發表於SCIENCE OF THE TOTAL ENVIRONMENT的文章「Impacts of polystyrene microplastic on the gut barrier, microbiota and metabolism of mice」入選。靳遠祥,1976年生,浙江工業大學教授。
  • 碼隆科技獲MICCAI 2019接收口頭報告論文
    10月13日,國際頂級人工智慧醫學影像學術會議MICCAI 2019在深圳正式召開。該會議為世界醫學影像分析領域的前沿風向標,具有引領該領域的未來發展方向的重要作用,具有極高的國際影響力和學術價值。在此次會議中,碼隆科技研究成果《雙流金字塔配準網絡(Dual-Stream Pyramid Registration Network)》作為口頭報告論文(Oral Paper)被大會接收。據悉,國內外大部分知名AI和醫療相關的企業都參加了這次MICCAI,本次大會一共入選六篇企業口頭報告論文,錄取率約為3%。
  • 曠視印奇在《全球人工智慧治理年度觀察2019》發表署名文章
    其中,中國人工智慧企業曠視聯合創始人兼執行長印奇作為唯一一家企業代表,在報告中發表署名文章,分享AI治理的觀點與實踐。圖:《全球人工智慧治理年度觀察2019》英文版發布,曠視印奇發表署名文章作為全球首份由全球業內頂級專家共同參與撰寫的人工智慧治理報告,也是首份由我國智庫發起、全球參與的人工智慧治理報告。
  • 曠視論文三連發,揭秘COCO +Places 2017比賽獲獎模型
    近日,曠視科技就在arXiv上連發三篇論文,內容包括了自己在COCO +Places 2017挑戰賽中的獲獎模型。雷鋒網(公眾號:雷鋒網) AI 科技評論把這三篇論文簡單介紹如下,感興趣的讀者歡迎查看原論文仔細研究。
  • 阿里平頭哥三篇論文入選ISCA2020;官方公布華為P40圓角曲率輪廓…
    打開APP 阿里平頭哥三篇論文入選ISCA2020;官方公布華為P40圓角曲率輪廓… Norris 發表於 2020-03-26 09:07:14
  • 福州小夥2篇論文入選國際頂級學術會議
    東南網6月5日訊(福建日報APP-新福建記者 張穎)日前,由國際機器學習學會(IMLS)主辦的年度機器學習國際頂級會議——ICML (International Conference on Machine Learning,即國際機器學習大會)2020公布了1088篇入選論文名單。