全球計算機視覺頂會CVPR 2020論文出爐:騰訊優圖17篇論文入選

2020-12-12 中國經濟網

　　全球計算機視覺頂級會議CVPR2020 (IEEE Conference on Computer Vision and Pattern Recognition，即IEEE國際計算機視覺與模式識別會議) 即將於2020年6月14日-19日在美國西雅圖召開。本屆大會總共錄取來自全球論文1470篇，騰訊優圖實驗室入選17篇。

　　作為計算機視覺領域世界三大頂會之一，CVPR 的論文投稿量近三年持續大漲，CVPR官網顯示，今年大會論文有效投稿數量6656篇，最終錄取1470篇，錄取率僅為22%，相比去年降低3個百分點。

　　本屆大會涵蓋人體識別、基於圖像建模、計算攝影與圖像、視頻分析與事件識別、臉部和手勢分析、文件分析、統計方法與學習等多個主題。騰訊被收錄的論文涉及主題廣泛，涵蓋類比學習、人臉識別、物體檢測、行人重識別等熱門及前沿領域，這些最新科研成果展示了騰訊在計算機視覺領域的技術實力，同時也將對計算機視覺算法落地化應用起到助推作用。

　　以下為部分騰訊優圖入選CVPR2020的論文：

　　1.神經網絡的濾波器嫁接技術

　　Filter Grafting for Deep Neural Networks

　　神經網絡存在天然的無效濾波器，濾波器剪枝（filter pruning）技術主要對無效的濾波器進行移除使網絡的推理速度增加。然而在這篇文章中，優圖提出濾波器嫁接（filter grafting）技術。和pruning相反，優圖並不是移除網絡的無效濾波器，而是通過引入外部信息的方法來激活無效濾波器使之重新發揮作用。激活的方式為將其他網絡的有效濾波器的參數嫁接到無效濾波器上。為了更好地發揮grafting的性能，優圖同時提出了信息熵相關的指標評估濾波器的好壞，並用自適應的方式來平衡嫁接網絡和被嫁接網絡的參數。通過大量的實驗，表明grafting後的網絡在有效濾波器的數量上和模型性能上均有大幅度的提高。

　　2.類比學習：基於變換的無監督光流估計

　　Learning by Analogy: Reliable Supervision from Transformations for Unsupervised Optical Flow Estimation

　　利用視圖合成，進行光流的無監督學習，逐漸成為替代光流監督學習的一類方法。但是在一些劇烈變化的場景上，可能會違背無監督學習的目標，反而導致學習效果不好。這篇文章中，優圖提出了一種稱為「增廣正則化」的學習框架。該框架在一些常規學習框架基礎上，利用增廣變換的數據多做一次前向，並利用原始數據的變換預測作為監督。在文章中，優圖進一步拓展網絡，支持共享光流解碼器的多視圖輸入。在多個benchmark上，與其它的無監督方法比，以顯著的效果提升，取得了當前最好的正確率。另外，優圖提出的無監督方法，使用更少的參數量，就可以媲美最近一些監督方法的效果。

　　3.面向密集多角度物體檢測的動態修正網絡

　　Dynamic Refinement Network for Oriented and Densely Packed Object Detection

　　目前主流的物體檢測?方法在旋轉(rotated)及密集排列(densely packed)?標場景下，檢測性能顯著下降。騰訊優圖認為主要原因是:深度神經?網絡中同層神經元感受野、形狀、?角度單一，不適合處理多?度、多形狀的目標;模型學到的一般性知識不具備針對特定樣本?適應調整的能力。針對以上兩點，優圖提出動態修正?絡(Dynamic Refinement Network，圖1)。具體說來:(1) 設計了自適應感受野調整模塊，使模型能夠根據目標形狀、旋轉角度?適應地調整感受野，緩解單一的感受野與多變的?標之間的矛盾。(2)針對分類與回歸任務設計了動態修正分類器 (圖2(左))與動態修正回歸器(圖2(右))，使模型兼顧靜態知識(statistic knowledge)和動態知識(dynamic knowledge)的學習，賦予模型依據樣本自適應調整的能?。結合以上兩點，優圖設計了統一的動態修正網絡。在當前著名的密集旋轉目標檢測數據集 (DOTA、HRSC2016、 SKU110K)上，該?法均取得了新的最佳性能。

　　4.自適應課程學習人臉識別函數

　　CurricularFace: Adaptive Curriculum Learning Loss for Deep Face Recognition

　　人臉識別中常用損失函數主要包括兩類，基於間隔或者難樣本挖掘。前一類方法對所有樣本都採用一個固定的間隔值，忽略了樣本自身的難易信息。後一種方法則在整個網絡訓練周期都強調困難樣本，可能導致網絡無法收斂問題。在工作中，優圖基於課程學習的思路，提出了一種新的自適應課程學習損失函數。在訓練初始階段，方法主要關注容易的樣本；隨著訓練進行，逐漸關注較難的樣本。同時，在同一個訓練階段，不同的樣本根據其難易程度被賦予不同的權值。在常用的多個人臉識別benchmark上，該方法相較於SOTA方法都取得了穩定一致的提升。

　　5.基於注意力卷積二叉神經樹的細粒度視覺分類

　　Attention Convolutional Binary Neural Tree for Fine-Grained Visual Categorization

　　本文由騰訊優圖實驗室和中科院軟體所聯合提出。細粒度視覺分類（Fine-Grained Visual Categorization，FGVC）因樣本類間差異更加細微，往往只能藉助微小的局部差異才能區分出不同的類別，使其成為一項重要但具有挑戰性的任務。本文提出了一種基於注意力機制的卷積二叉神經樹結構。具體來說，將傳統的決策樹與神經網絡結合，在樹的內部節點中使用路由來確定樹內從根到葉的計算路徑，並且在樹的邊上添加了卷積操作增強表示學習，最終決策融合了所有葉節點的預測。該模型以一種由粗到細的層次方式學習具有判別力的特徵。此外，採用非對稱的策略來增加多尺度特徵提取，增強樣本的區分性特徵表示。採用SGD優化方法以端到端的方式訓練整個網絡。該方法在CUB-200-2011，Stanford Cars 和 Aircraft數據集上進行了評估，顯著優於當前其他的弱監督細粒度方法。

　　6.基於注意力機制及多關係檢測器的小樣本物體檢測

　　Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

　　本文由香港科技大學和騰訊優圖實驗室聯合提出。目標檢測網絡已經被廣泛應用到安保，自動駕駛，醫學圖像等各個領域。然而傳統的目標檢測網絡需要使用大量高質量的訓練樣本對模型進行訓練。這些訓練樣本需要大量的人力物力進行標註，往往無法快速獲得，所以無法將目標檢測模型快速部署到新樣本的檢測中，而小樣本目標檢測方法可以很好地解決這一問題。聯合團隊提出了一種基於深度孿生網絡的小樣本目標檢測模型，通過基於注意力機制的候選框網絡，多關係檢測器以及三元組對比訓練方法對網絡進行改進，使得網絡能夠不對新物體重新訓練即可應用於新類別檢測。此外，文章中提供了一個1000類的小樣本物體檢測數據集，希望可以方便該領域的研究。

　　該聯合團隊的工作主要有以下貢獻：首先，使用注意力機制對物體檢測候選框進行篩選。將待檢測新物體的特徵作為濾波器在輸入圖片上進行卷積，以此找出潛在的候選框區域。然後，使用多關係檢測器對這些候選框進行分類以及位置調整。多關係檢測器對候選框和新物體進行像素級、區域級和全圖級的多級關係匹配，以此找出匹配程度最高的區域作為檢測輸出。最後，構建（目標樣本，正樣本，負樣本）訓練樣本三元組對模型進行訓練，使得網絡能夠同時學習到相同物體間的相似性和不同物體間的差異性，從而大大提升網絡在新樣本上的檢測性能。該方法在多個數據集上均取得了最好的結果，且無需在新物體上進行任何訓練。其基本框架圖如下：

　　7.基於顯著性引導級聯抑制網絡的行人重識別

　　Salience-Guided Cascaded Suppression Network for Person Re-identification

　　本文由北京大學、騰訊優圖和南方科技大學聯合提出。利用注意力機制對全局和局部特徵進行建模，作為最終的行人表徵，已成為行人再識別(Re-ID)算法的主流趨勢。這些方法潛在的局限性是，它們側重於提取最突出的特徵(顯著性特徵)，但重新識別一個人可能依賴於不同情況下顯著性特徵所掩蓋的各種其他的線索，比如身體、衣服甚至鞋子等。為了解決這一局限性，聯合團隊提出了一種新的顯著性引導級聯抑制網絡(SCSN)，該網絡使模型能夠挖掘多樣化的顯著性特徵，並通過級聯的方式將這些特徵集成融合到最終的特徵表示中。

　　聯合團隊的工作主要有以下貢獻：第一、我們觀察到，以前網絡學習到的顯著性特徵可能會阻礙網絡學習其他重要信息。為了解決這一局限性，引入了級聯抑制策略，該策略使網絡能夠逐級挖掘被其他顯著特徵掩蓋的各種潛在的、有用的特徵，並融合各級提取的特徵作為最後的特徵表示; 第二、提出一個顯著特徵提取(SFE)單元，該單元可以抑制在上一級聯階段學習到的顯著特徵，然後自適應地提取其他潛在的顯著特徵，以獲得行人的不同線索;第三、開發了一種有效的特徵聚合策略，充分增強了網絡提取潛在顯著特徵的能力。實驗結果表明，該方法在四個大規模數據集上的性能優於現有最好的方法。特別是，該方法在CUHK03數據集上比目前最好的方法提升7.4%。其基本框架圖如下：

　　8.概念歸因的卷積神經網絡的全局解釋

　　Towards Global Explanations of Convolutional Neural Networks with Concept Attribution

　　本文由騰訊優圖實驗室和香港中文大學合作完成。卷積神經網絡（CNN）的廣泛應用，使得解釋其行為變得越來越重要。其中，全局解釋因其有助於理解整個樣本類別的模型預測，最近引起了極大關注。但是，現有方法絕大多數都依賴於模型的局部逼近和對單個樣本預測的獨立研究，這使得它們無法反映出卷積神經網絡的真實推理過程。聯合團隊提出了一種創新的兩階段框架，即對可解釋性的攻擊（AfI），以更忠實地解釋卷積神經網絡。 AfI根據用戶定義的概念的重要性來解釋模型決策。它首先進行特徵遮擋分析，該過程類似於攻擊模型以得出不同特徵的重要性的過程，於是有能力學習全局解釋。然後，通過語義任務將特徵重要性映射到概念重要性，下圖展示了AfI的框架結構。實驗結果證實了AfI的有效性及其相比於現有方案的優越性。本文中還演示了其在提供卷積神經網絡理解方面的用例，例如基礎模型預測和模型認知中的偏差。

　　9.基於注意力機制提高對抗可遷移性

　　Boosting the Transferability of Adversarial Samples via Attention

　　本文由騰訊優圖實驗室和香港中文大學合作完成。深度學習模型的廣泛部署使得在實踐中評估模型的魯棒性成為必需，尤其是對於安防領域和安全敏感領域例如自動駕駛和醫療診斷。攻擊是一種重要的衡量模型魯棒性的方式，其中針對深度網絡圖像分類器生成對抗圖像是最基本和公認的任務之一。最近，針對圖像分類器的基於遷移的黑盒攻擊引起了越來越多的興趣。這種攻擊方式，攻擊者需要基於本地代理模型來製作對抗性圖像，而沒有來自遠端實際目標的反饋信息。在這種具有挑戰性的設置下，由於對所使用的本地模型的過度擬合，合成的對抗性樣本通常無法獲得良好的成績。因此，文章中提出了一種新穎的機制來減輕過度擬合的問題，從而增強黑盒攻擊的可遷移性。不同的網絡架構例如VGG16，ResNet，Inception在識別圖片時會有相似的圖像注意力，比如都傾向於注意貓臉來識別貓。基於此，通過模型提取特徵的注意力梯度來規範對抗性示例的搜索。這種基於注意力規約的對抗樣本搜索使得聯合團隊可以優先考慮攻擊可能被各種體系結構共同關注的關鍵特徵，從而促進結果對抗實例的可遷移性。在ImageNet分類器上進行的大量實驗證實了文章中策略的有效性，進一步在白盒和黑盒兩種條件下對比了最新方法，該攻擊策略都表現出了一致的優越性。下圖呈現了我們的基於注意力機制的模型攻擊框架。

（責任編輯：馮虎）

全球計算機視覺頂會CVPR 2020論文出爐:騰訊優圖17篇論文入選

相關焦點

中國AI「再戰」視覺頂會CVPR:百度全方位參與入選論文達22篇

ECCV 2020 | 騰訊優圖8篇論文入選,涵蓋目標跟蹤、行人重識別...

ECCV 2020 | 騰訊優圖8篇論文入選,涵蓋目標跟蹤、人臉識別等領域

CVPR 2020論文收錄揭曉:百度22篇論文入選涵蓋全視覺領域

騰訊優圖11篇論文入選,涵蓋動作識別、人群密度估計、人臉安全等領域

騰訊優圖8篇論文入選,涵蓋目標跟蹤、行人重識別、人臉識別等領域

論文代碼的分享,給生活添加色彩

CVPR 2020公布「開獎」結果:接收率二連降僅22% 百度入選19篇論文

業界| 23篇論文入選CVPR2017, 商湯科技精選論文解讀

剛剛,CVPR 2021論文接收結果「開獎了」

【盤點影響計算機視覺Top100論文】從ResNet到AlexNet

CVPR,華人包攬!斬獲全部獎項,近四成中國作者,清華最多

深睿研究院8篇論文入選人工智慧頂級會議CVPR2019 圖像識別與醫學...

騰訊優圖這一年:研究與應用交織,用視覺 AI 賦能更多

CVPR 2019|國內基於無感AI的安全領域論文首次入選

百度AI閃耀國際舞臺:入選22篇論文斬獲8項冠軍主辦2場Workshop

300篇 CVPR 2019 Oral 論文精選匯總,值得一看的 CV 論文都在這裡

騰訊英語君INTERSPEECH 2020展鋒芒,5篇英語口語評測成果論文入選

一騎絕塵商湯科技44篇論文入選CVPR 2018

騰訊優圖發布四大平臺產品持續開放視覺AI能力

全球計算機視覺頂會CVPR 2020論文出爐:騰訊優圖17篇論文入選

相關焦點

中國AI「再戰」視覺頂會CVPR:百度全方位參與 入選論文達22篇

ECCV 2020 | 騰訊優圖8篇論文入選,涵蓋目標跟蹤、行人重識別...

ECCV 2020 | 騰訊優圖8篇論文入選,涵蓋目標跟蹤、人臉識別等領域

CVPR 2020論文收錄揭曉:百度22篇論文入選 涵蓋全視覺領域

騰訊優圖11篇論文入選,涵蓋動作識別、人群密度估計、人臉安全等領域

騰訊優圖8篇論文入選,涵蓋目標跟蹤、行人重識別、人臉識別等領域

論文代碼的分享,給生活添加色彩

CVPR 2020公布「開獎」結果:接收率二連降僅22% 百度入選19篇論文

業界| 23篇論文入選CVPR2017, 商湯科技精選論文解讀

剛剛,CVPR 2021論文接收結果「開獎了」

【盤點影響計算機視覺Top100論文】從ResNet到AlexNet

CVPR,華人包攬!斬獲全部獎項,近四成中國作者,清華最多

深睿研究院8篇論文入選人工智慧頂級會議CVPR2019 圖像識別與醫學...

騰訊優圖這一年:研究與應用交織,用視覺 AI 賦能更多

CVPR 2019|國內基於無感AI的安全領域論文首次入選

百度AI閃耀國際舞臺:入選22篇論文 斬獲8項冠軍 主辦2場Workshop

300篇 CVPR 2019 Oral 論文精選匯總,值得一看的 CV 論文都在這裡

騰訊英語君INTERSPEECH 2020展鋒芒,5篇英語口語評測成果論文入選

一騎絕塵 商湯科技44篇論文入選CVPR 2018

騰訊優圖發布四大平臺產品 持續開放視覺AI能力

中國AI「再戰」視覺頂會CVPR:百度全方位參與入選論文達22篇

CVPR 2020論文收錄揭曉:百度22篇論文入選涵蓋全視覺領域

百度AI閃耀國際舞臺:入選22篇論文斬獲8項冠軍主辦2場Workshop

一騎絕塵商湯科技44篇論文入選CVPR 2018

騰訊優圖發布四大平臺產品持續開放視覺AI能力