編譯 | 陳彩嫻、Barack
編輯 | 陳彩嫻
ECCV 2020已圓滿落幕。會議收到了1360篇論文投稿,其中包含104篇Oral論文、160篇Spotlight論文和1096篇Poster論文。為了更好地了解ECCV 2020的會議內容,來自深度學習專業的博士生Yassine Ouali整理了論文投稿的數據,並從以下五大主題總結了一些取得突破性成就的論文,對其進行了簡要概述:
識別、檢測、分割和姿態估計半監督、無監督、遷移、表徵和小樣本學習3D計算機視覺與機器人圖像和視頻合成視覺和語言與2018年相比,近兩年ECCV的論文投稿數量一直保持兩倍的增長,與CVPR 2020的論文投稿數量接近。隨著論文投稿量的增長,審稿人數和論文審核的領域也在持續增加。ECCV有效論文投稿數量如下表:
不出所料,大多數通過審核的投稿論文是圍繞深度學習、識別、檢測和理解等話題展開。此外,投稿論文也逐漸關注一些新興領域,如標籤高效方法(label-efficient methods,比如無監督學習)和低級視覺(low-level vision)等。
與今年的ICML相似,在論文投稿機構方面,Google排名第一(180位投稿作者),其次是香港中文大學(140位投稿作者)和北京大學(110位投稿作者):
接下來,本文將為大家一一介紹上述五大主題的亮點論文:
1
識別、檢測、分割和姿態估計
1、End-to-End Object Detection with Transformers
論文連結:https://arxiv.org/abs/2005.12872
目標檢測任務指的是,給定一張輸入圖像,然後對圖像內的可見物體進行定位和分類。目標檢測的主要框架是:預定義一組框(比如一組幾何先驗,錨或候選區域),對其進行分類,接著進行回歸,以調整預定義框的尺寸 ,然後執行後期處理步驟,以刪除重複的預測。但是,這種方法要求選擇一個候選框的子集進行分類,且這種分類通常不是端到端可微的。
在這篇論文中,作者提出了DETR框架。DETR是一種沒有幾何先驗的端到端完全可微分方法。下圖是從該論文作者的展示中截取的一張PPT,其中對DETR和Faster R-CNN的管道進行了比較,全面體現了DETR方法的整體性。
DETR基於編碼器-解碼器Transformer架構。該模型由三部分組成:CNN特徵提取器、編碼器和解碼器。首先,一張給定的圖像通過特徵提取器,獲得圖像特徵。接著,將使用不同頻率的正弦曲線生成的位置編碼添加到特徵中,以保留圖像的2D結構。然後,生成的特徵通過Transformer編碼器,匯總各個特徵的信息,並分離目標實例。
為了進行解碼,目標查詢將傳遞給具有編碼特徵的解碼器,從而生成輸出特徵向量。這些目標查詢是一組固定的學習嵌入,能夠隨機初始化,在訓練過程中學習,然後在評估階段固定。目標查詢的數量指的是模型能夠檢測到的目標數量的上限。最後,輸出特徵向量通過(共享的)全連接的層饋送,以預測每個查詢的類別和邊框。為了計算損失並訓練模型,該方法使用了Hungarian算法將輸出與ground truth進行一對一的匹配。
2、MutualNet: Adaptive ConvNet via Mutual Learning from Network Width and Resolution
論文連結:https://arxiv.org/abs/1909.12978
傳統的神經網絡只能算力達到一定程度時才能有效果,而且,如果不滿足資源約束條件,則該模型將無法使用,這會限制模型的實際應用。比方說,如果模型用於行動裝置推理,那麼計算約束會一直隨著負載和設備的電量而變化。
解決上述問題的一個簡單方法,是在設備上保留幾個大小不同的模型,然後每次使用具有相應約束的模型。但這也需要大量的內存,且無法擴展到不同的約束。最新的一些方法,諸如S-Net和US-Net,在訓練期間對子網絡進行了採樣,這樣模型就可以在部署期間以不同的寬度應用。但由於約束非常低,模型的性能也急劇下降。
這篇論文提出,可以同時利用網絡規模(network scale)和輸入規模(input scale),在準確率和計算效率之間找到一個好的平衡點。如上圖所示,針對給定的訓練迭代,對四個子網絡進行採樣,其中包括一個完整的子網,和三個寬度變動的子網絡。整個網絡基於尺寸不變的、帶有ground truth標籤的圖像,使用了標準的交叉熵損失進行訓練,而其餘子網絡則使用它們的輸出和整個網絡的輸出之間的KL散度損失(即蒸餾損失 distillation loss)對輸入圖像的隨機縮放版本進行訓練。
通過這樣的方式,每個子網絡都能夠從輸入規模和網絡規模中學會多比例表示(multi-scale representations)。在部署期間,給定特定資源約束,則可以選擇最佳的網絡規模和輸入規模組合進行推理。
3、Gradient Centralization: A New Optimization Technique for Deep Neural Networks
論文連結:https://arxiv.org/abs/2004.01461
在優化過程中使用二階統計量(例如平均值和方差)對激活或網絡權重進行某種形式的標準化(例如批歸一化或權重歸一化),已成為神經網絡訓練的重要組成部分。梯度集中化(Gradient Centralization,GC)無需使用額外的歸一化模塊對權重或激活進行操作,而是直接操作梯度,集中梯度向量,獲得零均值,從而平滑和加速神經網絡的訓練過程,甚至改善模型的泛化性表現。
給定已計算好的梯度,GC算符首先計算計算梯度向量的平均值(如上圖所示),然後減去這些向量的平均值。一般情況下,對於梯度為
的權重向量
,GC算符
被定義為:
4、Smooth-AP: Smoothing the Path Towards Large-Scale Image Retrieval
論文連結:https://arxiv.org/abs/2007.12163
圖像檢索(image retrieval)的目標是從大量圖像中檢索與查詢圖像類別相同的圖像。圖像檢索與圖像分類的區別在於:在圖像分類中,在測試中遇到的分類在訓練時已明確;而在圖像檢索中,我們可能會檢索到一張類別全新的圖像,並需要抓取與之相似的圖像,比如開集(open set)問題。
圖像檢索的一般流程包括:提取用於查詢圖像的嵌入,以及使用CNN特徵提取器來獲得圖像集的嵌入,計算每對圖像的餘弦相似度,然後基於相似度對集合中的圖像進行排序。接著,特徵提取器經過訓練,以獲得好的排名。排名表現由平均精度(Average Precision,AP)來衡量,計算每個陽性樣本的排名與其在整個圖像集上的排名之和。
但是,對給定圖像的排名計算涉及到使用Heaviside階躍函數(Heaviside step function),從而使得閾值操作不可微,因此我們無法進行端到端的模型訓練來直接優化排名。
為了解決這個問題,該論文的作者提出用一個平滑的溫控Sigmoid函數來取代Heaviside階躍函數,使排名可微,並像損失函數一樣應用於端到端的訓練。與Triplet Loss相比,平滑AP損失能優化排名損失,Triplet Loss是一種替代損失函數,用於間接優化以獲得良好的排名。
5、Hybrid Models for Open Set Recognition
論文連結:https://arxiv.org/abs/2003.12506
現有的圖像分類方法通常是基於一個閉集假設,比方說,訓練集涵蓋在測試階段可能出現的所有分類。但很顯然,這種假設是不現實的,因為即使是像ImageNet這種含有1000個類別的大規模數據集,也不可能覆蓋現實世界上所有的類別。因此,便出現了開集分類。開集分類假設測試集包含已知和未知類,希望解決閉集分類的問題。
在這篇論文中,作者使用基於流的模型來處理開集分類問題。基於流的模型能夠通過最大似然估計,以無監督的方式使概率分布擬合訓練樣本。接著,流模型能夠用來預測每個示例的概率密度。當輸入樣本的概率密度很大時,則輸入樣本可能是具有已知類別的訓練分布的一部分,且此時離群值(outlier)的密度值會很小。雖然過去的模型在流模型上堆疊了一個分類器,但論文作者提出為流模型和分類器學習一個聯合嵌入,因為僅從基於流的模型中學習的嵌入空間可能沒有足夠的判別特徵來進行有效的分類。
如上圖所示,在訓練過程中,圖像被編碼器映射到隱特徵空間(latent feature space)中,然後,已編碼的特徵將饋入已經過交叉熵損失訓練的分類器和用於估計密度的流模型中。整個架構以端到端的方式進行訓練。為了測試,我們需要計算每個圖像的
,然後與訓練集內最低的
進行比較。如果
比閾值
大,則將
發送至分類器中,以識別特定的已知類,或作為未知樣本被駁斥。
6、Conditional Convolutions for Instance Segmentation
論文連結:https://arxiv.org/abs/2003.05664
實例分割(Instance segmentation)至今仍是計算機視覺中最具挑戰的任務之一,需要具備給定圖像中每個可見目標的逐像素掩碼(per-pixel mask)和類別標籤(class label)。進行實例分割的主要方法是Mask R-CNN,包含兩個步驟:首先,目標檢測器Faster R-CNN會預測每個實例的邊框;然後,針對每個檢測到的實例,使用ROI Align從輸出特徵映射中裁剪出感興趣的區域,將感興趣的區域調整至相同的解析度,然後饋入一個掩碼中。該掩碼是一個小的全卷積網絡,用於預測分割掩碼。
但是,論文作者指出這種架構具有幾點缺陷:1)ROI Align可能會抓取一些不相關的背景或其他實例的特徵;2)調整大小的操作會限制實例分割的解析度;3)掩碼頭(mask head)需要用到一疊3x3的卷積,才能產生足夠大的感受野來預測掩碼,這也大大增加了掩碼頭的計算需求。
在這篇論文中,作者提出將用於語義分割的圖像分割網絡(FCN)應用於實例分割。為了進行有效的實例分割,FCN需要用到兩類信息,一類是用於進行目標分類的外形信息,一類是用於區分同類的多個目標的位置信息。
作者提議的網絡名為CondInst(conditional convolutions for instance segmentation,用於實例分割的條件卷積)。該網絡基於CondConv和HyperNetworks,其中,每個實例的子網絡將根據每個實例的中心區域生成掩碼FCN網絡的權重,然後用於預測給定實例的掩碼。如上圖所示,網絡包含在不同規模的特徵圖(feature map)中應用的多個掩碼頭。每個掩碼頭會預測在預定義位置上給定實例的類別,以及預測被掩碼FCN頭使用的網絡權重。然後,利用每個掩碼頭生成的參數完成掩模預測。
7、Multitask Learning Strengthens Adversarial Robustness
論文連結:https://arxiv.org/abs/2007.07236
深度神經網絡有一個缺點,是容易受到對抗攻擊的影響。在對抗攻擊中,即使輸入的外觀保持不變,一有微小的哪怕看不見的擾動,便會產生錯誤的輸出。
近年來,人們對深度網絡的對抗魯棒性經流程的不同階段,從輸入數據(如使用未標記數據和對抗訓練),到模型使用正則化方法進行自我建模(如 Parseval Networks),都進行了研究,但模型的輸出仍無法提高魯棒性。
在這篇論文中,作者研究了多任務學習使用多個輸出後對模型魯棒性的影響。這個設置非常有效,因為越來越多機器學習應用程式需要用到能夠同時執行多個任務的模型。
使用p範數有界球攻擊(p-norm ball bounded attack),若給定輸入示例的半徑,則能在p範數有界球內發現對抗性擾動,且脆弱性(vulnerability)是總損失變化(total loss change)。
作者在論文中展現了,在訓練一對任務時(例如從分割、深度、法線、重新切分、輸入重建、2D和3D關鍵點等等中選擇的一對任務),網絡表現出更穩定的魯棒性。在單任務攻擊(比如,使用輸出計算擾動)和多任務攻擊(比如,使用所有輸出來計算所有擾動中的最大擾動)中,我們也可以觀察到魯棒性有所改善。作者還從理論的角度證明:只有當任務相關時,網絡才能獲得這種多任務魯棒性。
8、Dynamic Group Convolution for Accelerating Convolutional Neural Networks
論文連結:https://arxiv.org/abs/2007.04242
分組卷積(group convolution)最初是在AlexNet網絡中引入,用來加快該網絡的訓練速度,隨後又經過修改,應用於諸如MobileNet和Shufflenet之類的高效卷積神經網絡中。分組卷積包括將卷積層中的輸入和輸出通道平均分成互斥的部分或組,同時在每個單獨的組內執行常規的卷積操作。所以對於
組,計算量減少了
倍。
然而,該論文的作者認為,分組卷積也帶來了兩個重要的局限性:1)分組卷積引入稀疏神經元連接,削弱了正常卷積的表示能力;2)無論輸入的屬性如何,分組卷積的通道劃分都是固定的。
為了在保持原始網絡的完整結構的同時,為每個組自適應地選擇最相關的輸入通道,作者提出了動態組卷積(dynamic group convolution,DGC)的概念。DCG由兩個頭(head)組成,每個頭中包含一個用來為每個通道分配重要性分數的顯著性分數生成器(saliency score generator)。應用這些分數,可以對重要性分數較低的通道進行修剪。然後,根據輸入通道的選定子集引導正常卷積,在每個頭中生成輸出通道。最後,來自不同頭的輸出通道被連接在一起,並進行混洗(shuffled)。
9、Disentangled Non-local Neural Networks
論文連結:https://arxiv.org/abs/2006.06668
非局部塊(non-local block)使用注意力機制對像素之間的遠程依賴關係進行建模,已被廣泛應用於許多視覺識別任務中,例如目標檢測、語義分割和視頻動作識別等。
在這篇論文中,作者想要更好地理解非局部塊,找出它的局限性,然後給出改善後的版本。首先,他們重新制定像素
(鍵像素)到像素
(查詢像素)的相似性,將其作為pairwise term和unary term的總和。pairwise term指的是表示查詢鍵像素(query key pixel)之間純成對關係的白化向量點積項(whitened dot product term);unary term指的是給定鍵像素對所有查詢像素的影響相同。然後,為了了解每個term的影響,他們使用其中任一個term進行訓練,發現pair-wise term負責類別信息,而unary term負責邊界信息。
但是,通過分析非局部塊的梯度,當pair-wise term和unary term在正常注意力操作符中結合時,兩者的梯度相乘,因此,如果其中一個term的梯度為零,則另一個梯度非零的term起不了任何作用。為了解決這個問題,作者提出了非局部塊的解耦版本,將每個term分開進行優化。
10、Hard negative examples are hard, but useful
論文連結:https://arxiv.org/abs/2007.12749
深度度量學習(Deep metric learning)對嵌入函數進行了優化,其中嵌入函數將語義相似的圖像映射到相對臨近的位置、將語義不同的圖像映射到較遠的位置。學習這類映射的主要方法是基於錨圖像(anchor image)、同類別的正圖像和不同類別的負圖像等三元組圖像來定義損失函數。如果錨點映射到負圖像的位置比正圖像的位置更近時,則對模型進行懲罰。
但是,在優化的過程中,大多候選三元組圖像已經有一個比起負值、更接近於正值的錨,這些候選圖像就變得多餘了。另一方面,使用最難的負面示例進行優化,會在訓練的早期階段產生糟糕的局部最小值,因為在這種情況下,用餘弦相似度(比如歸一化特徵向量之間的點積)測量時,錨-負相似度大於錨-正相似度。
作者將上述問題歸因於使用了三元組損失標準執行時的hard-negatives樣本。具體來說,就是:1)如果在梯度計算過程中不考慮歸一化,一大部分梯度便會損失;2)如果兩個不同類的圖像在嵌入空間中靠近,則損失的梯度可能會將兩張圖像拉得更近,而不是更遠。
為了解決這個問題,作者提出不要像在標準三元組損失中那樣拉近錨-正樣本對(anchor-positive pair),使其緊密聚類,而是避免更新錨-正樣本對,使其不要緊密聚類。這樣一來,網絡便只專注於直接將hard negative樣本推離錨點。
11、Volumetric Transformer Networks
論文連結:https://arxiv.org/abs/2007.09433
CNN成功的一個關鍵點在於有能力學習語義目標部分的判別性特徵表示,這對計算機視覺任務非常有利。但是,CNN仍然無法處理各種各樣的空間變化(比如比例、視點和類內差異)。
最近一些方法,例如空間變換網絡( spatial transformer network,STN),試圖先將空間性質不同的圖像的特徵圖封裝到一個標準規範配置中,然後在這些標準特徵上訓練分類器,以此來抑制這些變化。但是,這些方法對所有特徵通道進行相同的封裝,沒有考慮到這個事實,即各個特徵通道表示不同的語義部分,因此可能需要就規範配置進行不同的空間變換。
為了解決上述的問題,這篇論文介紹了上圖所示的Volumetric transformer network (VTN)。這是一個可學習的模塊,能夠預測每個通道和每個空間位置封裝變換(spatial location wrapping transform)。這些變換將中間的CNN特徵重新配置為與空間無關的標準表示形式。VTN是一個編碼器-解碼器網絡,具備專門用於讓信息跨功能通道流動、以顯示語義部分之間的依賴性的模塊。
12、Faster AutoAugment: Learning Augmentation Strategies Using Backpropagation
論文連結:https://arxiv.org/abs/1911.06987
數據增強已成為深度學習方法中必不可少的的一環。該方向的一些最新工作(例如AutoAugment、Fast AutoAugment和RandAugment等)表明,搜索算法比標準的增強方法更擅長發現數據增強策略。DA應用一組預定義的可能變換,如旋轉等幾何變換,或曝光等顏色增強變換,目標是找到最佳的數據增強參數,比如數據增強的程度、應用的可能性以及組合的轉換數數量(如下圖中的左圖所示)。DA通過雙重優化循環(double optimization loop)學習最佳策略,從而將使用特定策略訓練的特定CNN的驗證錯誤最小化。
然而,這種優化方法會因為具有許多策略可能性的巨大搜索空間而遭殃,需要用到複雜的搜索策略。此外,策略優化的單次迭代需要對CNN進行全面訓練。為了解決這個問題,作者提出,對原始圖像和基於梯度優化的增強圖像進行密度匹配,以找到最佳策略。
作者將DA視為填充原始數據缺失點的一種方式,旨在將增強數據的分布與使用了對抗學習的原始數據之間的距離最小化。此外,為了學習最佳增強策略,需要對變換參數可微。談及應用給定增強的可能性,作者使用了從伯努利分布(Bernoulli distribution)中採樣、使用 Gumbel trick進行了優化的隨機二進位變量(stochastic binary variable)。另外,幅度通過直通估算器(straight-through estimator)進行近似,組合以one-hot向量組合進行學習。
2
半監督、無監督、遷移、表徵和小樣本學習
1、Big Transfer (BiT): General Visual Representation Learning
論文連結:https://arxiv.org/abs/1912.11370
在本文中,作者重新探討了遷移學習的簡單範例:對大量帶標籤的源數據(例如,JFT-300M和ImageNet-21k數據集)進行預訓練,然後針對不同任務對這些訓練權重進行微調,這樣既減少了目標任務所需的數據量,又減少了微調時間。作者將該框架命名為BiT(大型遷移),其由許多組件組成,該網絡能夠有效的利用大規模數據集並學習通用的和可遷移的表示特徵。
在(上遊)預訓練方面,BiT包含以下內容:
1)對於非常大的數據集,批歸一化(BN)在測試過程中使用來自訓練數據的統計參數會導致訓練/測試差異,在這種情況下,訓練損失可以正確的被優化,而驗證損失則非常不穩定。 為了解決這個問題,BiT使用組歸一化(GN)和權重歸一化(WN)代替了BN。
2)對於ResNet 50之類的小型模型,它們無法從大規模訓練數據中得到充分的訓練,因此模型的大小也需要相應地擴大規模。
對於(下遊)目標任務,BiT提出以下建議:
1)使用標準SGD,需要將最後一個用於預測的層初始化為0,且無需凍結其他層,同時也不需要加dropout,L2正則項或者其他的tricks。
2)在訓練過程中,將圖像進行隨機縮放並裁剪為具有隨機大小的正方形,並隨機進行水平翻轉。只有在測試時,將圖像調整為固定大小。
3)經驗表明mixup對於大規模數據的預訓練沒有性能提升,但是BiT發現mixup對某些下遊目標任務的中型數據集非常有用。
2、Learning Visual Representations with Caption Annotations
論文連結:https://arxiv.org/abs/2008.01392
在大規模標註數據集上訓練深度模型不僅可以在當前目標任務中獲得良好的性能,還可以使模型在下遊目標任務也有較好的表現。但是,對數據集進行標註需要付出巨大的代價,如果沒有標註,我們還能否實現這樣的效果?基於此,這篇論文研究了使用噪聲標籤(直接用圖像字幕作為標籤)的弱監督預訓練。
以使用有限的圖像-字幕對來學習視覺表徵為目標,如何設計一個訓練目標來推動圖像與其字幕之間的有效交互?基於BERT中使用的遮擋圖像建模,它隨機遮擋15%的輸入,然後使用transformer模型的編碼器部分,訓練模型去重建被遮擋的輸入標記。論文提出了圖像條件遮擋語言建模(ICMLM),利用圖像重建其對應字幕的遮擋標記。
為了實現這個目標,作者提出了兩種多模態架構,(1)ICMLM tfm,其圖像使用CNN進行編碼,遮擋的字幕使用BERT模型,然後將字幕和圖像特徵進行拼接,並通過transformer編碼器產生多模態嵌入,用於預測遮擋的標記。(2)ICMLM att+fc,相似度,先產生字幕和圖像特徵,然後通過配對注意力塊,整合字幕和圖像之間的信息。然後將產生的特徵進行匯集,並通過全連接層進行遮擋標記預測。
3、Memory-augmented Dense Predictive Coding for Video Representation Learning
論文連結:https://arxiv.org/abs/2008.01065
圖像自監督表徵學習的最新進展顯示了其在下遊目標任務的出色性能。雖然目前針對視頻的多模型表示學習也可以達到較好的效果,但是僅使用視頻流(去除音頻、文字信號)的自監督模式仍然沒有得到發展。視頻的時間信息也可以作為一種監督信號,以自監督的方式訓練模型去預測未來狀態作為之前狀態的監督信息,由於在給定的時間步長內,未來狀態有許多合理的假設(例如,當動作是「打高爾夫球」時,未來的狀態可能會和手或者高爾夫俱樂部有關),這也帶來一定的局限性。
本文將對比學習與存儲模塊結合起來,來對未來狀態進行預測。為了減少不確定性,模型會在特徵層面上預測未來,並使用對比損失進行訓練以避免過度的約束。為了處理多種假設情況,每個存儲模塊可以同時推斷多個未來狀態。例如給定一組連續幀,則2d-3d CNN編碼器(
)產生上下文特徵和GRU(
)來匯總所有過去的信息,然後使用這些信息從共享內存模塊中選擇插槽。
然後,將預測得到的未來狀態插入到所選插槽中構成新的狀態集合。然後使用對比損失將預測的未來狀態與真實特徵向量進行優化。對於下遊任務,將之前匯總的特徵進行下採樣,然後饋送到分類器。
4、SCAN: Learning to Classify Images without Labels
論文連結:https://arxiv.org/abs/2005.12320
對於無標籤圖像分類問題,本文僅使用視覺相似性來尋找解決方案。之前的工作大致包括兩類方法:(1)用自監督方法提取特徵,然後在特徵空間應用k-means來尋找聚類中心,但這類方法很容易導致模型退化。(2)端到端的聚類方法,利用CNNs特徵進行深度聚類,或者基於互信息最大化。這類方法產生的聚類中心嚴重依賴於初始化的效果,而且很可能只能提取到低級特徵。
為了解決之前工作中存在的問題,本文提出了SCAN(基於最近鄰的語義聚類),包含兩步操作,第一步,通過前文任務學習特徵表徵,然後,為了生成初始聚類中心,SCAN根據特徵相似度挖掘每個圖像的最近鄰,而不是使用K-means。第二步,將語義上有意義的最近鄰域作為先驗來訓練模型,將每張圖像及其領域一起分類,在softmax層之後最大化它們的點積來作為損失函數,推動網絡產生一致和判別性(one-hot)的預測。
5、GATCluster: Self-Supervised Gaussian-Attention Network for Image Clustering
論文連結:https://arxiv.org/abs/2002.11863
聚類是根據樣本相似度來將數據進行分類。傳統的方法使用手工特徵和特定領域的距離函數來衡量相似度,但這種手工特徵在表達能力上非常有限。後來的工作將深度特徵與聚類算法相結合,但當輸入數據非常複雜時,深度聚類的性能仍然會受到影響。
為了實現有效的聚類,在特徵層面,它們既要包含高級的判別特徵,又要兼顧對象所包含的語義。在聚類過程中,必須避免將所有樣本分配到一個或幾個聚類的異常情況,同時聚類也要能夠高效地應用於大尺寸圖像中。
本文提出了GATCluster,它可以直接輸出語義聚類標籤,而無需後處理操作,學習到的特徵是one-hot編碼向量,避免出現異常解。GATCluster以無監督的方式進行訓練,在特徵不變性、可分離性最大化、熵分析和注意力映射的約束下,完成四個自學習任務。
6、Associative Alignment for Few-shot Image Classification
論文連結:https://arxiv.org/abs/1912.05094
在小樣本圖像分類中,目標是產生一個模型,在訓練數據很少的情況下,去識別新的給定圖像。其中一種流行的方法是元學習,它從大量包含基礎類的標記數據中提取常識性特徵來訓練一個模型。然後,再將該模型訓練成只用少數訓練樣例就能對新類別的圖像進行分類。
元學習的目標是找到一組好的初始權重,在新類別圖像上訓練時迅速收斂。最近的工作表明,沒有元學習的標準遷移學習,即先在基礎類上預訓練一個特徵提取器,然後在預訓練的提取器上對新類別圖像微調分類器,其表現與更為複雜的元學習策略性能相當。
然而,在微調過程中,為了避免過度優化,需要對提取器某些層進行凍結,但這會影響性能。
本文提出了一種兩步法來解決這個問題。首先,使用特徵提取器來產生新類別的特徵。然後利用嵌入空間中的相似性度量將每個樣本的特徵映射到其中已知的一個基類。第二步是特徵關聯對齊,對特徵提取器進行微調,縮小新類別嵌入與其相應基類圖像嵌入之間的距離。可以通過中心點對齊或者對抗性對齊來實現。
3
3D計算機視覺和機器人
1、NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
論文連結:https://arxiv.org/abs/2003.08934
從2D圖像合成3D視圖是一個具有挑戰性的問題,特別是當輸入的2D圖像是稀疏採樣得到的。本文的目標是訓練一個模型,該模型接受一組3D場景的2D圖像(拍攝角度及相機參數可調整),然後,使用訓練好的模型,可以渲染出3D場景的新視圖(在輸入的2D圖像集合中不存在)。
一個成功的方法是基於voxed的表示方法,Anf使用3D CNN預測RGB-alpha網格值的3Dvoxel。然而,這種方法的內存效率很低,因為它們隨著空間解析度的變化進行擴展,可能很難優化,並且不能平滑地對場景表面進行參數化。
最近的工作大多是用一個全連接的神經網絡將給定的3D場景表示為一個連續函數,這種方法訓練得到的神經網絡本身就是對3D場景的壓縮表示,利用2D圖像集合進行訓練,然後來渲染新的視圖。但現有的方法還是無法與基於voxed的方法相媲美。
NeRF(神經輻射場)使用一個9層、256個通道的全連接網絡將場景表示為一個連續的5D函數,其輸入是一個單一連續的5D坐標,即3D空間位置
和觀看方向
,其輸出是RGB顏色和不透明度(輸出密度)。為了合成一個給定的視圖,渲染過程包括沿攝像機射線查詢5D坐標,並使用經典的體積渲染技術將輸出顏色和密度投射到圖像中。
由於體積渲染是自然可分的,因此優化函數所需的唯一輸入是一組具有已知相機姿勢的圖像。這樣一來,NeRF就能通過計算渲染圖像和ground-truth之間的重建損失,來有效地優化神經輻射場。模型渲染出的具有複雜幾何形狀和外觀的場景視圖,明顯優於之前工作的結果。
2、Towards Streaming Perception
論文連結:https://arxiv.org/abs/2005.10420
自動駕駛汽車等實際應用需要類似於人類的快速反應時間,通常為200毫秒。在這樣的條件約束下,需要低延時的算法來確保汽車安全行駛。雖然近來計算機視覺算法的延遲也成為了一個研究熱點,但也僅僅是在離線環境下進行探索。而在線感知會帶來完全不同的延遲要求。因為當一個算法完成對某一幀圖像的處理時,比如200ms後,周圍的世界就已經發生了變化,如下圖所示。這迫使模型要對未來進行預測,這也是人類視覺的一個基本屬性。
本文介紹了流式感知的目標,即實時在線感知,並提出了一個新的元基準,可以系統地將任何圖像理解任務轉換為流式圖像理解任務。這個基準建立在一個關鍵先驗觀察上:流式感知需要隨時了解世界的狀態。因此,當一個新的幀到達時,流式算法必須報告世界的狀態,即便它們還沒有完成對前一幀的處理,這會迫使它們考慮在計算時忽略無關的信息。
具體來說,在比較模型的輸出和ground-truth時,對應的標準是時間而不是輸入的索引順序,所以模型需要在處理相應的輸入之前,給出時間步長
的正確預測,即如果模型需要
來處理輸入,它只能使用
之前的數據來預測時間
的輸出。
3、Teaching Cameras to Feel: Estimating Tactile Physical Properties of Surfaces From Images
論文連結:https://arxiv.org/abs/2004.14487
人類能夠在年輕時形成一種心理模型,該模型能將人類對物體的感知和感知的觸覺產生一種映射,這基於之前與不同物品互動時的經驗。當與新奇的對象進行交互時,尤其是當現有信息無法準確估計觸覺的物理特性時,這種心理模型就變成了非常有價值的工具。
為了更直接地模擬這種心理模型,本文提出直接估計物理屬性的方法,直接利用物體的屬性。首先,作者提出了400多個圖像序列和觸覺屬性測量的數據集。由於在估計表面屬性時,人們會經常不自覺地移動頭部,來獲取一個表面的多個視圖,因此,捕獲的圖像序列包括每個物體表面的多個視角。
然後,他們提出了一個跨模態框架,用於學習視覺線索到觸覺屬性的複雜映射。該模型的訓練目標是在給定視覺信息的情況下生成精確的觸覺屬性估計。視覺和觸覺信息都通過單獨的編碼器網絡嵌入到一個共享的隱空間。然後,一個生成器函數從嵌入的視覺向量中估計觸覺屬性值。判別器網絡來判別觸覺-視覺對是真實的還是合成的。在推理過程中,則使用編碼器-生成器來對輸入圖像推理觸覺屬性。
4、Convolutional Occupancy Networks
論文連結:https://arxiv.org/abs/2003.04618
三維重建是計算機視覺中的一個重要問題,有很多應用。對於一個理想的三維幾何表示,需要能夠滿足以下四點,a)對複雜的幾何和任意的拓撲結構進行編碼,b)能夠擴展到大型場景,c)兼顧局部和全局信息,d)在內存和計算方面是可控的。
然而,現有的三維重建的表示方法並不能都滿足這些要求。雖然最近的隱式神經表示法在三維重建中表現出了更好的性能,但由於其使用簡單的全連接網絡結構,無法將局部信息整合到觀測值中,也無法加入類似平移等價性的歸納偏差。
卷積佔位網絡利用卷積編碼器與隱式佔位解碼器,結合歸納偏差,實現三維空間的結構化推理,這使得單個物體的隱式三維重建更加精細,具有擴展到大型室內場景的能力,並且能很好地從合成數據到真實數據進行泛化。
4
圖像和視頻合成
1、Transforming and Projecting Images into Class-conditional Generative Networks
論文連結:https://arxiv.org/abs/2005.01703
GaNs能夠從不同的類中生成不同的圖像。例如,BigGaN(一種條件GaN),給定一個噪聲向量
和一個類嵌入
,該模型能夠從該類中生成一個新的圖像。然後,可以通過編輯噪聲向量和類嵌入的隱變量來操作該圖像。但是,反過來是否可行呢,即給定一個輸入圖像,我們能不能找到與該圖像最匹配的隱變量z和類嵌入
?由於許多輸入圖像無法由GaN生成,因此這個問題仍然具有挑戰性。此外,目標函數有很多局部最小值,搜索算法很容易卡在這些區域。
為了解決這些問題,本文提出了pix2latent,並提出了兩個新的思路:在尺度上估計輸入變換,以及使用非局部搜索算法來尋找更好的解決方案。
如上圖所示,給定一個輸入圖像,pix2latent首先找到最佳變換,使變換後的輸入GaN產生的圖像非常接近,然後利用提出的BasicCMA優化方法將圖像投射到隱空間。然後對得到的隱變量進行編輯,投射回圖像空間得到編輯後的圖像,然後可以對圖像進行初始變換的逆向變換。
2、Contrastive Learning for Unpaired Image-to-Image Translation (paper)
論文連結:https://arxiv.org/abs/2007.15651
給定兩組不同屬性和模式的圖像對的訓練集,例如,馬和斑馬的圖像,圖像翻譯的目標是學習兩個模式之間的翻譯函數,例如,將馬轉化為斑馬,反之亦然,同時保留姿勢或大小等信息,不需要獲得兩個模式之間的一對一的匹配數據集。現有的方法如CycleGaN迫使模型的生成圖像與原始圖像一致。但是這種方往往限制性太強,因為一個給定的翻譯圖像會有很多可能的輸入圖像。理想的損失應該對不同的風格不變,但要區分敏感信息。
對比形式的非配對翻譯(CUT)旨在學習這樣的嵌入空間。除了標準的GaN損失,還加入了一個額外的損失,用來拉近輸入圖像和生成圖像上某個patch的特徵嵌入之間的距離。
3、Rewriting a Deep Generative Model
論文連結:https://arxiv.org/abs/2007.15646
GAN能夠對數據分布建模一組豐富的語義和物理規則,但是到目前為止,我們仍然不清楚如何在網絡中編碼此類規則或如何更改規則。本文引入了一個新的問題:對深層生成式模型編碼的特定規則進行操作。因此,給定一個生成模型,目標是調整其權重,以便新模型和修改後的模型遵循新規則,並生成遵循新規則集的圖像,如下所示:
通過將每一層視為關聯存儲,將隱層規則存儲為隱式特徵上的一組鍵值關係。可以通過定義約束優化來編輯模型,該約束優化可以在關聯內存中添加或編輯一個特定規則,同時儘可能保留模型中的現有語義關係。論文直接通過測量和操作模型的內部結構來做到這一點,而不需要任何新的訓練數據。
4、Learning Stereo from Single Images
論文連結:https://arxiv.org/abs/2008.01484
給定一對相應的圖像,立體匹配的目標是估計從第一視圖到第二視圖的每個像素的相應位置之間的像素水平位移(即差距),反之亦然。雖然全監督的方法給出了很好的結果,但其很難獲得一對立體圖像之間的精確的差距。一個可能的替代方法是在合成數據上進行訓練,然後在有限數量的真實標註數據上進行微調。但是如果沒有帶有足夠標籤的微調步驟,這種模型就無法很好地生成真實圖像。
論文提出了一種新穎的全自動pipeline,用於從給定深度彩色模型的單個圖像的非結構化集合中生成立體訓練數據,而無需合成數據或立體圖像對進行訓練。使用深度估計網絡。首先,給定的左輸入圖像通過前向計算得到特徵向量,再結合深度視差轉換為合成的右圖像。然後,利用立體圖像對,再以監督的方式對立體網絡進行訓練,從而得到一個通用性良好的模型。
5、What makes fake images detectable? Understanding properties that generalize
論文連結:https://arxiv.org/abs/2008.10588
雖然GaN生成圖像的質量已經達到了令人驚嘆的水平,但經過訓練用來鑑偽的深度網絡仍然可以發現這些生成圖像中的細微偽影,而且這種經過訓練的網絡還可以在不同數據集和不同方法訓練的多個模型中發現相同的偽影。本文旨在可視化並了解哪些偽影在模型之間是共享的,並且很容易被檢測到,且可以在不同場景中轉移。
由於全局的面部結構在不同的生成器和數據集之間可能會有所不同,因此生成圖像的局部patch會非常固定,可能會共享多餘的偽影。為此,採用基於patch的全卷積分類器來關注局部patch而非全局結構。然後,可以使用路徑級分類器對各種測試數據集上最能代表真實或偽造圖像的patch進行可視化和分類。
5
視覺和語言
1、Connecting Vision and Language with Localized Narratives
論文連結:https://arxiv.org/abs/1912.03098
連接視覺和語言的一種方式是使用圖像字幕,每張圖像都會配上一段人為撰寫的字幕,但是這種連結方式需要在完整的圖像範圍內,句子往往會描述整個圖像。為了改進該連結方式,可以對圖像字幕的特定部分和圖像中的對象框之間建立額外的連結。但是這樣處理後的連結仍然非常稀疏,大多數圖像中的對象沒有與字幕連結,注釋過程也很昂貴。
本文提出了一種新的高效的多模態圖像注釋形式,用於連接視覺和語言,稱為「定位敘事」。定位敘事是通過要求注釋者用聲音描述圖像,同時將滑鼠懸停在他們所描述的區域上生成的。
如上圖所示,注釋者一邊說 "女人",一邊用滑鼠懸停在她的空間範圍,從而為這個名詞提供視覺基礎。之後,將滑鼠從女人移動到氣球上,說 "握住"。這樣就為這個動作提供了直接的視覺基礎。他還描述了 "晴朗的藍天 "和 "淺藍色牛仔褲 "等屬性。由於語音與滑鼠指針同步,可以確定描述中每一個詞的圖像位置。這就為每個詞提供了密集的視覺基礎。
具有多種模態(即圖像,文本和語音)的注釋可用於完成不同的任務,例如文本到圖像生成,視覺問答和語音驅動的環境導航。或者用於更細化的任務控制,比如對圖像的特定部分進行字幕調理,視力不佳的人可以將其懸停在圖像上,以獲取特定部分的描述。
2、UNITER: UNiversal Image-TExt Representation Learning
論文連結:https://arxiv.org/abs/1909.11740
大多數視覺與語言(V&L)任務,如視覺問答(VQA)都依賴於聯合多模態嵌入,以彌合圖像和文本中視覺和文本線索之間的語義差距。但這種表徵通常是為特定任務量身定做的,需要特定的架構。學習通用的聯合嵌入,可以用於所有的V&L下遊任務。
這篇論文介紹了UNITER,一個大規模的多模態聯合嵌入的預訓練模型,如下圖所示。基於Transformer模型,UNITER在4個任務上進行了預訓練:對圖像進行遮擋建模(MLM),其中使用圖像和文本功能恢復隨機遮擋的單詞。以文本為條件的遮擋區域建模(MRM),該模型重建給定圖像的一些區域。
圖像文本匹配(ITM),模型預測圖像和文本實例是否配對。以及單詞區域對齊(WRA),模型會找到單詞和圖像之間的最優對齊路徑。如果要在下遊任務上使用UNITER,首先要將它們重構為一個分類問題,然後在[CLS]特徵之後添加分類器,使用交叉熵損失進行訓練。
3、Learning to Learn Words from Visual Scenes
論文連結:https://arxiv.org/abs/1911.11237
視覺和語言的標準方法往往是學習一個通用的嵌入空間,但是這種方法效率低下,需要數百萬個示例來訓練,對語言的自然組成結構的通用性較差,並且在模型推理時,學習到的嵌入無法適應新詞。因此,本文建議不學習詞嵌入,而是學習獲取詞嵌入的過程。
該模型基於Transformer模型,並且在每次迭代時,模型都會接收一個圖像和語言對的情節,然後通過元學習策略從情節中獲取詞表示。該表示能夠在推理時獲取新詞,並且能夠更可靠地泛化到新的情況。具體而言,每個任務都被表述為語言學習任務或情節,由訓練示例和測試示例組成,其中測試示例評估從訓練示例中獲取的語言。
例如,在上圖中,該模型需要從訓練樣本中獲取單詞「 chair」,這是它從未見過的詞。元訓練是在正向傳遞中完成的,在訓練示例中,模型需要指向正確的單詞「 chair」,並且使用匹配損失來訓練模型。在對許多情節和任務進行訓練之後,該模型能夠在推理過程中非常快速地適應新任務。
原文連結:
https://yassouali.github.io/ml-blog/eccv2020/