CVPR 提前看:視覺常識的最新研究進展

2021-01-11 澎湃新聞

機器之心

機器之心分析師網絡

作者:仵冀穎

編輯:Joni Zhong

2020 年 CVPR 將於 6 月 13 日至 19 日在西雅圖舉行。今年的 CVPR 有 6656 篇有效投稿,最終錄用的文章為 1470 篇,接收率為 22%。作為計算機視覺三大頂會之一,CVPR 今年的論文方向依然為目標檢測、目標跟蹤、圖像分割、人臉識別、姿態估計等等。CVPR 是老牌的視覺、圖像和模式識別等研究方向的頂會,本篇提前看中,讓我們在人工智慧、深度學習熱潮的衝擊下,一起關注一下視覺常識的最新研究進展。

具體的,我們關注下面四篇文章:

1、What it Thinks is Important is Important: Robustness Transfers through Input Gradients

2、ClusterFit: Improving Generalization of Visual Representations

3、Learning Representations by Predicting Bags of Visual Words

4、AdderNet: Do We Really Need Multiplications in Deep Learning?

1、What it Thinks is Important is Important: Robustness Transfers through Input Gradients

論文連結:https://arxiv.org/abs/1912.05699

這篇文章關注的是模型面對對抗樣本時的魯棒性的問題。在源任務和目標任務使用模型架構相同的情況,對擾動具有魯棒性的權重在不同任務間也具有魯棒性。本文作者選擇了輸入梯度(input gradient)作為不同任務間遷移的媒介,從而實現任務不可知和體系結構不可知的魯棒性遷移,稱為「輸入梯度對抗匹配(input gradient adversarial matching (IGAM))」。之所以選擇輸入梯度,是因為魯棒的對抗訓練(Adversarial Training, AT)模型得到明顯的輸入梯度,而非魯棒模型則給出有噪聲的輸入梯度,如圖 1。每個像素的輸入梯度定義了微小的變化如何影響模型的輸出,並且可以粗略估計出每個像素對於預測的重要性。

IGAM 的核心思想是:訓練一個具有對抗性目標的學生模型(student model)以愚弄鑑別器,使得鑑別器將學生模型的輸入梯度視為來自一個魯棒的教師模型(teacher model)的輸入梯度。為了在不同的任務之間遷移,教師模型的邏輯層首先對目標任務進行簡單微調,隨後,在極大極小博弈中,凍結教師模型的權重,使用單獨的鑑別器訓練學生模型,以便學生模型和教師模型的輸入梯度具有語義相似性。IGAM 的訓練包括兩個階段:1)在目標任務上微調魯棒的教師模型;2)在學生模型訓練過程中,對抗正則化輸入梯度。

圖 1. CIFAR-10 圖像非魯棒模型(中間)和魯棒模型(右)的輸入梯度

首先,根據目標任務微調教師模型 f_t 的權重。將模型權重參數化為,微調階段使用交叉熵損失訓練模型:

我們使用微調的結果替換模型中的最終邏輯層,除邏輯層外凍結教師模型 f_t 的所有權重。將邏輯層前的所有被凍結權重表示為.^+,替換後新的邏輯層表示為_logit,得到教師模型的微調目標函數為:

在對目標任務的邏輯層進行微調之後,教師模型的所有參數()都固定不變。

其次,下一步我們在學生模型的訓練過程中進行輸入梯度匹配:在目標任務數據集 D_target 上表徵學生模型 f_s 的分類交叉熵損失為:

通過梯度反向傳播,得到學生模型 f_s 的輸入梯度為:

相應地,教師模型 f_t 的輸入梯度為:

參考 GAN(包含生成器和鑑別器模型的框架)的思想,為了使學生模型的輸入梯度與教師模型的輸入梯度相似,定義對抗正則化損失函數如下:

同時考慮在目標任務數據集 D_target 上表徵學生模型 f_s 的分類交叉熵損失函數 L_θ,xent,可以通過快速梯度下降(SGD)來優化,以近似得到如下的最佳參數:

鑑別器通過最大化對抗損失項來學習正確地區分輸入梯度。將 f_disc 參數化表示為φ,同樣使用 SGD 訓練鑑別器:

此外,本文還引入 L_diff 來懲罰從同一輸入圖像生成的 Js 和 Jt 之間的 L2-norm 差異:

最終得到完整的學生模型 f_s 的訓練目標函數為:

IGAM 的完整訓練過程如圖 2:

圖 2. 輸入梯度對抗匹配的訓練過程

以及,代碼如下:

最後,作者討論了在不同維度的任務之間遷移的問題。為了沿與輸入梯度相反方向的梯度傳播損失,使用仿射函數來調整目標任務圖像以匹配教師模型輸入層的維度:

隨後,可以計算教師模型的交叉熵損失如下:

由於仿射函數是連續可微的,可以通過反推得到輸入梯度:

圖 3 給出了令圖像與教師模型輸入維度的匹配轉換的三個示例,分別為圖像縮放、圖像切割和圖像填充。

圖 3. 令圖像與教師模型輸入維度的匹配轉換的示例

實驗分析

本文在由 MNIST、CIFAR-10、CIFAR-100 和 Tiny-ImageNet 組成的源-目標數據對上完成了 IGAM 實驗。圖 4 給出了不同數據集中的輸入梯度,與標準的模型相比,IGAM 模型的輸入梯度噪聲較少。表 1、表 2 以及圖 5 分別給出了不同資料庫中的實驗結果,這些結果表明 IGAM 可以在不同的任務之間,甚至在不同的模型結構之間傳遞魯棒性。

圖 4. 不同模型的輸入梯度

表 1. 遷移無噪和對抗性 CIFAR-10 測試樣本的準確度

表 2. CIFAR-100 測試樣本的準確度

圖 5. Tiny-ImageNet 測試樣本的準確度

小結

這篇文章討論的是在圖像處理的源任務和目標任務的模型架構相同的情況下,尋找在不同任務間具有魯棒性的視覺相關的指標。本文作者使用的是輸入梯度,並通過大量實驗驗證了其有效性。類似的,下一步研究可以探討其它衡量輸入梯度語義的指標,以及探討引入其它指標或特徵來實現對抗魯棒性。

2、ClusterFit: Improving Generalization of Visual Representations

論文連結:https://arxiv.org/abs/1912.03330

通過引入自由標註,弱自監督預訓練方法具有良好的適應性。但是,弱自監督預訓練方法需要預先逼近一個代理目標函數,以及,假定這個代理目標函數與隨後的轉移主任務一致,通過優化該代理目標函數就能夠生成合適的預先訓練的視覺表示。這一假設在充分監督的預訓練(fully-supervised pre-training)中基本能夠保證成立,但是對於弱自監督學習來說,這很難保證。這篇文章探討的問題是「有沒有一種方法可以解決弱自監督的預訓練階段對代理目標函數過度擬合問題?」作者的思路是:通過對代理目標學習到的特徵空間進行平滑處理(smooth)來解決這一問題。本文提出一種簡單的框架 ClusterFit (CF),該框架與經典的弱自監督預訓練(遷移學習)之間的關係見圖 1。一個經典的遷移學習框架包括兩個階段:預訓練+遷移學習(即圖 1 的上半部分),而 ClusterFit 相當於在這些階段之間增加了一個步驟,即圖 1 下半部分虛線引出的內容。在圖 1 中,D_cf 表示 CF 框架引入的資料庫,D_pre 是經典預訓練資料庫,D_tar 是測試目標資料庫,N_pre 表示經典預訓練網絡,N_cf 表示 CF 框架引入的網絡。

圖 1. 完整的 ClusterFit(CF)流程

CF 框架介紹

CF 主要包括兩步驟的工作,第一步,Cluster,給定一個使用代理目標函數和新數據集進行訓練的網絡,利用學習到的特徵空間對該數據集進行聚類。第二步,Fit,使用聚類作為偽標籤在這個新數據集上從頭開始訓練一個新網絡,見圖 2。

圖 2. ClusterFit (CF) 結構

首先得到一個在資料庫 Dpre 和標籤 Lpre 中預訓練的神經網絡 Npre。使用 Npre 的預處理層從另一個資料庫 Dcf 的數據中提取特徵。接下來,使用 k-means 將這些特性聚集到 K 組中,並給這些聚類分配新分類「標籤」(Lcf)。最後,基於 Dcf 利用交叉熵損失函數得到另一個網絡 Ncf。

作者討論了在受控設置下從「代理目標函數」訓練學習到的特徵的泛化程度。作者設置了這樣一個實驗場景:在 ImageNet-1K 資料庫中,人為添加合成的標籤噪聲,目的是使得代理目標函數的預訓練與下遊的訓練任務儘量不同。圖 3 給出了不同的標籤噪聲 p 取值的 N_pre(即 CF 之前)和 N_cf(即 CF 之後)的遷移學習性能。在訓練前存在大量的標籤噪聲的情況下,CF 仍然能夠學習到可遷移的有效特性,對於更細粒度的目標任務,如 ImageNet-9K,CF 甚至可以改進有監督的 ResNet-50 模型(p=0)

圖 3. 控制實驗

實驗分析

在 11 個公開的、具有挑戰性的圖像和視頻基準數據集上,ClusterFit 顯示出顯著的性能提升,具體見表 1。ClusterFit(CF)適用於各種不同的預訓練方法、模式和結構。

表 1. 實驗結果匯總

在 CF 整體框架中,Npre、Ncf 的大小、預訓練標籤空間的顆粒度等,都會影響 CF 的效果。如圖 4 的實驗結果,在 Npre 容量較大的情況下,不同 K 取值能夠保證有 2%—3% 的持續改進。這表明,具有較大容量的 Npre 能夠生成更豐富的聚類視覺特徵,從而提高遷移學習性能。圖 5 中,遷移學習的性能隨著 Dpre 預訓練標籤數量的增加 log-線性的增長。增加標籤的數量是非常容易的,作者認為,該實驗結果證明了 CF 在設計一個通用的預訓練標籤空間任務中的實用性。

圖 4. Npre、Ncf 的選擇影響

圖 5. Npre 中標籤數量的影響

小結

CF 是一個可伸縮的、通用的框架,對模型架構、數據模式和監督學習的形式沒有任何限制。其中,聚類(Clustering)的處理可以看作是一種有效捕獲特徵空間中的視覺不變性的有損壓縮方案。在此基礎上,預測聚類的標籤使「重新學習」的網絡能夠學習到對原始預訓練目標不太敏感的特性,從而使這些特徵更易於「遷移」。作者提出了幾個下一步考慮的研究方向,包括:引入域知識、結合不同類型的預訓練模型完成多任務學習、在聚類過程中引入證據積累(evidence accumulation)方法等。

3、Learning Representations by Predicting Bags of Visual Words

論文連結:https://arxiv.org/abs/2002.12247

自監督表徵學習使用圖像中的可用信息(例如,預測兩個圖像塊的相對位置)定義的無標註預文本(unlabeled pretext)訓練卷積神經網絡(convnet),通過這樣一個基於預文本的預訓練,使得 convnet 能夠學習到對一些視覺任務有用的表示,例如圖像分類或對象檢測等任務所需的表示。

一個值得探討的問題是,究竟哪種自監督是有效的?

類似的,在自然語言處理(NLP)中,自監督方法在學習語言表示方面獲得了巨大的成功,如 BERT 預測句子中的缺失單詞等。NLP 與計算機視覺的不同之處在於:(1)與圖像像素相比,文字能夠表徵更多的高級語義概念,(2)文字是在離散空間中定義的,而圖像是在連續空間中定義的,這就導致對圖像像素的小擾動雖然不會改變圖像描繪的內容,但是卻會顯著的影響圖像重建任務的效果。

儘管二者之間存在很大的不同,本文作者嘗試借鑑 NLP 的思想,通過對離散視覺概念進行密集描述的方法,在圖像處理任務中構建離散目標函數。首先採用一種自監督方法(如旋轉預測法)訓練一個初始 convnet,學習捕獲中圖像特徵的比較抽象的特徵表示。其次,使用基於 k-均值的詞彙庫對基於 convnet 的特徵映射進行密集量化,從而得到基於離散編碼(即 k-均值聚類分配)的空間密集圖像描述,也就是所謂視覺單詞(visual words)。經過這次離散化的圖像處理後,使我們借鑑 NLP 的自監督學習變為可能,例如,可以很好地訓練一個類似於 BERT 的體系結構,該體系結構作為圖像中的圖像塊的一個子集輸入,預測缺失圖像塊的視覺單詞。本文作者從計算機視覺中所謂的詞袋(Bag-of-Words,BoW)模型中獲得靈感,提出將其作為一個自監督的任務訓練一個 convnet 來預測圖像視覺單詞的直方圖(也稱為 BoW 表示)。完整的基於視覺詞袋預測的自監督表示學習流程見圖 1。

圖 1. 視覺詞袋預測學習表示

給定一個訓練圖像 x,第一步,使用預先訓練的 convnet 創建一個基於空間密集視覺詞的描述 q(x)。利用 k-均值算法將 K 個聚類應用於從數據集中提取的一組特徵圖,通過優化以下目標,學習視覺詞彙的嵌入特徵:

令Φ^(x) 表示輸入圖像 x 的特徵圖,Φ^u(x) 表示對應第 u 個位置的特徵向量,對於每個位置 u,將相應的特徵向量Φ^u(x) 賦給其最近的(以平方歐式距離為單位)視覺詞嵌入 q^u(x):

第二步,創建圖像 x 的離散表示 q(x) 的 BoW 表示:y(x)。可以採用兩種表示形式:

y(x) 是一個 k 維向量,其中第 k 個元素 y_k(x) 編碼第 k 個視覺詞在圖像 x 中出現的次數。結果 y(x) 可以被看作是圖像 x 的第 K 個視覺詞的軟分類標籤。K 值可能較大,因此 BoW 表示 y(x) 是相當稀疏的。

第三步,基於提取的 BoW 表示,執行自監督任務:給定圖像 x,使用擾動算子 g(·) 生成擾動圖像 x˜=g(x),然後訓練模型基於擾動圖像 x˜「預測/重建」原始圖像 x 的 BoW 表示。本文使用的擾動算子 g(·):包括(1)顏色抖動(即圖像的亮度、對比度、飽和度和色調的隨機變化);(2)以概率 p 將圖像轉換為灰度;(3)隨機圖像裁剪;(4)比例或縱橫比失真;(5)水平翻轉。

定義一個預測層Ω(·),該預測層以Φ(x˜)作為輸入,輸出 BoW 中的 K 個視覺詞的 K 維 softmax 分布。該預測層通過 liner-plus-softmax 層實現:

其中,W = [w_1,· · · ,w_K] 是線性層的 K 個 c 維權重向量(每個視覺詞一個)。為了學習 convnet 模型,最小化預測的 softmax 分布Ω(Φ(x˜))和 BoW 分布 y(x)之間的期望交叉熵損失:

其中,loss(α, β) 為交叉熵損失。

訓練前隨機初始化Φ(·),之後,在自監督學習過程中每次使用先前訓練的模型Φˆ(·)生成 BoW 表示。作者表示,第一次迭代後得到的模型已經具有較好的效果,因此,一般只需要執行一至兩次迭代就可以得到最終結果。

實驗分析

本文在 CIFAR-100、Mini-ImageNet、ImageNet、Places205、VOC07 分類和 V0C07+12 檢測資料庫中上評估了所提出的方法(BoWNet)。

表 1. CIFAR-100 線性分類及少樣本測試結果,其中,Φˆ(·)採用 WRN-28-10 架構實現

表 2. Mini-ImageNet-100 線性分類及少樣本測試結果,其中,Φˆ(·)採用 WRN-28-10 架構實現

表 1 和表 2 給出了 CIFAR-100 和 Mini-ImageNet 庫上的結果。通過比較 BoWNet 和 RotNet(用於構建 BoWNet)的性能,實驗結果顯示 BoWNet 將所有的評估指標至少提高了 10 個百分點,迭代使用 BoWNet(BoWNet×2 和 BoWNet×3)能夠進一步提高分類任務的準確度(除了 one-shot 的情況)。此外,在表 1 給出的 CIFAR100 線性分類任務的結果數據中,BoWNet 性能大大優於最近提出的 AMDIM。在表 2 給出的 Mini-ImageNet 庫的分類任務結果數據中,BoWNet 的性能與有監督 CC 模型的性能非常接近。

表 3. ResNet-50 線性支持向量機的 VOC07 圖像分類結果

在 VOC07 庫中使用 Goyal 等人提供的公開代碼對自監督方法進行基準測試,在凍結學習表示的基礎上訓練線性 SVM,其中,使用 VOC07 訓練+驗證數據子集進行訓練,使用 VOC07 測試子集進行測試。實驗中考慮了第三(conv4)和第四(conv5)殘餘分塊的特徵,結果見表 3。表 3 中的實驗數據顯示,BoWNet 優於所有先前的方法。

表 4. ImageNet 和 Places205 中線性分類準確度(使用 ResNet-50 結構)

使用基於凍結特徵表示的線性分類器對 1000-way ImageNet 和 205-way Places205 的分類任務進行評估。表 4 中的實驗數據顯示,BoWNet 優於所有先前的自監督方法。此外,在 Places205 中,使用本文方法訓練的 ImageNet 的 BoWNet 表示和 ImageNet 訓練得到的有監督表示之間的位置的精度差距僅為 0.9 points。作者認為,這表明了對於「訓練階段看不到的」Places205 的類別,使用本文提出的方法得到的自監督表示與有監督方法得到的表示具有幾乎相同的泛化能力。

表 5. V0C07+12 的目標檢測任務結果(使用快速 R-CNN 微調結構)

將 BoWNet conv4 和 BoWNet conv5 與經典的和最新的自監督方法進行了比較,結果在表 5 中。有趣的是,在作者給出的這個實驗結果中,BoWNet 的性能優於有監督的 ImageNet 預訓練模型,後者在與 BoWNet 相同的條件下進行微調。基於這個實驗結果,作者認為,本文提出的自監督表示比有監督表示更適用於 VOC 檢測任務。

小結

本文提出了一種新的表示學習方法 BoWNet,該方法以視覺詞彙的空間密集描述為目標進行自監督訓練。由本文的實驗和分析可知,BoWNet 是在無標籤監督的情況下學習的特徵上訓練的,但它獲得了很好的效果,甚至優於了初始模型。這一發現以及特徵空間的離散化處理(變成視覺詞彙)為後續的研究提供了新的思路。

4、AdderNet: Do We Really Need Multiplications in Deep Learning?

論文連結:

https://arxiv.org/pdf/1912.13200

加法、減法、乘法和除法是數學中最基本的四種運算。眾所周知,與加法相比,乘法計算複雜度高、計算速度慢。在深度神經網絡中,度量輸入特徵與卷積濾波器的相似性是通過計算大量的浮點數相乘來實現的。在這篇文章中,作者提出了一種加法器網絡(AdderNet),在放棄卷積運算的同時最大限度地利用加法,即,給定一系列小模板作為「神經網絡中的濾波器」,使用 L1-norm 距離計算輸入信號和模板之間的差異。圖 1 中對比了經典 CNN 與本文提出的 AdderNet 提取特徵的可視化展示。CNN 是通過角度來區分不同類別的特徵,而使用 L1-norm 距離的 AdderNet 則是通過向不同類別的類中心聚集來區分別不同類別的特徵。由於減法可以通過其補碼通過加法實現,因此 L1-norm 距離可以是一種硬體友好的僅具有加法的度量,作者認為,它可以成為構造神經網絡的卷積的有效替代方法。

圖 1. AdderNets 和 CNNs 中特徵的可視化

模型介紹

給定一個深度神經網絡的中間層,考慮一個濾波器 F,其中核大小為 d,輸入通道為 c_in,輸出通道為 c_out。輸入特徵定義為 X,令 H 和 W 分別為特徵的高度和寬度,輸出特徵 Y 表示濾波器和輸入特徵之間的相似性,得到公式:

其中,S(·,·)表示預定義的相似性度量。如果使用互相關性作為距離度量,即 S(x,y)=x×y,則上式為卷積運算。此外,還有許多其他的度量能夠用來測量濾波器 F 和輸入特徵 X 之間的距離。然而,這些度量中的大多數涉及乘法運算,具有較高的計算成本。因此,本文作者使用加法測量距離。L1-norm 距離計算的是兩個矢量表示的絕對差之和,它不包含乘法運算。此時,相似性計算公式為:

經典 CNN 中,作為輸入特徵映射中的值的加權和,卷積濾波器的輸出可以是正的或負的,但是加法器濾波器的輸出總是負的。因此,引入批量歸一化將加法器的輸出層規範化到一個適當的範圍內,然後在所提出的加法器中使用經典 CNN 中使用的所有激活函數。儘管在批量規範化層中涉及乘法運算,但其計算成本明顯低於卷積層,可以省略。

模型訓練

神經網絡利用 BP 反向傳播計算濾波器的梯度,利用隨機梯度下降更新參數。在經典 CNN 中,輸出特性 Y 相對於濾波器 F 的偏導數計算為:

其中,i∈[m,m+d],j∈[n,n+d]。在 AdderNet 中,輸出特性 Y 相對於濾波器 F 的偏導數計算為:

其中 sgn(·)表示符號函數,梯度值只能取 1、0 或-1。然而,signSGD 幾乎不接受最陡下降的方向,使用 signSGD 對大量參數的神經網絡進行優化是不合適的。本文使用下式優化:

除了濾波器 F 的梯度外,輸入特性 X 的梯度對於參數的更新也很重要。因此,本文也使用上式計算 X 的梯度。為了防止計算 X 梯度時出現梯度爆炸的問題,將 X 的梯度限制在 [-1,1] 區間中。輸出特性 Y 相對於輸入特性 X 的偏導數計算為:

其中,HT(·)表示 HardTanh 函數:

自適應學習速率尺度

經典 CNN 中,假設權值和輸入特徵是獨立的,並且在正態分布下分布一致,則輸出方差可以粗略估計為:

而對於 AdderNet,輸出方差可以近似為:

其中 F 和 X 服從正態分布。由此可見,與經典 CNN 較小的 Var 值不同,AdderNet 中的加法運算會導致加法器的輸出方差數值較大。本文提出了一種自適應學習方法,即在 AdderNet 的不同層中採用自適應的學習效率,具體的,AdderNet 中每層 (l) 的更新為:

其中,γ為整個神經網絡的全局學習率,∆L(F_l) 是濾波器的梯度,α_l 為相應的局部學習率,具體的:

其中,k 表示 F_l 中平均 L_2 範數的元素個數,η是控制加法器濾波器學習速率的超參數。

通過自適應學習速率調整,可以用幾乎相同的步驟更新不同層的加法器濾波器。算法 1 給出 AdderNet 的訓練過程。

實驗結果

AdderNet 在大規模神經網絡和數據集上取得了非常好的表現,包括 MNIST,CIFAR,ImageNet。在 MNIST 中的分類結果如表 1。與 CNNs 相比,AdderNet 在沒有進行乘法計算的前提下,獲得了幾乎相同的結果。

表 1. CIFAR-10 和 CIFAR-100 數據集上的分類結果

表 2.ImageNet 數據集上的分類結果

在 ImageNet 中的分類結果如表 2。與 CNNs 相比,AdderNet 在沒有進行乘法計算的前提下,Top-1 和 Top-5 的結果與 CNN 接近。而 BNN 儘管能夠實現高計算速率和高壓縮比,但是分類效果較差。

圖 2. MNIST 數據集上 LeNet-5-BN 第一層過濾器的可視化。這兩種方法都能為圖像分類提取有用的特徵

圖 2 給出的是 MNIST 數據集上的可視化效果。儘管 AdderNet 和 CNN 使用不同的距離度量,但是 AdderNet 的濾波器仍然能夠提取與卷積濾波器所提取的相似的特徵。可視化實驗進一步證明,AdderNet 能有效地從輸入圖像和特徵中提取有用信息。

小結

本文探討的是在深度神經網絡中使用加法計算替代乘法計算的可能性,給出的實驗結果證明了 AdderNet 能在不使用乘法計算的前提下,獲得與經典 CNN 相當的分類效果,此外所提取特徵的可視化也顯示出 AdderNet 所提取的特徵與經典 CNN 類似。不過,在這篇文章中,作者並沒有給出關於計算速率、時長、消耗的定量分析結果。作者提出,下一步的研究計劃是分析 AdderNet 的量化結果,以實現更高的速度和更低的能量消耗。此外,將探討 AdderNet 的通用性,將其應用於檢測和分割任務中。

作者介紹:仵冀穎,工學博士,畢業於北京交通大學,曾分別於香港中文大學和香港科技大學擔任助理研究員和研究助理,現從事電子政務領域信息化新技術研究工作。主要研究方向為模式識別、計算機視覺,愛好科研,希望能保持學習、不斷進步。

關於機器之心全球分析師網絡 Synced Global Analyst Network

機器之心全球分析師網絡是由機器之心發起的全球性人工智慧專業知識共享網絡。在過去的四年裡,已有數百名來自全球各地的 AI 領域專業學生學者、工程專家、業務專家,利用自己的學業工作之餘的閒暇時間,通過線上分享、專欄解讀、知識庫構建、報告發布、評測及項目諮詢等形式與全球 AI 社區共享自己的研究思路、工程經驗及行業洞察等專業知識,並從中獲得了自身的能力成長、經驗積累及職業發展。

感興趣加入機器之心全球分析師網絡?點擊閱讀原文,提交申請。閱讀原文

原標題:《CVPR 提前看:視覺常識的最新研究進展》

閱讀原文

相關焦點

  • AAAI 2020學術會議提前看:常識知識與常識推理
    常識問題是人工智慧領域最難的問題之一。在 NLP 領域,BERT 模型雖然已經表現出色,但是在常識知識問答數據集上的性能仍舊遠低於人類。在計算機視覺領域,結合視覺場景的常識知識問答問題仍然具有較大難度。促進人工智慧發展,使得機器具有「常識思維」,對於常識知識、常識推理的研究是值得關注的未來發展方向。
  • 常識知識圖譜如何用在計算機視覺?華盛頓大學Yejin Choi最新86頁PPT及論文講解
    常識知識圖譜如何在計算機視覺中發揮作用,從識別跨越到認知?華盛頓大學Yejin Choi博士一直研究視覺常識推理的研究,讓我們來學習如何用常識圖譜在CV建模提升認知。她也是艾倫人工智慧研究所的高級研究經理。她是2013年ICCV的Marr獎(最佳論文獎)的共同接受者,2018年Borg Early Career award (BECA)的接受者,並被提名為2016年IEEE AI的10大看點之一。她在康奈爾大學獲得了計算機科學博士學位(導師:Claire Cardie教授),並在韓國首爾國立大學獲得了計算機科學與工程學士學位。
  • CVPR 2019提前看:少樣本學習專題
    近兩年來我們注意到學界開始改變之前大數據好效果的模型訓練方式,關注用少量的數據來達到較好的任務表現,目前此類方法還處在學界探索實驗階段,在業界運用還不算普及(由於業界產品對模型精確度有比較高的要求,且大多針對的都是特定業務細分場景),然而該方向『小數據學好模型』的思想對之後的機器學習研究和應用都具有非常好的前景以及應用潛力,所以筆者今年挑了四篇思路和方法都比較新穎,同時結果也具有說服力的少樣本學習的文章進行了比較細緻的引讀和推薦
  • 歷年 CVPR 最佳論文盤點(2000 年——2018 年)
    (接收論文列表:http://cvpr2019.thecvf.com/files/cvpr_2019_final_accept_list.txt)正當學界紛紛議論各單位獲接收論文多寡的當兒,雷鋒網 AI 科技評論為大家精心整理了一份從 2000 年——2018 年的 CVPR 最佳論文清單,藉此對這批計算機領域的重要論文進行複習。
  • 谷歌在CVPR2020分享最新AR/VR研究成果
    來源:映維網 作者 廣州客2020年計算機視覺和模式識別大會(Conference on Computer Vision and Pattern Recognition;CVPR)正在如火如荼地進行中,來自世界各地的計算機視覺研究者和工程師都在這裡分享最新的進展。
  • 果蠅的視覺系統研究進展
    這些視覺地圖是由百萬個神經細胞組成的,為了使成年動物能正常看見,在發育過程中這些神經細胞需要正確地組裝。一般認為,視覺地圖的複雜性就象其他大腦區域一樣,不僅僅按照遺傳學編程,而且需要大腦神經元或者神經細胞的活性。 出版在當前生物學雜誌上的最新研究,Baylor醫學院發育生物學主任Dr.  Hugo  Bellen實驗室Drs.  P.
  • ECCV 2020|Workshop第一彈:視覺研討會,最新研究成果一網打盡
    Workshop是研究人員們交流最新的研究成果、科研經驗、新興研究方向的主要途徑之一。本研討會將探討內部學習的最新進展、討論未來的發展方向,為研究內部學習的學者提供交流的平臺和豐富的交流機會。目前研究人人員傾向於在特定場景下使用特定方法解決問題,但對於其他計算機視覺領域類似的解決方法了解有效。這一研討會將更深入地探討不平衡問題,由於基於學習的方法在計算機視覺中佔據主導地位,所以不平衡問題的進步將會為各個領域的應用帶來實質性進展,提升業界和學界對於不平衡問題的關注與研究興趣。
  • NeurIPS提前看|四篇論文,一窺元學習的最新研究進展
    作為人工智慧領域的年度盛會,每年人工智慧的專家學者以及工業企業界的研發人員都會積極參會,發布最新的理論研究結果以及應用實踐方面的成果。今年,國外的高校和研究機構一如既往的踴躍參加本屆 NeurIPS,其中 Google 共貢獻了 179 篇文章,斯坦福和卡耐基梅隆分別有 79 篇和 75 篇文章。
  • AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展
    為了向讀者們介紹更多 AAAI2020 的優質論文,機器之心組織策劃了 AAAI 2020 論文分享,邀請國內外著名大學、研究機構以及工業界的研究人員詳細介紹他們發布在 AAAI 2020 的文章,歡迎大家持續關注。在本篇提前看中,我們重點聚焦 AAAI 2020 中與問答系統(Q&A)相關的文章。
  • 西電學子獲國際頂會CVPR2020 -VQA比賽亞軍
    由西安電子科技大學人工智慧學院焦李成教授指導,2019級人工智慧學院智能感知與圖像理解教育部重點實驗室研究生郭志成、趙嘉璇、張豔組成的學生隊伍—Sudoku在這一國際計算機視覺領域最高水平大賽中斬獲亞軍,並受邀在CVPR 2020-Visual Question Answering and Dialog Workshop(線上)作專題報告。
  • 科學家最新研究揭曉動物的彩色視覺能力
    自然界非常豔麗,難怪科學家數百年以來對於研究動物的顏色非常著迷,即使是今天,關於動物視覺、創造和使用色彩仍是生物學最吸引人的問題。在過去幾年裡,動物視覺仍存在著未解之謎,因為色彩研究人員僅是人類,這意味著他們無法看到其它動物所看到的豐富鮮豔色彩。
  • 多孔碳酸鈣製備技術及最新研究進展
    最新研究進展:  戴洪興等以多種軟模板劑製備出了3D介孔碳酸鈣。採用硬模板劑製備多孔碳酸鈣,其形貌主要受模板劑的影響,結構相對固定,在研究特定形貌合成過程中優勢明顯,但硬模板劑在除模板時存在較大困難,致使其發展較為受限。    最新研究進展:  CHEN等利用蓮藕作為模板,結合溶膠-凝膠法,通過蓮藕自身的特性製備得到了分層多孔的方解石型碳酸鈣和二氧化鈦。
  • 視覺感知-從人類視覺到計算機視覺
    但是,使計算機感知視覺世界有多困難?截至2019年,我們才取得了一定進展,但依舊還有很長的路要走。計算機視覺是計算機科學的一個相對較新的領域,大約有60年的歷史。現在將其描述為經典計算機視覺的AlexNet時刻。由於使用SIFT,人們無需考慮比例尺,照明變化和遮擋物,因此為對象識別研究提供了動力。 機器學習啟發了計算機視覺 到2000年,統計機器學習已在人們眼中飛速發展。
  • SSA最新研究進展盤點
    為了驗證這一問題,研究者從西班牙R-GETNE和Christie NHS兩個資料庫中納入了535例符合以下入組標準的病例進行分析:(1)至少每6個月行CT檢查監測腫瘤是否進展,(2)組織學證實的GEP-NET,(3)Ki-67≤20%,高分化NET,(4)一線單藥使用SSA直至進展。研究結果顯示,一線使用SSA,患者中位PFS和OS分別為27.6個月和85.9個月。
  • 科學網—關注蛋白質修飾研究最新進展與應用前景
  • CVPR 2017國內外亮點論文匯集:史上最盛大會議,華人佔據半壁江山
    騰訊 AI Lab 作為騰訊最新成立的人工智慧實驗室,騰訊 AI Lab 在基礎層的技術研究上實力非常。   谷歌  CVPR 2017 研究集合:https://research.googleblog.com/2017/07/google-at-cvpr-2017.html共有超過 250 名 Google 員工將參加本次會議,同時參與和組織 CVPR 上的多個研討會。
  • ASCO2017:乳腺癌療法的最新研究進展
    2017年6月8日 訊 /生物谷BIOON/ --近日,在2017年美國臨床腫瘤學會(American Society of Clinical Oncology,ASCO)年會上,來自多國的研究人員都發布了他們關於乳腺癌治療方面的最新研究進展情況,本文中小編帶你一同解讀乳腺癌治療的最新進展情況。
  • 【盤點影響計算機視覺Top100論文】從ResNet到AlexNet
    1新智元編譯來源:github編譯整理: 新智元編輯部 【新智元導讀】計算機視覺近年來獲得了較大的發展,代表了深度學習最前沿的研究方向。本文梳理了2012到2017年計算機視覺領域的大事件:以論文和其他乾貨資源為主,並附上資源地址。
  • 幹細胞治療類風溼關節炎的最新研究進展
    近日,《Stem Cell Reviews and Reports》發布幹細胞治療類風溼性關節炎的最新研究成果,希臘醫學研究人員系統地檢索和回顧了類風溼關節炎患者經MSCs與安慰劑幹預的隨機或非隨機臨床試驗,共納入了4項臨床研究
  • 馬格列特:挑戰人類常識與視覺習慣的超現實主義者
    我們在看畫時首先感受到的,是視覺符號的直觀與文字符號的語義之間的對抗與撕裂。此畫的哲學解讀,馬格利特:這不是一個菸斗,理的維度隨著語言的出現而誕生。事實上,文字說的才是對的。因畫中畫著的菸斗,只是一個有著真實菸斗之形象的圖畫,它不是菸斗本身,所以文字只道出了事實。這就為我們揭開馬格列特繪畫中的核心思想:畫家畫的不是現實,畫家在創造一個形象的世界。