何愷明團隊:stop gradient是孿生網絡對比學習成功的關鍵

2021-02-23 夕小瑤的賣萌屋

孿生網絡已成為無監督表達學習領域的通用架構,現有方法通過最大化同一圖像的兩者增廣的相似性使其避免「崩潰解(collapsing solutions)」問題。在這篇研究中,作者提出一種驚人的實證結果:Simple Siamese(SimSiam)網絡甚至可以在無((1) negative sample pairs;(2)large batch;(3)momentum encoders)的情形下學習有意義的特徵表達。

作者通過實驗表明:對於損失與結構而言,「崩潰解」確實存在,但是「stop-gradient」操作對於避免「崩潰解」有非常重要的作用。作者提出了一種新穎的「stop-gradient」思想並通過實驗對其進行了驗證,該文所提SimSiam在ImageNet及下遊任務上均取得了有競爭力的結果。作者期望:這個簡單的基準方案可以驅動更多研員重新思考無監督表達學習中的孿生結構。

上圖給出了該文所提SimSiam的示意圖,它以圖像

註:上述公式等價於

上述兩個損失作用於每一張圖像,總損失是所有圖像損失的平均,故最小的可能損失為-1.

需要的是:該文一個非常重要的概念是Stop-gradient操作(即上圖的右分支部分)。可以通過對上述公式進行簡單的修改得到本文的損失函數:

也就是說:在損失

SimSiam的實現偽代碼如下,有沒有一種「就這麼簡單」的感覺???

for x in loader:   x1, x2 = aug(x), aug(x)   z1, z2 = f(x1), f(x2)   p1, p2 = h(z1), h(z2)   L = D(p1, z2)/2 + D(p2, z1)/2   L.backward()   update(f, h)     def D(p, z):   z = z.detach()   p = normalize(p, dim=1)   z = normalize(z, dim=1) return -(p*z).sum(dim=1).mean()


我們再來看一下SimSiam的基礎配置:

Optimizer: SGD用於預訓練,學習率為

作者在ImageNet上線進行無監督預訓練,然後採用監督方式凍結骨幹網絡訓練分類頭,最後在驗證集上驗證其性能。

在該部分內容中,我們將實證研究SimSiam的表現,主要聚焦於哪些行為有助於避免「崩潰解」。

上圖給出了Stop-gradient添加與否的性能對比,注網絡架構與超參保持不變,區別僅在於是否添加Stop-gradient。

上圖left表示訓練損失,可以看到:在無Stop-gradient時,優化器迅速找了了一個退化解並達到了最小可能損失-1。為證實上述退化解是「崩潰」導致的,作者研究了輸出的

作為對比,如果輸出具有零均值各項同性高斯分布,可以看到其標準差為

上圖right給出了KNN分類器的驗證精度,KNN分類器可用於訓練過程的監控。在無Stop-gradient時,其分類精度僅有0.1%,而添加Stop-gradient後最終分類精度可達67.7%。

上述實驗表明:「崩潰」確實存在。但「崩潰」的存在不足以說明所提方法可以避免「崩潰」,儘管上述對比中僅有「stop-gradient」的區別。

上表給出了Predictor MLP的影響性分析,可以看到:

當移除預測MLP頭模塊h(即h為恆等映射)後,該模型不再有效(work);

如果預測MLP頭模塊h固定為隨機初始化,該模型同樣不再有效;

當預測MLP頭模塊採用常數學習率時,該模型甚至可以取得比基準更好的結果(多個實驗中均有類似發現).

上表給出了Batch Size從64變換到4096過程中的精度變化,可以看到:該方法在非常大範圍的batch size下表現均非常好

上表比較了投影與預測MLP中不同BN的配置對比,可以看到:

移除所有BN層後,儘管精度只有34.6%,但不會造成「崩潰」;這種低精度更像是優化難問題,對隱含層添加BN後精度則提升到了67.4%;在投影MLP的輸出後添加BN,精度可以進一步提升到68.1%;在預測MLP的輸出添加BN後反而導致訓練變的不穩定。

總而言之,BN有助於訓練優化,這與監督學習中BN的作用類似;但並未看到BN有助於避免「崩潰」的證據

所提方法除了與cosine相似性組合表現好外,其與交叉熵相似組合表現同樣良好,見上表。此時的交叉熵相似定義如下:

可以看到:交叉熵相似性同樣可以收斂到一個合理的解並不會導致「崩潰」,這也就是意味著「崩潰」避免行為與cosine相似性無關。

儘管前述描述中用到了對稱損失,但上表的結果表明:SimSiam的行為不依賴於對稱損失:非對稱損失同樣取得了合理的結果,而對稱損失有助於提升精度,這與「崩潰」避免無關

通過上面的一些列消融實驗對比分析,可以看到:SimSiam可以得到有意義的結果而不會導致「崩潰」。優化器、BN、相似性函數、對稱損失可能會影響精度,但與「崩潰」避免無關;對於「崩潰」避免起關鍵作用的是stop-gradient操作。

接下來,我們將討論:SimSiam到底在隱式的優化什麼?並通過實驗對其進行驗證。主要從定義、證明以及討論三個方面進行介紹。

作者假設:SimSiam是類期望最大化算法的一種實現。它隱含的包含兩組變量,並解決兩個潛在子問題,而stop-gradient操作是引入額外變換的結果。我們考慮如下形式的損失:

其中

基於上述表述,我們考慮如下優化問題:

這種描述形式類似於k-means聚類問題,變量

對於

結合前述介紹,SimSiam可以視作上述求解方案的一次性交替近似。

此外需要注意:(1)上述分析並不包含預測器h;(2) 上述分析並不包含對稱損失,對稱損失並非該方法的必選項,但有助於提升精度。

作者假設:SimSiam是一種類似交錯優化的方案,其SGD更新間隔為1。基於該假設,所提方案在多步SGD更新下同樣有效。為此,作者設計了一組實驗驗證上述假設,結果見下表。

在這裡,

前述內容已經說明了所提方法的有效性,接下來將從ImageNet以及遷移學習的角度對比一下所提方法與其他SOTA方法。

上圖給出了所提方法與其他SOTA無監督學習方法在ImageNet的性能,可以看到:SimSiam可以取得具有競爭力的結果。在100epoch訓練下,所提方法具有最高的精度;但更長的訓練所得收益反而變小。

上表給出了所提方法與其他SOTA方法在遷移學習方面的性能對比。從中可以看到:SimSiam表達可以很好的遷移到ImageNet以外的任務上,遷移模型的性能極具競爭力

最後,作者對比了所提方法與其他SOTA方法的區別&聯繫所在,見上圖。

Relation to SimCLR:SimCLR依賴於負採樣以避免「崩潰」,SimSiam可以是作為「SimCLR without negative」。

Relation to SwAV:SimSiam可以視作「SwAV without online clustering」.

Relation to BYOL: SimSiam可以視作「BYOL without the momentum encoder」.

全文到此結束,對該文感興趣的同學建議去查看原文的實驗結果與實驗分析。

該文採通過非常簡單的設計探索了孿生網絡,所提方法方法的有效性意味著:孿生形狀是這些表達學習方法(SimCLR, MoCo,SwAR等)成功的關鍵原因所在。孿生網絡天然具有建模不變性的特徵,而這也是表達學習的核心所在。

後臺回復關鍵詞【入群

加入賣萌屋NLP/IR/Rec與求職討論群

有頂會審稿人、大廠研究員、知乎大V和妹紙

等你來撩哦~

 

[1] SimCLR: A simple framework for contrastive learning of visual representations[2] SimCLRv2: Big self-supervised models are strong semi-supervised learners.[3] SwAV:Unsupervised learning of visual features by contrasting cluster assignments[4] MoCo: Momentum contrast for unsupervised visual representation learning.[5]MoCov2:Improved baselines with momentum contrastive learning[6] BYOL: Bootstrap your own latten: A new aproach to self-supervised learning.[7] CPC: Data efficient image recognition with contrastive predictive coding.[8] PIC: Parametric instance classification for unsupervised visual feature learning.

相關焦點

  • 何愷明團隊最新力作SimSiam:消除表徵學習「崩潰解」,探尋對比表達學習成功之根源
    作者期望:這個簡單的基準方案可以驅動更多研員重新思考無監督表達學習中的孿生結構。Method上圖給出了Stop-gradient添加與否的性能對比,注網絡架構與超參保持不變,區別僅在於是否添加Stop-gradient。
  • 何愷明團隊最新力作SimSiam:消除表徵學習「崩潰解」,探尋對比表達學習成功之根源
    ,提出了一種非常簡單的表達學習機制用於避免表達學習中的「崩潰」問題,從理論與實驗角度證實了所提方法的有效性。在無Stop-gradient時,其分類進度僅有0.1%,而添加Stop-gradient後最終分類精度可達67.7%。上述實驗表明:「崩潰」確實存在。但「崩潰」的存在不足以說明所提方法可以避免「崩潰」,儘管上述對比中僅有「stop-gradient」的區別。Predictor
  • 【論文解讀】何愷明團隊最新力作SimSiam:消除表徵學習「崩潰解」,探尋對比表達學習成功之根源
    作者期望:這個簡單的基準方案可以驅動更多研員重新思考無監督表達學習中的孿生結構。Method上圖給出了Stop-gradient添加與否的性能對比,注網絡架構與超參保持不變,區別僅在於是否添加Stop-gradient。
  • 何愷明團隊:從特徵金字塔網絡、Mask R-CNN到學習分割一切
    ,包括特徵金字塔網絡、RetinaNet、Mask R-CNN以及用於實例分割的弱半監督方法。論文的標題是FPNs for Object Detection,因此作者繼續將FPN用作RPN(Region Proposal Network)和Faster-RCNN網絡的baseline。更多關鍵細節在論文中有更全面的解釋,這裡只列出一部分。
  • 詳解何愷明團隊4篇大作 !(附代碼)| 從特徵金字塔網絡、Mask R-CNN到學習分割一切
    本文介紹FAIR何愷明、Tsung-Yi Lin等人的團隊在計算機視覺領域最新的一些創新,包括特徵金字塔網絡、RetinaNet、Mask R-CNN以及用於實例分割的弱半監督方法。論文的標題是FPNs for Object Detection,因此作者繼續將FPN用作RPN(Region Proposal Network)和Faster-RCNN網絡的baseline。更多關鍵細節在論文中有更全面的解釋,這裡只列出一部分。
  • 何愷明團隊計算機視覺最新進展:從特徵金字塔網絡、Mask R-CNN到...
    圖來自Learning to Segment Everything  新智元編譯來源:skrish13.github.io作者:krish 編譯:肖琴  【新智元導讀】這篇文章介紹了FAIR何愷明、Tsung-Yi Lin等人的團隊在計算機視覺領域最新的一些創新,包括特徵金字塔網絡
  • 用孿生網絡、對比損失和三重損失進行人臉識別的單樣本學習
    通過對具有對比損失(Comparative Loss)函數的孿生網絡進行訓練,獲得了更好的性能,後來導致了 Google 在 FaceNet 系統中使用三重損失(Triplet Loss)函數,這個函數在基準人臉識別任務取得了當時最先進的結果。在本文中,我將闡述人臉識別中單樣本學習中的挑戰,以及如何使用對比損失和三重損失函數來學習高質量的人臉嵌入。
  • 8億參數,刷新ImageNet紀錄:何愷明團隊開源最強ResNeXt預訓練模型
    發自 | 凹非寺 報導 | 量子位來自Facebook何愷明團隊,比以往都強大ResNeXt
  • ResNeXt:何愷明 Facebook 升級 ResNet,提出神經網絡新維度
    來源:AarXiv、Github編譯:文強【新智元導讀】在 ImageNet 和 COCO 2015 競賽中,共有 152 層的深度殘差網絡 ResNet 在圖像分類、目標檢測和語義分割各個分項都取得最好成績,相關論文更是連續兩次獲得
  • 詳解何愷明團隊最新作品:源於Facebook AI的RegNet
    機器之心轉載來源:計算機視覺研究院作者:Edison_G前段時間,何愷明組的研究者提出了一種新的網絡設計範式。與以往研究不同,他們沒有專注於設計單個網絡實例,而是設計出了參數化網絡群的網絡設計空間。這種新的網絡設計範式綜合了手工設計網絡和神經架構搜索(NAS)的優點。在類似的條件下,他們設計出的網絡超越了當前表現最佳的 EfficientNet 模型,在 GPU 上實現了 5 倍的加速。本文是對這一論文的詳細解讀。
  • 關鍵在這! 瀋陽孿生畫室領跑行業的核心秘籍大公開
    近年來瀋陽孿生畫室的品牌影響力不斷增強,藉助其本身雄厚的教育實力,在每年聯考校考中都有突出表現,已經成功成為美術教育行業領跑者。面對美術市場的激烈競爭,瀋陽孿生依然以百分之百的誠意助力眾多學員走進理想校園,坐穩業界龍頭位置。那麼,孿生得以一路穩步保持優勢的關鍵是什麼呢?
  • 數字孿生與平行系統:發展現狀、對比及展望
    無線傳感器布置是數字孿生數據採集的另一個關鍵問題, 其主要研究目標是確定能夠使用最少數量的傳感器達到性能指標的傳感器布局.常用的解析模型包括3D 結構模型[6870]、流程模型[7172]、多物理場模型[73]、GIS 模型[74]、力學模型等, 常用的數據分析方法包括神經網絡[7576]、強化學習[77]、遷移學習[78]、遺傳算法[79]等.
  • 超越EfficientNet,GPU上加速5倍,何愷明組提出新型網絡設計範式
    選自arXiv作者:Ilija Radosavovic等機器之心編譯機器之心編輯部近日,何愷明大神組又發了一篇新論文表 3:RegNet 模型與標準 ResNe(X)t 模型的性能對比。如下表 4 所示,研究者對不同計算機制下 RegNet 模型和 SOTA EfficientNet 模型進行了對比。結果顯示,在類似訓練設置和 flop 下,RegNet 模型優於 EfficientNet 模型,並且 GPU 上的速度提升 5 倍。
  • 數字孿生與平行系統: 發展現狀、對比及展望
    本文對數字孿生和平行系統技術的基本概念、技術內涵、相關應用等進行了研究與總結, 對比了兩者之間的異同, 並分析了兩者的發展趨勢, 預期能夠給複雜系統管理與控制領域的研究人員提供一定的參考和借鑑.本文的組織結構為: 第1 節系統概述數字孿生技術, 包括數字孿生技術的內涵、研究方向、應用領域等; 第2 節介紹平行系統技術的核心思想、關鍵技術、典型應用等; 第3 節對比分析了平行系統與數字孿生技術的異同; 第4 節展望了平行系統與數字孿生技術未來可能的發展趨勢; 第5 節總結了本文的主要內容.
  • 盤點近期大熱對比學習模型:MoCo/SimCLR/BYOL/SimSiam
    在表示學習方面,如果直接對語義進行監督學習,雖然表現很好,但是它需要很多的樣本並且往往是需要對特定的任務進行設計,很難具有遷移性。所以難怪各位大佬們都紛紛為自監督學習站臺,自監督是未來!自監督學習有大類方法,一個是生成方法一個對比方法,如上圖。
  • 何愷明團隊最新力作:群組歸一化(Group Normalization)
    該方法稱為群組歸一化(Group Normalization),試圖以群組方式實現快速訓練神經網絡,這種方法對於硬體的需求大大降低,並在實驗中超過了傳統的批量歸一化方法。批量歸一化和群組歸一化批量歸一化(Batch Normalization,以下簡稱 BN)是深度學習發展中的一項裡程碑式技術,可讓各種網絡並行訓練。
  • 文本匹配利器:從孿生網絡到Sentence-BERT綜述
    本文總結了文本匹配任務中的經典網絡Siamse Network,它和近期預訓練語言模型的組合,一些調優技巧以及在線下數據集上的效果檢驗。Siamese 孿生網絡在正式介紹前,我們先來看一個有趣的故事。從此之後,「暹羅雙胞胎」(Siamese twins)就成了連體人的代名詞,也因為這對雙胞胎全世界開始重視這項特殊疾病。孿生網絡由於結構具有鮮明的對稱性,就像兩個孿生兄弟,所以下圖這種神經網絡結構被研究人員稱作「Siamese Network」,即孿生網絡。
  • 【孿生網絡】文本蘊含之孿生網絡(Siamese Network)
    這次分享一下最經典的文本蘊含模型,也就是孿生網絡(Siamese Network)。圖1 基於孿生網絡的圖像相似度求解圖二、孿生網絡在文本蘊含中的使用在機器學習中,很多算法在圖像和自然語言處理兩個領域是可以互通的(可以相互借鑑的)。
  • 深度強化學習-Policy Gradient基本實現
    有關DQN算法以及各種改進算法的原理和實現,可以參考之前的文章:實戰深度強化學習DQN-理論和實踐:DQN三大改進(一)-Double DQNDQN三大改進(二)-Prioritised replayDQN三大改進(三)-Dueling Network基於值的強化學習算法的基本思想是根據當前的狀態,計算採取每個動作的價值,然後根據價值貪心的選擇動作
  • WGAN最新進展:從weight clipping到gradient penalty,更加先進的Lipschitz限制手法
    其實,WGAN的作者Martin Arjovsky不久後就在reddit上表示他也意識到了這個問題,認為關鍵在於原設計中Lipschitz限制的施加方式不對,並在新論文中提出了相應的改進方案:首先回顧一下WGAN的關鍵部分——Lipschitz限制是什麼。WGAN中,判別器D和生成器G的loss函數分別是: (公式1)