DivideMix:Learning with Noisy Labels as Semi-supervised Learning

2021-12-17 Ai 錘鍊

收錄於話題 #噪聲學習 5個內容

論文信息Paper: [ICLR 2020] Dividemix: Learning with noisy labels as semi-supervised learningLink: https://arxiv.org/pdf/2002.07394.pdfCode: https://github.com/LiJunnan1992/DivideMix主要貢獻作者提出了一種協同篩選(co-divide)的方法,同時訓練兩支網絡。對每支網絡,作者通過在樣本損失分布上動態地學習一個高斯混合模型(Gaussian Mixture Model, GMM),區分出噪聲樣本作為無標籤集。協同篩選保證了兩個網絡的多樣性,使其能過濾不同類別的噪聲,並防止confirmation bias。在半監督學習階段,作者通過Label co-refinement和co-guessing兩種方式來增強MixMatch的效果。對於有標籤集,作者通過GMM得到的置信度和網絡預測結果對噪聲標籤進行改良;對於無標籤集,作者通過兩支網絡的集群對標籤進行可靠猜測(guess)。實驗:在多個噪聲數據集上,DivideMix的效果比先前SOTA有顯著的提升。算法思路框架概覽

DivideMix的算法框架如上圖。

為了防止模型在自訓練過程中產生噪聲累積的現象,作者同時訓練兩支網絡,通過epoch-level隱式的信息傳遞和batch-level顯式的信息傳遞來互相糾錯。

每個epoch中,作者採用協同篩選的策略,每支網絡為另一支網絡挑選噪聲樣本作為無標籤集。每個mini-batch中,網絡同時利用有標籤集和無標籤集進行學習,無標籤集標籤的預測利用到了另一支網絡的信息。

DivideMix的算法如上圖。

損失建模與協同篩選

DivideMix採用交叉熵損失來反映模型對訓練樣本的擬合。

作者在模型預測得到的損失分布上通過EM算法擬合了一個two-component的高斯混合模型。對於每一個樣本,標籤真實的概率設置為高斯混合模型的後驗概率

有標籤集和無標籤集的劃分依據為閾值篩選。然而,使用模型自己的篩選結果容易引發confirmation bias的現象:一旦有損失較小的噪聲樣本被錯誤地分入有標籤集,這些樣本將保持較小的損失,因此在訓練過程中模型容易強化它的錯誤。

作者通過協同篩選的方式來解決誤差累積問題。在協同篩選策略中,一支網絡上擬合的GMM得到的標籤篩選結果將提供給另一支網絡進行訓練。兩支網絡的多樣性由不同的隨機初始化、訓練數據分配、mini-batch訓練序列以及訓練目標保證。保證兩支模型的多樣性可以使模型篩選出不同類型的噪聲,使模型對於噪聲更為魯棒。

MixMatch的可靠標籤

作者採用MixMatch的框架來解決半監督學習問題。MixMatch通過Consistency Regularization,Entropy Minimization以及MixUp增強來利用無標籤集。

Consistency Regularization:鼓勵模型在無標籤數據上有相同的預測結果。Entropy Minimization:鼓勵模型得到高置信度的預測。MixUp:鼓勵模型的預測在樣本間能保證線性的性質。

為了解決標籤噪聲,作者對有標籤集和無標籤集分別有兩處改進:Label co-refinement和Label co-guessing。

首先,對於有標籤數據,Label co-refinement通過clean概率對標籤和網絡的預測結果進行線性組合,同時加上溫度參數。

然後,對於無標籤數據,Label co-guessing即將兩支網絡的集群得到的預測結果作為標籤。

最後,我們可以得到有標籤集和無標籤集,通過MixMatch的方法進行組合,即得到訓練數據集。

損失函數設計

訓練過程中,有標籤集採用交叉熵損失,無標籤集採用均方誤差損失。

在噪聲率較高的情況下,網絡有退化到平凡解的可能性,需要增加正則化項。

最後,整體的損失函數為:

實驗結果

作者在合成以及現實數據集上均進行了實驗:

現實數據集:Clothing1M,WebVisionCIFAR數據集

CIFAR-10數據集的噪聲採用均勻噪聲的模式,噪聲率分別為20%,50%,80%,90%,下表為實驗結果。

現實數據集

Clothing1M和WebVision為現實數據集,本身帶有噪聲。下表為實驗結果。

總結與思考DivideMix提供了一種融合半監督學習方法的噪聲學習框架。可以進一步思考半監督學習和噪聲學習的關係,是否也可以利用噪聲學習來輔助半監督學習。參考文獻

[1]Li J, Socher R, Hoi S C H. Dividemix: Learning with noisy labels as semi-supervised learning[J]. arXiv preprint arXiv:2002.07394, 2020.

相關焦點

  • 春節充電系列:李宏毅2017機器學習課程學習筆記12之半監督學習(Semi-supervised Learning)
    本文內容涉及機器學習中半監督學習的若干主要問題:semi-supervised learning for generative model, low-density separation assumption, smoothness assumption以及better representation。話不多說,讓我們一起學習這些內容吧 。
  • Self-supervised Learning入門
    二、Self-supervised Learning for Recommendation        本部分源自Google在推薦系統召回任務上的paper。在構建p在構建pretext task時,文中通過數據增強的方式來構造positive pair,同時sample 一些negative pair, SSL的目標就是僅可能使positive pair向量表示更相似,同時negative pair離得比較遠。跟圖像不同,推薦系統的輸入都是稀疏的,有一些還是類別特徵,這樣的數據如何做數據增強呢?
  • 長文總結半監督學習(Semi-Supervised Learning)
    consistency targets improve semi-supervised deep learning results論文連結:https://arxiv.org/abs/1703.01780代碼連結:
  • 【機器學習基礎】Self-Supervised Learning入門介紹
    learning 變得非常火,首先是 kaiming 的 MoCo 引發一波熱議,然後最近 Yann 在 AAAI 上講 self-supervised learning 是未來。Contrasive self-supervised learning除了上面這類方法外,還有一類方法是基於 contrastive 的方法。
  • 一文詳解最近異常火熱的self-supervised learning
    learning 變得非常火,首先是 kaiming 的 MoCo 引發一波熱議,然後最近 Yann 在 AAAI 上講 self-supervised learning 是未來。什麼是 Self-Supervised Learning首先介紹一下到底什麼是 SSL,我們知道一般機器學習分為監督學習,非監督學習和強化學習。而 self-supervised learning 是無監督學習裡面的一種,主要是希望能夠學習到一種通用的特徵表達用於下遊任務。
  • Self-Supervised Learning in Computer Vision
    來自 | 知乎作者 | NoahSYZhang地址 | https://zhuanlan.zhihu.com/p/336933815編輯 | 機器學習算法與自然語言處理公眾號本文僅作學術分享,若侵權,請聯繫後臺刪文處理最近在組會討論self-supervised
  • 再介紹一篇Contrastive Self-supervised Learning綜述論文
    這是最近2020年10月arXiv上的又一篇論文"A Survey On Contrastive Self-supervised Learning"。具體而言,contrastive learning最近已成為在計算機視覺、自然語言處理(NLP)和其他領域中自監督學習方法的主要部分。
  • 名著導讀 | Deep learning
    Theoretical results in machine learning mainly deal with a type of inductive learning called supervised learning.
  • 【綜述專欄】Self-supervised Learning
    作為一種替代方法,自監督學習(SSL)近年來因其在表示學習方面的卓越表現而吸引了許多研究者。自監督表示學習利用輸入數據本身作為監督,並且幾乎有利於所有類型的下遊任務。在這個調查中,我們看看新的自我監督學習方法在計算機視覺,自然語言處理,和graph learning。
  • Multi-Label Classification with Deep Learning
    Unlike normal classification tasks where class labels are mutually exclusive, multi-label classification requires specialized machine learning algorithms that support predicting multiple mutually
  • 談談機器學習(Machine Learning)大家
    而現在Lafferty做的東西好像很雜,semi-supervised learning, kernel learning,graphical models甚至manifold learning都有涉及,可能就是像武俠裡一樣只要學會了九陽神功,那麼其它的武功就可以一窺而知其精髓了。
  • 2021最新對比學習(Contrastive Learning)相關必讀論文整理分享
    舉例來說,在自編碼器中對數據樣本編碼成特徵再解碼重構,這裡認為重構的效果比較好則說明模型學到了比較好的特徵表達,而重構的效果通過pixel label的loss來衡量。 2021: Self-supervised Pretraining of Visual Features in the Wild
  • Multi-task Learning and Beyond: 過去,現在與未來
    在 supervised auxiliary learning 的 setting 中,整個網絡和任務的選擇非常依賴於人類的先驗知識,並不具備絕對的普遍性。Meta Auxiliary Learning考慮 supervised auxiliary learning 對於任務選擇的局限性,我後續提出了一種基於 meta learning 的方法來自動生成
  • 自監督學習(Self-Supervised Learning) 2018-2020年發展綜述
    (例如ResNet-50有 24M 個參數,號稱擁有 '大數據' 的人們,是否已經觸碰到 Effective Upper-Bound of ResNet-50's Model Complexity?)如果Model Complexity 遠超乎我們想像,那什麼樣的 Training Procedure 能最有效率的將信息儲存於Deep Network 中?
  • 一文讀懂 Self-Supervised Learning
    導讀:最近 self-supervised learning 變得非常火,首先是 kaiming 的 MoCo 引發一波熱議,然後最近 Yann 在 AAAI 上講 self-supervised learning 是未來。所以覺得有必要了解一下 SSL,也看了一些 paper 和 blog,最後決定寫這篇文章作為一個總結。
  • Multi-task Learning(Review)多任務學習概述
    可以通過penalize 不同任務的parameter vectors 和他們的方差。限制不同模型趨向於不同的各自 cluster mean vector。2.2 other methods for learning task relationshipKNN methods for task clustering. [9]semi-supervised learning for learning common structures of some related tasks. [10]多任務BNN,通過先驗控制多任務的相似
  • 自監督學習(Self-supervised Learning)
    目前CV領域主流的研究一般是結合多任務學習或者基於特定的學習方式,比如域自適應(Domain Adaptation)、自監督學習(Self-supervised)、無監督學習(Unsupervised Learning)以及增量學習(Incremental Learning)等,本文主要來聊一聊自監督學習一、什麼是自監督學習
  • ICLR 2021 | Group-Supervised Learning: 通過可控的解耦表徵學習模擬人腦想像力
    https://openreview.net/pdf?圖1 Group-Supervised Learning 零鏡頭生成(zero-shot synthesis)效果下面將詳細介紹工作的具體內容。一、Motivation 靈長類動物(人類)往往在泛化的任務(generalization task)上表現很好,當看到一個物體,他們可以立即想像出同一個物體在不同屬性時的樣子,比如不同的 3D pose[1],即使他們從未見過。