FAT:一種快速的Triplet Loss近似方法,學習更魯棒的特徵表示,並進行有噪聲標籤的提純

2021-02-19 AI公園

點擊上方「AI公園」，關注公眾號，選擇加「星標「或「置頂」

Triplet的兩大問題，計算複雜度和噪聲敏感，看看這篇文章如何用一種對Triple的近似的方法來解決這兩大問題。

摘要

三元組損失是ReID中非常常用的損失，三元組損失的主要問題在於其計算上非常貴，在大數據集上的訓練會受到計算資源的限制。而且數據集中的噪聲和離群點會對模型造成比較危險的影響。這篇文章要解決的就是這兩個問題，提出了一種新的三元組損失，叫做fast-approximated triplet（FAT）損失，下面來看下這個損失具體是什麼樣的。

1. 介紹

上面說過，三元組損失的一個問題是計算量的問題，三元組的組合數量和樣本數量是3次方的關係，這個數字是非常龐大的。而且，大量的三元組實際上是不重要的，也就是簡單樣本，對模型的優化其實是沒什麼用的。如果是隨機採樣的話，確實可以加速訓練，但是容易不收斂，所以現在都會使用各種困難樣本挖掘的方法。不過，這些困難樣本挖掘的方法會產生採樣的偏差，對於離群點會很脆弱。

本文的貢獻：

提出了FAT loss，提升了標準的triplet loss的效率。首次證明了處理了標註噪聲可以進一步提升ReID的性能。通過分配soft label可以學到更魯棒的特徵。2. 方法2.1 Fast Approximated Triplet (FAT) Loss

FAT loss的推導如下：

我們首先有下面的三角不等式：

這個式子裡，ca和cn是聚類中心。d是距離函數。

對於離群點，上界包含兩項，p2s（點到集合）的距離，這個依賴於anchor點，再加上簇的內聚性的懲罰項，定義為最大簇的「半徑」。我們最小化這個上界，就得到了FAT loss：

這個損失和完整的triplet loss的性能相當，當時效率高了很多。很明顯可以看到，FAT loss的計算量對於數據集的大小是線性複雜度。

歸一化的FAT Loss

做為一個margin loss，對於輸入尺度是很敏感的。所以，往往會對輸入特徵進行歸一化。這樣就得到歸一化的FAT loss：

這裡，R『類似於歸一化的樣本集的半徑。實際上，我們發現，加上一個交叉熵loss會對訓練更加穩定，這樣就得到了混合loss：

簇中心的選擇

FAT的簇中心的選擇也是很有講究的，有四個選擇：1）簇特徵的平均值，2）歸一化的簇特徵的平均值，3）簇特徵的平均值的歸一化，4）歸一化的簇特徵的平均值的歸一化。具體如下：

可視化圖：

實驗表明，第4中方式，歸一化的簇特徵的平均值的歸一化表現的最好。

2.1 噪聲標籤的蒸餾

ReID中的標籤噪聲主要3種類型：1）圖像被分配到了錯誤的id類別中，2）圖像不屬於任何一種id類別，3）同一張圖像同時存在多個標籤。三元組損失對這些標籤噪聲是很敏感的。由於FAT loss用的是聚類中心，所以對於噪聲點影響不會那麼明顯。我們以此提出了一種標籤蒸餾的teacher-student模型。方法如下：

1、首先，用交叉熵，用分類的方式訓練5個epochs，這裡包括有噪聲的數據。採用這種方式訓練的網絡對於簡單的樣本具有較高的置信度。

2、重新訓練5個epochs，這次只使用那些置信度高的樣本。

3、不斷的重複上面的過程。

教師模型訓練完了之後，使用教師模型的預測作為soft label來代替之前的hard label，然後使用FAT loss來訓練學生模型。只有那些置信度高的樣本才會參與計算聚類中心，如果使用了混合損失，soft label也會用作交叉熵的target。

3. 實驗結果

FAT loss在幾個數據集上的效果：

教師-學生網絡的各自的效果：

論文連結：https://arxiv.org/pdf/1912.07863

代碼連結：https://github.com/VITA-Group/FAT

或者在公眾號後臺回覆：「FAT」，可下載打包好的論文和代碼。

請長按或掃描二維碼關注本公眾號

喜歡的話，請給我個好看吧！

相關焦點

Siamese網絡,Triplet Loss以及Circle Loss的解釋的

此外，當新員工加入時，你需要再次對模型進行訓練，以便在網絡中添加新類。因此，你需要一種解決方案，能夠通過每個類(person)的單個輸入(image)來區分person。One-Shot Learning的目的是解決這些問題，每個類只需要一個訓練樣本。Siamese Network是一種可以進行one-shot learning的架構。
【強基固本】深度學習從入門到放飛自我:完全解析triplet loss

之前實驗室有個做無監督特徵學習的小任務，因為沒有類別的監督信息，因此也可以用triplet loss來設計約束，以期得到discriminative embedding。triplet loss原理是比較簡單的，關鍵在於搞懂各種採樣triplets的策略。
直播 | Circle Loss:從對相似性優化的統一視角進行深度特徵學習

我們一直認為，單向地輸出知識並不是一個最好的方式，而有效地反饋和交流可能會讓知識的傳播更加有意義，從而產生更大的價值。本期 PW Live，我們邀請到曠視科技上海研究院算法研究員程昌茂，為大家帶來Circle Loss：從對相似性優化的統一視角進行深度特徵學習的主題分享。
度量學習中的pair-based loss

知乎專欄：計算機視覺隨便記未經作者允許，請勿二次轉載度量學習度量學習（Metric Learning）是一種空間映射的方法，其能夠學習到一種特徵（Embedding）空間，在此空間中，所有的數據都被轉換成一個特徵向量，並且相似樣本的特徵向量之間距離小
【損失函數合集】Yann Lecun的Contrastive Loss 和 Google的Triplet Loss

問題引入假設我們現在有2張人臉圖片，我們要進行一個簡單的對比任務，就是判斷這兩張人臉圖片是不是對應同一個人，那麼我們一般會如何解決？一種簡單直接的思路就是提取圖片的特徵向量，然後去對比兩個向量的相似度。但這種簡單的做法存在一個明顯的問題，那就是CNN提取的特徵「類間」區分性真的有那麼好嗎？
【乾貨】Lossless Triplet Loss: 一種高效的Siamese網絡損失函數

Lossless Triplet Loss一種高效的Siamese網絡損失函數在工作中，我們使用Siamese網絡在電信數據上進行one shot學習。我們的目的是用神經網絡來檢測失敗的電信操作 (Telecom Operators)。
【深度度量學習系列】Triplet-loss原理與應用

Ranking loss被用在很多不同的領域，它有非常廣泛應用，但缺乏命名標準化，導致了這個損失函數擁有很多其他別名，比如對比損失Contrastive loss，邊緣損失Margin loss，鉸鏈損失hinge loss和我們常見的三元組損失Triplet loss等。
深度學習變革視覺實例搜索

從上面可以看出，VLAD方法有無序的特性——不關心局部特徵的空間位置，因此可以進一步解耦全局空間信息，對幾何變換具有很好的魯棒性。3. 相似度計算。一種直接的做法是根據距離函數計算特徵之間的距離，例如歐式距離，餘弦距離等。另一種是學習相應的距離函數，例如LMNN、ITML等度量學習方法。
樣本混進了噪聲怎麼辦?通過Loss分布把它們揪出來!

論文標題：Unsupervised Label Noise Modeling and Loss Correction團隊：Dublin City University (DCU)一、本文的主要思想、貢獻首先發現並證實了，神經網絡在學習「隨機的標籤」或「錯誤的標籤」（都可以稱為噪音樣本）的時候，會比學習「正確的標籤」要慢，由此發現噪音樣本在訓練時的loss更大；通過對樣本的loss distribution
CVPR 2020 Oral|曠視研究院提出Circle Loss,統一優化視角

論文連結：https://arxiv.org/abs/2002.10857深度特徵學習有兩種基本範式，分別是使用類標籤和使用正負樣本對標籤進行學習。使用類標籤時，一般需要用分類損失函數（比如 softmax + cross entropy）優化樣本和權重向量之間的相似度；使用樣本對標籤時，通常用度量損失函數（比如 triplet 損失）來優化樣本之間的相似度。這兩種學習方法之間並無本質區別，其目標都是最大化類內相似度（s_p）和最小化類間相似度（s_n）。
以色列理工暑期學習-機器學習中Loss函數的小結

機器學習作為一種優化方法，最重要的一點是找到優化的目標函數——損失函數和正則項的組合；有了目標函數的「正確的打開方式」，才能通過合適的機器學習算法求解優化
深度學習中的損失函數總結以及Center Loss函數筆記

北京上海巡迴站 | NVIDIA DLI深度學習培訓NVIDIA 深度學習學院帶你快速進入火熱的DL領域正文共5481個字，19張圖，預計閱讀時間14分鐘。損失函數度量的是預測值與真實值之間的差異.損失函數通常寫做L(y_,y).y_代表了預測值,y代表了真實值.
【深度學習】一文讀懂機器學習常用損失函數(Loss Function)

二、平方損失函數（最小二乘法, Ordinary Least Squares ）最小二乘法是線性回歸的一種，最小二乘法（OLS）將問題轉化成了一個凸優化問題。在線性回歸中，它假設樣本和噪聲都服從高斯分布（為什麼假設成高斯分布呢？
碼隆科技CurriculumNet:提高噪聲數據價值方法

CurriculumNet是一種可通過從網際網路上收集大量帶有噪聲標籤的數據來訓練出一個魯棒性很強的深度神經網絡模型技術,這一方法對那些缺少大型已標註數據集的研究人員十分有幫助。但是,這種從網際網路上按照標籤語義收集來的數據往往帶有大量噪聲。因此,若要在這些數據上訓練出高性能的深度神經網絡模型,研究人員需要面臨著從噪聲中提取足夠多有用信息的挑戰。
DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能...

新智元編譯來源：DeepMind編譯：肖琴　　【新智元導讀】DeepMind的最新研究提出一種新的表示學習方法——對比預測編碼。研究人員在多個領域進行實驗：音頻、圖像、自然語言和強化學習，證明了相同的機制能夠在所有這些領域中學習到有意義的高級信息，並且優於其他方法。
周志華團隊:深度森林挑戰多標籤學習,9大數據集超越傳統方法

然而，這些方法的成功在很大程度上取決於對模型深度的精確選擇。深度森林是一種基於樹模型集成的深度學習框架，它不依賴於反向傳播。周志華團隊認為，深度森林模型的優點非常適合解決多標籤問題。
「論文分享」利用動態課程學習解決不均衡數據的分類問題

學者Qi Dong等人在2017和2018年的工作中提出了CRL損失函數（Class rectification loss），使得模型能夠識別分布稀疏的小類們的邊界，以此避免大類主導的影響。這裡的CRL考慮了度量學習（metric loss），採用了三元組損失（triplet loss）的變種。三元組損失函數能在訓練中起到減小類內樣本差距，增大類間樣本差距的效果，從而優化樣本的特徵表示。
基於深度學習的商品檢索技術在服裝搭配中的應用

本文對這些方法進行了總結，然後概括地提出了商品特徵學習框架以及垂類數據挖掘方式，最後介紹了商品檢索技術在服裝搭配中的應用。前言幾年前，當人們還在感嘆於網頁購物的快速便捷時，各大電商巨頭就「悄悄地」將它們的購物應用推廣到了用戶的手機裡。
ECCV 2020|清華提出基於循環關聯的自監督行人再識別,無標籤ReID僅...

本文提出了CycAs，一種簡單、有效的自監督行人再識別解決方案，僅需兩個攝像頭拍攝到的行人視頻作為輸入，通過數據關聯的循環一致性即可學習到有鑑別力的行人再識別特徵。這是自監督學習在行人再識別領域的一次早期嘗試，CycAs的良好性能告訴我們針對任務設計的自監督學習大有可為。

FAT:一種快速的Triplet Loss近似方法,學習更魯棒的特徵表示,並進行有噪聲標籤的提純

相關焦點

Siamese網絡,Triplet Loss以及Circle Loss的解釋的

【強基固本】深度學習從入門到放飛自我:完全解析triplet loss

直播 | Circle Loss:從對相似性優化的統一視角進行深度特徵學習

度量學習中的pair-based loss

【損失函數合集】Yann Lecun的Contrastive Loss 和 Google的Triplet Loss

【乾貨】Lossless Triplet Loss: 一種高效的Siamese網絡損失函數

【深度度量學習系列】​Triplet-loss原理與應用

深度學習變革視覺實例搜索

樣本混進了噪聲怎麼辦?通過Loss分布把它們揪出來!

CVPR 2020 Oral|曠視研究院提出Circle Loss,統一優化視角

以色列理工暑期學習-機器學習中Loss函數的小結

深度學習中的損失函數總結以及Center Loss函數筆記

【深度學習】一文讀懂機器學習常用損失函數(Loss Function)

碼隆科技CurriculumNet:提高噪聲數據價值方法

DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能...

周志華團隊:深度森林挑戰多標籤學習,9大數據集超越傳統方法

「論文分享」利用動態課程學習解決不均衡數據的分類問題

基於深度學習的商品檢索技術在服裝搭配中的應用

ECCV 2020|清華提出基於循環關聯的自監督行人再識別,無標籤ReID僅...

【深度度量學習系列】Triplet-loss原理與應用