深度學習的多個loss如何平衡 & 有哪些「魔改」損失函數,曾經拯救了你的深度學習模型?

2021-02-13 機器學習算法那些事

這篇文章整理自我的知乎回答（id: Hanson），分別對深度學習中的多個loss如何平衡以及有哪些「魔改」損失函數，曾經拯救了你的深度學習模型這兩個問題進行了解答。

1. 深度學習的多個loss如何平衡？1.1 mtcnn

對於多任務學習而言，它每一組loss之間的數量級和學習難度並不一樣，尋找平衡點是個很難的事情。我舉兩個我在實際應用中碰到的問題。第一個是多任務學習算法MTCNN，這算是人臉檢測領域最經典的算法之一，被各家廠商魔改，其性能也是很不錯的，也有很多版本的開源實現（如果不了解的話，請看：https://blog.csdn.net/qq_36782182/article/details/83624357）。但是我在測試各種實現的過程中，發現竟然沒有一套實現是超越了原版的(https://github.com/kpzhang93/MTCNN_face_detection_alignment)。下圖中是不同版本的實現，打了碼的是我復現的結果。

不同版本mtcnn在FDDB上roc曲線

這是一件很困擾的事情，參數、網絡結構大家設置都大差不差。但效果確實是迥異。

clsloss表示置信度score的loss，boxloss表示預測框位置box的loss，landmarksloss表示關鍵點位置landmarks的loss。

那麼,,這幾個權值，究竟應該設置為什麼樣的才能得到一個不錯的結果呢？

其實有個比較不錯的主意，就是只保留必要的那兩組權值，把另外一組設置為0，比如，，。為什麼這麼做？第一是因為關鍵點的回歸在人臉檢測過程中不是必要的,去了這部分依舊沒什麼大問題，也只有在這個假設的前提下才能進行接下來的實驗。

就比如這個MTCNN中的ONet，它回歸了包括score、bbox、landmarks，我在用pytorch復現的時候，出現一些有意思的情況，就是將landmarks這條任務凍結後（即，，），發現ONet的性能得到了巨大的提升。能超越原始版本的性能。

但是加上landmarks任務後（，，）就會對cls_loss造成影響，這就是一個矛盾的現象。而且和a、b、c對應的大小有很大關係。當設置成（係數全1 ）的時候關鍵點的精度真的是慘不忍睹，幾乎沒法用。當設置成（ a/b/c=1/10/100）的時候，loss到了同樣一個數量級，landmarks的精度確實是上去了，但是score卻不怎麼讓人滿意。如果產生了這種現象，就證明了這個網絡結構在設計的時候出現了一些缺陷，需要去修改backbone之後的multi-task分支，讓兩者的相關性儘量減小。或者是ONet就不去做關鍵點，而是選擇單獨的一個網絡去做關鍵點的預測（比如追加一個LNet）。box的回歸併不是特別受關鍵點影響，大部分情況box和landmarks是正向促進的，影響程度可以看做和score是一致的，box的精度即便下降了5%，它還是能框得住目標，因此不用太在意。

上面這個實驗意在說明，要存在就好的loss權重組合，那麼你的網絡結構就必須設計的足夠好。不然你可能還需要通過上述的實驗就驗證你的網絡結構。從多種策略的設計上去解決這種loss不均衡造成的困擾。

和@葉不知（知乎用戶）討論後，有一篇論文也可以提供參考：

https://arxiv.org/abs/1810.04002

1.2 ocr-table-ssd

第二個是我之前做過一點OCR方面的工作，這個是我對於表格框格式化方面做的工作，基本算原創工作。

https://github.com/hanson-young/ocr-table-ssd

改進版本的SSD表格檢測

算法是基於SSD改的，與原有SSD相比增加了一個預測heatmap的分支，算是一種attention機制的表現吧。改進後訓練達到相同的精度和loss，SSD用時10小時，改進後的方法耗時僅需10-20min。在訓練過程中如果兩個分支一起訓練，很難發揮網絡的真正意義，並且收斂到不是很理想的地方，所以訓練過程也挺重要的，在實驗中，將原來的optimizer從SGD（不易收斂，可能和學習率有關）換到RMSProp：

先凍結SSD網絡，然後訓練segmentation分支，到收斂再凍結segmentation分支進行SSD部分的訓練，到收斂原圖預測結果heatmap

因為表格尺度的影響，不加入heatmap分支會導致圖像被過分拉升，導致無法檢測到表格框。

加入heatmap後還有個好處就是為表格的對齊提供了可能。

原圖

如果直接檢測，對於一個矩形框來說，恐怕是會非常吃力的。如果

heatmap -> 閾值分割 -> Sobel -> HoughLineP -> angle
求出表格的傾斜角angle後，可以將原圖和heatmap旋轉統一的angle後concatenation，這樣再接著跑SSD，對齊後的效果比較明顯，解決了傾斜角度過大，帶來bbox框過大的影響，詳細見下圖。
可以求出角度然後進行對齊工作
對齊後的結果是不是能好很多。
2. 有哪些「魔改」損失函數，曾經拯救了你的深度學習模型？我在做缺陷檢測時候對比了一些loss的性能，其實確實是那句話，適合自己的才是最好的。以下我用實際例子來說明這個問題。
2.1 實驗條件為了實驗方便,我們使用了CrackForest數據集(https://github.com/cuilimeng/CrackForest-dataset)做訓練測試，目的是去將裂紋缺陷分割出來，總共118張圖片，其中訓練樣本94張，測試樣本24張，採用旋轉、隨機縮放、裁剪、圖像亮度增強、隨機翻轉增強操作，保證實驗參數一直，模型均是類Unet網絡，僅僅使用了depthwise卷積結構，進行了如下幾組實驗，並在tensorboard中進行圖像預測狀態的觀測。
CrackForest數據集samples2.2 weighted CrossEntropy在loss函數的選取時，類似focal loss，常規可以嘗試使用cross_entropy_loss_RCF(https://github.com/meteorshowers/RCF-pytorch/blob/master/functions.py)，或者是weighted MSE，因為圖像大部分像素為非缺陷區域，只有少部分像素為缺陷裂痕，這樣可以方便解決樣本分布不均勻的問題
validation
epoch[625] | val_loss: 2708.3965 | precisions: 0.2113 | recalls: 0.9663 | f1_scores: 0.3467
training
2018-11-27 11:53:56 [625-0] | train_loss: 2128.9360 | precisions: 0.2554 | recalls: 0.9223 | f1_scores: 0.4000
2018-11-27 11:54:13 [631-2] | train_loss: 1416.9917 | precisions: 0.2359 | recalls: 0.9541 | f1_scores: 0.3782
2018-11-27 11:54:31 [637-4] | train_loss: 1379.9745 | precisions: 0.1916 | recalls: 0.9591 | f1_scores: 0.3194
2018-11-27 11:54:50 [643-6] | train_loss: 1634.6824 | precisions: 0.3067 | recalls: 0.9636 | f1_scores: 0.4654
2018-11-27 11:55:10 [650-0] | train_loss: 2291.4810 | precisions: 0.2498 | recalls: 0.9317 | f1_scores: 0.3940
weighted CrossEntropy loss的最佳預測結果weighted CrossEntropy 在實驗過程中因為圖片中的缺陷部分太過稀疏，導致了weights的選取有很大的問題存在，訓練後會發現其recall極高，但是precision卻也是很低，loss曲線也極其不規律,基本是沒法參考的,能把很多疑似缺陷的地方給弄進來.因此只能將weights改為固定常量,這樣可以在一定程度上控制均衡recall和precision,但調參也會相應變得麻煩
2.3 MSE（不帶權重）我們先來試試MSE，在分割上最常規的loss
validation
epoch[687] | val_loss: 0.0063 | precisions: 0.6902 | recalls: 0.6552 | f1_scores: 0.6723 | time: 0
epoch[875] | val_loss: 0.0067 | precisions: 0.6324 | recalls: 0.7152 | f1_scores: 0.6713 | time: 0
epoch[1250] | val_loss: 0.0066 | precisions: 0.6435 | recalls: 0.7230 | f1_scores: 0.6809 | time: 0
epoch[1062] | val_loss: 0.0062 | precisions: 0.6749 | recalls: 0.6835 | f1_scores: 0.6792 | time: 0
training
2018-11-27 15:01:34 [1375-0] | train_loss: 0.0055 | precisions: 0.6867 | recalls: 0.6404 | f1_scores: 0.6627
2018-11-27 15:01:46 [1381-2] | train_loss: 0.0045 | precisions: 0.7223 | recalls: 0.6747 | f1_scores: 0.6977
2018-11-27 15:01:58 [1387-4] | train_loss: 0.0050 | precisions: 0.7336 | recalls: 0.7185 | f1_scores: 0.7259
2018-11-27 15:02:09 [1393-6] | train_loss: 0.0058 | precisions: 0.6719 | recalls: 0.6196 | f1_scores: 0.6447
2018-11-27 15:02:21 [1400-0] | train_loss: 0.0049 | precisions: 0.7546 | recalls: 0.7191 | f1_scores: 0.7364
2018-11-27 15:02:32 [1406-2] | train_loss: 0.0057 | precisions: 0.7286 | recalls: 0.6919 | f1_scores: 0.7098
2018-11-27 15:02:42 [1412-4] | train_loss: 0.0054 | precisions: 0.7850 | recalls: 0.6932 | f1_scores: 0.7363
2018-11-27 15:02:53 [1418-6] | train_loss: 0.0050 | precisions: 0.7401 | recalls: 0.7223 | f1_scores: 0.7311
MSE loss的最佳預測結果MSE在訓練上較cross entropy就比較穩定，在heatmap預測上優勢挺明顯
2.4 weighted MSE（8:1）既然MSE的效果還不錯，那麼是否加權後就更好了呢，其實從我做的實驗效果來看，並不準確，沒想像的那麼好，甚至導致性能下降了
validation
epoch[2000] | val_loss: 11002.3584 | precisions: 0.5730 | recalls: 0.7602 | f1_scores: 0.6535 | time: 1
training
2018-11-27 13:12:44 [2000-0] | train_loss: 7328.5186 | precisions: 0.6203 | recalls: 0.6857 | f1_scores: 0.6514
2018-11-27 13:13:01 [2006-2] | train_loss: 6290.4971 | precisions: 0.5446 | recalls: 0.5346 | f1_scores: 0.5396
2018-11-27 13:13:18 [2012-4] | train_loss: 5887.3525 | precisions: 0.6795 | recalls: 0.6064 | f1_scores: 0.6409
2018-11-27 13:13:36 [2018-6] | train_loss: 6102.1934 | precisions: 0.6613 | recalls: 0.6107 | f1_scores: 0.6350
2018-11-27 13:13:53 [2025-0] | train_loss: 7460.8853 | precisions: 0.6225 | recalls: 0.7137 | f1_scores: 0.6650
weighted MSE loss的最佳預測結果以上loss在性能表現上，MSE > weighted MSE > weighted CrossEntropy，最簡單的卻在該任務上取得了最好的效果，所以我們接下來該做的，就是去懷疑人生了！
歡迎掃碼關注：

深度學習的多個loss如何平衡 & 有哪些「魔改」損失函數,曾經拯救了你的深度學習模型?

相關焦點

【loss平衡】深度學習的多個loss如何平衡?

深度學習的多個 loss 是如何平衡的?

如何利用深度學習模型實現多任務學習?這裡有三點經驗

深度學習中的損失函數總結以及Center Loss函數筆記

教程 | 如何估算深度神經網絡的最優學習率

要做好深度學習任務,不妨先在損失函數上「做好文章」

深度時序模型如何自定義MSE損失函數

神經網絡中,設計loss function有哪些技巧?

直播 | Circle Loss:從對相似性優化的統一視角進行深度特徵學習

GitHub | 機器學習&深度學習&nlp&cv從入門到深入全套資源分享

深度學習中常見的損失函數

乾貨分享 | 機器學習、深度學習、nlp、cv從入門到深入全套資源分享

深度提升深度學習模型的表現,你需要這20個技巧(附論文)

深度學習的學習率調節實踐

深度學習模型訓練的一般方法(以DSSM為例)

Hinton 新作「在線蒸餾」,提升深度學習分布式訓練表現的利器

Head Pose Estimation第三季:深度學習版!一起來學習!

【深度學習】一文讀懂機器學習常用損失函數(Loss Function)

多任務學習與深度學習

教你如何從零開始構建深度學習項目?

深度學習的多個loss如何平衡 & 有哪些「魔改」損失函數,曾經拯救了你的深度學習模型?

相關焦點

【loss平衡】深度學習的多個loss如何平衡?

深度學習的多個 loss 是如何平衡的?

如何利用深度學習模型實現多任務學習?這裡有三點經驗

深度學習中的損失函數總結以及Center Loss函數筆記

教程 | 如何估算深度神經網絡的最優學習率

要做好深度學習任務,不妨先在損失函數上「做好文章」

深度時序模型如何自定義MSE損失函數

神經網絡中,設計loss function有哪些技巧?

直播 | Circle Loss:從對相似性優化的統一視角進行深度特徵學習

GitHub | 機器學習&深度學習&nlp&cv從入門到深入全套資源分享

深度學習中常見的損失函數

乾貨分享 | 機器學習、深度學習、nlp、cv從入門到深入全套資源分享

深度 提升深度學習模型的表現,你需要這20個技巧(附論文)

深度學習的學習率調節實踐

深度學習模型訓練的一般方法(以DSSM為例)

Hinton 新作「在線蒸餾」,提升深度學習分布式訓練表現的利器

Head Pose Estimation第三季:深度學習版!一起來學習!

【深度學習】一文讀懂機器學習常用損失函數(Loss Function)

多任務學習與深度學習

教你如何從零開始構建深度學習項目?

深度提升深度學習模型的表現,你需要這20個技巧(附論文)