通過周期性學習率和快照集成來克服在訓練深度學習中的精度限制

2020-11-30 千家智客

1.原因

W = W + learning rate * dJ/dW

讓我們問一個簡單的問題：什麼時候一個神經網絡停止學習？這是什麼時候（學習速率* dJ / dW）是0的條件。實際上，如果使用反向傳播，權值就會停止更新，而網絡會自動調整，以獲得更好的精度。

除了消失梯度等技術原因外（即因為某些激活函數將它們映射到一個小範圍內，所以如果網絡太深，誤差梯度不能回流到起始層），一個明顯的原因與局部最優有關和鞍點。

在局部最優點或鞍點處，誤差和權重的梯度幾乎為0，減慢了訓練過程。在某個方向上有足夠大的推動力，希望我們能擺脫這種情況。

但是，糟糕的是，the push，部分取決於學習率，是不夠的。為什麼？

在最佳值附近:大Vs小的學習率

我們知道學習速率不是固定的，而是在訓練過程中動態調整的。研究人員希望梯度下降在遠離()最適宜的情況下快速移動，但在接近最佳狀態時緩慢移動和仔細搜索。所以學習的速度在開始時是高的但在訓練結束時是小的。

這是流行學習率更新方法的策略，比如momentum、RMSProp和Adam優化器。

2.目前的解決方案

Cyclical Learning Rates

提高學習率（LR）可以更快速地穿越鞍點plateaus。簡單來說，這個想法告訴我們，當LR通過LR更新方法達到一個較低值並且梯度下降滯留在鞍點一段時間時，請將LR增加到較高值。這很簡單。

本文建議通過在幾個時期運行模型來估計LR的最小和最大邊界，同時讓LR在低值和高值之間線性增加。典型的我們應該嘗試1e-6和1e-1。這有助於我們估計LR損失函數下降的最大值（最大LR），LR值損失變為停滯（最小LR）。

使用Jeremy Howard 的fast.ai library，我繪製了一個例子下面。在這種情況下，損失梯度在2e-2附近LR很高，所以我們應該選擇最大LR = 2e-2。對於最小LR，你可以選擇它非常低（1e-10）。在fast.ai中，該方案更簡單：您從最大LR開始，運行優化程序n個epochs，然後跳回到最大LR。這與本文中討論的固定步長跳轉類似。希望跳躍會將優化器推出任何鞍點。然後我們可以高興地繼續訓練，而不需要重新設置每個事物（即將所有權重重新初始化為隨機值）。如果我們重新初始化，它與舊的解決方案沒有什麼不同：產生不同的隨機起始權重和獨立訓練以避免局部最優，這是* 低效*）。

學習率檢查。用fast.ai庫創建

我們來看看上述解決方案的效果

Illustration from Cyclical Learning Rates for Training Neural Networks（http://arxiv.org/abs/1506.01186）.

從性能上的差異來看，只要有助於跳出鞍點/本地架構，我認為一個固定的步長方案仍然可以。當然其他方案如LR餘弦退火周期也會起作用。

其他想法

現在你已經理解了周期性學習率概念，還有一些其他想法需要了解。

每次跳躍後增加周期長度

相關焦點

深度學習的學習率調節實踐

在這項調查中，我們將在MNIST時尚數據集上訓練一個深度MLP，並通過指數增長來尋找最佳學習率，繪製損失圖，並找到損失增長的點，以達到85%以上的準確率。對於最佳實踐，我們將實現早期停止，保存檢查點，並使用TensorBoard繪製學習曲線。
理解深度學習中的學習率及多種選擇策略

我們為什麼要在訓練過程中改變學習速率?當使用預訓練模型時，我們該如何解決學習速率的問題？本文的大部分內容都是以 fast.ai 研究員寫的內容 [1], [2], [5] 和 [3] 為基礎的。本文是一個更為簡潔的版本，通過本文可以快速獲取這些文章的主要內容。如果您想了解更多詳情，請參閱參考資料。首先，什麼是學習速率？
一文概覽深度學習中的五大正則化方法和七大優化策略

本文主體介紹和簡要分析基於南洋理工的概述論文，而 Adam 方法的具體介紹基於 14 年的 Adam 論文。近來在深度學習中，卷積神經網絡和循環神經網絡等深度模型在各種複雜的任務中表現十分優秀。正則化通過避免訓練完美擬合數據樣本的係數而有助於算法的泛化。為了防止過擬合，增加訓練樣本是一個好的解決方案。此外，還可使用數據增強、L1 正則化、L2 正則化、Dropout、DropConnect 和早停（Early stopping）法等。增加輸入數據、數據增強、早停、dropout 及其變體是深度神經網絡中常用的調整方法。
針對線性回歸模型和深度學習模型,介紹了確定訓練數據集規模的方法

【導讀】對於機器學習而言，獲取數據的成本有時會非常昂貴，因此為模型選擇一個合理的訓練數據規模，對於機器學習是至關重要的。在本文中，作者針對線性回歸模型和深度學習模型，分別介紹了確定訓練數據集規模的方法。
Pieter Abbeel:深度強化學習加速方法

來源：深度強化學習算法　　編輯：元子　　【新智元導讀】深度強化學習一直以來都以智能體訓練時間長、計算力需求大、模型收斂慢等而限制很多人去學習，加州大學伯克利分校教授Pieter Abbeel最近發表了深度強化學習的加速方法，解決了一些問題。
百度聯合英偉達發布最新論文:使深度學習效率事半功倍的混合精度...

據了解，大多數的深度學習模型使用的是32位單精度浮點數（FP32）來進行訓練，而混合精度訓練的方法則通過16位浮點數（FP16）進行深度學習模型訓練，從而減少了訓練深度學習模型所需的內存，同時由於FP16的運算比FP32運算更快，從而也進一步提高了硬體效率。通過用半精度運算替代全精度運算來提高效率，這一技術原理聽起來很簡單明了，但將其付諸實施並不像聽起來那麼簡單。
自Adam 出現以來,深度學習優化器發生了什麼變化?

Cyclical LR ：誰說 LR 需要下降以往的常識是逐步降低學習率或使用指數函數，從而使模型收斂更穩定。Leslie Smith 在同一篇論文中挑戰了這一觀點，他認為，與其單調地降低學習率，不如讓學習率在合理範圍內進行周期性變化，這樣實際上能以更少的步驟提高模型的準確率。
深度學習中權重衰減的偶然效應

權重衰減無疑是深度學習的一個重要組成部分。這似乎是一個簡單方法的典型例子，其有效性經久不衰。然而，如果我們仔細觀察，就會發現一個巨大的驚喜：權重衰減在深度學習中的有效性更多地歸功於偶然性，而不是它最初的理論基礎。
深度學習專項課程精煉圖筆記!必備收藏|原力計劃

深度學習基礎深度學習基本概念監督學習：所有輸入數據都有確定的對應輸出數據，在各種網絡架構中，輸入數據和輸出數據的節點層都位於網絡的兩端，訓練過程就是不斷地調整它們之間的網絡連接權重。右上：損失函數值在參數曲面上變化的簡圖，使用梯度可以找到最快的下降路徑，學習率的大小可以決定收斂的速度和最終結果。學習率較大時，初期收斂很快，不易停留在局部極小值，但後期難以收斂到穩定的值；學習率較小時，情況剛好相反。一般而言，我們希望訓練初期學習率較大，後期學習率較小，之後會介紹變化學習率的訓練方法。
深度學習大神Yoshua Bengio經典前瞻演講,幫你打通深度學習的任督...

Yoshua Bengio連同Geoff Hinton老先生以及 Yann LeCun教授一起造就了2006年始的深度學習復興。他的研究工作主要聚焦在高級機器學習方面，致力於用其解決人工智慧問題。目前他是僅存的幾個仍然全身心投入在學術界的深度學習教授之一（蒙特婁大學），本文是他在2009年的經典前瞻演講——「人工智慧學習深度架構」有關內容的第一部分。
《基於Scikit-Learn、Keras和TensorFlow的機器學習實戰》:集成學習和隨機森林

）的第七章《集成學習和隨機森林》。換句話說，Bagging 和 Pasting 都允許在多個分類器上對訓練樣本進行多次採樣，但只有 Bagging 允許同一分類器對訓練樣本進行多次重複採樣。採樣和訓練過程如下圖所示。當所有的分類器被訓練後，集成分類器可以通過對所有分類器預測結果的簡單聚合來對新的實例進行預測。
一文看懂如何搭建AI應用:10周學會深度學習,還贏下5千美元

於是阿D花了10周的時間，從0開始，一點一滴摸索著，搭建、調試、訓練和一個深度學習系統。而且還在最後的比賽中一舉奪魁，贏了5000美元。主人公把這個有點逆襲的過程，原原本本的寫了下來。量子位也希望對人工智慧感興趣的朋友仔細看一看。不用擔心，並不是AI專家才能理解這篇文章。因為全文重點在與搭建一個人工智慧應用模型的思路和方法，而不是拘泥於技術實現。
預測模型的精度已經提高到可以和人腦完全互通的程度

隨著網絡雲化和基於ai的數據資源分析、挖掘能力的不斷提升，計算結果的細節模糊性不斷降低，預測模型的精度已經提高到可以和人腦完全互通的程度，這使得機器可以比人類提前做出更有意義的預測。考慮到這一點，可以設計更加充分的預測模型，從而獲得更好的預測性能。
前沿研究丨深度學習在醫學超聲圖像分析中的應用

在SAE模型中，採用正則化與稀疏化限制來增強網絡訓練中的求解過程，而「去噪」是防止網絡學習無效解的一種解決方案。通常將AE層放置在彼此的頂部而生成這些模型的堆疊版本。2. 限制玻爾茲曼機與深度置信網絡RBM是具有兩層結構的馬爾可夫隨機場的一種特殊類型。
如何將深度學習應用於無人機圖像的目標檢測

截至今天，無人機被用於農業，建築，公共安全和安全等領域，同時也被其他領域迅速採用。隨著基於深度學習的計算機視覺為這些無人機「提供動力」，行業專家們預測無人機將在以前難以想像的應用場景中被前所未有地廣泛使用。我們將探索一些應用以及伴隨著它們的挑戰，這些應用基於深度學習完成了基於無人機的自動化監測。
深度學習在醫學影像中的研究進展及發展趨勢

，以較少的網絡參數提高了MR圖像的重建精度；受到GAN在視覺領域成功應用的啟發，Yang G等人提出一種深度去混疊生成對抗網絡（DAGAN），以消除MRI重建過程中的混疊偽影；Quan T M等人提出一種具有周期性損失的RefinGAN模型，以極低的採樣率提高了MR圖像的重建精度；Mardani M等人基於LS-GAN損失，採用ResNet的生成器和鑑別器來重建MR圖像，獲得了較好的可視化結果。
一文詳解深度學習中的Normalization:BN/LN/WN

轉載自：深度學習技術前沿深度神經網絡模型訓練之難眾所周知，其中一個重要的現象就是 Internal Covariate Shift.1.2 深度學習中的 Internal Covariate Shift深度神經網絡模型的訓練為什麼會很困難？其中一個重要的原因是，深度神經網絡涉及到很多層的疊加，而每一層的參數更新會導致上層的輸入數據分布發生變化，通過層層疊加，高層的輸入分布變化會非常劇烈，這就使得高層需要不斷去重新適應底層的參數更新。
大會直擊|微軟亞洲研究院劉鐵巖:深度學習成功的秘密

在人工智慧高歌猛進，人們期待深度學習無往不勝之時，作為人工智慧學者，我們必須保持冷靜，分析深度學習技術的短板，開展針對性研究將其克服，從而助力人工智慧的長期繁榮。事實上，今天深度學習成功的主要因素：超大規模訓練數據、複雜的深層模型、分布式並行訓練，也正是影響其進一步發展的障礙。
深度學習可以不要乘法_湃客_澎湃新聞-The Paper

和加法運算相比，乘法運算在計算複雜度上要高很多。在深度學習中，被廣泛使用的卷積運算相當於是衡量輸入特徵和卷積濾波器之間相似度的交叉相關計算。在這一過程中需要很大規模的浮點乘法，因此很多研究都在考慮將乘法運算換成等價的加法運算。
機器學習和深度學習最佳作品

在基準數據集上進行了實驗，以比較不同優化方法的性能，通過有效地識別適當的超參數配置，幫助行業用戶，數據分析師和研究人員更好地開發機器學習模型。在基準數據集上進行了實驗，以比較不同優化方法的性能。通過有效地識別適當的超參數配置幫助行業用戶，數據分析師和研究人員更好地開發機器學習模型，對象檢測是計算機視覺中最重要的領域之一，在各種實際場景中發揮著關鍵作用，由於硬體的限制在實踐中通常必須犧牲精度以確保檢測器的推斷速度，因此必須考慮物體檢測器的有效性和效率之間的平衡，目的是實現一種可以在實際應用場景中直接應用的具有相對平衡的有效性和效率的對象檢測器

通過周期性學習率和快照集成來克服在訓練深度學習中的精度限制

相關焦點

深度學習的學習率調節實踐

理解深度學習中的學習率及多種選擇策略

一文概覽深度學習中的五大正則化方法和七大優化策略

針對線性回歸模型和深度學習模型,介紹了確定訓練數據集規模的方法

Pieter Abbeel:深度強化學習加速方法

百度聯合英偉達發布最新論文:使深度學習效率事半功倍的混合精度...

自Adam 出現以來,深度學習優化器發生了什麼變化?

深度學習中權重衰減的偶然效應

深度學習專項課程精煉圖筆記!必備收藏|原力計劃

深度學習大神Yoshua Bengio經典前瞻演講,幫你打通深度學習的任督...

《基於Scikit-Learn、Keras和TensorFlow的機器學習實戰》:集成學習和隨機森林

一文看懂如何搭建AI應用:10周學會深度學習,還贏下5千美元

預測模型的精度已經提高到可以和人腦完全互通的程度

前沿研究丨深度學習在醫學超聲圖像分析中的應用

如何將深度學習應用於無人機圖像的目標檢測

深度學習在醫學影像中的研究進展及發展趨勢

一文詳解深度學習中的Normalization:BN/LN/WN

大會直擊|微軟亞洲研究院劉鐵巖:深度學習成功的秘密

深度學習可以不要乘法_湃客_澎湃新聞-The Paper

機器學習和深度學習最佳作品