訓練神經網絡的五大算法

2021-01-10 電子發燒友

訓練神經網絡的五大算法

Alberto Quesada 發表於 2017-11-16 15:30:54

神經網絡模型的每一類學習過程通常被歸納為一種訓練算法。訓練的算法有很多，它們的特點和性能各不相同。

問題的抽象
人們把神經網絡的學習過程轉化為求損失函數f的最小值問題。一般來說，損失函數包括誤差項和正則項兩部分。誤差項衡量神經網絡模型在訓練數據集上的擬合程度，而正則項則是控制模型的複雜程度，防止出現過擬合現象。

損失函數的函數值由模型的參數（權重值和偏置值）所決定。我們可以把兩部分參數合併為一個n維的權重向量，記為w。下圖是損失函數f(w)的圖示。

如上圖所示，w*是損失函數的最小值。在空間內任意選擇一個點A，我們都能計算得到損失函數的一階、二階導數。一階導數可以表示為一個向量：

ᐁif(w) = df/dwi (i = 1,…,n)

同樣的，損失函數的二階導數可以表示為海森矩陣（ Hessian Matrix ）：

Hi,jf(w) = d2f/dwi·dwj (i,j = 1,…,n)

多變量的連續可微分函數的求解問題一直被人們廣泛地研究。許多的傳統方法都能被直接用於神經網絡模型的求解。

一維優化方法
儘管損失函數的值需要由多個參數決定，但是一維優化方法在這裡也非常重要。這些方法常常用於訓練神經網絡模型。

許多訓練算法首先計算得到一個訓練的方向d，以及速率η來表示損失值在此方向上的變化，f(η)。下圖片展示了這種一維函數。

f和η*在η1和η2所在的區間之內。

由此可見，一維優化方法就是尋找到某個給定的一維函數的最小值。黃金分段法和Brent方法就是其中兩種廣泛應用的算法。這兩種算法不斷地縮減最小值的範圍，直到η1和η2兩點之間的距離小於設定的閾值。

多維優化方法
我們把神經網絡的學習問題抽象為尋找參數向量w*的問題，使得損失函數f在此點取到最小值。假設我們找到了損失函數的最小值點，那麼就認為神經網絡函數在此處的梯度等於零。

通常情況下，損失函數屬於非線性函數，我們很難用訓練算法準確地求得最優解。因此，我們嘗試在參數空間內逐步搜索，來尋找最優解。每搜索一步，重新計算神經網絡模型的參數，損失值則相應地減小。

我們先隨機初始化一組模型參數。接著，每次迭代更新這組參數，損失函數值也隨之減小。當某個特定條件或是終止條件得到滿足時，整個訓練過程即結束。

現在我們就來介紹幾種神經網絡的最重要訓練算法。

1. 梯度下降法（Gradient descent）

梯度下降方法是最簡單的訓練算法。它僅需要用到梯度向量的信息，因此屬於一階算法。

我們定義f(wi) = fiand ᐁf(wi) = gi。算法起始於W0點，然後在第i步沿著di= -gi方向從wi移到wi+1，反覆迭代直到滿足終止條件。梯度下降算法的迭代公式為：

wi+1 = wi- di·ηi, i=0,1,…

參數η是學習率。這個參數既可以設置為固定值，也可以用一維優化方法沿著訓練的方向逐步更新計算。人們一般傾向於逐步更新計算學習率，但很多軟體和工具仍舊使用固定的學習率。

下圖是梯度下降訓練方法的流程圖。如圖所示，參數的更新分為兩步：第一步計算梯度下降的方向，第二步計算合適的學習率。

梯度下降方法有一個嚴重的弊端，若函數的梯度變化如圖所示呈現出細長的結構時，該方法需要進行很多次迭代運算。而且，儘管梯度下降的方向就是損失函數值減小最快的方向，但是這並不一定是收斂最快的路徑。下圖描述了此問題。

當神經網絡模型非常龐大、包含上千個參數時，梯度下降方法是我們推薦的算法。因為此方法僅需要存儲梯度向量（n空間），而不需要存儲海森矩陣（n2空間）

2.牛頓算法（Newton’s method）

因為牛頓算法用到了海森矩陣，所以它屬於二階算法。此算法的目標是使用損失函數的二階偏導數尋找更好的學習方向。

下圖展示的是牛頓法的流程圖。參數的更新也分為兩步，計算牛頓訓練方向和合適的學習率。

牛頓法的性能如下圖所示。從相同的初始值開始尋找損失函數的最小值，它比梯度下降方法需要更少的步驟。

然而，牛頓法的難點在於準確計算海森矩陣和其逆矩陣需要大量的計算資源。

3.共軛梯度法（Conjugate gradient）

共軛梯度法介於梯度下降法與牛頓法之間。它的初衷是解決傳統梯度下降法收斂速度太慢的問題。不像牛頓法，共軛梯度法也避免了計算和存儲海森矩陣。

共軛梯度法的搜索是沿著共軛方向進行的，通常會比沿著梯度下降法的方向收斂更快。這些訓練方向與海森矩陣共軛。

我們將d定義為訓練方向向量。然後，將參數向量和訓練方向訓練分別初始化為w0和d0 = -g0，共軛梯度法的方向更新公式為：
di+1 = gi+1 + di·γi, i=0,1,…

其中γ是共軛參數，計算它的方法有許多種。其中兩種常用的方法分別是Fletcher 和 Reeves 以及 Polak 和 Ribiere發明的。對於所有的共軛梯度算法，訓練方向會被周期性地重置為梯度的負值。

參數的更新方程為：

wi+1 = wi + di·ηi, i=0,1,…

下圖是共軛梯度法訓練過程的流程圖。參數更新的步驟分為計算共軛梯度方向和計算學習率兩步。

此方法訓練神經網絡模型的效率被證明比梯度下降法更好。由於共軛梯度法不需要計算海森矩陣，當神經網絡模型較大時我們也建議使用。

4. 準牛頓法（Quasi-Newton method）

由於牛頓法需要計算海森矩陣和逆矩陣，需要較多的計算資源，因此出現了一個變種算法，稱為準牛頓法，可以彌補計算量大的缺陷。此方法不是直接計算海森矩陣及其逆矩陣，而是在每一次迭代估計計算海森矩陣的逆矩陣，只需要用到損失函數的一階偏導數。

海森矩陣是由損失函數的二階偏導數組成。準牛頓法的主要思想是用另一個矩陣G來估計海森矩陣的逆矩陣，只需要損失函數的一階偏導數。準牛頓法的更新方程可以寫為：
wi+1 = wi - (Gi·gi)·ηi, i=0,1,…

學習率η既可以設為固定值，也可以動態調整。海森矩陣逆矩陣的估計G有多種不同類型。兩種常用的類型是Davidon–Fletcher–Powell formula (DFP)和Broyden–Fletcher–Goldfarb–Shanno formula (BFGS)。

準牛頓法的流程圖如下所示。參數更新的步驟分為計算準牛頓訓練方向和計算學習率。

許多情況下，這是默認選擇的算法：它比梯度下降法和共軛梯度法更快，而不需要準確計算海森矩陣及其逆矩陣。

5. Levenberg-Marquardt算法

Levenberg-Marquardt算法又稱為衰減的最小平方法，它針對損失函數是平方和誤差的形式。它也不需要準確計算海森矩陣，需要用到梯度向量和雅各布矩陣。

假設損失函數f是平方和誤差的形式：

若衰減因子λ設為0，相當於是牛頓法。若λ設置的非常大，這就相當於是學習率很小的梯度下降法。

參數λ的初始值非常大，因此前幾步更新是沿著梯度下降方向的。如果某一步迭代更新失敗，則λ擴大一些。否則，λ隨著損失值的減小而減小，Levenberg-Marquardt接近牛頓法。這個過程可以加快收斂的速度。

下圖是Levenberg-Marquardt算法訓練過程的流程圖。第一步計算損失值、梯度和近似海森矩陣。然後衰減參數和衰減係數。

由於Levenberg-Marquardt算法主要針對平方和誤差類的損失函數。因此，在訓練這類誤差的神經網絡模型時速度非常快。但是這個算法也有一些缺點。首先，它不適用於其它類型的損失函數。而且，它也不兼容正則項。最後，如果訓練數據和網絡模型非常大，雅各布矩陣也會變得很大，需要很多內存。因此，當訓練數據或是模型很大時，我們並不建議使用Levenberg-Marquardt算法。

內存使用和速度的比較
下圖繪製了本文討論的五種算法的計算速度和內存需求。如圖所示，梯度下降法往往是最慢的訓練方法，它所需要的內存也往往最少。相反，速度最快的算法一般是Levenberg-Marquardt，但需要的內存也更多。柯西-牛頓法較好地平衡了兩者。

總之，如果我們的神經網絡模型有上千個參數，則可以用節省存儲的梯度下降法和共軛梯度法。如果我們需要訓練很多網絡模型，每個模型只有幾千個訓練數據和幾百個參數，則Levenberg-Marquardt可能會是一個好選擇。其餘情況下，柯西-牛頓法的效果都不錯。

打開APP閱讀更多精彩內容

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容圖片侵權或者其他問題，請聯繫本站作侵刪。侵權投訴

相關焦點

從梯度下降到擬牛頓法:詳解訓練神經網絡的五大學習算法

選自 Neuraldesigner作者：Alberto Quesada機器之心編譯參與：蔣思源在神經網絡中，系統的學習過程一般是由訓練算法所主導。而現如今有許多不同的學習算法，它們每一個都有不同的特徵和表現。因此本文力圖描述清楚五大學習算法的基本概念及優缺點，給讀者們闡明最優化在神經網絡中的應用。
神經網絡算法原理_神經網絡算法的應用_神經網絡算法實例說明

神經網絡是一種模擬人腦結構的算法模型。其原理就在於將信息分布式存儲和並行協同處理。雖然每個單元的功能非常簡單，但大量單元構成的網絡系統就能實現非常複雜的數據計算，並且還是一個高度複雜的非線性動力學習系統。　　神經網絡的結構更接近於人腦，具有大規模並行、分布式存儲和處理、自組織、自適應和自學能力。
基於神經網絡算法羊毛_基於pso算法和bp算法訓練神經網絡 - CSDN

圖神經網絡是用於圖結構數據的深度學習架構，將端到端學習與歸納推理相結合，業界普遍認為其有望解決深度學習無法處理的因果推理、可解釋性等一系列瓶頸問題，是未來 3 到 5 年的重點方向。2019 年圖神經網絡有哪些研究成果值得關注？2020 年它又將朝什麼方向發展？讓我們一起來一探究竟。
人工智慧算法:訓練神經網絡中的批量歸一化(附代碼)

在下一個代碼段中，我們設置並指定優化算法來訓練實現的神經網絡，以及損失函數和超參數（例如學習率和曆元數）。，該工具提供了訓練已實現網絡的工具。利用評估結果，您可以在觀察測試數據集評估的準確性之後，決定微調網絡超參數或進入生產。model.evaluate（test_images，test_labels）在訓練階段，您可能會注意到，與沒有批處理規範化層的網絡訓練相比，每個紀元花費的時間更長。
前沿| 利用遺傳算法優化神經網絡:Uber提出深度學習訓練新方式

許多人認為，SGD 算法有效計算梯度的能力對於這種訓練能力而言至關重要。但是，Uber 近日發布的五篇論文表明，神經進化（neuroevolution）這種利用遺傳算法的神經網絡優化策略，也是訓練深度神經網絡解決強化學習（RL）問題的有效方法。
從零開始:教你如何訓練神經網絡

在理解這些基礎後，本文詳細描述了動量法等當前十分流行的學習算法。此外，本系列將在後面介紹 Adam 和遺傳算法等其它重要的神經網絡訓練方法。 I.做這件事的最直覺的辦法就是，對每一個訓練樣本，都沿著神經網絡傳遞得到一個數字，然後將這個數字與我們想要得到的實際數字做差再求平方，這樣計算出來的就是預測值與真實值之間的距離，而訓練神經網絡就是希望將這個距離或損失函數減小。
機器學習算法盤點:人工神經網絡、深度學習

常見算法有邏輯回歸（Logistic Regression）和反向傳遞神經網絡（Back Propagation Neural Network）　　非監督式學習：　　　　算法類似性　　根據算法的功能和形式的類似性，我們可以把算法分類，比如說基於樹的算法，基於神經網絡的算法等等。當然，機器學習的範圍非常龐大，有些算法很難明確歸類到某一類。而對於有些分類來說，同一分類的算法可以針對不同類型的問題。這裡，我們儘量把常用的算法按照最容易理解的方式進行分類。
盤點| 機器學習入門算法:從線性模型到神經網絡

原標題：盤點 | 機器學習入門算法：從線性模型到神經網絡選自Dataconomy 機器之心編譯參與：王宇欣、吳攀、蔣思源預測問題分為兩大類：現在我們已經介紹了機器學習在預測方面的應用，我們可以討論機器學習算法，其分為 3 個組別：線性模型（linear models）、樹型模型（tree-based models）、和神經網絡（neural networks）。
程式設計師面試常問算法:不用高等數學講明白神經網絡

生物神經網絡通常神經網絡可以分兩種，一是生物神經網絡，一是人工神經網絡。生物神經網絡：一般指生物的大腦神經元、細胞、觸點等組成的網絡，它產生生物的意識，幫助其進行思考和行動。人工神經網絡：它是一種模仿動物神經網絡行為特徵的算法數學模型。二、算法思維分析這是一道考察神經網絡基本原理的題目，一般來說生物神經網絡和人工神經網絡基本沒關係，但是它有助於理解人工神經網絡。
算法之「算法」:所有機器學習算法都可以表示為神經網絡

我們可以說，神經網絡是對機器學習的普遍概括，而不是僅僅一次嘗試。與其說神經網絡是簡單的算法，不如說是框架和概念，這是顯而易見的，因為在構建神經網絡時有很大的自由度——比如對於隱藏層&節點個數、激活函數、優化器、損失函數、網絡類型（卷積神經網絡、循環神經網絡等）以及特殊層（批歸一化、隨機失活等）。
人工神經網絡的五大主要應用場景

輸入單元基於內部加權系統接收各種形式和結構的信息，神經網絡嘗試學習所呈現的信息以產生一個輸出報告。就像人類需要規則和指南才能得出一個結果或輸出一樣，ANN也使用一組名為反向傳播（back propagation）的學習規則來完善他們的輸出結果。（反向傳播是錯誤向後傳播的縮寫。)一個人工神經網絡最初要經歷一個訓練階段，在這個階段，它學會識別數據中的模式，無論是視覺，聽覺還是文本。
機器學習算法匯總:人工神經網絡、深度學習及其它

算法類似性根據算法的功能和形式的類似性，我們可以把算法分類，比如說基於樹的算法，基於神經網絡的算法等等。當然，機器學習的範圍非常龐大，有些算法很難明確歸類到某一類。而對於有些分類來說，同一分類的算法可以針對不同類型的問題。這裡，我們儘量把常用的算法按照最容易理解的方式進行分類。
深度學習:神經網絡算法的昨天、今天和明天

而這些應用背後的核心算法就是深度學習（Deep Learning），也是機器學習（Machine Learning）領域最火熱的一個分支。和其他機器學習算法有很大不同，深度學習依賴大量數據的迭代訓練，進而發現數據中內在的特徵（Feature），然後給出結果。這些特徵中，有很多已經超越了人為定義的特徵的表達能力，因此得以讓深度學習在很多任務的表現上大大超越了其他機器學習算法，甚至超越了人類自己。
神經網絡學習降噪算法解析

這次研究與以往的降噪學習不同點在於，一般的神經網絡深度學習需要一個目標值，以圖像降噪處理來說，就是需要一個ISO 100時的高信噪比目標值，讓ISO 12800的輸入值通過算法來達到與之近似的水準。但NVIDIA這一套新算法直接以高噪聲輸入為源進行學習，最終得到的結果與傳統方案幾乎一致，而且因為不需要目標值，結構更簡單，所以速度明顯更快。
BP神經網絡

神經網絡的訓練過程，由特定的算法構成，提供了理想的學習樣本，訓練後，輸入和輸出足夠數量的例子，知道達到收斂。直至使神經網絡的輸出和理想輸出之間的誤差達到極小的狀態。就可以將經過訓練的模型用於解決相同類型的問題了。人工神經網絡各層結構之間的關係是非線性的映射。非線性等的分類問題也可以通過神經網絡來解決。人工神經網絡有著優秀的自學習能力，可以任意精度逼近我們所設定的非線性函數關係。
AutoML新進展:用進化算法發現神經網絡架構

在下圖中，每個點都是在CIFAR-10數據集上訓練的神經網絡，通常用於訓練圖像分類器。每個點都是一個神經網絡，這個網絡在一個常用的圖像分類數據集(CIRAR-10)上進行了訓練。最初，人口由1000個相同的簡單種子模型組成(沒有隱藏層)。從簡單的種子模型開始非常重要，如果我們從初始條件包含專家知識的高質量模型開始，那麼最終獲得高質量模型會更容易。
神經網絡算法Batch Normalization的分析與展望 | 大牛講堂

訓練更深的神經網絡近年來一直是深度學習領域的重要趨勢之一，2015年初Google提出的Batch Normalization 算法使得深層神經網絡訓練更加穩定1．引言現在正是神經網絡的第三次研究的熱潮，與之前兩次不同，這次神經網絡（深度學習）在很多實際問題上取得了巨大的成功，吸引了越來越多的人投身其中。剛開始接觸神經網絡的同學們，往往發現無從下手，有很多理論的文章，但是似乎對實際用處不大。談論最多的往往是各種各樣的tricks。
神經網絡算法BatchNormalization的分析與展望|大牛講堂

訓練更深的神經網絡近年來一直是深度學習領域的重要趨勢之一，2015年初Google提出的Batch Normalization 算法使得深層神經網絡訓練更加穩定，加快了收斂的速度，甚至同時起到了正則化的作用。本期羅老師將為大家分析Batch Normalization背後的動機和原理，以及後續的發展。
人工神經網絡四種算法,你有知道的嗎?

人工神經網絡的許多算法已在智能信息處理系統中獲得廣泛採用，尤為突出是是以下4種算法：ART網絡、LVQ網絡、Kohonen網絡Hopfield網絡，下面就具體介紹一下這這四種算法：1．自適應諧振理論（ART）網絡
金融領域裡的機器學習算法介紹:人工神經網絡

人工智慧的發展在很大程度上是由神經網絡、深度學習和強化學習推動的。這些複雜的算法可以解決高度複雜的機器學習任務，如圖像分類、人臉識別、語音識別和自然語言處理等。這些複雜任務一般是非線性的，同時包含著大量的特徵輸入。我們下面我們將分幾天的時間對這些算法及其在金融領域的應用進行闡述。

訓練神經網絡的五大算法

相關焦點

從梯度下降到擬牛頓法:詳解訓練神經網絡的五大學習算法

神經網絡算法原理_神經網絡算法的應用_神經網絡算法實例說明

基於神經網絡算法 羊毛_基於pso算法和bp算法訓練神經網絡 - CSDN

人工智慧算法:訓練神經網絡中的批量歸一化(附代碼)

前沿| 利用遺傳算法優化神經網絡:Uber提出深度學習訓練新方式

從零開始:教你如何訓練神經網絡

機器學習算法盤點:人工神經網絡、深度學習

盤點| 機器學習入門算法:從線性模型到神經網絡

程式設計師面試常問算法:不用高等數學講明白神經網絡

算法之「算法」:所有機器學習算法都可以表示為神經網絡

人工神經網絡的五大主要應用場景

機器學習算法匯總:人工神經網絡、深度學習及其它

深度學習:神經網絡算法的昨天、今天和明天

神經網絡學習降噪算法解析

BP神經網絡

AutoML新進展:用進化算法發現神經網絡架構

神經網絡算法Batch Normalization的分析與展望 | 大牛講堂

神經網絡算法BatchNormalization的分析與展望|大牛講堂

人工神經網絡四種算法,你有知道的嗎?

金融領域裡的機器學習算法介紹:人工神經網絡

基於神經網絡算法羊毛_基於pso算法和bp算法訓練神經網絡 - CSDN