消失的梯度問題:問題,原因,意義及其解決對策

2021-01-09 手機鳳凰網

本文為 AI 研習社編譯的技術博客,原標題 :

The Vanishing Gradient Problem

作者 | Chi-Feng Wang

翻譯 | Dddda  編輯 | 王立魚

原文連結:

https://towardsdatascience.com/solving-nlp-task-using-sequence2sequence-model-from-zero-to-hero-c193c1bd03d1

  問題

隨著越來越多的激活函數加到神經網絡中,損失函數的梯度趨近於0,使得網絡結構很難訓練。

  原因

具體的激活函數,比如sigmoid函數,把很大的空間壓縮到0和1之間。因此,sigmoid函數的輸入即使變化很大也只會改變一點輸出。因此,求導就變得很小。

圖1:sigmoid函數以及導數

例如,圖一是sigmoid函數及其導數。注意當sigmoid函數的輸入變大或變小時(當|x|),導數如何接近零。

  為什麼這是重要的?

對於使用激活函數的僅有幾層的淺層網絡結構,這不是很大的問題。然而,當使用更多層的時候,可能會造成梯度太小而不能很好的訓練。

神經網絡的梯度是使用反向傳播來找到的。簡單來說,反向傳播通過將網絡從最終層逐層移動到初始層來找到網絡的導數。 通過鏈式的規則,將各層的導數乘上網絡(從最終層到初始層),計算出初始層的導數。

然而,當有n個隱藏層使用像sigmoid的激活函數時,n個小的倒數相乘。因此,當我們反向傳到初始層的時候,梯度會大幅度下降。

一個小的梯度意味著初始層的權重和偏差不會在訓練中得到有效更新。由於這些初始層通常對識別輸入數據的核心元素至關重要,因此可能導致整個網絡的整體不準確。 

  解決方案

最簡單的解決方案是使用激活函數,像ReLU,不會導致一個小的導數。

殘差網絡是另外一個解決方案,因為提供了殘差與之前的層直接連接。就像圖2中,殘差連接直接將block的開頭x的值添加到block(F(x)+x)的結尾。雷鋒網雷鋒網雷鋒網

這個殘差連接不通過「擠壓」的激活函數,從而導致block的整體倒數更大。 

圖2:殘差層

*************************************************************************

譯者個人註解:精髓就在於直接連過來的那個x了。h(x)=f(x)+ x,h(x)對 x 求偏導,值為1,這個1直接傳到block的最前端,保證了來自後一層的梯度值完好的傳過了這一層然後進入到前一層,使得淺層的weights也可以得到很好的訓練。

*************************************************************************

最後,batch normalization層還可以解決這個問題。如前所述,當一個大的輸入空間映射到一個小的輸入空間時,問題就出現了,導致導數消失。 在圖1中,很清晰看到|x|變大的時候。bath normalization通過簡單地規範化輸入來減少這個問題,這樣x就不會到達sigmoid函數的外邊緣。如圖3所示,它對輸入進行了規範化,使其大部分落在綠色區域,其中導數不太小。

圖三: 限制輸入的sigmoid 函數

如果你有任何的問題或者建議,記得評論 :)

閱讀以下的文章來獲得更多的信息:

https://www.quora.com/What-is-the-vanishing-gradient-problem

https://en.wikipedia.org/wiki/Vanishing_gradient_problem

https://towardsdatascience.com/intuit-and-implement-batch-normalization-c05480333c5b

點擊消失的梯度問題:問題、原因、意義及其解決對策】即可訪問:

今日資源推薦:數據科學家修煉之道

這是一本跟數據科學和數據科學家有關的「手冊」,它還包含傳統統計學、編程或計算機科學教科書中所沒有的信息。《數據天才:數據科學家修煉之道》有3個組成部分:一是多層次地討論數據科學是什麼,以及數據科學涉及哪些其他學科;二是數據科學的技術應用層面,包括教程和案例研究;三是給正在從業和有抱負的數據科學家介紹一些職業資源。

點擊連結即可獲取:https://ai.yanxishe.com/page/resourceDetail/614

相關焦點

  • VGGNet vs ResNet:機器學習中的梯度消失問題
    這是人工智慧和機器學習領域的一個常見面試問題。雖然答案可以在網上找到,但一直還沒能找到一個簡明扼要的答案。我們將從什麼是VGGNet開始,然後看看VGGNet遇到了什麼問題,以及ResNet如何解決它。VGGNetVGG代表Visual Geometry Group(牛津大學的一組研究人員開發了這個架構)。VGG架構由塊組成,每個塊由2D卷積和最大池化層組成。
  • 我國城市規劃中存在的問題與對策
    摘 要:城市規劃對於城市的建設與發展具有重要的指導意義。因此,做好城市規劃工作,可以有效促進城市的健康發展。但是從目前來看,我國的城市規劃中還存在著不少的問題,比如環境汙染問題、缺乏公眾參與以及土地利用不科學等等。這些問題嚴重影響了城市的健康發展。所以在當前形勢之下,做好城市規劃工作具有重大的戰略意義。
  • 五大原因及對策幫你解決這個頭疼的問題!
    那麼遇到了手機充不上電的問題時我們應該怎麼辦呢?應該怎麼來解決這個問題呢?今天小編就來幫大家分析一下手機充不上電的原因以及相應的對策吧,感興趣的小夥伴們一起來學習一下吧。原因1:手機系統故障手機充不進去電,可能是因為手機系統故障造成的,解決方法是將手機直接進行關機,然後在重新啟動手機,查看手機充電是否恢復正常。
  • PCR常見問題分析與對策
    PCR常見問題分析與對策 來源:來源網絡 2006-12-10 20:47 1.PCR產物的電泳檢測時間  一般為48h
  • 【AAAI論文】阿里提出新圖像描述框架,解決梯度消失難題
    通過提供一個實施中間監督的學習目標函數,其學習方法能在訓練過程中解決梯度消失的難題。現有的圖像描述方法通常都是訓練一個單級句子解碼器,這難以生成豐富的細粒度的描述。另一方面,由於梯度消失問題,多級圖像描述模型又難以訓練。
  • 小型水庫工程管理存在的問題及其對策
    然而,建設時因受各方面的條件限制,工程設計標準較低,有些甚至沒有進行設計,而且大部分以群眾運動方式修建,加上經過40多年的運行使用,工程設施普遍存在老化和損壞,嚴重影響工程的安全運行和經濟效益的發揮,威脅著水庫下遊人民群眾的生命和財產的安全,給社會造成不利的因素,也給工程管理方面帶來不少問題。本文對某某市小型水庫工程管理上存在問題的癥結和解決的對策作些探討。
  • 胡海巖院士:力學教育的幾個問題及其對策
    因此,在討論課程體系設計的具體問題時,普遍聚焦於知識體系的完整性、合理性,即某門課程或相關知識對學生後續學習和未來工作的直接作用,而對綜合素質的關心程度明顯不足。作者認為,在解決課程體系設計的已有問題時,形成共識的思想基礎在於遵循人才成長規律。學生的綜合素質包含若干相互關聯的要素,而綜合素質的提升又包含若干彼此遞進的階段。
  • 圓振動篩運行中常見的五大問題及解決對策都在這!
    作為一種常見的振動篩類型,圓振動篩(也稱:圓型振動篩)在日常運行中常見的問題有哪些呢?在遇到這些問題時,我們又該如何進行解決?本文從五個常見的圓振動篩問題,分析其產生原因並提出對策。一旦發生軸斷裂問題,圓振動篩會立即停止工作,其維修較為複雜,須給予高度重視。 原因及對策: 長時間的金屬疲勞或軸材質較差 圓振動篩的軸是一種金屬材料,在使用過程中會長時間受到扭矩和反覆衝擊力作用的合成力矩作用。
  • 活性汙泥法運行中的5大問題及對策
    活性汙泥法是常用的好氧法,所以能夠做好其運營管理非常重要,本文總結了活性汙泥法運行過程中的5大常見問題以及對策,具有很強的實用價值。
  • 英語翻譯容易出現的問題及對策
    翻譯是考生在考研英語中最不容易得分的一道題目,原因是考生在做英語翻譯的過程中容易出現一些問題,為了考生考個好成績,小編為大家整理了考研英語翻譯容易出現的問題及對策。
  • 每天五分鐘自然語言理解NLP:RNN為什麼會有梯度消失和梯度爆炸?
    : 趙光輝享受生活 舉報   本文重點   本文我們來看一下RNN最致命的問題
  • 變頻器的常見使用問題與對策
    2、怎麼解決高次諧波問題?二極體整流電路會產生……5、7、11、13次……的高次諧波。影響:電流增大、功率因數下降對策:請裝上AC或DC電抗器(3%壓降左右)3、怎麼解決電壓不平衡問題?有時很小的電壓不平衡會引起很嚴重的電流不平衡,甚至產生缺相。
  • 壓縮空氣(空壓機)系統供氣管路常見問題及對策
    實際操作中常在原有管道上進行更改,受限於工廠人員的技術能力、現場條件等原因,往往存在對實際用量估計不足、管道布局不合理等問題,造成局部管網負擔過重,壓損很大或局部管網壓力波動嚴重。針對此類問題,常用的解決辦法是:工廠在布局管網時應適當放大,布置略大於最大用氣需求量的環形主幹管網,設備用氣由環形管網就近引出,脈衝用氣設備應就近布置緩衝氣管,減少局部壓力波動。
  • 【乾貨】汙水處理常見泡沫、浮渣問題及解決對策之26-55問
    北極星水處理網訊:上一期為大家盤點了汙水處理中常見問題及解決對策之泡沫、浮渣類問題中的1-25問,今天為大家分享26-55問。問題26:為什麼二沉池面帶有腥味且未進水有泡沫?回答:如果生化池也有腥味的話,基本是汙泥濃度較高,氣溫也高,所以,在二沉池上可以感受到腥味。
  • 管式螺旋輸送機產生問題的原因和解決辦法
    本文為大家介紹管式螺旋輸送機中鏈條運行產生問題的原因和解決方法。作為管式螺旋輸送機中的關鍵部件,刮板鏈條常會出現鏈條跑偏、卡料、返料、浮鏈、噪聲等問題,長時間運行很容易導致鏈條變形和斷鏈。造成這些問題的原因主要是鏈條超負荷運轉,導致管式螺旋輸送機刮板鏈條負荷超載的原因有生產時的故障、管式螺旋輸送機選型和安裝調試問題、載荷運行、輸送速度等因素。
  • [趣味數學]數學問題解決及其教學
    1988年發表的美國《21世紀的數學基礎》認為,問題解決是把前面學到的知識用到新的和不熟悉的情境中的過程,而學習數學的主要目的在於問題解決。    最近20年來,世界上幾乎所有的國家都把提高學生的問題解決能力作為數學教學的主要目的之一。
  • 水電站勵磁系統的故障原因及對策
    作者介紹了水電站常見的勵磁系統故障,根據現象分析了發生的原因,並提出了相應的解決對策。希望對相關人員有一定的借鑑意義。 勵磁系統作為水電站發電機的重要組成部分,在發電機運行時承擔著調節發電機的出口電壓和機組無功功率的任務。
  • 組織切片常見問題與對策
    關鍵詞:組織切片;問題 ;對策中圖分類號: R 446. 8  文獻標識碼 : A文章編號: 1001 - 7399 ( 2009) 02 - 0211 - 04 我們就組織切片常見的問題與對策進行分析與討論 ,旨在與技術人員一起學習和交流 ,以提高組織切片的質量 ,為病理診斷提供可靠的依據。
  • 梯度向量的意義與運用
    梯度向量是數學或自然科學中常用的一個數學工具,它的推導和講解前面的文章已經提到過很多次了,本篇主要介紹下梯度向量的運用和主要意義向量微積分在向量演算中,一個主要的課題是引入向量和三維空間,這通常作為在笛卡爾坐標系中研究的二維空間的擴展。
  • 醫保服務監管中存在問題的原因及對策
    與此同時,醫療服務管理的困難和問題日趨凸現,醫療服務管理的水平和成效直接關聯醫療保險基金所面臨的各種風險。醫保服務監督管理作為保證參保人員基本醫療需求、減少醫療資源浪費、控制醫療費用不合理增長的重要手段,是醫療保障體系建設不可或缺的一個方面,也是醫療保障體系完善和可持續發展的重要保證。