筆記(乾貨):dropout原理總結

2021-01-08 程式設計師日常匯總

深度學習架構現在變得越來越深,dropout作為一個防過擬合的手段,使用也越來越普遍。

圖1為:稠密網絡

2012年,Dropout的想法被首次提出,它的出現徹底改變了深度學習進度,之後深度學習方向(反饋模型)開始展現優勢,傳統的機器學習慢慢的消聲。

那麼,我們想問的是,什麼是dropout呢?

dropout改變之前稠密網絡中,權重統一學習,參數統一更新的模式,提出在每次訓練迭代中,讓網絡中的部分參數得到學習,即部分參數得到更新,部分參數保持不更新。

在每次迭代中學習更新網絡中的部分參數

這種方法,看起來簡單,但是卻解決了,困擾了深度學習方向,一直只能用淺層網絡,無法使用深度網絡的尷尬局面,(因為隨著網絡的層數加大,過擬合問題一定會出現)

做了這麼多鋪墊,還沒有提到正題,Dropout身後的數學原理是什麼?在說這個之前,我們不得不說先說一下正則化,畢竟要說明白一件事,還是要有頭有尾,不至於讓看筆記的人,看到莫名其妙。

在dropout提出之前,學院派和工業屆在深度學習消除過擬合的研究方向(領域)是--正則化。 最早是在2000年初,開始被引入,然後在神經網絡中被廣泛使用。eg:L1,L2,Ln正則化。 但是,這些正則化並不能完全理解過度擬合問題,因為這種正則化的處理方式是: 共同適應.

簡單的用圖描述一下神經網絡中的協同適應,如下圖:

神經網絡中的協同適應

在深度/大型神經網絡中,一個主要問題就是:協同適應,你想像一下,如果網絡中所有的權重都是一塊學習更新的,那麼網絡層中一定會存在非常大的參數,這會使得這些參數更加的敏感,相比其他參數,它們具備更高的預測能力(因為它們對輸入的值更加敏感)。在這種條件下,當訓練時,隨著網路不斷的迭代,這些參數學習得更快,也就是被調整的更多,所對應的特徵也就學習的更深入,其他的參數慢慢被消弱,甚至被忽視,這種現象被稱之為: 共適應。 像L1,L2這樣的傳統正則化無法防止這種情況,因為它們只是根據參數的大小進行了正則化,它們在選擇和拒絕參數權重的時候,也是具有確定性的。還是避免不了強者變強,弱者變弱的現象。因此,在dropout之前,神經網絡的規模和準確性變得有限。

嗯,這就是為什麼還需要Dropout了,它面對L1,L2問題時,避開了共同適應問題,提出了自適應,因而我們可以搭建更深的神經網絡。

額,如果你只需了解Dropout的故事,看到這裡就可以了,如果你想更深入了解一下Dropout,以及背後的數學原理,那麼請耐心的繼續往下閱讀吧。

那麼,Dropout被後的數學原理是什麼呢?

想像一下:一個簡單的單層網絡,如下圖4所示。

單層網絡(具備四個參數)

線性激活函數,f(x)=x。輸出結果是輸入乘以網絡層參數的和sum(wI)。我們考慮用這個簡化的例子來做數學解釋。結果(經驗)適用於通常的非線性網絡。

對於模型評估,我們需要最小化min損失函數loss,對於這個線性層網絡,我們使用最小二乘損失函數( ordinary least square loss)來評估:

上圖中: (1)表示的是最小二乘損失函數。(2)dropout_rate為,其中~伯努利(p)(即服從伯努利分布),至於什麼是伯努利分布,伯努利分布是一個離散型機率分布,是N=1時二項分布的特殊情況(詳細的,自己去百度哈)

網絡訓練的反向傳播採用梯度下降法。因此,我們將首先看方程2中帶有dropout網絡的梯度,然後再看方程1中的網絡。

現在,我們將試圖找到這個梯度和正則網絡的梯度之間的關係。為此,假設我們在等式1中設w'=p*w。因此,

對於(4)公式取導數:

現在,我們不難發現。如果我們得到dropout網絡梯度的期望值,

由(6)可知,如果w'=p*w,則帶dropout的梯度的期望值等於正則後的正則網絡E的梯度。

Dropout 等價於 regularized Network(正則化網絡)

上面的標題意思是:最小化損失函數loss(在等式2中)等同於最小化正則化網絡的損失loss,對正則化網絡的損失函數還有印象嗎?,如下面的等式7所示。

看看,(7)和(6)是不是一樣的。所以,我們就可以解釋以下問題:

1. 為什麼當dropout_rate, p = 0.5時,會出現 最大正則效果?

是因為(7)中p(1-p),在p=1/2時,最大啊

2. 對於不同的層,應該選擇什麼樣的p值?【對於dropout網絡而言】

在Keras中,dropout_rate設定為是(1-p)。對於中間層,大型網絡,選擇(1-p)=0.5是理想的。對於輸入層,(1-p)應保持在0.2或更低。這是因為刪除輸入數據會對培訓產生不利影響。不建議A(1-p)>0.5,因為它在不增強正則化的情況下剔除過多的參數。

3. 為什麼我們在測試(test)或預測(inference)過程中用p來衡量權重w,而不是(1-p),可是訓練的時候是(1-p)啊?

因為dropout網絡的期望值相當於一個正則網絡,它的權值隨dropout_rate p的變化而變化。這種變化使得dropout網絡的推論與整個網絡相當。這也有計算上的好處,這在[1]中用集成建模的觀點解釋。

如果有什麼困惑/或者交流的可以留言哈

參考資料:

1. Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., & Salakhutdinov, R. (2014). Dropout: a simple way to prevent neural networks from overfitting. The Journal of Machine Learning Research, 15(1), 1929–1958.

2. Baldi, P., & Sadowski, P. J. (2013). Understanding dropout. In Advances in neural information processing systems(pp. 2814–2822).

相關焦點

  • 55頁博士筆記總結ICLR 2019大會幹貨
    這篇55頁、由布朗大學博士四年級學生David Abel總結整理的ICLR 2019參會Highlights筆記,提煉了演講和會談亮點,通篇乾貨!作為今年上半年表現最為亮眼的人工智慧頂會,ICLR 2019於5月6日至9日在美國紐奧良舉行。本屆投稿比去年增長了近60%,共收到1591篇,錄取率為31.7%。與往年一樣,本次大會每天分上午下午兩場。
  • 給工科小白研究生的乾貨分享:如何做好實驗筆記?
    大家好,我是@阿芷學姐,馬上就要碩士畢業啦,我整理了讀研期間的經驗乾貨分享給大家,留作科研小白入門指南~希望對你們有幫助。實驗筆記的作用實驗筆記可以幫助重現實驗場景。實驗筆記可以作為證據。有些期刊發文章可能還要提供原始數據,以防造假。實驗記錄就是最好的證明,證明你確實做了實驗而非虛構數據。留給師弟師妹們作為經驗分享。你的實驗記錄不僅你自己看,還需要作為經驗分享給師弟師妹,比如具體設備、儀器的操作,具體的實驗參數等,可以分享給下一屆繼續深入研究。實驗筆記記什麼記錄實驗參數。
  • 乾貨:HSC物理最強抱佛腳攻略第二彈!!(易錯+重點知識點總結2)
    繼上次乾貨滿滿的第一彈HSC佛腳攻略之後(還沒看的同學速戳下方連結!!!)乾貨:HSC物理最強抱佛腳攻略來啦!!廢話不多說 讓我們直接來看module7和8的乾貨知識點!要了解這個問題,我們首先要先知道一下,我們可以在鏡子裡面看到自己的原理是什麼我們能看到所有物體,都是因為光打到這個物體上,反射到我們的眼睛裡
  • 在TensorFlow(Keras)中了解和實現Dropout
    實際上,我們在每個訓練步驟中都在訓練各種不同的網絡(因為在任何兩個訓練步驟中都不可能排除相同的神經元),因此,使用dropout技術訓練的神經網絡是在每個訓練步驟中的所有不同神經元連接組合的平均值。當相同的數據集在相同的卷積神經網絡上進行測試(任何一層中均未包含dropout技術)時,錯誤率為16.6%,相比之下,這是一個進步。2、評估訓練過的神經網絡時不會使用Dropout。由於在評估或測試階段未使用Dropout,因此神經網絡可以充分發其潛力,這意味著網絡中的所有神經元都處於活動狀態,每個神經元的輸入連接都比訓練時多。
  • 硬核知識分享大賽 心理諮詢師《心理評估》筆記總結思維導圖
    《心理學諮詢師》筆記總結分享《第六章 心理評估》思維導圖2020.5.15.需要考心理諮詢師的朋友,都是乾貨,直接拿走。初診接待:心理諮詢師與來訪者的第一次會面。攝入性會談:目的是收集資料。(一)確定會談內容和範圍所依據的參照點:求助者主動提出的求助內容。
  • 2018年你一定不能錯過的史上最全XPS乾貨總結(必收藏)
    為了更好的讓大家全方位了解XPS的分析方法、應用,小編馬不停蹄,為廣大讀者奉上史上最全的XPS測試分析方法總結,點擊標題直接跳轉到原文。而且聰明如你,可以從以下內容中找到自己心儀的公眾號。【 入門原理篇 】1.
  • 我們的筆記,是給誰看的?官兵們記筆記的意義在於什麼?
    我們的筆記,是給誰看的?  ■劉葆旭  在跟隨機關檢查組下基層檢查時,我發現一個現象:官兵們的教育筆記寫得工工整整,內容近乎一模一樣,但隨機抽問核實時,很多戰士一問三不知,偶爾有幾個能回答上來的,也是模稜兩可、似是而非。  為什麼會出現這種情況?經過調查得知,有的連隊定期下發各種筆記模板,利用休息時間集中組織官兵抄筆記。
  • 乾貨丨超聲焊接原理及影響因素
    如果本文對你有所幫助,歡迎分享到朋友圈點擊下列標題 閱讀更多歷史乾貨【技術π】深度剖析鋰離子電池鼓脹原因丨【鋰電內阻】理論結合生產談談鋰電池內阻那些事丨【技術π】深度剖析NCM811電池壽命衰減原因丨【精品】鋰電池漿料性質及關鍵影響因素分析丨【技術π】水分含量對電池性能的影響 丨【技術π】陶瓷塗層在鋰電池中的應用丨【技術π】電極漿料製備過程中物料顆粒狀態變化詳解丨
  • 附北大學姐筆記
    同學們好哇,學姐前幾天分享了一篇解決所有高三學生的數學「概率與統計」這一板塊的文章隨後又有小可愛問學姐分享怎樣能解決高中導數的所有問題和不等式的專題,有這幾個板塊沒學懂的小可愛可以去前面翻翻學姐的文章今天學姐總結的是圓錐曲線的所有結論(圓錐曲線是高中數學偏難的知識點
  • 谷歌大腦最新研究:AutoML的方式自動學習Dropout模式
    在得到dropout模式之後,研究人員將其應用於批量歸一化層的輸出——根據研究人員的經驗,在網絡的其他地方進行應用,往往會導致搜索過程中訓練的不穩定。如果CNN中存在殘差連接,控制器則會進一步判斷,是否把dropout模式應用到殘差分支中。控制器模型和搜索算法AutoDropout的控制器是通過強化學習來訓練的。
  • 歷史學霸總結的八年級上冊歷史複習筆記
    28:24 來源: 教育資源 舉報   前幾天,老師聯繫了位地理學霸,分享了他的地理學習筆記
  • 衡中教授總結:高中生物~必修1+2+3知識點總結!附學霸手寫筆記哦
    學霸曾說:「我把高一高二都當作高三過,所以到了高三我成績非常穩定」下面就是學姐帶來的衡中教授總結:高中生物~171個必修123知識點總結!附學姐手寫生物筆記(高一高二用)+高考九科模擬卷(高三用)但是內容太多,學姐不能發出全部文末領取完整高中生物資料電子版學姐在北大等泥萌哦
  • 附筆記pdf下載,MIT中文線性代數課程精細筆記[第四課]
    點擊上方「MLNLP」,選擇「星標」公眾號重磅乾貨
  • 神經網絡中的損失函數正則化和 Dropout 並手寫代碼實現
    在深度神經網絡中最常用的方法是Regularization和dropout。 在本文中,我們將一起理解這兩種方法並在python中實現它們Regularization 正則化正則化通過在損失函數的末尾添加額外的懲罰項來幫助防止模型過度擬合。
  • 一鍵查收|優秀筆記養成秘笈
    今日特意為大家尋來各位學霸的優秀筆記 人生在勤,不索何獲 假期不要鬆懈 以優秀筆記為鑑,快學起來吧!醫藥學院 甘瑩瑩 天然藥物化學醫藥學院 商櫻子 中藥藥劑學醫藥學院 王婷 藥物分析醫藥學院 王孜慧 細胞生物學醫藥學院 楊晶晶 藥理學看到這優秀的筆記學霸們整齊的排版、清晰的思路無不令人讚嘆相信你一定有所收穫下面,小編總結了優秀筆記的幾大特點讓我們一起學起來吧
  • 超級乾貨!一個曾經的職場老臣的2020年心得筆記!
    這裡面有些是乾貨、有些是思考、有些是好喝的雞湯(公眾號:瀛臺的蝸牛)。總有幾條適合你,以下Enjoy:2020年12月1、有人經常說他和某領導挺熟,是親戚,使別人對該領導的尊敬與懼怕轉移到對他的尊敬與懼怕。12月24日 微信筆記記錄2、經歷過一次又一次挫折之後,承受打擊的閾值才會變大。
  • 最清晰的講解各種梯度下降法原理與Dropout
    Dropout的正則化原理1、dropout 如何工作典型的神經網絡其訓練流程是將輸入通過網絡進行正向傳導,然後將誤差進行反向傳播。
  • 你會記筆記嗎?你與學霸的距離,可能就差本筆記
    計算機科學與技術學院研究生展示他們製作整理的《統計學原理》思維導圖。  獲得本次筆記展一等獎的作品,是計算機科學與技術學院研究生「網絡智能與網絡技術創新團隊」的《統計學原理》,一份由16張A4紙拼接出來的思維導圖,文字不多,但濃縮了一本200多頁的《統計學原理》教材。  四位研究生各自分工,將自己對這門學科的理解用脈絡線條舒展在一張大紙上。團隊一位同學介紹,研究生很少記課堂筆記,他們要閱讀大量論文,常用思維導圖來展示知識框架。
  • 深度| 「金字塔原理」裡藏著新媒體文案的黃金邏輯
    先重要後次要,先總結後具體,先框架後細節,先結論後原因,先結果後過程,先論點後論據。 Ø 具體做法(演示的邏輯):自上而下表達,自下而上思考,縱向總結概括,橫向歸類分組,序言講故事(SCQA結構),標題提煉思想精華。
  • 《心理學諮詢師基礎知識》筆記總結分享《發展心理學》思維導圖
    《心理學諮詢師基礎知識》筆記總結分享《第四章 發展心理學》思維導圖2020.5.13.需要考心理諮詢師的朋友,都是乾貨,直接拿走。發展心理學:研究心理發展規律的科學。個體的心理發展:指人類個體從出生到衰亡的整個過程中的心理發展。