沒時間看文章學算法?
小編每天為你遴選好算法、好文章,整理知識點。
三分鐘學習開始啦~
----
正則化是一種為了減小測試誤差的行為。
當利用複雜的模型擬合數據,過擬合現象的出現導致模型的泛化能力下降時,使用正則化的適用可以降低模型的複雜度。
這次為大家總結了正則化的相關知識點,幫助更好的理解正則化這一概念。
正則化的本質就是對某一問題加以先驗的限制或約束以達到特定目的的一種手段或操作。
LP範數
範數是為用來表徵向量空間中的距離,而距離的定義很抽象,只要滿足非負、自反、三角不等式就可以稱之為距離。LP範數不是一個範數,而是一組範數,其定義如下:
p是[1,∞)[1,∞)。p在(0,1)(0,1)範圍內定義的並不是範數,因為違反了三角不等式。
根據pp的變化,範數也有著不同的變化,借用一個經典的有關P範數的變化圖如下:
上圖表示了pp從0到正無窮變化時,單位球(unit ball)的變化情況。在P範數下定義的單位球都是凸集,但是當0<p<10<p<1時,在該定義下的unit ball並不是凸集(這個我們之前提到,當0<p<10<p<1時並不是範數)。
L0範數表示向量中非零元素的個數,用公式表示如下:
最小化L0範數可以來尋找最少最優的稀疏特徵項。但是,L0範數的最優化問題是一個NP hard問題(L0範數同樣是非凸的)。因此,在實際應用中我們經常對L0進行凸鬆弛,理論上有證明,L1範數是L0範數的最優凸近似,因此通常使用L1範數來代替直接優化L0範數。
L1範數
根據LP範數的定義我們可以很輕鬆的得到L1範數的數學形式:
通過上式可以看到,L1範數就是向量各元素的絕對值之和,也被稱為是"稀疏規則算子"(Lasso regularization)。那麼問題來了,為什麼我們希望稀疏化?稀疏化有很多好處,最直接的兩個:
特徵選擇可解釋性L2範數
L2範數是最熟悉的,就是歐幾裡得距離,公式如下:
L2範數有很多名稱,有人把它的回歸叫「嶺回歸」(Ridge Regression),也有人叫它「權值衰減」(Weight Decay)。以L2範數作為正則項可以得到稠密解,即每個特徵對應的參數ww都很小,接近於0但是不為0;此外,L2範數作為正則化項,可以防止模型為了迎合訓練集而過於複雜造成過擬合的情況,從而提高模型的泛化能力。
L1範數和L2範數的區別
引入PRML一個經典的圖來說明下L1和L2範數的區別,如下圖所示:
如上圖所示,藍色的圓圈表示問題可能的解範圍,橘色的表示正則項可能的解範圍。而整個目標函數(原問題+正則項)有解若且唯若兩個解範圍相切。從上圖可以很容易地看出,由於L2範數解範圍是圓,所以相切的點有很大可能不在坐標軸上,而由於L1範數是菱形(頂點是凸出來的),其相切的點更可能在坐標軸上,而坐標軸上的點有一個特點,其只有一個坐標分量不為零,其他坐標分量為零,即是稀疏的。所以有如下結論,L1範數可以導致稀疏解,L2範數導致稠密解。
從貝葉斯先驗的角度看,當訓練一個模型時,僅依靠當前的訓練數據集是不夠的,為了實現更好的泛化能力,往往需要加入先驗項,而加入正則項相當於加入了一種先驗。
L1範數相當於加入了一個Laplacean先驗;L2範數相當於加入了一個Gaussian先驗。如下圖所示:
Dropout
Dropout是深度學習中經常採用的一種正則化方法。
具體做法:在DNNs訓練的過程中以概率p丟棄部分神經元,即使得被丟棄的神經元輸出為0。Dropout可以實例化的表示為下圖:
我們可以從兩個方面去直觀地理解Dropout的正則化效果:
在Dropout每一輪訓練過程中隨機丟失神經元的操作相當於多個DNNs進行取平均,因此用於預測時具有vote的效果。減少神經元之間複雜的共適應性。當隱藏層神經元被隨機刪除之後,使得全連接網絡具有了一定的稀疏化,從而有效地減輕了不同特徵的協同效應。也就是說,有些特徵可能會依賴於固定關係的隱含節點的共同作用,而通過Dropout的話,就有效地組織了某些特徵在其他特徵存在下才有效果的情況,增加了神經網絡的魯棒性。Batch Normalization
批規範化(Batch Normalization)主要用於加速網絡的收斂,但也具有一定程度的正則化效果。這裡引用下魏秀參博士的知乎回答中對covariate shift的解釋(https://www.zhihu.com/question/38102762)。
大家都知道在統計機器學習中的一個經典假設是「源空間(source domain)和目標空間(target domain)的數據分布(distribution)是一致的」。如果不一致,那麼就出現了新的機器學習問題,如transfer learning/domain adaptation等。而covariate shift就是分布不一致假設之下的一個分支問題,它是指源空間和目標空間的條件概率是一致的,但是其邊緣概率不同。大家細想便會發現,的確,對於神經網絡的各層輸出,由於它們經過了層內操作作用,其分布顯然與各層對應的輸入信號分布不同,而且差異會隨著網絡深度增大而增大,可是它們所能「指示」的樣本標記(label)仍然是不變的,這便符合了covariate shift的定義。BN的基本思想其實相當直觀,因為神經網絡在做非線性變換前的激活輸入值(X=WU+BX=WU+B,UU是輸入)隨著網絡深度加深,其分布逐漸發生偏移或者變動(即上述的covariate shift)。之所以訓練收斂慢,一般是整體分布逐漸往非線性函數的取值區間的上下限兩端靠近(對於Sigmoid函數來說,意味著激活輸入值X=WU+BX=WU+B是大的負值或正值),所以這導致後向傳播時低層神經網絡的梯度消失,這是訓練深層神經網絡收斂越來越慢的本質原因。而BN就是通過一定的規範化手段,把每層神經網絡任意神經元這個輸入值的分布強行拉回到均值為0方差為1的標準正態分布,避免因為激活函數導致的梯度彌散問題。所以與其說BN的作用是緩解covariate shift,倒不如說BN可緩解梯度彌散問題。
歸一化、標準化 & 正則化
歸一化和標準化是兩個容易和正則化相混淆的概念。
歸一化(Normalization):歸一化的目標是找到某種映射關係,將原數據映射到[a,b]區間上。一般a,b會取[1,1],[0,1]這些組合。常用min-max normalization:
一般有兩種應用場景:把數變為(0, 1)之間的小數把有量綱的數轉化為無量綱的數標準化(Standardization):用大數定理將數據轉化為一個標準正態分布,標準化公式為:
歸一化和標準化的區別:
歸一化的縮放是「擠壓」統一到區間(僅由極值決定),而標準化的縮放是更加「彈性」和「動態」的,和整體樣本的分布有很大的關係。
歸一化:縮放僅僅跟最大、最小值的差別有關。標準化:縮放和每個點都有關係,通過方差(variance)體現出來。與歸一化對比,標準化中所有數據點都有貢獻(通過均值和標準差造成影響)。標準化和歸一化的優勢
歸一化使得不同維度之間的特徵在數值上有一定比較性,可以大大提高分類器的準確性——提升模型精度標準化將使得最優解的尋優過程平緩,更容易正確的收斂到最優解。——加速模型收斂
-
不要錯過一個三分鐘學習的機會~
快點擊關注吧~