本文主要包含以下內容:
1 簡介
2 最大似然和最小二乘
3 最小二乘幾何
4 序列學習
5 正則化最小二乘
6 多元輸出
1 簡介
其中 。這通常稱為線性回歸(linear regression)。這個模型的主要的屬性是其是參數 的線性函數。同時也是變量 的線性函數,這個暗示了模型的限制。
因此,通過輸入變量的固定的非線性函數的組合 來擴展這個模型的類:
其中 是基函數(basis functions),其最大值的索引是 ,所以模型中的參數一共有 個。
參數 允許數據中有任何固定的偏移,有時稱為偏差(bias)(不要與統計學意義上的「偏差」混淆)。通常會定義一個額外的啞基函數 ,這樣方便計算,即:
式中 , 。
在模式識別的應用中,對原始數據變量,會應用固定的預處理形式或特徵提取。如果原始變量包含向量 ,則特徵可以用基函數 表示。
通過使用非線性基函數,則函數 是輸入向量 的非線性函數。
式2 形式的函數被稱為線性模型,因為在 中是線性。參數的線性化會簡化這類模型的計算,但也會導致一些限制。
多項式回歸就是這個模型的一個特例,基函數是 。多項式基函數的一個限制是他們是輸入變量的全局函數,所以輸入空間的一個區域變化會影響其他區域。這個可以通過將輸入空間劃分成不同的區域並在每個區域擬合一個不同的多項式來解決,這會導致樣條函數(spline functions)。
其中 控制輸入空間的基函數的位置,參數 控制空間尺度。這些被認為是高斯基函數,儘管不需要一個概率解釋,但歸一化係數是不重要的,因為基函數將乘以自適應參數 。
另一個s形的基函數的概率形式為:
是邏輯sigmoid函數,定義如下:
同樣地,可以用tanh函數,因為 ,與sigmoid相關,所以邏輯sigmoid函數的線性組合等價於『tanh』函數的線性組合。這些基函數的各種選擇如圖1 所示。
另一個基函數的可能選擇是傅立葉基函數,其是正弦函數的擴展。每個基函數表示一個特定的頻率並且有無限的空間延伸。對比發現,基函數是在由不同空間頻率光譜組成的輸入空間的有限區域內局部化。在許多信號處理中,感興趣的是在空間和頻率上局部化的基函數,即小波(wavelets)。它們也被定義為相互正交,以簡化它們的應用。小波最適用於輸入值位於規則晶格上的情況,例如時間序列中連續的時間點,或圖像中的像素。
2 最大似然和最小二乘
假設目標變量 由決定方程 和加性高斯噪聲給出,則:
式中 是均值為0的高斯隨機變量,其精度為 。因此可以寫成:
如果假設損失函數是平方損失函數,則對於新值 的最佳預測將由目標變量的條件均值給出。根據條件高斯分布式8 ,條件均值可以簡化為:
高斯噪聲假設暗示給定 下 的條件分布是單峰的,這可能不適合某些應用。條件高斯分布混合的擴展允許多峰條件分布。
現在考慮輸入數據集 ,以及相應的目標值 。將目標變量 分組成一個列向量,用鉛字體 表示,區別於多元目標的單個觀察 。假設這些數據點是獨立地從分布式8 中採樣,則得到以下的似然函數的表達式,它是可調參數 和 的一個函數,形式如下:
式中利用了式3 。在監督學習中如回歸和分類,我們不是尋找輸入變量的分布模型。因為 總是會出現在條件變量集中,所以從現在開始將從表達式中顯示地刪除 如刪除 以保持符號整潔。
取似然函數的對數並利用單元高斯的標準形式,則有:
式中平方和誤差函數定義如下:
已經寫好了似然函數,下面用似然函數確定 和 。首先考慮對 最大化。線性模型的條件高斯噪聲的似然函數的最大化等價於最小化平方和誤差函數 。對數似然函數的梯度形式為:
梯度設為0:
然後得到:
上式被稱為最小二乘問題的正規方程(normal equations)。 是一個 的矩陣,稱為設計矩陣(design matrix),其元素由 給出,所以:
數量:
被稱為矩陣 的Moore-Penrose pseudo-inverse。它可以看作是矩陣逆的概念在非方陣上的推廣。事實上,如果 是方陣且是可逆的,那麼使用屬性 ,我們看到 。
此時,我們可以對偏差參數 的作用有一些了解。如果使偏差參數顯式,那麼誤差函數(式12 )變為:
對 求導令其等於0,並求出 ,得到:
式中定義了:
因此偏差 補償(在訓練集上)目標值的平均值與基函數值的平均值的加權和之間的差異。
也可以對噪聲精度參數 最大化對數似然函數式11 ,得到:
因此可以看到噪聲精度的逆由回歸函數周圍的目標值的剩餘方差(residual variance)給出。
3 最小二乘幾何
考慮最小二乘解的幾何解釋。考慮一個 維空間,其軸用 表示,因此 在這個空間是一個向量。 個數據點計算的每個基函數 也可以用在同樣空間裡的向量 表示,如圖2 所示。
對應 的第 列, 對應 的第 行。如果基函數的數量 遠小於數據點數量 ,則 個向量 將會擴張成維數為 的線性子空間 。
定義 是一個 維向量,其第 個元素由 給出,其中 。因為 是向量 的任意線性組合,所以它可以存在 維子空間的任何地方。平方和誤差式12 等於 和 之間的歐式距離的平方。因此 的最小二乘解對應在子空間 中最接近 的 。
根據圖2 ,這種解決方案對應於 在子空間 上的正交投影。確實是這種情況,通過指出 由 給出可以很容易地驗證。然後確認這是一個正交投影的形式。
在實踐中,正規方程的一個直接的解決方案會導致數值困難當 接近奇異時。特別是,當兩個或更多的基向量 是共線的,或幾乎共線,得到的參數值可以有很大的大小。這種近似簡併(near degeneracies )在處理真實數據集時並不少見。由此產生的數值困難可以用奇異值分解技術來解決,即SVD(singular value decomposition)。注意正則化項的加入確保了矩陣是非奇異的,即使存在退化(degeneracies)。
4 序列學習
批處理技術,例如涉及一次性處理整個訓練集的最大似然解(式15 ),對於大型數據集來說計算成本很高。如果數據集足夠大,那麼使用順序算法(sequential algorithms)可能是值得的,也稱為在線算法(on-line algorithms),在這種算法中,每次考慮一個數據點,並在每次這樣的展示後更新模型參數。順序學習也適用於實時應用,在這種應用中,數據觀察是在一個連續的流中到達的,並且必須在看到所有數據點之前做出預測。
我們可以通過應用隨機梯度下降(stochastic gradient descent)技術,也稱為順序梯度下降(sequential gradient descent),來獲得一個順序學習算法。如果誤差函數包含數據點的和 ,則在模式 出現後,隨機梯度下降算法更新參數向量 使用:
式中 表示迭代次數, 表示學習率。 的值被初始化為向量 。對於平方和誤差函數式12 ,得:
式中 。這被稱為最小均方算法(least-mean-squares)或LMS算法。在選擇 值時需要謹慎,以確保算法收斂。
5 正則化最小二乘
為了控制過擬合,我們在誤差函數中引入了添加正則項的思想,從而使總誤差函數最小化:
是正則化係數,控制數據誤差 和正則化項 的相對重要性。正則項的一個簡單形式由權重向量元素的平方和給出:
也要考慮平方和誤差函數:
則總誤差函數變為:
這種特殊的正則化選擇在機器學習文獻中被稱為權值衰減(weight decay),因為在順序學習算法中,它鼓勵權值向零衰減,除非有數據支持 。在統計學中,它提供了一個參數收縮(parameter shrinkage)方法的示例,因為它將參數值收縮到接近於零。
它的優點是誤差函數仍然是 的二次函數,因此它的精確極小值可以以封閉的形式找到。具體來說,將式27 關於 的梯度設為零,像前面一樣求解 ,我們得到:
這代表了最小二乘解(式15 )的簡單擴展。
有時會使用更一般的正則化,正則化誤差採用這種形式:
其中 對應二次正則化(式27 )。圖3 給出了不同 值下的正則化函數輪廓, 的情況在統計文獻中稱為lasso。它的性質是,如果 足夠大,一些係數 就會趨近於零,從而形成一個相應的基函數不發揮作用的稀疏模型(sparse model)。
為了了解這一點,我們首先注意到最小化(式29 )等價於最小化受約束的非正則化平方和誤差(式12 )
為了獲得參數 的適當值,其中可以將這兩種方法關聯起來使用拉格朗日乘子。稀疏度的起源可以從圖4 中看出,在約束條件(式30 )下誤差函數的最小值。隨著 參數的增加,越來越多的參數被歸零。
通過限制模型的有效複雜度 ,正則化使得複雜模型可以在有限大小的數據集上進行訓練,而不會出現嚴重的過擬合 。然而,確定最優模型複雜度的問題從尋找合適的基函數數量轉移到確定正則化係數 的合適值 。
6 多元輸出
到目前為止,已經考慮了單一目標變量 的情況。在某些應用中,我們可能希望預測 的目標變量,用目標向量 表示。這可以通過為 的每個成分引入一組不同的基函數來實現,從而導致多個獨立的回歸問題。然而,一種更有趣、更常見的方法是使用相同的基函數集對目標向量的所有成分建模,所以:
式中, 為 維列向量, 為參數的 的矩陣,而 為元素為 的 維列向量,而 。假設目標向量的條件分布為各向同性高斯分布形式:
如果有一組觀測 ,我們可以把它們組合成一個大小為 的矩陣 ,使第 行由 給出。同樣,我們可以將輸入向量 組合為矩陣 ,則對數似然函數為:
和之前一樣,我們可以最大化這個關於 的函數:
如果檢查每個目標變量 的結果,有
其中 為 維列向量,其成分為 。因此,對回歸問題的求解需要在不同的目標變量之間解耦,並且我們只需要計算一個偽逆矩陣 ,這是由所有的向量 共享。
推廣到具有任意協方差矩陣的一般高斯噪聲分布是直接的。同樣,這導致了 個獨立回歸問題的解耦。這個結果並不令人驚訝,因為參數 只定義了高斯噪聲分布的平均值,並且我們知道多元高斯分布的平均值的最大似然解是獨立於協方差的。因此,從現在開始,為了簡單起見,我們將考慮單一目標變量 。