本文主要包含以下內容:
1 簡介
2 固定基函數
3 邏輯回歸
4 迭代加權最小二乘
5 多類邏輯回歸
6 概率單位回歸
7 規範的連結函數
對於二分類問題,我們已經看到,對於類條件分布
同樣,對於多類的情況,類
然而,另一種方法是明確地使用廣義線性模型的函數形式,並用最大似然法直接確定其參數。我們將看到,有一種有效尋找這樣的解的算法稱為迭代重加權最小二乘(iterative reweighted least squares),或IRLS。
間接來找到一個廣義線性模型的參數的方法,通過擬合類條件密度和類先驗分開,然後應用貝葉斯定理,代表生成(generative)模型的一個例子,因為我們可能需要這樣一個模型並通過從邊際分布
在直接方法中,我們最大化一個通過條件分布
判別方法的一個優點是,通常需要確定的自適應參數更少,稍後我們將看到這一點。它還可能改進預測性能,特別是當類條件密度的假設給出一個接近真實分布的較差近似。
2 固定基函數到目前為止,已經考慮了直接與原始輸入向量
類在特徵空間
在許多實際問題中,類條件密度
非線性轉換
這種固定的基函數模型有重要的限制,這些將在後面的文章中通過允許基函數本身適應數據來解決。儘管有這些限制,具有固定非線性基函數的模型在應用中扮演著重要的角色,並且對這種模型的討論將引入許多關鍵的概念,以便理解它們更複雜的對等物。
3 邏輯回歸從考慮二分類問題開始處理廣義線性模型。在關於生成方法的討論中,我們看到在相當一般的假設下,類
對於一個
我們現在使用最大似然來確定logistic回歸模型的參數。為了做到這一點,我們將利用logistic sigmoid函數的導數,它可以方便地用sigmoid函數本身來表示:
對於數據集
其中
其中
使用了式88。可以看到,涉及logistic sigmoid的導數的因子已經被消除,導致對數似然的梯度的簡化形式。特別是,數據點
如果需要,我們可以利用結果式91來給出一個順序算法,其中模式一次只給出一個,其中每個權向量都使用式22更新,其中
值得注意的是,對於線性可分離的數據集,最大似然可能表現出嚴重的過擬合。這是因為最大似然解出現在對應於
此外,這些解通常是連續的,因為任何分離的超平面都會在訓練數據點上產生相同的後驗概率,如圖10.13所示。最大似然性並不能使一個解決方案優於另一個解決方案,在實踐中找到哪種解決方案將取決於優化算法的選擇和參數初始化。需要注意的是,即使數據點的數量比模型中的參數的數量大,只要訓練數據集是線性可分的,問題就會出現。奇異點可以通過包含一個先驗和為
在線性回歸模型的情況下,在高斯噪聲模型的假設下的最大似然解導致一個封閉形式的解。這是對數似然函數對參數向量
對於logistic回歸,由於logistic sigmoid函數的非線性,不再有一個封閉形式的解。但對二次型的背離並不明顯。準確地說,誤差函數是凹的,因此有唯一的最小值。
此外,利用對對數似然函數局部二次逼近的Newton-Raphson迭代優化方案,可以有效地最小化誤差函數。最小化函數
其中
首先,將Newton-Raphson方法應用於具有平方和誤差函數(式12)的線性回歸模型(式3)。該誤差函數的梯度和Hessian為:
式中
我們認為它是標準的最小二乘解。在這種情況下,誤差函數是二次的,因此Newton Raphson公式一步就給出了精確解。
現在讓我們對logistic回歸模型的交叉熵誤差函數式90應用Newton-Raphson更新。由式91我們可以看到,這個誤差函數的梯度和Hessian為:
使用了式88。同時,引入了
可以看到,Hessian不再是常數,而是通過加權矩陣
logistic回歸模型的Newton-Raphson更新公式變為:
其中
可以看到,更新公式式99採用加權最小二乘的正規方程形式。因為權重矩陣
這裡使用了
5 多類邏輯回歸在對多類生成模型的討論中,對於類分布後驗概率是由特徵變量的線性函數的softmax變換給出的,因此:
式中激活
利用極大似然分別確定類條件密度和類先驗,然後利用貝葉斯定理找到相應的後驗概率,從而隱式確定參數
式中
接下來我們寫下似然函數。最容易做到的是使用
式中
這被稱為多類問題的交叉熵(cross-entropy)誤差函數。
我們現在採取誤差函數對每個參數向量
式中利用了
我們已經看到,對於一個數據點
為了找到一個批處理算法,我們再次求助於Newton-Raphson更新來得到對應的多類問題的IRLS算法。這需要計算由大小為
與二類問題一樣,多類logistic回歸模型的Hessian矩陣是正定的,因此誤差函數具有唯一的最小值。
6 概率單位回歸已經看到,對於由指數族描述的廣泛的類條件分布,後驗類概率的結果由作用於特徵變量的線性函數的logistic(或softmax)變換給出。但並不是所有的類條件密度的選擇都能產生簡單形式的後驗概率(例如如果使用高斯混合模型來對類條件密度建模)。這表明,其他類型的判別概率模型值得探索。但我們將回到兩類的情況,並再次保持在廣義線性模型的框架內,因此:
式中
對連結函數激勵一個替換選擇的方法是考慮一個噪聲閾值模型,如下所示。對於每一個輸入
如果
正如圖13所示。
作為一個具體的例子,假設密度
這被稱為probit函數。它呈s形,並與圖9中的logistic sigmoid函數進行比較。使用更一般的高斯分布不會改變模型,因為這相當於線性係數
被稱為erf 函數或誤差函數(不要與機器學習模型的誤差函數混淆)。它與probit函數有關:
基於probit激活函數的廣義線性模型稱為probit回歸。
我們可以使用最大似然確定這個模型的參數。在實際應用中,probit回歸的結果與logistic回歸的結果相似。
可能發生在實際應用的一個問題是異常值,可由如輸入向量
但logistic模型和probit模型都假設數據被正確標記。標籤錯誤的影響是很容易融入一個概率模型通過引入目標值
式中
7 規範的連結函數對於含有高斯噪聲分布的線性回歸模型,其負對數似然值對應的誤差函數為式12。如果我們從數據點
同樣,對於logistic sigmoid激活函數與交叉熵誤差函數(式90)的組合,以及softmax激活函數與多類交叉熵誤差函數(式108)的組合,我們再次得到了同樣簡單的形式。現在表明,這是一個一般的結果,假設條件分布的目標變量來自指數族,以及相應激活函數的選擇稱為規範連結函數(canonical link function)。
我們再次使用指數族分布的限制形式式84。這裡將指數族分布的假設應用於目標變量
使用與推導結果式32相同的論證,看到
因此,
我們定義了一個廣義線性模型(generalized linear model),其中
式中
現在考慮這個模型的對數似然函數,它是
式中我們假設所有的觀測都有一個共同的尺度參數(例如對應於高斯分布的噪聲方差),所以
其中
這使
對於高斯函數
參考資料[1]Fisher線性判別分析(LDA): https://blog.csdn.net/mengjizhiyou/article/details/103309372
[2]廣義模型與線性模型& 判別分析: https://blog.csdn.net/mengjizhiyou/article/details/83188432
[3]邏輯回歸: https://blog.csdn.net/mengjizhiyou/article/details/103117274