[PRML]線性分類模型--概率判別模型

2021-02-13 我不愛機器學習

本文主要包含以下內容: 

1 簡介

2 固定基函數

3 邏輯回歸

4 迭代加權最小二乘

5 多類邏輯回歸

6 概率單位回歸

7 規範的連結函數


1 簡介

對於二分類問題,我們已經看到,對於類條件分布logistic sigmoid函數

同樣,對於多類的情況,類softmax變換。對於類條件密度最大似然來確定密度的參數以及類先驗貝葉斯定理找到類後驗概率。

然而,另一種方法是明確地使用廣義線性模型的函數形式,並用最大似然法直接確定其參數。我們將看到,有一種有效尋找這樣的解的算法稱為迭代重加權最小二乘(iterative reweighted least squares),或IRLS。

間接來找到一個廣義線性模型的參數的方法,通過擬合類條件密度和類先驗分開,然後應用貝葉斯定理,代表生成(generative)模型的一個例子,因為我們可能需要這樣一個模型並通過從邊際分布

直接方法中,我們最大化一個通過條件分布的似然函數,它代表了一種判別(discriminative)訓練的形式。

判別方法的一個優點是,通常需要確定的自適應參數更少,稍後我們將看到這一點。它還可能改進預測性能,特別是當類條件密度的假設給出一個接近真實分布的較差近似。

2 固定基函數

到目前為止,已經考慮了直接與原始輸入向量決策邊界在特徵空間線性的,它們對應於原始空間非線性決策邊界,如圖12所示。

類在特徵空間線性可分不需要在原始觀測空間線性可分。在討論線性回歸模型,其中一個基函數通常設置為一個常數,即

在許多實際問題中,類條件密度重疊。這對應於後驗概率某些值不為0或1。在這種情況下,通過對後驗概率進行精確建模,然後應用標準決策理論來獲得最優解。

非線性轉換增加重疊的程度,或者在原始觀測空間中不存在的地方創造重疊。但適當的非線性選擇可以使後驗概率建模過程更容易。

這種固定的基函數模型有重要的限制,這些將在後面的文章中通過允許基函數本身適應數據來解決。儘管有這些限制,具有固定非線性基函數的模型在應用中扮演著重要的角色,並且對這種模型的討論將引入許多關鍵的概念,以便理解它們更複雜的對等物。

3 邏輯回歸

從考慮二分類問題開始處理廣義線性模型。在關於生成方法的討論中,我們看到在相當一般的假設下,類

對於一個二次增長,與邏輯回歸中參數數量對

我們現在使用最大似然來確定logistic回歸模型的參數。為了做到這一點,我們將利用logistic sigmoid函數的導數,它可以方便地用sigmoid函數本身來表示:

對於數據集

其中

其中

使用了式88。可以看到,涉及logistic sigmoid的導數的因子已經被消除,導致對數似然的梯度的簡化形式。特別是,數據點

如果需要,我們可以利用結果式91來給出一個順序算法,其中模式一次只給出一個,其中每個權向量都使用式22更新,其中式91中的第

值得注意的是,對於線性可分離的數據集,最大似然可能表現出嚴重的過擬合。這是因為最大似然解出現在對應於

此外,這些解通常是連續的,因為任何分離的超平面都會在訓練數據點上產生相同的後驗概率,如圖10.13所示。最大似然性並不能使一個解決方案優於另一個解決方案,在實踐中找到哪種解決方案將取決於優化算法的選擇和參數初始化。需要注意的是,即使數據點的數量比模型中的參數的數量大,只要訓練數據集是線性可分的,問題就會出現。奇異點可以通過包含一個先驗和為正則化項到誤差函數。

4 迭代加權最小二乘

在線性回歸模型的情況下,在高斯噪聲模型的假設下的最大似然解導致一個封閉形式的解。這是對數似然函數對參數向量

對於logistic回歸,由於logistic sigmoid函數的非線性,不再有一個封閉形式的解。但對二次型的背離並不明顯。準確地說,誤差函數是凹的,因此有唯一的最小值。

此外,利用對對數似然函數局部二次逼近的Newton-Raphson迭代優化方案,可以有效地最小化誤差函數。最小化函數

其中

首先,將Newton-Raphson方法應用於具有平方和誤差函數(式12)的線性回歸模型(式3)。該誤差函數的梯度和Hessian為:

式中

我們認為它是標準的最小二乘解。在這種情況下,誤差函數是二次的,因此Newton Raphson公式一步就給出了精確解。

現在讓我們對logistic回歸模型的交叉熵誤差函數式90應用Newton-Raphson更新。由式91我們可以看到,這個誤差函數的梯度和Hessian為:

使用了式88。同時,引入了

可以看到,Hessian不再是常數,而是通過加權矩陣Hessian矩陣是正定的。由此可以得出,誤差函數是凸函數,因此有唯一的最小值

logistic回歸模型的Newton-Raphson更新公式變為:

其中

可以看到,更新公式式99採用加權最小二乘的正規方程形式。因為權重矩陣

這裡使用了

5 多類邏輯回歸

在對多類生成模型的討論中,對於類分布後驗概率是由特徵變量的線性函數的softmax變換給出的,因此:

式中激活

利用極大似然分別確定類條件密度和類先驗,然後利用貝葉斯定理找到相應的後驗概率,從而隱式確定參數

式中

接下來我們寫下似然函數。最容易做到的是使用

式中

這被稱為多類問題的交叉熵(cross-entropy)誤差函數

我們現在採取誤差函數對每個參數向量式106,得到:

式中利用了

我們已經看到,對於一個數據點式90的組合,以及softmax激活函數與多類交叉熵誤差函數式108的組合,我們再次得到了同樣簡單的形式。這是一個更一般的結果的例子。

為了找到一個批處理算法,我們再次求助於Newton-Raphson更新來得到對應的多類問題的IRLS算法。這需要計算由大小為

與二類問題一樣,多類logistic回歸模型的Hessian矩陣是正定的,因此誤差函數具有唯一的最小值。

6 概率單位回歸

已經看到,對於由指數族描述的廣泛的類條件分布,後驗類概率的結果由作用於特徵變量的線性函數的logistic(或softmax)變換給出。但並不是所有的類條件密度的選擇都能產生簡單形式的後驗概率(例如如果使用高斯混合模型來對類條件密度建模)。這表明,其他類型的判別概率模型值得探索。但我們將回到兩類的情況,並再次保持在廣義線性模型的框架內,因此:

式中

對連結函數激勵一個替換選擇的方法是考慮一個噪聲閾值模型,如下所示。對於每一個輸入

如果

正如圖13所示。

作為一個具體的例子,假設密度

這被稱為probit函數。它呈s形,並與圖9中的logistic sigmoid函數進行比較。使用更一般的高斯分布不會改變模型,因為這相當於線性係數

被稱為erf 函數或誤差函數(不要與機器學習模型的誤差函數混淆)。它與probit函數有關:

基於probit激活函數的廣義線性模型稱為probit回歸

我們可以使用最大似然確定這個模型的參數。在實際應用中,probit回歸的結果與logistic回歸的結果相似。

可能發生在實際應用的一個問題是異常值,可由如輸入向量

但logistic模型和probit模型都假設數據被正確標記。標籤錯誤的影響是很容易融入一個概率模型通過引入目標值

式中

7 規範的連結函數

對於含有高斯噪聲分布的線性回歸模型,其負對數似然值對應的誤差函數為式12。如果我們從數據點

同樣,對於logistic sigmoid激活函數與交叉熵誤差函數(式90)的組合,以及softmax激活函數與多類交叉熵誤差函數(式108)的組合,我們再次得到了同樣簡單的形式。現在表明,這是一個一般的結果,假設條件分布的目標變量來自指數族,以及相應激活函數的選擇稱為規範連結函數(canonical link function)。

我們再次使用指數族分布的限制形式式84。這裡將指數族分布的假設應用於目標變量

使用與推導結果式32相同的論證,看到

因此,

我們定義了一個廣義線性模型(generalized linear model),其中

式中

現在考慮這個模型的對數似然函數,它是

式中我們假設所有的觀測都有一個共同的尺度參數(例如對應於高斯分布的噪聲方差),所以

其中式119。我們現在看到,如果為所給的連結函數

這使

對於高斯函數

參考資料[1]

Fisher線性判別分析(LDA): https://blog.csdn.net/mengjizhiyou/article/details/103309372

[2]

廣義模型與線性模型& 判別分析: https://blog.csdn.net/mengjizhiyou/article/details/83188432

[3]

邏輯回歸: https://blog.csdn.net/mengjizhiyou/article/details/103117274

相關焦點

  • [PRML]線性回歸模型--線性基函數模型
    這通常稱為線性回歸(linear regression)。,這個暗示了模型的限制。參數的線性化會簡化這類模型的計算,但也會導致一些限制。『tanh』函數的線性組合。在監督學習中如回歸和分類,我們不是尋找輸入變量的分布模型。
  • 線性模型篇之Logistic Regression數學公式推導
    本系列文章會介紹四種線性模型函數的推導和優化過程。兩分類與多分類兩類分類(Binary Classification)類別標籤y只有兩種取值,通常設為{0,1}線性判別函數,即形如 y = w^T*x + b分割超平面(hyper
  • 機器學習中的判別式模型和生成式模型
    判別式模型這麼做根據訓練數據得到分類函數和分界面,比如說根據SVM模型得到一個分界面,然後直接計算條件概率 P(y|x),我們將最大的 P(y|x)。作為新樣本的分類。判別式模型是對條件概率建模,學習不同類別之間的最優邊界,無法反映訓練數據本身的特性,能力有限,其只能告訴我們分類的類別。2.
  • 一般線性模型與廣義線性模型
    如果一般線性模型中只有一個分類自變量,那麼一般線性模型就是t檢驗或者單因素方差分析(例如完全隨機設計的方差分析);如果有兩個或多個分類自變量,就是多因素的方差分析(例如析因設計的方差分析);如果只有一個定量的自變量,一般線性模型就是
  • [PRML]回歸模型--貝葉斯線性回歸
    本文包含以下內容:1 簡介在討論線性回歸模型的最大似然的參數設置中,我們已經看到由基函數的數量控制的有效模型的複雜性需要根據數據集的大小控制。獨立的持有(hold-out)數據可以用來確定模型的複雜性,但是這可能在計算上是昂貴的,並且會浪費有價值的數據。因此我們轉向線性回歸的貝葉斯處理,這將避免最大似然的過擬合問題,也將導致僅使用訓練數據自動確定模型複雜度的方法。
  • 廣義線性模型與邏輯回歸
    學過統計學的同學們應該非常清楚,上述分類超平面其實就是一個多元線性模型。故和是線性相關的。並且在線性回歸中,我們假設響應變量服從正態分布的,即所以我們無法直接採用線性回歸模型進行建模。對於這一類問題,可以用邏輯回歸來處理。在講邏輯回歸之前,先簡單介紹下指數族分布、廣義線性模型,因為邏輯回歸是廣義線性模型的一種,所以我們需要了解如何從廣義線性模型得到邏輯回歸。二、指數族分布之所以先介紹指數族分布,因為指數族分布是所有廣義線性模型的假設條件之一。
  • Python 線性分類模型簡介
    它是一個簡單的線性分類器,並且由於其算法很直觀,被認為是更多高級的機器學習和深度學習算法的基石。繼續閱讀來加深你對線性分類器的認識,以及如何使用它們進行圖像分類。Python線性分類模型簡介本教程的前半部分主要關注線性分類有關的基本原理和數學知識。總的來說,線性分類指的是那些真正從訓練數據中「學習」的有參分類算法。
  • ICLR2020|分類器其實是基於能量的模型?判別式分類器設計新思路
    選自arXiv作者:Will Grathwohl、David Duvenaud 等參與:Panda、杜偉今天要介紹的這篇論文來自多倫多大學、Vector Institute 和谷歌,該論文獲得了ICLR 2020 會議 6-8-8 的高分,提出了一種設計判別式分類器的新思路:把判別式分類器重新解讀為基於能量的模型。
  • 生成模型學習筆記:從高斯判別分析到樸素貝葉斯
    1 判別模型判別模型是一種對觀測數據進行直接分類的模型,常見的模型有邏輯回歸和感知機學習算法等。此模型僅對數據進行分類,並不能具象化或者量化數據本身的分布狀態,因此也無法根據分類生成可觀測的圖像。定義上,判別模型通過構建條件概率分布 p(y|x;θ) 預測 y,即在特徵 x 出現的情況下標記 y 出現的概率。此處 p 可以是邏輯回歸模型。2 生成模型與判別模型不同,生成模型首先了解數據本身分布情況,並進一步根據輸入 x,給出預測分類 y 的概率。
  • 開放下載:PRML英文原版、中文譯本、讀書會合集、學習筆記、官方代碼、課程視頻等等
    書中有對概率論基礎知識的介紹,也有高階的線性代數和多元微積分的內容,適合高校的研究生以及人工智慧相關的從業人員學習。整體目錄如下:第一章 介紹第二章 概率分布第三章 線性回歸模型第四章 線性分類模型第五章 神經網絡第六章 內核方法第七章 稀疏內核機器第八章 圖形模型第九章 混合模型和 EM第十章 近似推斷第十一章 採樣方法第十二章 連續潛在變量
  • 乾貨 | 對數線性模型之 Logistic 回歸、SoftMax 回歸和最大熵模型
    ,在線性模型的基礎上通過複合函數(sigmoid,softmax,entropy )將其映射到概率區間,使用對數損失構建目標函數。邏輯回歸可以看作是在線性回歸的基礎上構建的分類模型,理解的角度有多種(最好的當然是概率解釋和最小對數損失),而最直接的理解是考慮邏輯回歸是將線性回歸值離散化。即一個二分類問題(二值函數)如下:
  • 廣義線性模型學習
    示例:參考文獻:1.1.11. logistic 回歸logistic 回歸,雖然名字裡有 「回歸」 二字,但實際上是解決分類問題的一類線性模型。在某些文獻中,logistic 回歸又被稱作 logit 回歸,maximum-entropy classification(MaxEnt,最大熵分類),或 log-linear classifier(對數線性分類器)。該模型利用函數 logistic function 將單次試驗(single trial)的可能結果輸出為概率。
  • 線性模型(三)邏輯回歸
    至此,經過連結函數轉化後的原值域為正、負無窮該變換稱為logit變換,經過logit變換後可以順利地使用線性回歸模型擬合觀察值的對數機率。此時,我們稱該模型為logit regression或logistic regression,即中文翻譯的邏輯回歸,適用於分類問題。
  • Logistic Regression 模型簡介
    這個性質使我們能夠以概率的方式來解釋(後邊延伸部分會簡單討論為什麼用該函數做概率建模是合理的)。決策函數一個機器學習的模型,實際上是把決策函數限定在某一組條件下,這組限定條件就決定了模型的假設空間。當然,我們還希望這組限定條件簡單而合理。而邏輯回歸模型所做的假設是:
  • 線性判別分析(LDA)及其在R中實現
    線性判別分析(Linear Discriminant Analysis,LDA)是一種用於數據降維以及分類預測的機器學習方法,由RA Fisher(1936)提出,也稱為Fisher判別式。最初的LDA只能處理兩種分類問題,Rao(1948)拓展了「多類別線性判別分析」或稱「多元判別分析」,將LDA推廣至適用於多分類的情形。
  • AI 聖經 PRML《模式識別與機器學習》官方開源(附中文版下載)
    相信任何一個搞機器學習、深度學習的人都應該聽說過一本經典教材:《Pattern Recognition and Machine Learning》,中文譯名《模式識別與機器學習》,簡稱 PRML。出自微軟劍橋研究院實驗室主任 Christopher Bishop 大神之手。對,就是豆瓣評分 9.5 的這本書。
  • AI 聖經 PRML《模式識別與機器學習》官方開源(附中文版下載)
    整體目錄如下:第一章 介紹 第二章 概率分布第三章 線性回歸模型第四章 線性分類模型第五章 神經網絡第六章 內核方法第七章 稀疏內核機器第八章 圖形模型第九章 混合模型和EM第十章 近似推斷第十一章 採樣方法第十二章 連續潛在變量
  • 常見概率模型在金融市場中的應用
    概率模型簡介  概率模型是一大類模型的統稱,是常規金融模型的概率化表達。通常概率模型會把常規金融模型中的某些參數看作是一個未知的概率分布,這個未知的分布通常會預先給定一個基本假設,即先驗概率,然後再根據具體的觀測數據去推斷或者逐步修正這些假設。一種比較常見的概率模型就是貝葉斯線性回歸模型,這類模型把線性回歸中的係數 和截距等參數作為未知的概率分布。
  • reg2logit:用OLS估計Logit模型參數
    即:以上就是線性概率模型 (下簡稱 LPM),在估計參數時使用的是 OLS 線性回歸。由於 LPM 的被解釋變量是 1 和 0,在進行線性回歸時,最終得到的概率預測值可能大於 1 或小於 0,然而這是無效的概率預測值。第二,對於二分類的情況,Logit 的係數及估計值將比 LPM 更穩定。Allison 認為 LPM 不是真實的產生二分結果的機制。第三,Logit 模型受解釋變量間相互作用影響小,參數更加穩定。
  • 線性模型(一)普通線性回歸到廣義線性模型
    同時提醒讀者避免只從字面理解「線性」帶來誤會,即線性模型只能解決線性問題。本章將線性模型定位和表述為在數學表達式上具有線性的表示方式的數學模型,包含普通線性回歸模型和廣義線性模型(線性支持向量機本章不進行講述)。