[PRML]線性分類模型--概率判別模型

2021-01-18 我不愛機器學習

本文主要包含以下內容: 

1 簡介

2 固定基函數

3 邏輯回歸

4 迭代加權最小二乘

5 多類邏輯回歸

6 概率單位回歸

7 規範的連結函數


1 簡介

對於二分類問題,我們已經看到,對於類條件分布logistic sigmoid函數

同樣,對於多類的情況,類softmax變換。對於類條件密度最大似然來確定密度的參數以及類先驗貝葉斯定理找到類後驗概率。

然而,另一種方法是明確地使用廣義線性模型的函數形式,並用最大似然法直接確定其參數。我們將看到,有一種有效尋找這樣的解的算法稱為迭代重加權最小二乘(iterative reweighted least squares),或IRLS。

間接來找到一個廣義線性模型的參數的方法,通過擬合類條件密度和類先驗分開,然後應用貝葉斯定理,代表生成(generative)模型的一個例子,因為我們可能需要這樣一個模型並通過從邊際分布

直接方法中,我們最大化一個通過條件分布的似然函數,它代表了一種判別(discriminative)訓練的形式。

判別方法的一個優點是,通常需要確定的自適應參數更少,稍後我們將看到這一點。它還可能改進預測性能,特別是當類條件密度的假設給出一個接近真實分布的較差近似。

2 固定基函數

到目前為止,已經考慮了直接與原始輸入向量決策邊界在特徵空間線性的,它們對應於原始空間非線性決策邊界,如圖12所示。

類在特徵空間線性可分不需要在原始觀測空間線性可分。在討論線性回歸模型,其中一個基函數通常設置為一個常數,即

在許多實際問題中,類條件密度重疊。這對應於後驗概率某些值不為0或1。在這種情況下,通過對後驗概率進行精確建模,然後應用標準決策理論來獲得最優解。

非線性轉換增加重疊的程度,或者在原始觀測空間中不存在的地方創造重疊。但適當的非線性選擇可以使後驗概率建模過程更容易。

這種固定的基函數模型有重要的限制,這些將在後面的文章中通過允許基函數本身適應數據來解決。儘管有這些限制,具有固定非線性基函數的模型在應用中扮演著重要的角色,並且對這種模型的討論將引入許多關鍵的概念,以便理解它們更複雜的對等物。

3 邏輯回歸

從考慮二分類問題開始處理廣義線性模型。在關於生成方法的討論中,我們看到在相當一般的假設下,類

對於一個二次增長,與邏輯回歸中參數數量對

我們現在使用最大似然來確定logistic回歸模型的參數。為了做到這一點,我們將利用logistic sigmoid函數的導數,它可以方便地用sigmoid函數本身來表示:

對於數據集

其中

其中

使用了式88。可以看到,涉及logistic sigmoid的導數的因子已經被消除,導致對數似然的梯度的簡化形式。特別是,數據點

如果需要,我們可以利用結果式91來給出一個順序算法,其中模式一次只給出一個,其中每個權向量都使用式22更新,其中式91中的第

值得注意的是,對於線性可分離的數據集,最大似然可能表現出嚴重的過擬合。這是因為最大似然解出現在對應於

此外,這些解通常是連續的,因為任何分離的超平面都會在訓練數據點上產生相同的後驗概率,如圖10.13所示。最大似然性並不能使一個解決方案優於另一個解決方案,在實踐中找到哪種解決方案將取決於優化算法的選擇和參數初始化。需要注意的是,即使數據點的數量比模型中的參數的數量大,只要訓練數據集是線性可分的,問題就會出現。奇異點可以通過包含一個先驗和為正則化項到誤差函數。

4 迭代加權最小二乘

在線性回歸模型的情況下,在高斯噪聲模型的假設下的最大似然解導致一個封閉形式的解。這是對數似然函數對參數向量

對於logistic回歸,由於logistic sigmoid函數的非線性,不再有一個封閉形式的解。但對二次型的背離並不明顯。準確地說,誤差函數是凹的,因此有唯一的最小值。

此外,利用對對數似然函數局部二次逼近的Newton-Raphson迭代優化方案,可以有效地最小化誤差函數。最小化函數

其中

首先,將Newton-Raphson方法應用於具有平方和誤差函數(式12)的線性回歸模型(式3)。該誤差函數的梯度和Hessian為:

式中

我們認為它是標準的最小二乘解。在這種情況下,誤差函數是二次的,因此Newton Raphson公式一步就給出了精確解。

現在讓我們對logistic回歸模型的交叉熵誤差函數式90應用Newton-Raphson更新。由式91我們可以看到,這個誤差函數的梯度和Hessian為:

使用了式88。同時,引入了

可以看到,Hessian不再是常數,而是通過加權矩陣Hessian矩陣是正定的。由此可以得出,誤差函數是凸函數,因此有唯一的最小值

logistic回歸模型的Newton-Raphson更新公式變為:

其中

可以看到,更新公式式99採用加權最小二乘的正規方程形式。因為權重矩陣

這裡使用了

5 多類邏輯回歸

在對多類生成模型的討論中,對於類分布後驗概率是由特徵變量的線性函數的softmax變換給出的,因此:

式中激活

利用極大似然分別確定類條件密度和類先驗,然後利用貝葉斯定理找到相應的後驗概率,從而隱式確定參數

式中

接下來我們寫下似然函數。最容易做到的是使用

式中

這被稱為多類問題的交叉熵(cross-entropy)誤差函數

我們現在採取誤差函數對每個參數向量式106,得到:

式中利用了

我們已經看到,對於一個數據點式90的組合,以及softmax激活函數與多類交叉熵誤差函數式108的組合,我們再次得到了同樣簡單的形式。這是一個更一般的結果的例子。

為了找到一個批處理算法,我們再次求助於Newton-Raphson更新來得到對應的多類問題的IRLS算法。這需要計算由大小為

與二類問題一樣,多類logistic回歸模型的Hessian矩陣是正定的,因此誤差函數具有唯一的最小值。

6 概率單位回歸

已經看到,對於由指數族描述的廣泛的類條件分布,後驗類概率的結果由作用於特徵變量的線性函數的logistic(或softmax)變換給出。但並不是所有的類條件密度的選擇都能產生簡單形式的後驗概率(例如如果使用高斯混合模型來對類條件密度建模)。這表明,其他類型的判別概率模型值得探索。但我們將回到兩類的情況,並再次保持在廣義線性模型的框架內,因此:

式中

對連結函數激勵一個替換選擇的方法是考慮一個噪聲閾值模型,如下所示。對於每一個輸入

如果

正如圖13所示。

作為一個具體的例子,假設密度

這被稱為probit函數。它呈s形,並與圖9中的logistic sigmoid函數進行比較。使用更一般的高斯分布不會改變模型,因為這相當於線性係數

被稱為erf 函數或誤差函數(不要與機器學習模型的誤差函數混淆)。它與probit函數有關:

基於probit激活函數的廣義線性模型稱為probit回歸

我們可以使用最大似然確定這個模型的參數。在實際應用中,probit回歸的結果與logistic回歸的結果相似。

可能發生在實際應用的一個問題是異常值,可由如輸入向量

但logistic模型和probit模型都假設數據被正確標記。標籤錯誤的影響是很容易融入一個概率模型通過引入目標值

式中

7 規範的連結函數

對於含有高斯噪聲分布的線性回歸模型,其負對數似然值對應的誤差函數為式12。如果我們從數據點

同樣,對於logistic sigmoid激活函數與交叉熵誤差函數(式90)的組合,以及softmax激活函數與多類交叉熵誤差函數(式108)的組合,我們再次得到了同樣簡單的形式。現在表明,這是一個一般的結果,假設條件分布的目標變量來自指數族,以及相應激活函數的選擇稱為規範連結函數(canonical link function)。

我們再次使用指數族分布的限制形式式84。這裡將指數族分布的假設應用於目標變量

使用與推導結果式32相同的論證,看到

因此,

我們定義了一個廣義線性模型(generalized linear model),其中

式中

現在考慮這個模型的對數似然函數,它是

式中我們假設所有的觀測都有一個共同的尺度參數(例如對應於高斯分布的噪聲方差),所以

其中式119。我們現在看到,如果為所給的連結函數

這使

對於高斯函數

參考資料[1]

Fisher線性判別分析(LDA): https://blog.csdn.net/mengjizhiyou/article/details/103309372

[2]

廣義模型與線性模型& 判別分析: https://blog.csdn.net/mengjizhiyou/article/details/83188432

[3]

邏輯回歸: https://blog.csdn.net/mengjizhiyou/article/details/103117274

相關焦點

  • [PRML]線性回歸模型--線性基函數模型
    這通常稱為線性回歸(linear regression)。,這個暗示了模型的限制。參數的線性化會簡化這類模型的計算,但也會導致一些限制。『tanh』函數的線性組合。在監督學習中如回歸和分類,我們不是尋找輸入變量的分布模型。
  • 廣義線性模型|二分類廣義線性模型—因變量是二分類變量
    (本例引用自陳希孺.廣義線性模型(一)[J].數理統計與管理, 2002,21(5):54-61)表1 小白鼠腹腔注射苯氰的毒性實驗結果圖2 廣義線性模型的命令調用  首先因本例小白鼠死亡與否是二分類數據,服從二項分布,可用probit回歸分析,因而在模型類型對話框中選擇「二元概率
  • ICLR2020 | 分類器其實是基於能量的模型?判別式分類器設計新思路
    今天要介紹的這篇論文來自多倫多大學、Vector Institute 和谷歌,該論文獲得了ICLR 2020 會議 6-8-8 的高分,提出了一種設計判別式分類器的新思路:把判別式分類器重新解讀為基於能量的模型
  • 回歸or分類?線性or邏輯?一文掌握模型的不同之處
    全文共7366字,預計學習時長30分鐘或更長回歸 VS 分類為確定使用回歸還是分類模型,首先要問的問題是:目標變量是一個量,一個二進位分類的概率,還是一個標籤?一旦決定了要使用的方法,接下來就要選擇模型進行預測。視覺化呈現:回歸模型 vs. 分類模型回歸模型回歸模型中使用最普遍的是線性回歸和邏輯回歸。
  • OLS估計Logit模型參數
    即:以上就是線性概率模型 (下簡稱 LPM),在估計參數時使用的是 OLS 線性回歸。由於 LPM 的被解釋變量是 1 和 0,在進行線性回歸時,最終得到的概率預測值可能大於 1 或小於 0,然而這是無效的概率預測值。第二,對於二分類的情況,Logit 的係數及估計值將比 LPM 更穩定。Allison 認為 LPM 不是真實的產生二分結果的機制。第三,Logit 模型受解釋變量間相互作用影響小,參數更加穩定。
  • 廣義線性模型學習
    示例:參考文獻:1.1.11. logistic 回歸logistic 回歸,雖然名字裡有 「回歸」 二字,但實際上是解決分類問題的一類線性模型。在某些文獻中,logistic 回歸又被稱作 logit 回歸,maximum-entropy classification(MaxEnt,最大熵分類),或 log-linear classifier(對數線性分類器)。該模型利用函數 logistic function 將單次試驗(single trial)的可能結果輸出為概率。
  • 【華泰金工林曉明團隊】金工:人工智慧選股之樸素貝葉斯模型
    本報告對樸素貝葉斯模型及線性判別分析、二次判別分析進行系統測試  「生成模型」是機器學習中監督學習方法的一類。與「判別模型」學習決策函數和條件概率不同,生成模型主要學習的是聯合概率分布。本文中,我們從樸素貝葉斯算法入手,分析比較了幾種常見的生成模型(包括線性判別分析和二次判別分析)應用於多因子選股的異同,希望對本領域的投資者產生有實用意義的參考價值。
  • 常見概率模型在金融市場中的應用
    概率模型簡介  概率模型是一大類模型的統稱,是常規金融模型的概率化表達。通常概率模型會把常規金融模型中的某些參數看作是一個未知的概率分布,這個未知的分布通常會預先給定一個基本假設,即先驗概率,然後再根據具體的觀測數據去推斷或者逐步修正這些假設。一種比較常見的概率模型就是貝葉斯線性回歸模型,這類模型把線性回歸中的係數 和截距等參數作為未知的概率分布。
  • 論財務危機預警模型評析
    Beaver最先在企業危機預警研究中使用非參數統計的二分類檢驗方法來確定分割點。使其錯誤分類率降至最低,這一方法為以後的企業財務危機預警研究者廣泛採用。此外,Beaver還首創配對抽樣的技術以控制因產業類別和企業資產規模不同而引起的混淆。但單變量預警模型只是利用個別財務比率預測企業財務危機。因此其有效性受到一定的限制。一般來說。
  • 數據建模中分類與預測模型
    表1:主要分類與預測算法簡介算法名稱算法描述回歸分析回歸分析是確定預測屬性(數值型)與其他變量間相互依賴的定量關係最常用的統計學方法,包括線性回歸、非線性回歸、Logistic回歸、嶺回歸、主成分回歸、偏最小二乘回歸等模型。
  • 10大主流AI模型適用盤點
    10種流行AI算法:  線性回歸  Logistic回歸  線性判別分析  決策樹  樸素貝葉斯  K-Nearest Neighbors  學習矢量量化  該函數成功的要求與線性回歸相同——去除相同值的輸入樣本並減少低值數據的數量。Logistic回歸是一個比較簡單的函數,很好掌握,很適合二進位分類。
  • 運用sklearn進行線性判別分析(LDA)代碼實現
    基於sklearn的線性判別分析(LDA)代碼實現一、前言及回顧本文記錄使用sklearn庫實現有監督的數據降維技術——線性判別分析(LDA)。在上一篇LDA線性判別分析原理及python應用(葡萄酒案例分析),我們通過詳細的步驟理解LDA內部邏輯實現原理,能夠更好地掌握線性判別分析的內部機制。
  • 簡單線性回歸模型
    3 求解線性回歸模型函數3.1 極大似然法最小二乘法和極大似然法都可以用來求解線性回歸模型,我們在往期文章中討論過最小二乘法,這裡對似然法進行簡單介紹。因為殘差如果均值不為零,可以將其移到模型的截距項裡。如何通過上面的函數得到係數的估計值呢?極大似然的思想便是,讓這些估計值使得似然函數達到最大! 這個想法很樸素:每個觀測數據隨機且互相獨立,我們一次搜集便得到眼前的數據,那麼自然而然認為這些數據組合出現的概率是最大的。
  • 科普| 貝葉斯概率模型一覽
    雷鋒網按:本文出自美圖數據研究院什麼是貝葉斯概率模型?機器學習狹義上是指代統計機器學習,如圖 1 所示,統計學習根據任務類型可以分為監督學習、半監督學習、無監督學習、增強學習等。圖 1在每類任務中,又可以將各類模型歸結為概率模型和非概率模型,以下以監督學習為例說明。
  • 淺談人工智慧產品設計:LDA主題模型
    一、LDA模型簡介LDA是Latent Dirichlet Allocation(潛在狄利克雷分配模型)的縮寫,也是線性判別分析(Linear Discriminant Analysis)的簡寫。本文探討的是第一種Latent Dirichlet Allocation(潛在狄利克雷分配模型)技術。LDA通俗的來講就是一種主題抽取模型。它是一種無監督的算法,作用是從一份文檔中提出文檔的主題,以及主題中的詞語。LDA模型應用範圍很廣,如我們熟知個性化推薦、商品標籤、智能分類等等。有監督學習和無監督學習以及半監督學習的概念是比較容易理解的。這邊就簡單的提一下。
  • 看不懂Logistic模型?別慌,先來了解它和線性回歸模型的區別!
    #計量經濟學#Logistic回歸在統計學領域也是一種非常常見的線性回歸模型。作為回歸模型的一種,其實它和簡單線性回歸模型分析有著非常相似的地方,它們的模型方程形式是一致的,右邊都可以寫成b1x+c的方程形式,並且b1和c都是未知的係數參數。
  • 機器學習算法中的概率方法
    摘要本文介紹機器學習算法中的概率方法。概率方法會對數據的分布進行假設,對概率密度函數進行估計,並使用這個概率密度函數進行決策。本文介紹四種最常用的概率方法:線性回歸 (用於回歸任務)、對數機率回歸 (用於二分類任務)、Softmax 回歸 (用於多分類任務) 和樸素貝葉斯分類器 (用於多分類任務)。
  • 多元線性回歸與模型診斷
    多元線性回歸的基本表達式註:額外的假設條件①解釋變量之間不能存在太強的線性相關關係(一般ρ<0.7)②其他條件與一元線性回歸類似。2.自變量選擇偏差的權衡(1)丟失重要變量(2)加入無關變量變量係數的估計偏差(大樣本,無關變量會收斂於0)增加了模型參數估計的不確定性增加了R方的值,但是使得調整的R方減小(3)兩種合理估計線性回歸係數的方法①一般情況模型變量的選擇方法a.
  • 線性回歸模型
    回歸問題就是擬合輸入變量x與數值型的目標變量y之間的關係,而線性回歸就是假定了x和y之間的線性關係,公式如下:          如下圖所示,我們可以通過繪製繪製(x,y)的散點圖的方式來查看x和y之間是否有線性關係,線性回歸模型的目標是尋找一條穿過這些散點的直線,讓所有的點離直線的距離最短。
  • 二分類Logistic回歸:SPSS詳細操作及模型預測
    如果一個及以上連續自變量與因變量的logit轉換值間不存在線性關係,可以對其進行數據轉換以滿足線性假設,需注意以下幾點:  1) 數據轉換針對原始的連續自變量,如年齡(age)。  2) 只需轉換不滿足線性假設的連續自變量,不需要轉換滿足假設的連續變量和不需要線性假設的分類自變量。