線性回歸的幾何與概率視角

2021-02-20 Zhenyu的學習筆記

Linear Regression是一個非常簡單以及常見的模型。從計量的角度看,它可以用來分析兩個或者多個變量之間是否相關、相關方向以及強度,或者用來預測。本文是從機器學習的角度來看linear regression,即從模型和loss function的角度看,並且我們給出closed form解,關於large-scale data的aapproximate的求解方式以後再做介紹。

Content

線性回歸-幾何視角

線性回歸-概率視角

Pseudo-inverse偽逆的介紹

局部加權線性回歸

多個output的線性回歸情況



線性回歸的幾何角度,即最小二乘法,ordinary least squares (OLS)

按照慣例,先介紹dataset:

predictors  

target  

模型(對於每個樣本):

思想:

我們想要每個樣本的真實值 

loss function: 

解法1(比較詳細):

解法2:

從線性代數的幾何意義出發,對於任意的 

小結

linear regression的幾何角度,即關注每個樣本的真實值與擬合值的差的平方之和。對於不同的係數 


現在修正一下我們的模型,依然是對於每個樣本,我們假設這些樣本都是獨立的,並且:

現在考慮 likelihood 

loss function:

由於計算便捷性,我們直接看 

 

小結

我們從最大似然估計的角度去看線性回歸,最後得到的loss function與幾何角度OLS得到的結果相一致。這說明OLS,這個看似沒有任何假設的模型,其實隱含著:

 各個樣本之間是獨立的。

樣本真實值與擬合值之間的noise是同方差的正態分布。

我開始學習機器學習的幾個月以來,經常能感受到它的美妙之處,其中之一就是一個問題往往有多種多樣的思考角度,條條大路通羅馬的感覺。


上面我們解得 

思想:

觀察一下,求解的上一步是 

Definition (Moore-Penrose pesudo-inverse)

奇異值分解: 

對於任何的 

現在整理下我們的思路:

我們的原問題是OLS即最小化 

而偽逆是逆的generalization,所以不管 

The set of solution of the minimization problem  


修改一下我們在Sec02中寫的模型: noise完全有可能是異方差的

我們先intuitively地理解下加權最小二乘,比如 

現在出現的問題是:我們如何給出這些 ?一個很巧妙的技巧,是利用核函數矩陣。最常見的是高斯核函數 

借用一個知乎上給出一個例子,我們可以看到局部加權回歸相較於OLS線性回歸的強大之處。這是我們要擬合的一個data,顯然如果使用OLS會是一個欠擬合的結果。

先使用OLS來處理:

現在我們改成使用局部加權線性回歸:

使用高斯核函數計算第 

用權重 

用剛才得到的擬合直線方程,計算第 

重複1到3。得到每個樣本點的估計值。相當於一共要跑n次回歸

在高斯核函數中的超參數 

僅從上面三張圖我們可以 

小結

簡單線性回歸的假設:noise服從同方差的正態分布太強了,我們把它放鬆到異方差的情況,得到了加權線性回歸。

加權線性回歸中,如何確定每個樣本的權重或者說每個樣本noise的正態分布的方差,我們使用了高斯核函數這樣一個技巧,即局部加權線性回歸。這樣對於預測點,周圍的樣本點的權重更高,遠處的樣本點的權重更小。

局部加權線性回歸中的超參數 


儘管不常見,但我們的確可能會遇到多個output的問題,即我們要擬合的 

在每個output是獨立的假設下,其實本質上與一維的情況相同。假設 

loss function:


這次,我們講了最基礎的線性回歸的兩個視角——幾何與概率視角,發現了之前一直使用的OLS其實隱含著兩個假設:樣本獨立假設與noise同方差高斯分布假設。在求解的途中,我們討論了如果 

Reference:

相關焦點

  • 權重不確定的概率線性回歸
    當你學習數據科學和機器學習時,線性回歸可能是你遇到的第一個統計方法。我猜這不是你們第一次使用線性回歸了。因此,在本文中,我想討論概率線性回歸,而不是典型的/確定性線性回歸。但在此之前,讓我們簡要討論一下確定性線性回歸的概念,以便快速了解本文的主要討論要點。
  • [PRML]線性回歸模型--線性基函數模型
    本文主要包含以下內容:1 簡介2 最大似然和最小二乘3 最小二乘幾何4 序列學習5 正則化最小二乘6 多元輸出1 簡介其中這通常稱為線性回歸(linear regression)。『tanh』函數的線性組合。
  • 入門| 貝葉斯線性回歸方法的解釋和優點
    回顧頻率派線性回歸線性回歸的頻率派視角可能是你所熟悉的、從學校學到的版本:模型假設反應變量(y,也稱因變量)是一組權重和預測變量(x,也稱自變量)乘積的線性組合。完整的公式還包含一個代表隨機採樣噪聲的誤差項。
  • 簡單線性回歸模型
    2 基礎回顧回歸的概念來源於實際問題,那麼現在我們所說的線性回歸分析問題具體指的是什麼呢?「注意,線性回歸問題的確定並不是通過自變量的形式,而是問題中待估計的未知參數最高次都為一次且關於未知參數呈線性關係。
  • 概率線性回歸方程 - CSDN
    根據表中數據,求 x 和 y 的經驗離散型二元概率分布。求顧客購買 1 種報刊和 2種零食的概率。求顧客只購買 1 種零食的概率。概率 f(x=O, y=O) =0, 為什麼?>概率 f(x=0, y=0) =0, 為什麼?
  • [PRML]線性分類模型--概率判別模型
    本文主要包含以下內容: 1 簡介2 固定基函數3 邏輯回歸4 迭代加權最小二乘5 多類邏輯回歸6 概率單位回歸7 規範的連結函數1 簡介與式13的比較表明,它與線性回歸模型的平方和誤差函數的梯度具有完全相同的形式。
  • 經典書《機器學習:概率視角》習題解答(中文),附1098頁pdf下載
    機器學習:一種概率視角 本書採用了這樣一種視角,即創造能從數據中學習的機器的最好方法是使用概率論的工具,幾個世紀以來,概率論一直是統計學和工程學的支柱。
  • 線性回歸中+t值的含義_線性回歸 y截距p值的計算 - CSDN
    線性回歸模型的基本特性就是:模型是參數的線性函數。最簡單的線性回歸模型當然是模型是參數的線性函數的同時,也是輸入變量的線性函數,或者叫做線性組合。從概率的角度來說,回歸模型就是估計一個條件概率分布:一般線性回歸對於一個一般的線性模型而言,其目標就是要建立輸入變量和輸出變量之間的回歸模型。該模型是既是參數的線性組合,同時也是輸入變量的線性組合。
  • 簡單線性回歸(二)
    線性回歸相關知識:簡單線性回歸(一)線性回歸步驟線性回歸需滿足的條件①因變量Y與自變量X呈線性關係②每個個體觀察值之間互相獨立③在一定範圍內,任意給定X值,其對應的隨機變量Y均服從正態分布④在一定範圍內,不同X值所對應的隨機變量Y的方差相等某研究者測量了16名成年男子的體重(Kg)和臀圍(cm)數據,欲探求成年男子的體重與臀圍是否可以建立線性回歸模型。
  • SPSS分析技術:線性回歸分析
    線性回歸分析中,如果僅有一個自變量,可以建立一元線性模型。如果存在多個自變量,則需要建立多元線性回歸模型。線性回歸的過程就是把各個自變量和因變量的個案值帶入到回歸方程式當中,通過逐步迭代與擬合,最終找出回歸方程式中的各個係數,構造出一個能夠儘可能體現自變量與因變量關係的函數式。在一元線性回歸中,回歸方程的確立就是逐步確定唯一自變量的係數和常數,並使方程能夠符合絕大多數個案的取值特點。
  • 回歸系列(一)|怎樣正確地理解線性回歸
    作者:丁點helper 來源:丁點幫你線性回歸,可能是統計學上運用最廣泛的一類方法了,之所以說它是一類方法,是因為它包括了我們熟知的各種模型:簡單線性回歸、多重線性回歸、Logistic回歸等等。線性回歸運用這麼廣泛很大程度在於它的內在邏輯十分簡單。
  • spss 方法 線性回歸專題及常見問題 - CSDN
    本文收集整理關於spss多元線性回歸結果解讀的相關議題,使用內容導航快速到達。內容導航:Q1:請高手幫忙分析下SPSS的多元線性回歸結果吧~急啊~~~你的回歸方法是直接進入法擬合優度R方等於0.678,表示自變量可以解釋因變量的67.8%變化,說明擬合優度還可以。
  • spss多元線性回歸專題及常見問題 - CSDN
    本文收集整理關於spss多元線性回歸結果解讀的相關議題,使用內容導航快速到達。內容導航:Q1:請高手幫忙分析下SPSS的多元線性回歸結果吧~急啊~~~你的回歸方法是直接進入法擬合優度R方等於0.678,表示自變量可以解釋因變量的67.8%變化,說明擬合優度還可以。
  • 線性回歸:簡單線性回歸詳解
    【導讀】本文是一篇專門介紹線性回歸的技術文章,討論了機器學習中線性回歸的技術細節。線性回歸核心思想是獲得最能夠擬合數據的直線。
  • 【線性回歸】多變量分析:多元回歸分析
    下面我們就來談談多元回歸分析,這張圖是利用多元線性回歸製作的策略分析圖,你可以理解X軸是重要性,Y軸是表現;首先,多元回歸分析應該強調是多元線性回歸分析!強調線性是因為大部分人用回歸都是線性回歸,線性的就是直線的,直線的就是簡單的,簡單的就是因果成比例的;理論上講,非線性的關係我們都可以通過函數變化線性化,就比如:Y=a+bLnX,我們可以令 t=LnX,方程就變成了 Y=a+bt,也就線性化了。
  • 貝葉斯線性回歸在期貨交易中的應用
    貝葉斯線性回歸模型與經典的線性回歸模型有很大區別,後者把回歸係數看作是固定的未知參數,而前者則把回歸係數看作是一個未知的概率分布,然後根據可獲得的樣本對這些未知分布進行推斷。在計算待預測變量的分布時需要根據回歸係數的分布在給定自變量的情況下進行採樣,從而得到待預測變量的分布。因此通常訓練貝葉斯模型和利用該類模型做預測的計算量都會比常規線性回歸要大。
  • 回歸係數顯著性t檢驗_多元線性回歸方程及回歸係數的顯著性檢驗...
    【可解釋的方差】     MSM( Mean of Squares for Model)  = SSR /DFM第五:線性回歸和方差分析1、方差分析中的分析變量實際上就是線性回歸中的因變量,方差分析中的分組變量就是線性回歸中的自變量。
  • 回歸分析t檢驗公式_線性回歸t檢驗公式 - CSDN
    【可解釋的方差】     MSM( Mean of Squares for Model)  = SSR /DFM第五:線性回歸和方差分析1、方差分析中的分析變量實際上就是線性回歸中的因變量,方差分析中的分組變量就是線性回歸中的自變量。
  • 文科生都能看懂的機器學習教程:梯度下降、線性回歸、邏輯回歸
    線性回歸  線性回歸是分析一個變量與另外一個或多個變量(自變量)之間,關係強度的方法。  線性回歸的標誌,如名稱所暗示的那樣,即自變量與結果變量之間的關係是線性的,也就是說變量關係可以連城一條直線。
  • 入門機器學習之線性回歸
    如果在回歸分析中,只包括一個自變量和一個因變量,且二者的關係可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且自變量之間存在線性相關,則稱為多重線性回歸分析。