Linear Regression是一個非常簡單以及常見的模型。從計量的角度看,它可以用來分析兩個或者多個變量之間是否相關、相關方向以及強度,或者用來預測。本文是從機器學習的角度來看linear regression,即從模型和loss function的角度看,並且我們給出closed form解,關於large-scale data的aapproximate的求解方式以後再做介紹。
Content
線性回歸-幾何視角
線性回歸-概率視角
Pseudo-inverse偽逆的介紹
局部加權線性回歸
多個output的線性回歸情況
線性回歸的幾何角度,即最小二乘法,ordinary least squares (OLS)
按照慣例,先介紹dataset:
predictors
target
模型(對於每個樣本):
思想:
我們想要每個樣本的真實值
loss function:
解法1(比較詳細):
從線性代數的幾何意義出發,對於任意的
小結
linear regression的幾何角度,即關注每個樣本的真實值與擬合值的差的平方之和。對於不同的係數
現在修正一下我們的模型,依然是對於每個樣本,我們假設這些樣本都是獨立的,並且:
現在考慮 likelihood
loss function:
由於計算便捷性,我們直接看
小結
我們從最大似然估計的角度去看線性回歸,最後得到的loss function與幾何角度OLS得到的結果相一致。這說明OLS,這個看似沒有任何假設的模型,其實隱含著:
各個樣本之間是獨立的。
樣本真實值與擬合值之間的noise是同方差的正態分布。
我開始學習機器學習的幾個月以來,經常能感受到它的美妙之處,其中之一就是一個問題往往有多種多樣的思考角度,條條大路通羅馬的感覺。
上面我們解得
思想:
觀察一下,求解的上一步是
Definition (Moore-Penrose pesudo-inverse)
奇異值分解:
對於任何的
現在整理下我們的思路:
我們的原問題是OLS即最小化
而偽逆是逆的generalization,所以不管
The set of solution of the minimization problem
修改一下我們在Sec02中寫的模型:
我們先intuitively地理解下加權最小二乘,比如
現在出現的問題是:我們如何給出這些
?一個很巧妙的技巧,是利用核函數矩陣。最常見的是高斯核函數借用一個知乎上給出一個例子,我們可以看到局部加權回歸相較於OLS線性回歸的強大之處。這是我們要擬合的一個data,顯然如果使用OLS會是一個欠擬合的結果。
先使用OLS來處理:
現在我們改成使用局部加權線性回歸:
使用高斯核函數計算第
用權重
用剛才得到的擬合直線方程,計算第
重複1到3。得到每個樣本點的估計值。相當於一共要跑n次回歸
在高斯核函數中的超參數
僅從上面三張圖我們可以
小結
簡單線性回歸的假設:noise服從同方差的正態分布太強了,我們把它放鬆到異方差的情況,得到了加權線性回歸。
加權線性回歸中,如何確定每個樣本的權重或者說每個樣本noise的正態分布的方差,我們使用了高斯核函數這樣一個技巧,即局部加權線性回歸。這樣對於預測點,周圍的樣本點的權重更高,遠處的樣本點的權重更小。
局部加權線性回歸中的超參數
儘管不常見,但我們的確可能會遇到多個output的問題,即我們要擬合的
在每個output是獨立的假設下,其實本質上與一維的情況相同。假設
loss function:
這次,我們講了最基礎的線性回歸的兩個視角——幾何與概率視角,發現了之前一直使用的OLS其實隱含著兩個假設:樣本獨立假設與noise同方差高斯分布假設。在求解的途中,我們討論了如果
Reference: