引言:回歸分析(regression analysis)指的是確定兩種或兩種以上變量間相互依賴的定量關係的一種統計分析方法。
回歸分析按照涉及的變量的多少,分為一元回歸和多元回歸分析;按照自變量和因變量之間的關係類型,可分為線性回歸分析和非線性回歸分析。
線性回歸是一種最為我們熟悉的方式,故接下來我們就來詳細了解線性回歸。
1. 最小二乘法原理例如我們有一組數據,分別對應x(橫坐標)與y(縱坐標)。我們試圖建立x與y的等式關係,並探究x預測y的可靠性。通過繪製散點圖,我們可以對該組數據擬合無數條直線,但是怎樣找到最佳擬合直線呢?最小二乘法可以解決這一問題。
第一步:如下。不考慮x值,計算y值的均值b。Mean(y)=3.5。
第二步:如下。以均值形成擬合直線y=3.5,計算各數據點到y=3.5的距離的平方和,統計術語為圍繞均值的平方和(sum square around mean,SS(mean))。
殘差: 各個觀測數據(observed data)到擬合直線y=3.5的距離成為均值擬合直線的殘差(residual),即實際數據與預測數據的差異;殘差平方和: SS(mean)又稱該擬合均值直線對應的殘差平方和,此處得SS(mean)=24.62。第三步:旋轉均值直線,求解不同擬合直線對原始數據的擬合效果。隨著直線的旋轉,不同擬合直線對應的殘差平方和不斷發生改變(如下):
如何評價擬合的效果?
當直線對原始數據的擬合效果較好時,大部分數據靠近直線分布,故該直線對應的殘差平方和較小。再次強調,殘差為實際數據與預測數據的差異。 換句話說,擬合直線對應殘差平方和表示直線的擬合效果,殘差平方和越小,說明直線的擬合效果越好。
2. 最小二乘法求解最佳擬合直線直線回歸方程的通用公式為:
y=a·x+b
其中a表示直線方程的斜率(slope),b表示直線方程的截距(intercept)。為了尋找原始數據的最優擬合回歸直線,故需要求解對應殘差平方和最小回歸直線的a與b。
殘差平方和的計算公式:
SS(mean) = ((ax1 + b )-y1)^2+((ax2 + b )-y2)^2+((ax3 + b )-y3)^2 +
...+((axn + b )-yn)^2
①預測y(predicted y):(a·x1+b),(a·x2+b),...,(a·xn+b)表示基於(ax+b)直線預測的y;②觀測y(observed y):y1,y2,...,yn表示實際觀測到的y1,y2,...,yn。
最小二乘法(least square)名稱的由來:基於殘差平方和的方法得出最優「a」與「b」,進而尋找最小殘差平方和對應的直線,故該方法被稱為「最小二乘法(least square)」。
第四步:對殘差平方和公式進行求導,尋找最優擬合回歸直線。 如果我們繪製每一條直線斜率與其對應殘差平方和的散點圖(如下)。可以發現,當該曲線取得最小殘差平方和時,斜率為0。
對函數求導可以得出曲線上任意一點對應的斜率,故我們可對函數求導,利用導數等於0的性質,求解最優。
從應用統計學的角度出發,電腦程式可以幫我們求最優解,我們不用親自掌握函數如何求導。最後,我們得出最佳擬合回歸直線:y=0.77x+0.66,該直線對應的殘差平方和最小。
3.小結現在我們開啟新的一部分學習,在這接下來的幾個章節,我們將逐漸學習線性回歸的基礎知識。在這一小節中,我們主要學習了最小二乘法的原理,以及如何利用最小二乘法判斷和求解最佳擬合直線。
參考視頻:
https://www.youtube.com/watch?v=PaFPbb66DxQ&list=PLblh5JKOoLUIzaEkCLIUxQFjPIlapw8nU&index=1
編輯:呂瓊
校審:羅鵬