文章源於網絡
「正確問題的近似答案要比近似問題的精確答案更有價值」
這正是回歸分析所追求的目標。它是最常用的預測建模技術之一,有助於在重要情況下做出更明智的決策。在本文中,我們將討論什麼是回歸分析,它是如何工作的。
回歸分析是作為數據科學家需要掌握的第一個算法。它是數據分析中最常用的預測建模技術之一。即使在今天,大多數公司都使用回歸技術來實現大規模決策。
要回答「什麼是回歸分析」這個問題,我們需要深入了解基本面。簡單的回歸分析定義是一種用於基於一個或多個獨立變量(X)預測因變量(Y)的技術。
經典的回歸方程看起來像這樣:
回歸方程
回歸分析源DataAspirant.com
在上面的等式中,hθ(x)是因變量Y,X是自變量,θ0是常數,並且θ1是回歸係數。
回歸分析用於在許多業務情況下做出決策。回歸分析有三個主要應用:
解釋他們理解困難的事情。例如,為什麼客戶服務電子郵件在上一季度有所下降。
預測重要的商業趨勢。例如,明年會要求他們的產品看起來像什麼?
選擇不同的替代方案。例如,我們應該進行PPC(按點擊付費)還是內容營銷活動?
由於存在許多不同的回歸分析技術,因此很難找到非常狹窄的回歸分析定義。大多數人傾向於將兩種常見的線性或邏輯回歸中的任何一種應用於幾乎每個回歸問題。
但是,有許多可用的回歸技術,不同的技術更適合於不同的問題。回歸分析技術的類型基於:
自變量的數量(1,2或更多)
因變量的類型(分類,連續等)
回歸線的形狀
回歸分析技術
1. 線性回歸
線性回歸是最常用的回歸技術。線性回歸的目的是找到一個稱為Y的連續響應變量的方程,它將是一個或多個變量(X)的函數。
因此,線性回歸可以在僅知道X時預測Y的值。它不依賴於任何其他因素。
Y被稱為標準變量,而X被稱為預測變量。線性回歸的目的是通過點找到稱為回歸線的最佳擬合線。這就是數學線性回歸公式 /等式的樣子:
線性回歸公式
在上面的等式中,hθ(x)是標準變量Y,X是預測變量,θ0是常數,並且θ1是回歸係數
線性回歸可以進一步分為多元回歸分析和簡單回歸分析。在簡單線性回歸中,僅使用一個獨立變量X來預測因變量Y的值。
另一方面,在多元回歸分析中,使用多個自變量來預測Y,當然,在這兩種情況下,只有一個變量Y,唯一的區別在於自變量的數量。
例如,如果我們僅根據平方英尺來預測公寓的租金,那麼這是一個簡單的線性回歸。
另一方面,如果我們根據許多因素預測租金; 平方英尺,房產的位置和建築物的年齡,然後它成為多元回歸分析的一個例子。
2. Logistic回歸
要理解什麼是邏輯回歸,我們必須首先理解它與線性回歸的不同之處。為了理解線性回歸和邏輯回歸之間的差異,我們需要首先理解連續變量和分類變量之間的區別。
連續變量是數值。它們在任何兩個給定值之間具有無限數量的值。示例包括視頻的長度或收到付款的時間或城市的人口。
另一方面,分類變量具有不同的組或類別。它們可能有也可能沒有邏輯順序。示例包括性別,付款方式,年齡段等。
在線性回歸中,因變量Y始終是連續變量。如果變量Y是分類變量,則不能應用線性回歸。
如果Y是只有2個類的分類變量,則可以使用邏輯回歸來克服此問題。這些問題也稱為二元分類問題。
理解標準邏輯回歸只能用於二元分類問題也很重要。如果Y具有多於2個類,則它變為多類分類,並且不能應用標準邏輯回歸。
邏輯回歸分析的最大優點之一是它可以計算事件的預測概率分數。這使其成為數據分析的寶貴預測建模技術。
3. 多項式回歸
如果自變量(X)的冪大於1,那麼它被稱為多項式回歸。這是多項式回歸方程的樣子:y = a + b * x ^ 3
與線性回歸不同,最佳擬合線是直線,在多項式回歸中,它是適合不同數據點的曲線。這是多項式回歸方程的圖形:
多項式回歸
對於多項式方程,人們傾向於擬合更高次多項式,因為它導致更低的錯誤率。但是,這可能會導致過度擬合。確保曲線真正符合問題的本質非常重要。
檢查曲線朝向兩端並確保形狀和趨勢落實到位尤為重要。多項式越高,它在解釋過程中產生奇怪結果的可能性就越大。
4. 逐步回歸
當存在多個獨立變量時,使用逐步回歸。逐步回歸的一個特點是自動選擇自變量,而不涉及人的主觀性。
像R-square和t-stats這樣的統計值用於識別正確的自變量。當數據集具有高維度時,通常使用逐步回歸。這是因為其目標是使用最少數量的變量最大化模型的預測能力。
逐步回歸基於預定義的條件一次增加或減少一個共變量。它一直這樣做,直到適合回歸模型。
5. 嶺回歸
當自變量高度相關(多重共線性)時,使用嶺回歸。當自變量高度相關時,最小二乘估計的方差非常大。
結果,觀察值與實際值有很大差異。嶺回歸通過在回歸估計中增加一定程度的偏差來解決這個問題。這是嶺回歸方程式的樣子:
在上面的等式中,收縮參數λ(λ)用於解決多重共線性的問題。
6. 套索回歸
就像嶺回歸一樣,Lasso回歸也使用收縮參數來解決多重共線性問題。它還通過提高準確性來幫助線性回歸模型。
它與嶺回歸的不同之處在於懲罰函數使用絕對值而不是正方形。這是Lasso回歸方程:
7. 彈性網絡回歸
ElasticNet回歸方法線性地組合了Ridge和Lasso方法的L1和L2懲罰。以下是ElasticNet回歸方程的樣子: