「回歸分析」知識點梳理,數據業務的決策就靠它了!

2021-03-01 愛數據原統計網



文章源於網絡

「正確問題的近似答案要比近似問題的精確答案更有價值」

這正是回歸分析所追求的目標。它是最常用的預測建模技術之一,有助於在重要情況下做出更明智的決策。在本文中,我們將討論什麼是回歸分析,它是如何工作的。

回歸分析是作為數據科學家需要掌握的第一個算法。它是數據分析中最常用的預測建模技術之一。即使在今天,大多數公司都使用回歸技術來實現大規模決策。

要回答「什麼是回歸分析」這個問題,我們需要深入了解基本面。簡單的回歸分析定義是一種用於基於一個或多個獨立變量(X)預測因變量(Y)的技術

經典的回歸方程看起來像這樣:

回歸方程

回歸分析源DataAspirant.com

在上面的等式中,hθ(x)是因變量Y,X是自變量,θ0是常數,並且θ1是回歸係數。

回歸分析用於在許多業務情況下做出決策。回歸分析有三個主要應用:

解釋他們理解困難的事情。例如,為什麼客戶服務電子郵件在上一季度有所下降。

預測重要的商業趨勢。例如,明年會要求他們的產品看起來像什麼?

選擇不同的替代方案。例如,我們應該進行PPC(按點擊付費)還是內容營銷活動?


由於存在許多不同的回歸分析技術,因此很難找到非常狹窄的回歸分析定義。大多數人傾向於將兩種常見的線性或邏輯回歸中的任何一種應用於幾乎每個回歸問題。

但是,有許多可用的回歸技術,不同的技術更適合於不同的問題。回歸分析技術的類型基於:

自變量的數量(1,2或更多)

因變量的類型(分類,連續等)

回歸線的形狀

回歸分析技術

1. 線性回歸

線性回歸是最常用的回歸技術。線性回歸的目的是找到一個稱為Y的連續響應變量的方程,它將是一個或多個變量(X)的函數。

因此,線性回歸可以在僅知道X時預測Y的值。它不依賴於任何其他因素。

Y被稱為標準變量,而X被稱為預測變量。線性回歸的目的是通過點找到稱為回歸線的最佳擬合線。這就是數學線性回歸公式 /等式的樣子:

線性回歸公式

在上面的等式中,hθ(x)是標準變量Y,X是預測變量,θ0是常數,並且θ1是回歸係數

線性回歸可以進一步分為多元回歸分析和簡單回歸分析。在簡單線性回歸中,僅使用一個獨立變量X來預測因變量Y的值。

另一方面,在多元回歸分析中,使用多個自變量來預測Y,當然,在這兩種情況下,只有一個變量Y,唯一的區別在於自變量的數量。

例如,如果我們僅根據平方英尺來預測公寓的租金,那麼這是一個簡單的線性回歸。

另一方面,如果我們根據許多因素預測租金; 平方英尺,房產的位置和建築物的年齡,然後它成為多元回歸分析的一個例子。

2. Logistic回歸


要理解什麼是邏輯回歸,我們必須首先理解它與線性回歸的不同之處。為了理解線性回歸和邏輯回歸之間的差異,我們需要首先理解連續變量和分類變量之間的區別。

連續變量是數值。它們在任何兩個給定值之間具有無限數量的值。示例包括視頻的長度或收到付款的時間或城市的人口。

另一方面,分類變量具有不同的組或類別。它們可能有也可能沒有邏輯順序。示例包括性別,付款方式,年齡段等。

在線性回歸中,因變量Y始終是連續變量。如果變量Y是分類變量,則不能應用線性回歸。

如果Y是只有2個類的分類變量,則可以使用邏輯回歸來克服此問題。這些問題也稱為二元分類問題。

理解標準邏輯回歸只能用於二元分類問題也很重要。如果Y具有多於2個類,則它變為多類分類,並且不能應用標準邏輯回歸。

邏輯回歸分析的最大優點之一是它可以計算事件的預測概率分數。這使其成為數據分析的寶貴預測建模技術。

3. 多項式回歸


如果自變量(X)的冪大於1,那麼它被稱為多項式回歸。這是多項式回歸方程的樣子:y = a + b * x ^ 3

與線性回歸不同,最佳擬合線是直線,在多項式回歸中,它是適合不同數據點的曲線。這是多項式回歸方程的圖形:

多項式回歸

對於多項式方程,人們傾向於擬合更高次多項式,因為它導致更低的錯誤率。但是,這可能會導致過度擬合。確保曲線真正符合問題的本質非常重要。

檢查曲線朝向兩端並確保形狀和趨勢落實到位尤為重要。多項式越高,它在解釋過程中產生奇怪結果的可能性就越大。

4. 逐步回歸


當存在多個獨立變量時,使用逐步回歸。逐步回歸的一個特點是自動選擇自變量,而不涉及人的主觀性。

像R-square和t-stats這樣的統計值用於識別正確的自變量。當數據集具有高維度時,通常使用逐步回歸。這是因為其目標是使用最少數量的變量最大化模型的預測能力。

逐步回歸基於預定義的條件一次增加或減少一個共變量。它一直這樣做,直到適合回歸模型。

5. 嶺回歸


當自變量高度相關(多重共線性)時,使用嶺回歸。當自變量高度相關時,最小二乘估計的方差非常大。

結果,觀察值與實際值有很大差異。嶺回歸通過在回歸估計中增加一定程度的偏差來解決這個問題。這是嶺回歸方程式的樣子:

在上面的等式中,收縮參數λ(λ)用於解決多重共線性的問題。

6. 套索回歸


就像嶺回歸一樣,Lasso回歸也使用收縮參數來解決多重共線性問題。它還通過提高準確性來幫助線性回歸模型。

它與嶺回歸的不同之處在於懲罰函數使用絕對值而不是正方形。這是Lasso回歸方程:


7. 彈性網絡回歸


ElasticNet回歸方法線性地組合了Ridge和Lasso方法的L1和L2懲罰。以下是ElasticNet回歸方程的樣子:

相關焦點

  • 「回歸分析」知識點梳理
    ↑↑↑點擊上方藍字,回復資料,10個G的驚喜「正確問題的近似答案要比近似問題的精確答案更有價值」這正是回歸分析所追求的目標。它是最常用的預測建模技術之一,有助於在重要情況下做出更明智的決策。在本文中,我們將討論什麼是回歸分析,它是如何工作的。回歸分析是作為數據科學家需要掌握的第一個算法。它是數據分析中最常用的預測建模技術之一。即使在今天,大多數公司都使用回歸技術來實現大規模決策。要回答「什麼是回歸分析」這個問題,我們需要深入了解基本面。
  • 開發以中文「與數據對話」的AI決策系統,「訊能集思」要做人工智慧...
    通過增強型分析,其人工智慧決策平臺 Xavier能讓基礎數據分析人員和有數據分析需求的業務人員完成數據分析,並利用自動化機器學習(auto-ML)為企業業務提供多樣化的數據決策方案,助力企業的數位化和智能化轉型。
  • Gartner預測2019年十大「數據和分析技術」趨勢:增強型分析成為...
    他還談道,「數位化業務需要大量複雜且分布式的數據、迅速行動以及持續型智能,這意味著僵化且集中式的架構和工具分崩離析。」 Gartner 研究副總裁 Rita Sallam,數據和分析領導者必須審視這些趨勢對業務帶來的潛在影響,並相應調整業務模式和運營,否則就有可能失去競爭優勢。
  • 「Why-What-How」數據分析方法
    相信很多朋友已經有了較豐富的分析經驗,這裡權且從個人的角度進行梳理,以資參考。為了幫助大家更好地理解本文,先貼出一張思維導圖:在目前講解數據分析的文章裡,大多數會忽略數據分析本身的目的。這會導致我們在執行時,會出現動作變形的情況。以終為始,才能保證不會跑偏。個人的理解上, 數據分析是為了能以量化的方式來分析業務問題並得出結論。其中有兩個重點詞語:量化和業務。
  • 「數據分析」的理念、流程、方法、工具
    >(一) 數據驅動企業運營 從電商平臺的「猜你喜歡」到音樂平臺的「心動模式」,大數據已經滲透到了我們生活的每一個場景。數據指標拆解 在確定了分析目標後,就需要進行數據指標拆解。明確要分析哪些具體的數據指標,為了避免遺漏關鍵細節,可以先對業務(或某一個活動、使用場景)流程做梳理,得出每一個節點的數據指標項,根據分析目標需要,保留關鍵項,剔除多餘項。
  • 擁有「數據分析」+「數據可視化」能力,更能受到社會偏愛?
    數據分析其實是時代下的產物,隨著大數據的應用,數據分析可以幫助企業了解到自身的情況和行業環境,輔助進行風險評判與決策,那麼數據分析員/師賦予的分析報告的價值,才是對企業最有用的。乍一聽『數據分析』,無論是從名頭上,還是從工作內容上,都感覺很高大上。
  • 八張圖,看懂數據分析如何驅動決策
    關注並將「人人都是產品經理」設為星標每天早 07 : 45 按時送達如今在這個大數據時代,數據對於企業的重要性越來越明顯,因此不少企業開始做數據驅動決策,讓業務裡的每個人都可以更精準的展開工作;本文作者分享了關於數據分析如何驅動決策的講解,我們一起來看一下。
  • R 語言之數據分析「Resampling」
    本節主要總結「數據分析」的「Resampling」重抽樣思想,並通過 R 語言實現。有一種東西叫作「傳統」,它在很多時候很有用,但會讓你思維固化,在新的環境下讓你出錯。在總結回歸分析和方差分析的時候 ④R語言之數據分析「初章」,我總是會在模型的建立之前提到「統計假設」,在模型建立之後進行「假設檢驗」,原因想必大家都能理解,就是因為這些「統計假設」是我們模型建立思想的基礎,是支撐我們模型正確性的「必要條件」。但是,不可否認的是,這些「必要條件」最終會成為我們「數據分析」的局限,讓我們對「不滿足條件的數據集」束手無策。
  • 什麼才是打開「數據分析」的正確姿勢?
    「因為負責渠道的同事提出了需求,希望了解渠道這半年來的相關數據。」「是要數據,還是要分析?」「要數據,但是要協助分析。」「如果要數據,你提供一張Excel表格就可以了,但如果要分析,這個PPT是不合格的。」
  • 「大數據分析」深入淺出:如何從零開始學習大數據分析與挖掘
    最近有很多人想學習大數據,但不知道怎麼入手,從哪裡開始學習,需要學習哪些東西?對於一個初學者,學習大數據分析與挖掘的思路邏輯是什麼?本文就梳理了如何從0開始學習大數據挖掘分析,學習的步驟思路,可以給大家一個學習的建議。
  • R 語言之數據分析高級方法「主成分分析」和「因子分析」
    本節主要總結「數據分析」的「主成分分析」和「因子分析」的思想。通過學習《 R 語言實戰 》關於這兩種方法的解釋,我們很容易理解這兩種方法其存在的意義。——降維。我們將要面對的數據實在是太大,變量實在太多,因此計算機所承受的壓力也會越來越大。信息過度複雜是多變量數據最大的挑戰之一,特別是在還要考慮變量間交互關係的時候,變量增加時交互關係的量是按階乘關係在往上漲的,所以降維在很多時候能夠起到減少大量工作量的作用,是數據分析很重要的一個思想。以上是「主成分分析」與「因子分析」聯繫,有共同的目的。
  • 數據可視化|用散點圖進行數據分析
    散點圖的用途有很多,我認為它的核心價值,在於應用相關思維,發現變量之間的關係。散點圖就像一扇窗,打開它,並仔細觀察,能讓我們看見更多有價值的信息。」的方法進行畫圖。03當業務指標很多的時候,應該挑選什麼指標來進行分析,這件事很考驗分析者的功力,往往需要對業務有比較深刻的理解。為什麼很多人精通各種工具技術,手上也有很多各種各樣的數據,卻沒有做出讓領導滿意的圖表?
  • 數據分析技術:決策樹分析;機器學習入門模型
    ,包括聚類分析、判別分析和邏輯回歸分析,加上今天將要介紹的決策樹分析,這些分類方法之間有什麼區別呢? 分類方法對比需要明確,聚類分析、判別分析、邏輯回歸和決策樹這些分類方法,它們的分類對象是個案(研究對象),比如人、家庭、公司或國家等,這些分類對象都有一個共同點,那就是它們身上的標籤或屬性是多維和複雜的。
  • 何為 「數據分析思維」?
    而每一個崗位都擁有了特殊的技能,但是從數據價值的角度來說,最強技能非「數據分析」莫屬,其次是「工程能力」,最後才是「產品思維」。重新梳理一下,數據分析就是通過觀察、假設和推理,藉助數學知識去探索問題。而工程能力是它解決複雜問題時的一種手段,產品思維是它價值形態輸出的一種表現。所以說,每一個數據人都應該具備一定的「數據分析思維」,這點極其重要。
  • 員工培訓:如何制定以數據為依據的業務決策
    當你知道需要跟蹤的內容並收集了所有必要的數據時,就可以對其進行分析以獲得可行的見解。一旦了解了數據說明的內容,就可以使用它來制定有效的策略,以幫助你不斷優化業務。數據驅動型決策在企業中的重要性使用數據制定決策對於組織的持續發展至關重要。
  • 數據分析模型:歸因分析
    本篇講述歸因分析在實際業務中的應用及實現方法,主要講解「渠道歸因」和「運營位歸因」的「單值傳遞歸因」、「多值記錄集合歸因」、「時序還原歸因」以及「路徑還原歸因」幾個方法。
  • 螞蟻金服數據洞察分析平臺 DeepInsight:人人都是數據分析師
    大數據時代,由數據驅動的用戶行為分析、運營分析、業務分析無疑是最被關注的「熱詞」,尤其對於擁有海量數據的大中型企業來說,對數據的需求已遠遠超越了傳統數據報表所能提供的範疇。如何運用自助式 BI 實現當代企業精細化運營,已成為企業運營管理的新課題。一個企業,如果要知道前段時間都發生了什麼?為什麼會發生?現在發生了什麼?接下來又會發生什麼?
  • 618年中大促,一個電商運營很容易忽視的點「電商數據分析」
    同時還考驗一個很重要,卻很容易被忽視的點:「價格」。「價格」很重要。這世上沒人不關注價格,營銷4P理論更是將價格擺在一個十分顯眼的位置。「價格」也很容易被忽視。電商運營中,我們做了很多店鋪設計、商品展示、SOP客服接待、廣告賣點塑造的工作。但是真正為價格做過什麼?
  • 用數據驅動決策
    企業的成長、業務的發展、產品的迭代離不開數據作指導,尤其是當前階段,網際網路紅利消失,增量時代已經過去,存量時代到來。企業從「業務經驗驅動」向「數據量化驅動」轉型,從以往的主觀分析和預判變成基於存量數據分析和精細化運營。
  • 85歲MIT教授上線全新「線性代數」公開課:大牛幫你重新梳理知識點
    這門名為「A 2020 Vision of Linear Algebra」的課程一共分為6節,每節課的長度不超過15分鐘。在這門課中,Strang教授以獨立向量和矩陣的列空間作為學習線性代數的起點,逐步引出正交向量、特徵值和特徵向量、奇異值等知識點。