我用Excel發現了數據分析的本質:回歸分析

2021-01-10 數據分析不是個事兒

最近很多人都問我,為什麼感覺數據分析越學越亂,經常是學了一大堆名詞,真正遇到問題的時候卻更多是直接套用模型,很難將這些理論聯繫起來。

這其實就回歸到了一個至關重要的問題:數據分析的本質是什麼?

事物都是萬變不離其宗的,一切外在的方法都是為了事物本質而服務的,數據分析自然也不例外,今天我們就來探討一下數據分析的本質。

數據分析的本質

其實絕大多數的數據分析問題,都可以歸納為一個問題:相關性問題。

相關性分析是數據統計學中的基礎思想,主要就是為了探究數據之間是否具有關聯性,簡單說就是X與Y或者X與Y、Z等之間的變化是否有關聯。

比如,常年吸菸者的數量是否與肺癌患者的數量成正相關、健身者與感冒患者之間是否成負相關等等,這些例子都是簡單的相關性判斷

在數據分析中,更常見的則是更為複雜的相關性分析,也就是為了找到變量之間的相關係數,簡單說就是為了找到Y=A+B*X之中的B。

比如,用戶點擊率與網站訪問量之間是否有關係、廣告曝光量與投入成本的關係等等,這個方程的求取過程也就是所謂的「回歸分析」。

回歸分析在統計學中包含了很多類別,比如一元回歸、多遠回歸、方差回歸、線性回歸、非線性回歸等,但我們不必涉及這麼深,只需要了解其本質即可。

我們就拿廣告曝光量與投入成本這個例子來解剖一下數據分析中的回歸:

回歸分析

首先我們假設一個數據分析中常見的場景:

小李是公司裡負責市場廣告的,某一次公司要舉辦大型活動,要求小李在線上廣告上達到50w次的曝光量,於是小李寫了一份方案提出要加大投入費用。而老闆則覺得廣告的投入費用太大,沒有必要拿那麼多錢,而小李則覺得多投入才有效果。

那麼,對於究竟應該投入多少廣告成本呢?

1、分析目的

於是我們就找到了本次數據分析的目的,就是要找到廣告曝光量與費用成本之間的因果關係,也就是投入多少錢,廣告曝光就能對應提高多少嗎?

但是普通的統計方法是沒辦法得到嚴格的因果關係的,因此我們只能退而求其次地用回歸分析來研究其相關關係和影響因子,用相關性代替因果關係。

2、確定變量

然後,我們要確定X、Y各是什麼。

在這裡Y自然就是廣告曝光,也就是因變量,在數據分析中是指業務指標或者核心需求,比如銷售額這種我們關心的能夠隨著其他因素的變化而變化的指標。

X自然就是投入成本,也就是自變量,在數據分析中是指用來解釋業務指標的因子。

回歸分析的任務就是,通過研究X和Y的相關關係,嘗試去解釋Y的形成機制,進而達到通過X去預測Y的目的。那麼,X到底會長成什麼樣呢?

通常情況下X不是一個變量,而是多個變量,比如影響廣告曝光的不止是投入成本,還可能是網站SEO等,在實際情況中我們需要將X一個個都找出來,最終的回歸方程就變成了:

這裡我們再添加一些其他的影響因素,比如費用投入X2、人力投入X3、投放時間X4、廣告點擊率X5、對象人群量X6、定價X7、投入廣告位數量X8和定向設置量X9。

3、建立回歸模型

為了找到X與Y之間的變量關係,我們可以通過建立回歸模式來實現,這裡就用Excel的回歸功能簡單實操一下。

將數據直接導入excel中,在「選項」菜單中選擇「加載項」,在「加載項」多行文本框中使用滾動條找到並選中「分析工具庫」,然後點擊最下方的「轉到」:

打開「加載宏」的選項中選擇「數據分析庫」,然後點擊「確定」,就可以將數據分析庫加載到Excel中。

然後點擊「數據」菜單欄中的「數據分析」,在跳出的對話框中點擊「回歸」,然後下拉選取對應的X、Y區域,選擇「正態分布」,點擊「確定」即可。

這樣就可以得到最終的結果

4、回歸方程檢驗

有了回歸方程,我們還需要檢驗一下擬合情況如何。我們主要看的指標有4個:最上面的回歸統計表中的Multiple R以及R Square,中間表格中的Significance F,以及下方格中的P-value。

Multiple R:也就是R值,大於等於0.8即代表正相關,這裡我們的R值是0.91,表明廣告曝光與投入是正相關。R Square:R的平方值是指擬合係數,這個數值越大則代表回歸擬合的越好,這裡為0.83,說明擬合效果很好。Significance F:是指顯著性檢驗度,這個值越小就代表因變量和自變量之間的關聯性越顯著,這裡數值等於0.006,說明成本投入是影響廣告曝光最顯著的因素。P-value:是指係數的顯著性檢驗度,一般大於0.05就不具有統計學意義了,小於0.05說明具有統計學意義。這裡數值基本都小於0.05,說明這個結果極具統計學意義。5、回歸方程

最終按照圖中得到值就可以得到回歸方程,這樣小李再向老闆申請廣告投入費用的時候,就不怕被老闆說了。

最後簡單總結一下。什麼是回歸分析?回歸分析一句話:就是研究XY相關性的分析。

我們碰到的絕大多數數據分析問題,仔細想一下,都可以被規範成一個回歸分析的問題。而對於真實的工作而言,能否把這個問題,成功的規範成為一個回歸分析問題,是實際項目成功的關鍵。而規範是否成功的一個具體表現就是:第一,因變量Y是否定義清晰;第二,解釋性變量X是否精準有力。

如果覺得好,歡迎轉發該文章,如果有任何問題,也可以在評論中留言,一起討論

相關焦點

  • Python數據分析|線性回歸
    Python數據分析學習筆記,今天分享下利用Python對業務進行數據預處理,並利用線性回歸進行數據預測。壹 數據導入Python下載及環境配置這裡就不贅述了哈,網上教程非常多,我們直接一開始就進入乾貨,打它一個開門見山。
  • 如何用EXCEL線性回歸分析法快速做數據分析預測
    回歸分析法,即二元一次線性回歸分析預測法先以一個小故事開始本文的介紹。令我吃驚的是,本人以完整的數據推算做依據,做出的報告結果居然與僅入職數周,數據不齊全的Edwin制定的報告結果吻合度達到99%以上。仍清楚記得,筆者曾用得是標準的周轉天數計算公式反推法,而Edwin用的正是本文重點介紹的二元一次線性回歸分析法。二元一次線性回歸分析法是一種數據分析模型。
  • Excel數據分析包含哪些知識
    相信大家對即將講述的數據分析內容很感興趣,想知道Excel數據分析包含哪些知識?本文就言簡意賅地後面的系列文章會涉及到的一些內容,在這裡進行一下簡單的概括,大致分為八大部分分別如下:第一部分引入數據挖掘的概念。簡要介紹什麼是數據挖掘,介紹Excel強大的數據挖掘功能,excel不支持的功能需要使用「加載宏」。
  • Excel裡的這個工具,做財務分析一定要學會
    回歸分析最關鍵的一步,就是要得到a和b的值。可以用二元一次方程的方式去求解,但那樣用到的數據太少,會影響到預測的準確性。在excel裡,提供了一個非常好的工具,可以基於一組數據來進行求解。只要有準備好的數據,用工具自動計算a和b的值,比手工計算的準確度要好,也更簡單。 1、準備工作。
  • 不用代碼,教你Excel構建數據分析預測模型!
    下面是一個教程,介紹如何在Excel中構建線性回歸模型以及如何解釋結果。Excel真的能構建預測模型?這通常是我提起這個話題時的第一反應。當我演示如何利用Excel的靈活性為我們的數據科學和分析項目構建預測模型時,接下來是一個令人懷疑的眼神。讓我問你一個問題:如果你周圍的商店開始收集客戶數據,他們是否可以採用基於數據的策略來銷售他們的商品?
  • excel做回歸分析 - CSDN
    確定使面積之和最小的a(截距)和b(回歸係數)的值(如下圖)。使用Excel求解回歸方程;「工具」→「數據分析」→「回歸」,具體操作步驟將在後面的文章中具體會說明。,有一點點統計、分析、建模經驗的人都知道這個分析的含義,也會用各種工具來做這個分析。
  • 使用簡單而強大的Excel來進行數據分析
    使用Excel進行數據分析是使用R或Python進行數據科學的先驅我們應該要學習用於分析數據的基本的Excel函數介紹我一直都很佩服Excel強大的數據分析能力。當然有一些方法可以解決這個問題並在一定程度上處理這些數據,但是Excel並不是一個處理大數據的工具。在有大型數據集的情況下,R或Python是最好的選擇。我很幸運,我學習的旅程始於Excel。多年來,我學到了許多技巧,學會了許多可以更快處理數據的技巧。Excel具有許多功能。選擇最好的一個功能有時會會很令人困惑的。
  • 十年數據分析經驗,總結出這三類分析工具最好用
    而我們看Excel的產品目標不是這樣的,Excel可以做很多事情,你用Excel可以畫一張課程表,做一份調查問卷,當作計算器來算數,甚至還可以用來畫畫,用VBA寫個小遊戲,這些其實都不是數據分析功能。但是術業有專攻,BI是專攻數據分析的。
  • 用Excel做數據分析 回歸分析(1)
    我們已經知道在Excel自帶的資料庫中已有線性擬合工具,但是它還稍顯單薄,今天我們來嘗試使用較為專業的擬合工具來對此類數據進行處理。在數據點上單擊右鍵,選擇「添加趨勢線」-「線性」,並在選項標籤中要求給出公式和相關係數等,可以得到擬合的直線。
  • 數據分析能力的核心是思維
    數據分析的方法崇拜在和團隊小夥伴分享的的時候,發現一個問題:我問,你怎麼看數據分析能力?如何評價自己的數據分析能力?大家的回答主要是這樣的:運營是基於數據驅動的,但是拿著很多數據,不能分析下去,主要是對於excel的一些陌生的公式、函數都不太會,我要專門去學一下excel我感覺導致現在轉化率低低原因是xxx,最近接觸到很多用戶都是這麼反饋的,但還沒有找到好的分析方法產品的數據分析能力還是很重要,我想去學個R,能夠去構建量化模型……
  • 用Excel做數據分析——直方圖
    使用Excel自帶的數據分析功能可以完成很多專業軟體才有的數據統計、分析,這其中包括:直方圖、相關係數、協方差、各種概率分布、抽樣與動態模擬、總體均值判斷,均值推斷、線性、非線性回歸、多元回歸分析、時間序列等內容。下面將對以上功能逐一作使用介紹,方便各位普通讀者和相關專業人員參考使用。
  • 懂Excel就能輕鬆入門Python數據分析包pandas(十六):合併數據
    此系列文章收錄在公眾號中:數據大宇宙 > 數據處理 >E-pd經常聽別人說 Python 在數據領域有多厲害,結果學了很長時間,連數據處理都麻煩得要死。後來才發現,原來不是 Python 數據處理厲害,而是他有數據分析神器—— pandas前言本系列上一節說了拆分數據的案例,這次自然是說下怎麼合併數據。
  • 如何用Matlab/Python/Stata做簡單回歸分析
    (4)求出常見的回歸描述量:例如中心化R方、調整後R方 NO.2 |數據來源: 數據採用的是Pieters & Bijmolt(1997)的關於Consumer Memory for Television Advertising調查結果。
  • 用Excel求解回歸方程的3種方法:LINEST、散點圖和數據分析工具
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第四章,一元線性回歸分析。實際場景中,對需求影響的因素很多,也就是說自變量很多,很少能用單一的變量,也即一元回歸分析來做好預測。回歸分析在預測裡的應用,主要是多元回歸。
  • python多重線性回歸分析
    一個簡單的線性回歸模型測試。定義:線性回歸是利用數理統計中回歸分析,來確定兩種或兩種以上變量間相互依賴的定量關係的一種統計分析方法,運用十分廣泛。表達形式為y =aX+b,b為誤差服從均值為0的正態分布,a為截距。
  • 如何用線性回歸模型做數據分析?
    編輯導語:在日常工作中,很多時候都會用到數據分析的方法,線性回歸模型看起來非常簡單,但實際上它的十分重要;本文作者分享了關於如何用線性回歸模型做數據分析的方法,我們一起來學習一下。
  • 零一數據 [21天小白學成大師]第五天 學會用EXCEL做預測
    原創:有點瘦的胖子零一需要預測的場景太多這裡就不一一贅述了,在師傅的指導下,我對excel的認知水平又提升了一大截,學會了用excel做多元回歸分析。這個預測方法不僅適用絕大部分行業,並且也適用沒有業務基礎的小白操作。附上師父的一句教誨:相信相信的力量。
  • 如何用SPSS進行數據分析?
    1.6 統計功能CDA數據分析師認為SPSS統計功能是進行數據分析要重點掌握的模塊,通過此功能可以完成絕大部分數理統計模型分析,其中包括:回歸分析、列聯表分析、聚類分析、因子分析、相關分析、對應分析、時間序列分析、判別分析等。
  • 16種常用的數據分析方法-回歸分析
    終於,高爾頓發現:父親的身高和兒子的身高之間存在著某種給定的關係。 通過進一步的研究發現:子輩的平均身高是其父輩平均身高以及他們所處族群平均身高的加權平均和。 伴隨著這一著名發現,「回歸」一詞首次被提出。
  • 數據分析不得不知的七種回歸分析技術
    回歸分析技術是一種非常重要的數據分析方法,有著廣泛的應用,能夠解決目標變量為連續的預測分析問題。什麼是回歸分析?回歸分析是一種預測性的建模技術,它研究的是因變量(目標)和自變量(預測器)之間的關係。這種技術通常用於預測分析,時間序列模型以及發現變量之間的因果關係。