最近很多人都問我,為什麼感覺數據分析越學越亂,經常是學了一大堆名詞,真正遇到問題的時候卻更多是直接套用模型,很難將這些理論聯繫起來。
這其實就回歸到了一個至關重要的問題:數據分析的本質是什麼?
事物都是萬變不離其宗的,一切外在的方法都是為了事物本質而服務的,數據分析自然也不例外,今天我們就來探討一下數據分析的本質。
數據分析的本質
其實絕大多數的數據分析問題,都可以歸納為一個問題:相關性問題。
相關性分析是數據統計學中的基礎思想,主要就是為了探究數據之間是否具有關聯性,簡單說就是X與Y或者X與Y、Z等之間的變化是否有關聯。
比如,常年吸菸者的數量是否與肺癌患者的數量成正相關、健身者與感冒患者之間是否成負相關等等,這些例子都是簡單的相關性判斷
在數據分析中,更常見的則是更為複雜的相關性分析,也就是為了找到變量之間的相關係數,簡單說就是為了找到Y=A+B*X之中的B。
比如,用戶點擊率與網站訪問量之間是否有關係、廣告曝光量與投入成本的關係等等,這個方程的求取過程也就是所謂的「回歸分析」。
回歸分析在統計學中包含了很多類別,比如一元回歸、多遠回歸、方差回歸、線性回歸、非線性回歸等,但我們不必涉及這麼深,只需要了解其本質即可。
我們就拿廣告曝光量與投入成本這個例子來解剖一下數據分析中的回歸:
回歸分析
首先我們假設一個數據分析中常見的場景:
小李是公司裡負責市場廣告的,某一次公司要舉辦大型活動,要求小李在線上廣告上達到50w次的曝光量,於是小李寫了一份方案提出要加大投入費用。而老闆則覺得廣告的投入費用太大,沒有必要拿那麼多錢,而小李則覺得多投入才有效果。
那麼,對於究竟應該投入多少廣告成本呢?
1、分析目的
於是我們就找到了本次數據分析的目的,就是要找到廣告曝光量與費用成本之間的因果關係,也就是投入多少錢,廣告曝光就能對應提高多少嗎?
但是普通的統計方法是沒辦法得到嚴格的因果關係的,因此我們只能退而求其次地用回歸分析來研究其相關關係和影響因子,用相關性代替因果關係。
2、確定變量
然後,我們要確定X、Y各是什麼。
在這裡Y自然就是廣告曝光,也就是因變量,在數據分析中是指業務指標或者核心需求,比如銷售額這種我們關心的能夠隨著其他因素的變化而變化的指標。
X自然就是投入成本,也就是自變量,在數據分析中是指用來解釋業務指標的因子。
回歸分析的任務就是,通過研究X和Y的相關關係,嘗試去解釋Y的形成機制,進而達到通過X去預測Y的目的。那麼,X到底會長成什麼樣呢?
通常情況下X不是一個變量,而是多個變量,比如影響廣告曝光的不止是投入成本,還可能是網站SEO等,在實際情況中我們需要將X一個個都找出來,最終的回歸方程就變成了:
這裡我們再添加一些其他的影響因素,比如費用投入X2、人力投入X3、投放時間X4、廣告點擊率X5、對象人群量X6、定價X7、投入廣告位數量X8和定向設置量X9。
3、建立回歸模型
為了找到X與Y之間的變量關係,我們可以通過建立回歸模式來實現,這裡就用Excel的回歸功能簡單實操一下。
將數據直接導入excel中,在「選項」菜單中選擇「加載項」,在「加載項」多行文本框中使用滾動條找到並選中「分析工具庫」,然後點擊最下方的「轉到」:
打開「加載宏」的選項中選擇「數據分析庫」,然後點擊「確定」,就可以將數據分析庫加載到Excel中。
然後點擊「數據」菜單欄中的「數據分析」,在跳出的對話框中點擊「回歸」,然後下拉選取對應的X、Y區域,選擇「正態分布」,點擊「確定」即可。
這樣就可以得到最終的結果
4、回歸方程檢驗
有了回歸方程,我們還需要檢驗一下擬合情況如何。我們主要看的指標有4個:最上面的回歸統計表中的Multiple R以及R Square,中間表格中的Significance F,以及下方格中的P-value。
Multiple R:也就是R值,大於等於0.8即代表正相關,這裡我們的R值是0.91,表明廣告曝光與投入是正相關。R Square:R的平方值是指擬合係數,這個數值越大則代表回歸擬合的越好,這裡為0.83,說明擬合效果很好。Significance F:是指顯著性檢驗度,這個值越小就代表因變量和自變量之間的關聯性越顯著,這裡數值等於0.006,說明成本投入是影響廣告曝光最顯著的因素。P-value:是指係數的顯著性檢驗度,一般大於0.05就不具有統計學意義了,小於0.05說明具有統計學意義。這裡數值基本都小於0.05,說明這個結果極具統計學意義。5、回歸方程
最終按照圖中得到值就可以得到回歸方程,這樣小李再向老闆申請廣告投入費用的時候,就不怕被老闆說了。
最後簡單總結一下。什麼是回歸分析?回歸分析一句話:就是研究XY相關性的分析。
我們碰到的絕大多數數據分析問題,仔細想一下,都可以被規範成一個回歸分析的問題。而對於真實的工作而言,能否把這個問題,成功的規範成為一個回歸分析問題,是實際項目成功的關鍵。而規範是否成功的一個具體表現就是:第一,因變量Y是否定義清晰;第二,解釋性變量X是否精準有力。
如果覺得好,歡迎轉發該文章,如果有任何問題,也可以在評論中留言,一起討論