大家好,歡迎來到許栩原創專欄《從入門到高手:線性回歸分析詳解》(本專欄總目錄見上圖),這是專欄的第二篇文章,確定關係與相關關係,相關係數與判定係數。
本專欄第一篇文章,我講解了回歸分析第一個基礎概念,變量。這一章,將講解回歸分析另一個最重要的基礎概念,相關性。
本章的主要內容如下。
1、什麼是相關性?
2、函數關係、相關關係與因果關係。
3、相關係數及其計算方法。
4、相關關係強弱的評定標準。
5、判定係數及其計算方法。
6、相關係數與判定係數在回歸分析中的作用。
一、什麼是相關性?
在回歸分析中,相關性是指變量與變量之間的相互影響程度或相互關聯程度。
這個定義非常明了,不用我多做說明。我就強調一點:相關性是指變量之間相互的關聯程度,是共變關係,即你變我也變,是互相影響互相關聯的關係。當然,變的方向和變的程度可以不同。
相關性一般分為三種,即正相關、負相關和不相關。
1、當一個變量變化時,另一個變量和它相同方向變化,這兩個變量就是正相關。也就是說,當一個變量增加時另一個變量也增加,當一個變量減少時另一個變量同時減少。比如當氣溫上升時,空調耗電量就增加,氣溫下降時,空調耗電量也會下降,氣溫和空調耗電量就是正相關。
2、負相關則相反,指的當一個變量增加時另一個變量減少,或一個變量減少時另一個變量增加。比如,當氣溫上升時,吃麻辣火鍋的人就會減少,當氣溫下降時,吃麻辣火鍋的人就會增加,氣溫和吃麻辣火鍋的人數就是負相關。
3、不相關,顧名思義,就是指兩個變量之間沒有關係,即一個變量的變化對另一變量沒有明顯影響。
二、函數關係、相關關係與因果關係。
客觀事物之間的關係,一般來說可以歸納為兩大類,函數關係和相關關係(不相關也是相關關係的一種)。
函數關係,就是確定關係,是可以用精確的數學表達式表示的關係。確定關係的特徵是,當自變量確定後,因變量為唯一值,也就是確定值。比如正方形面積的計算,S=a*b,當長與寬確定時,面積也是確定的,長寬和面積是確定關係。
相關關係,是一種非確定性的關係。兩個變量之間有一定的關係,但當一個變量確定後,另一個變量並不是唯一的,另一個變量可以有若干種可能的取值。比如上文所講到的,氣溫和空調耗電量之間,當氣溫變化時,我們無法用一個標準的數學表達式來計算空調耗電的數量,即空調耗電的數量是不確定的,氣溫與空調耗電量是相關關係。
因果關係是界於函數關係與相關關係之間的關係,因果關係,顧名思義,就是第一件事是第二件事的原因,而第二件事是第一件事的結果。比如因為缺料,造成訂單無法交付,缺料與訂單無法交付是因果關係,缺料是因,訂單交付不了是果。
因果關係有一定的確定性,但不如函數關係完全確定。因果關係也不等同於相關關係,相關是偶然的,因果是必然的,相關是不確定的,因果是部分確定的。
很多理論將回歸分析歸於因果分析的一類,我並不認同。兩個變量存在相關關係並不意味著一定具有因果關係,比如去年的氣溫與今年的氣溫有很強的相關性,但不能說今年氣溫變化的原因是因為去年的天氣溫度。
回歸分析,主要分析的是相關關係。
三、相關係數及其計算方法。
相關係數,是衡量兩個變量之間相關方向和相關程度的相對指標。相關方向,是指兩者之間是正相關還是負相關。相關程度,是指兩者之間相關的緊密度。
相關係數是一個統計指標,用字母R表示,最早由英國統計學家卡爾·皮爾遜設計並提出。
相關係數R取值在±1之間。當R為0時,表示兩個變量絕對不相關。當R大於0時,兩個變量正相關,即你增加我也增加,你減少我也減少。當R小於0時,兩個變量負相關,即你增加我減少,你減少我增加。當R等於1或-1時,表示兩個變量絕對相關。
相關係數的計算公式如下圖。
這個公式是不是看起來特別複雜和繁瑣?不是是看著頭暈?或者直接說看不懂。
看不懂沒關係,我也不準備講解,因為,計算相關係數,我們有簡單易學的算法。在各種計算工具越來越先進並且越來越簡單的今天,我們對複雜的算法只需要有個臉熟就可以。
用Excel函數CORREL可輕鬆計算相關係數。
CORREL函數有兩個參數,即兩個變量的數組區域,詳見下面兩個圖(CORREL函數介紹和CORREL函數實例)。
四、相關關係強弱的評定標準。