回歸分析的基礎概念之2:相關性與相關關係,相關係數與判定係數

2020-12-09 許栩原創之管理與職場

大家好,歡迎來到許栩原創專欄《從入門到高手:線性回歸分析詳解》(本專欄總目錄見上圖),這是專欄的第二篇文章,確定關係與相關關係,相關係數與判定係數。

本專欄第一篇文章,我講解了回歸分析第一個基礎概念,變量。這一章,將講解回歸分析另一個最重要的基礎概念,相關性。

本章的主要內容如下。

1、什麼是相關性?

2、函數關係、相關關係與因果關係。

3、相關係數及其計算方法。

4、相關關係強弱的評定標準。

5、判定係數及其計算方法。

6、相關係數與判定係數在回歸分析中的作用。

一、什麼是相關性?

在回歸分析中,相關性是指變量與變量之間的相互影響程度或相互關聯程度。

這個定義非常明了,不用我多做說明。我就強調一點:相關性是指變量之間相互的關聯程度,是共變關係,即你變我也變,是互相影響互相關聯的關係。當然,變的方向和變的程度可以不同。

相關性一般分為三種,即正相關、負相關和不相關。

1、當一個變量變化時,另一個變量和它相同方向變化,這兩個變量就是正相關。也就是說,當一個變量增加時另一個變量也增加,當一個變量減少時另一個變量同時減少。比如當氣溫上升時,空調耗電量就增加,氣溫下降時,空調耗電量也會下降,氣溫和空調耗電量就是正相關。

2、負相關則相反,指的當一個變量增加時另一個變量減少,或一個變量減少時另一個變量增加。比如,當氣溫上升時,吃麻辣火鍋的人就會減少,當氣溫下降時,吃麻辣火鍋的人就會增加,氣溫和吃麻辣火鍋的人數就是負相關。

3、不相關,顧名思義,就是指兩個變量之間沒有關係,即一個變量的變化對另一變量沒有明顯影響。

二、函數關係、相關關係與因果關係。

客觀事物之間的關係,一般來說可以歸納為兩大類,函數關係和相關關係(不相關也是相關關係的一種)。

函數關係,就是確定關係,是可以用精確的數學表達式表示的關係。確定關係的特徵是,當自變量確定後,因變量為唯一值,也就是確定值。比如正方形面積的計算,S=a*b,當長與寬確定時,面積也是確定的,長寬和面積是確定關係。

相關關係,是一種非確定性的關係。兩個變量之間有一定的關係,但當一個變量確定後,另一個變量並不是唯一的,另一個變量可以有若干種可能的取值。比如上文所講到的,氣溫和空調耗電量之間,當氣溫變化時,我們無法用一個標準的數學表達式來計算空調耗電的數量,即空調耗電的數量是不確定的,氣溫與空調耗電量是相關關係。

因果關係是界於函數關係與相關關係之間的關係,因果關係,顧名思義,就是第一件事是第二件事的原因,而第二件事是第一件事的結果。比如因為缺料,造成訂單無法交付,缺料與訂單無法交付是因果關係,缺料是因,訂單交付不了是果。

因果關係有一定的確定性,但不如函數關係完全確定。因果關係也不等同於相關關係,相關是偶然的,因果是必然的,相關是不確定的,因果是部分確定的。

很多理論將回歸分析歸於因果分析的一類,我並不認同。兩個變量存在相關關係並不意味著一定具有因果關係,比如去年的氣溫與今年的氣溫有很強的相關性,但不能說今年氣溫變化的原因是因為去年的天氣溫度。

回歸分析,主要分析的是相關關係。

三、相關係數及其計算方法。

相關係數,是衡量兩個變量之間相關方向和相關程度的相對指標。相關方向,是指兩者之間是正相關還是負相關。相關程度,是指兩者之間相關的緊密度。

相關係數是一個統計指標,用字母R表示,最早由英國統計學家卡爾·皮爾遜設計並提出。

相關係數R取值在±1之間。當R為0時,表示兩個變量絕對不相關。當R大於0時,兩個變量正相關,即你增加我也增加,你減少我也減少。當R小於0時,兩個變量負相關,即你增加我減少,你減少我增加。當R等於1或-1時,表示兩個變量絕對相關。

相關係數的計算公式如下圖。

這個公式是不是看起來特別複雜和繁瑣?不是是看著頭暈?或者直接說看不懂。

看不懂沒關係,我也不準備講解,因為,計算相關係數,我們有簡單易學的算法。在各種計算工具越來越先進並且越來越簡單的今天,我們對複雜的算法只需要有個臉熟就可以。

用Excel函數CORREL可輕鬆計算相關係數。

CORREL函數有兩個參數,即兩個變量的數組區域,詳見下面兩個圖(CORREL函數介紹和CORREL函數實例)。

四、相關關係強弱的評定標準。

相關焦點

  • 相關性分析在SPSS中的具體操作,一文讀懂相關係數的含義及使用——【醫學和生物統計】
    相關性分析介紹生物和醫學統計中,相關分析屬於流程前端的探索性分析,研究變量間關係及性質
  • SPSS:相關係數在遊戲分析中的應用
    ,相關係數的符號(+/-)表明關係的方向(正相關/負相關),其值的大小表示關係的強弱程度。面對這麼多統計的數據,我們會好奇這些指標或者變量之間是否存在某種相關性,以及相關程度如何,這就用到我們今天要分享的內容——相關分析。  在統計學上,用相關係數來描述變量之間的關係,相關係數的符號(+/-)表明關係的方向(正相關/負相關),其值的大小表示關係的強弱程度。下圖是對相關係數的一個解讀。
  • Excel相關性分析(一)- 計算相關係數
    本公眾號文章字數500左右,花3分鐘就能學會,點擊上方公眾號名稱關注下吧    相關係數,通常用r表示,是對樣本中變量x和變量
  • SPSS分析技術:Pearson相關、Spearman相關及Kendall相關
    基礎回顧通過文章(點擊藍字即可回顧閱讀):數據分析技術:數據關聯性分析綜述,我們知道數據的關聯性分析可以分為兩個大類:相關性分析和回歸分析
  • R平臺相關係數教程
    本教程介紹相關係數的知識,包括三方面的內容:首先,R平臺相關係數計算其次,R平臺相關矩陣可視化最後,R平臺相關係數的類型和如何影響後續分析工作
  • 協方差(covariance)與相關係數(2)|統計學專題
    散點不完全在同一直線上,沿直線分布越集中,相關係數越接近1,預測準確性逐漸增加。相反,沿直線分布越分散,相關係數越接近0,預測的準確性逐漸減弱。散點無相關性時,即x與y不相關時,相關係數為0,不能基於x預測y,也不能基於y預測x。
  • Pearson(皮爾遜)相關係數
    相關係數:考察兩個事物(在數據裡我們稱之為變量)之間的相關程度。如果有兩個變量:X、Y,最終計算出的相關係數的含義可以有如下理解:(1)、當相關係數為0時,X和Y兩變量無關係。(2)、當X的值增大(減小),Y值增大(減小),兩個變量為正相關,相關係數在0.00與1.00之間。
  • 一元線性回歸相關係數
    一元線性回歸相關係數   【提問】豐景春老師在講一元線性回歸時,相關係數一直使用P36,2-13公式,那不是方差分析嗎?相關係數公式是不是應該使用公式2-14?  【回答】學員wypmj,您好!您的問題答覆如下:  那是老師說錯了,老師有時候是無意的。但是具體分析的方法您能掌握就可以了。
  • 統計理論深度閱讀:相關係數家譜(第一部)
    相關係數定義相關係數是統計學中一個非常重要的概念,是相關分析的結果。人們用相關係數來測定兩者之間的相關方向和相關程度,需要注意,相關分析(相關係數)是用來表示「兩者」之間的相關關係,這裡的「兩者」可以是兩個變量(簡單相關)、一個變量對一群變量(復相關)、一群變量對一群變量(典型相關)。
  • 三大相關係數法
    在分析指標與指標、指標與研究對象的影響程度時,很多時候會用到相關係數法,常見的三種:Pearson相關係數,Kendall相關係數和Spearman
  • 相關係數簡介及R計算
    就關係的強度而言,相關係數的值在+1和-1之間變化,值±1表示變量之間存在完美關聯程度,即完全相關時絕對值為1;隨著相關係數值趨於0,意味著變量之間的關係將減弱,完全不相關時為0。關係的方向由係數的符號表示;+號表示正向關係,-號表示負向關係。
  • SPSS統計分析案例:相關分析之kendall係數
    發起人數據小兵,資深數據分析師,SPSS套件愛好者,願與科研工作者、行業數據分析者學習交流,歡迎訂閱。相關分析中最為常用的是pearson相關係數,嚴格來說它有自己的適用性,數據最好是正態分布且為連續型的數值,比如一個班級男生的身高數據和體重數據。
  • 模型研究4-相關係數問題(皮爾遜相關係數法)
    本期:相關係數問題研究如果有兩個變量:X、Y,最終計算出的相關係數的含義可以有如下理解:當相關係數為
  • 相關係數計算(Spearman,Pearson,Kendall)
    Spearman相關係數又稱秩相關係數,是利用兩變量的秩次大小作線性相關分析,對原始變量的分布不作要求,屬於非參數統計方法,適用範圍要廣些。斯皮爾曼等級相關是根據等級資料研究兩個變量間相關關係的方法。它是依據兩列成對等級的各對等級數之差來進行計算的,所以又稱為「等級差數法」斯皮爾曼等級相關對數據條件的要求沒有積差相關係數嚴格,只要兩個變量的觀測值是成對的等級評定資料,或者是由連續變量觀測資料轉化得到的等級資料,不論兩個變量的總體分布形態、樣本容量的大小如何,都可以用斯皮爾曼等級相關來進行研究
  • 用Excel做數據間的相關係數
    按照慣例,我會先講講什麼是相關係數(CorrelationCoefficient)。相關係數是研究變量之間線性相關程度的量。相關係數的計算公式如下點擊相關係數→確定列1和列1的相關性肯定是1了,數都一樣,完全相關。列1和列2的相關係數是0.009338,這種相關性太小了。等等以此類推,就這意思。這裡出現負值了,意思是說這兩組數是負相關的。就好比說一般情況下,某種商品銷量和單價的關係,單價越低銷量越高,這就是負相關(不知道舉的例子能不能說明問題)。
  • 如何用Excel計算相關係數矩陣?
    相關性,是指兩個變量之間的關聯程度。一般來講,兩個變量之間的關係是以下三種之一:正相關、負相關、無相關。相關係數被用來衡量兩個變量之間相關性的強弱程度,數值變動範圍在+1和-1之間。
  • 課件-回歸係數意義
    多元回歸的標準回歸方程(一元回歸,標準回歸係數等於相關係數)。兩個分類自變量回歸的F值(虛擬變量,K-1,實際是三個變量)與三分類變量方差分析的F值相同。回歸方程的F檢驗是檢驗方程的有效性。左上角是理想型,右上角是異方差性。左下是線性回歸模型不對,可能是曲線回歸。
  • 三大相關係數簡介及其在R中的相關函數
    相關係數是反映隨機變量之間關係的度量指標,是研究變量關係的重要工具。
  • 第270期|皮爾森相關係數簡述
    相關係數:考察兩個事物(在數據裡我們稱之為變量)之間的相關程度。      如果有兩個變量:X、Y,最終計算出的相關係數的含義可以有如下理解:(1)、當相關係數為0時,X和Y兩變量無關係。(2)、當X的值增大(減小),Y值增大(減小),兩個變量為正相關,相關係數在0.00與1.00之間。
  • 你真的會用相關分析?——談相關分析中的幾個注意問題
    但是要注意,「相關分析」並不等於我們平時在文章中所說的Pearson相關。通常,我們在文章中,都會說相關係數等於0.72之類的內容,這裡的相關係數絕大多數都是指Pearson相關。但事實上,還有很多其它相關,而且,有時你用的Pearson相關也未必正確。本文主要說一下相關分析中的一些注意事項。問題1:相關與回歸,我該選擇哪個?