你真的會用相關分析?——談相關分析中的幾個注意問題

2021-03-06 小白學統計

「相關」這個詞很常用,或者說,很通俗,只要是想說明兩個或多個變量的關係,似乎就可以考慮相關分析。但是要注意,「相關分析」並不等於我們平時在文章中所說的Pearson相關。

通常,我們在文章中,都會說相關係數等於0.72之類的內容,這裡的相關係數絕大多數都是指Pearson相關。但事實上,還有很多其它相關,而且,有時你用的Pearson相關也未必正確。本文主要說一下相關分析中的一些注意事項。

問題1:相關與回歸,我該選擇哪個?

相關與回歸都是分析變量間關係的方法,但不少人搞不清楚,我到底什麼時候用相關,什麼時候用回歸。這個其實主要從研究目的來定,這兩種方法側重的研究目的不同。

相關(correlation)從字面意思就可以看出它描繪的是變量間的「相互」關係,即兩個或多個變量不區分主次關係,重在解釋變量間的關聯。

而回歸分析中的變量地位不同,有主次之分,注意力集中在其中的一個或幾個自變量對因變量的影響,而不是因變量對自變量的影響。

在有的結構很清楚的軟體中,如JMP軟體,是將相關置於「多元分析」的菜單下,為什麼呢?因為相關分析中,所有變量都是結果,沒有原因,就是看這些變量之間的相互關係。

而回歸分析則不是,只有一個結果,其它都是原因(注意這裡的原因不是從時間上或因果關係上所謂的那個原因,只是為了說明問題,不是很嚴謹)。比如分析高血壓的影響因素,高血壓可以看做結果,而性別、年齡等因素可以看做原因。因為你想看的是性別、年齡等對高血壓的影響,而不想反過來看高血壓對年齡的影響。這就是回歸分析。

問題2:沒有線性相關就說明沒有關係?

一般而言,我們所說的相關都是指線性相關,但這只是一般情況,而不是所有情況。比如,Pearson相關係數(主要用於正態分布數據之間的相關)和Spearman相關係數(主要用於非正態分布的數據之間的相關),這兩個相關係數主要是用於線性相關的關聯性度量,但是如果相關係數=0.1,並不代表說就沒有相關。此時結論只能說無「線性相關」,但不能說沒有「相關性」。

因為變量之間不僅是線性相關,也可能是曲線相關,變量之間的關係不一定是直線關係,更多的可能是曲線的關係。事實上,現實中有很多現象都不是線性的,而是非線性的。比如下圖就是非線性的相關:


對於非線性的相關,如果還用Pearson相關,肯定是得不出想要的結果的,此時需要考慮曲線相關。

如何看變量間到底是線性相關還是曲線相關,最簡單的方法就是通過繪製散點圖來看。如果散點圖大致呈直線,那就是線性相關,如果呈指數形狀、拋物線形狀等,則最好先將變量進行變換,如對數變換、指數變換、平方、平方根變換等。將變換後的數據再進行直線相關分析。

問題3:P值越小說明相關性越大?

我在不少文章中看過類似的結論,如某相關係數的P<0.05,就說相關性較強,某相關係數的P<0.01,就說相關性非常高。等等之類的話。

事實上,相關係數的大小跟P值沒什麼關係。如果用不是很嚴謹的話來說(但是通俗一點),P值反映的是「有沒有相關」,而相關係數反映的是「相關性有多大」。也就是說,P值告訴我們,你得到的相關係數(不管多大,可能是0.9有可能是0.1)到底是真實的還是抽樣誤差造成的?而相關係數才是告訴我們,變量之間的關係到底有多大。

問題4:兩個變量的相關性很強,可以說明它們具有很好的一致性嗎?

相關性和一致性這兩個詞聽起來很像,但並不是一回事。一致性主要用於兩種屬性同時作用於同一批數據,如兩位專家同時對同一個人打分,兩種方法同時對一批樣品檢測等。而關聯性所用的場合要寬泛一些,基本上可以用於任意兩個屬性之間的關聯性表示,包括一致性所用的情形。如某指標的陰性陽性與疾病發生與否的關係、兩種基因型的關係等。

一般來講,強的一致性會出現強的關聯性,而強的關聯性則不一定出現強的一致性。舉一個簡單的例子,兩名專家對同一批樣品結果進行評定打分。如果其中一名專家對樣品的檢測分值總是高於另一名專家,那這兩個專家評定結果的一致性很差,但是關聯性很強。

問題5:分類資料的相關性如何分析?

通常我們所說的Pearson相關主要用於連續資料的相關分析,對於分類資料,有其特有的相關係數,比較常見的有列聯繫數、kendall相關係數、gamma係數、lambda係數等。

為了給大家一個直觀印象,下圖是JMP軟體給出的各種相關係數的結果。


相關焦點

  • 關於相關分析,談七點
    但我們的Pearson相關係數呢?Z-E-R-O!,零,沒錯的。注意哈:我們通常說的相關,是度量兩個變量間的線性關係,而捕捉不到兩個變量間的非線性關係。2.相關可以傳遞嗎?假如說,有三個變量,X,Y,Z。如果X與Y是相關的,Y和Z是相關的,那麼X與Z是相關的嗎?
  • 相關分析是不是真的沒什麼用?
    相關分析是絕大數論文都不可缺少的,多用在效度和信度檢驗之後,回歸分析之前。用來判斷變量之間是否有某種關係,以及關係的緊密程度等。
  • 【相關分析】概述
    偏相關分析,是在排除某個因素後,兩個變量的相關程度。距離相關分析,是通過兩個變量之間的距離來評估其相似性(這個少用)。註:在沒有特別說明的情況下,下文所說的相關分析,指的是簡單相關分析。判斷兩個變量是否存在線性相關關係,一種最簡單的方法就是可視化。相關分析中最合適的圖形就是散點圖。在下表中,將腰圍、脂肪比重和體重用散點圖的方式畫出來,則如下圖所示。顯然,隨著腰圍的增加,體重也在增加。
  • 除了簡單相關分析,我還會典型相關分析
    言歸正傳,接下來帶你學習典型相關分析和SPSS的操作。理論介紹:在一元統計分析中,研究兩個隨機變量之間的線性相關關係,可以用簡單相關係數;研究一個隨機變量與多個隨機變量之間的線性相關關係,可用復相關係數。但如果要研究兩組變量的相關關係時,這些統計方法就無能為力了。
  • 相關分析在遊戲中的應用
    除了常規指標,在分析過程中我們還會建立很多臨時指標來輔助分析,面對這麼多統計的數據,我們會好奇這些指標或者變量之間是否存在某種相關性,以及相關程度如何,這就用到我們今天要分享的內容——相關分析。在統計學上,用相關係數來描述變量之間的關係,相關係數的符號(+/-)表明關係的方向(正相關/負相關),其值的大小表示關係的強弱程度。下圖是對相關係數的一個解讀。
  • [空間分析]玖·地理統計 相關分析
    終於結束了統計基礎知識一系列的內容,今天從相關分析開始,從今天起就涉及 R 和 Python 實戰和可視化,不管分析結果怎麼樣,起碼圖必須得看的順眼對吧。今天談相關分析中的三大基本相關:Pearson、Spearman、Kendall 相關分析和偏相關。字數有點多。了解的同學可以直接到代碼實現和可視化。
  • 相關分析在微生物生態學中的應用與誤用
    由絕對豐度轉化為相對豐度時會產生虛假關聯,可以選擇使用對數比率轉換方法(例如SparCC)。a. 樣本群落中有六個物種,具有一個正相關線性關聯,群落的絕對豐度和相對豐度的波動情況如圖所示。b. 樣本群落中有六個物種,具有一個負相關和兩個正相關線性關聯。c.樣本群落中有15個物種,具有三個正相關和兩個負相關線性關聯。正相關和負相關分別用黃色和深藍色的連線表示。
  • SPSS中的「相關」分析
    SPSS中有多個模塊中的多個指標反映變量間相關或關聯程度,現簡單介紹如下:一、相關分析有關統計量及意義(一)兩個計量資料的相關分析1、Pearson 相關係數最常用的相關係數,又稱積差相關係數,該係數的計算和檢驗為參數方法
  • SPSS:相關係數在遊戲分析中的應用
    面對這麼多統計的數據,我們會好奇這些指標或者變量之間是否存在某種相關性,以及相關程度如何,這就用到我們今天要分享的內容——相關分析。  在統計學上,用相關係數來描述變量之間的關係,相關係數的符號(+/-)表明關係的方向(正相關/負相關),其值的大小表示關係的強弱程度。下圖是對相關係數的一個解讀。
  • 大白話系列:分析方法之相關分析方法
    0:不是線性相關應用場景比如說一個APP的日活量下降,經過假設檢驗分析,我們了解到日活量下降的原因有三個:1.獲取用戶的渠道B出現了問題2.產品出現了閃退等問題>3.競品對手開始了大額補貼這三個問題都很棘手,都急需解決。
  • 全流程總結相關分析,讓你條理清晰完成分析
    其中包括每種分析方法的分析流程,以及每個環節中可能出現的問題及應對方法。不會分析的同學可以按照圖中的流程一步步操作,就能得到準確可靠的結果。本文將介紹的是相關分析的分析流程,即SPSSAU通用方法中的「相關」。
  • 一篇帶你學會相關分析
    在很多研究中,研究者都把數據的相關性放在一個非常重要的位置上。甚至專門寫上一整篇的文章闡述其研究變量之間的相關關係,足見其重要性。通常,我們所說的「相關」都是一個較為模糊的概念,好像直覺告訴我們,這個事和那個人應該有關係,這個數字和那個現象似乎有聯繫,卻始終沒有辦法得到一個明確的結論。
  • 典型相關分析
    ,Yq)之間的相關關係,如運動員的體力測試指標(如反覆橫向跳、縱跳、背力、握力等)與運動能力測試指標(如耐力跑、跳遠、投球等)之間的相關關係時,若僅用某個變量Yj(如耐力跑)和變量組X的復相關係數描述,則只能反應變量組X與Yj之間的關係,而不能完整地表達出兩個變量組之間的關係。
  • 行測資料分析中增長率相關問題考查與應用
    資料分析在行測考試中一直是重點存在,而其常見的概念不外乎增長、比重、平均量以及倍數,另外會穿插一些其它的概念。學好資料分析的關鍵就是能夠快速定位、列式並且進行巧妙計算,而其中快速列式的關鍵則是對概念的理解及靈活運用,而不是硬記公式,這就需要學會總結歸納,找到最適合自己的記憶學習方法。中公網校專家對資料分析中涉及到與增長相關的題型進行概括歸納,希望各位考生通過本次學習能夠有一個深刻的認識了解。
  • TalkingData:相關分析在遊戲中的應用
    除了常規指標, 在分析過程中我們還會建立很多臨時指標來輔助分析。面對這麼多統計的數據, 我們會好奇這些指標或者變量之間是否存在某種相關性,以及相關程度如何,這 就用到我們今天要分享的內容——相關分析。在統計學上,用相關係數來描述變量之間的關係,相關係數的符號(+/-)表 明關係的方向(正相關/負相關),其值的大小表示關係的強弱程度。下圖是對相關 係數的一個解讀。
  • SPSS分析技術:Pearson相關、Spearman相關及Kendall相關
    根據數據種類的不同(定距、定序和定類),它們又有不同的分析方法。可以通過下面的思維導圖幫助記憶:常用的相關性分析包括:皮爾遜(Pearson)相關、斯皮爾曼(Spearman)相關、肯德爾(Kendall)相關和偏相關。下面介紹前三種相關分析技術,並用實際案例說明如何用SPSS使用這三種相關性分析技術。
  • 基於典型相關分析的詞向量
    這樣一來就克服了在深度學習中可能的維度災難,而且充分利用了空間,如果使用適當的訓練方法訓練出來的詞向量還可以直接根據兩個詞之間的距離來計算相似性。典型相關分析典型相關分析主要用於分析兩組變量之間的關係,通過該方法能有效分析相關關係。傳統簡單的分析方式是直接用協方差矩陣,比如我們有兩組變量
  • 用SPSS進行相關分析的典型案例
    相關分析的原假設是兩兩之間不相關,現在sig=0.002,原假設不可能發生,即得出年齡與工資水平有極顯著的相關關係,且隨著年齡的增加,工資會逐漸下降,老無所養吧。這個結論蒼白無力,即使不用統計分析,看看身邊的人其實也能想差不多明白。3、再提高一步在探索性數據分析階段,分組對比分析非常重要,在分組變量的細分之下,往往能夠發現意想不到的結論。我們討論一下不同性別的員工,其年齡和工資的關係,男女在這方面有區別嗎?(1)首先用性別變量將數據集拆分為男女兩部分:數據,拆分文件
  • 相關分析「一篇概全」
    相關分析是最基本的關係研究方法,也是一些分析方法的基礎,研究中我們經常會使用到相關分析,所以今天咱們就來說一說相關分析的那些「事兒」。SPSSAU提供散點圖分析散點圖經常表現為某種特定的形式。比如下圖,可以看出,X增大時,Y會明顯的減少,即說明X和Y之間有著負向相關關係。
  • 光合作用相關實驗和曲線分析
    專題:光合作用相關實驗和曲線分析相關實驗:一、薩克斯的試驗:1、實驗步驟:(1)把綠葉先在暗處放置幾個小時(目的是消耗掉葉片中原有的澱粉)。(2)讓葉片一般曝光,一半遮光。(3)將小圓形葉片放入黑暗的盛有清水的燒杯中,此時葉片會全部沉底。(4)取3支燒杯,分別倒入20ML含有二氧化碳的清水。(5)分別向3支燒杯中放入10片圓形葉片,然後分別對著三個實驗裝置進行強、中、弱三種光照射。