相關係數,為何相關,如何相關?

2021-02-19 數學風景

我們知道,我們可以利用回歸分析對具有相關關係的兩個變量進行統計分析。

也就是說只要給出我們樣本數據,我們就可以求出樣本的回歸直線方程。

接下來我們研究一個問題:

通過抽樣統計某地一年內某天的最高氣溫,

1月1日,2°;2月15日,-1°;3月5日,16°;4月10日,21°;5月12日,27°;

6月1日,33°;7月7日,38°;8月6日,32°;9月16日,29°;10月27日,24°;

11月22日,12°;12月8日,7°;

姑且不考慮是否具有線性相關,我們嘗試利用最小二乘原理求出日期與氣溫的「回歸直線方程」,利用公式,顯然是「可行」的。

在現實生活中,變量之間的常見關係有三種:一是確定性函數關係,變量之間的關係可以用函數表示;二是非確定性相關關係,變量之間有一定的關係,但不能完全用函數表達,變量問只存在統計規律;三是毫無關係的兩個變量,譬如上述的日期與氣溫。對於兩個變量,我們如何確定不相關,或者相關,相關性的強弱,如何解決?

當然我們可以求出回歸方程,然後再利用相關指數判斷,但似乎有點後知後覺的感覺!顯然我們需要尋求一個新的判斷方式——相關係數。

然而,在人教A版教材中, 「線性回歸方程」是教材的正文,「相關係數」是作為介紹性材料給出的。教材沒有很好地揭示兩者的內在聯繫。導致教師和學生按部就班地計算判斷,不明原因,接下來,本文從幾個角度來揭示兩者之間的關係,以促進大家對這塊內容的理解。

一、相關指數分析

從上篇文章《相關指數,為何相關,如何相關?》,我們知道我們可以藉助於相關指數判斷模型擬合效果的好壞來分析線性相關的強弱。

通過公式不難發現相關係數是由原始數據得到的,而相關指數則需要由預測值得到,也就是說,給出我們一組數據,我們可以直接求出相關係數,而要想求出相關指數,則必須求出回歸直線方程才可以。

顯然,兩變量幾乎不存在線性相關關係,所以沒有必要去求回歸直線方程了。

需要說明的是:相關係數和相關指數是兩個不同的概念,

相關係數是用來判斷兩個變量的線性相關性的強弱;相關指數來判斷回歸模型的擬合效果好壞。

一般是先求相關係數,分析相關性的強弱。然後求回歸方程,最後求出相關指數,分析模型的擬合效果。

二、向量分析

利用相關指數解析線性相關係數,可以看到了線性回歸方程在預測時的準確程度,可看到人們在定義線性相關係數時的一些本原性思考及其定義的合理性。利用向量和柯西不等式的角度解析線性相關係數,可以看到了隨機性數學與確定數學之間並不存在不可逾越的鴻溝,也有溝通之橋,可以相互滲透。

【前段時間,總會有讀者在公眾號的消息一欄給我留言,由於小編工作的特殊性,不能及時看到留言,當看到留言時,想回復,卻過了回復時間(我只能與兩天內的朋友們互動),所以以後大家如果有什麼疑問,不要在公眾號上發消息,可以選擇文章的評論或者加我好友私聊,我的微信號碼:「jingruiqiang」或者「282515512」。

近期總有新朋友給我發消息「歷史消息」,想看到歷史文章,抱歉,因為我不太會設置「自定義菜單」,是我的無知造就了您的徒勞,想看我歷史文章的朋友們,可以進入我公眾號的頁面,點擊右上方的「小人兒」,然後點擊「查看歷史消息」即可。

耳娛心憩之餘如有您偶或中意的「數學風景」,請幫我們隨手點讚、轉發。書不盡言!您的鼓勵是我們最大的動力。謝謝!】

微信號:shuxuefengjing數學風景,您掌上的數學教師!!!

相關焦點

  • R相關性圖如何按比例顯示相關係數
    這張圖裡面不僅展示了相關係數,並且相關係數顯示的大小跟相關係數是成比例的。這樣做的好處是,讓那些最顯著相關的一目了然,而那些不怎麼相關的就不那麼顯眼。這個引起了小編的興趣,想自己也畫一張這樣的相關性圖。
  • 相關係數第二彈:斯皮爾曼相關
    n為等級個數d為二列成對變量的等級差數簡單點說,斯皮爾曼相關就是無論兩個變量的數據如何變化,符合什麼樣的分布,我們只關心每個數值在變量內的排列順序。Spearman 和Pearson相關係數在算法上完全相同. 只是Pearson相關係數是用原來的數值計算積差相關係數, 而Spearman是用原來數值的秩次計算積差相關係數。Pearson相關係數適用條件為兩個變量間有線性關係、變量是連續變量、變量均符合正態分布。
  • 相關係數種類
    前幾篇文章,介紹了如何做簡單相關分析,重點介紹了兩個數值型變量的相關分析,採用的是Pearson相關係數。比如,度量身高與體重、工齡與收入、價格與銷量等等之間的關係,就可以使用Pearson簡單相關係數。
  • 相關係數之Pearson
    定義說到相關係數需要了解的 3 個概念:相關分析、數據期望、協方差。先分別說明這些概念。
  • 模型研究4-相關係數問題(皮爾遜相關係數法)
    本期:相關係數問題研究如果有兩個變量:X、Y,最終計算出的相關係數的含義可以有如下理解:當相關係數為
  • K-S檢驗,皮爾遜相關係數,spearman相關係數總結
    2 pearson correlation coeffcient 和 sperman秩相關係數2.1pearson相關係數(注意:描述的是兩個樣本的線性相關性,服從正態分布的連續變量#計算pearson相關係數data = pd.DataFrame({'value1':data1.values,                     'value2':data2.values
  • Pearson(皮爾遜)相關係數
    由於使用的統計相關係數比較頻繁,所以這裡就利用幾篇文章簡單介紹一下這些係數。
  • 皮爾森和斯皮爾曼相關係數
    >之前我們介紹了如何使用相關係數來衡量變量之間的相關性大小,但其實統計學中有三大相關係數,它們的計算方式不盡相同,適用於不同的場景。之前介紹的相關係數其實是皮爾森簡單相關係數,用協方差除以標準差的方式來計算,它計算簡單,應用廣泛,適用于衡量變量之間的線性關係。
  • 正確認識相關係數
    要看兩隻股票的相關性,請問應該用股價數據計算相關係數,還是用漲跌幅數據計算相關係數
  • 三大相關係數簡介及其在R中的相關函數
    概率統計學習中最常見的是Pearson相關係數,其取值範圍是[-1,1],當取值為0時表示不(線性)相關,取值為[-1,0)表示負相關,取值為(0,1]表示正相關。相關係數絕對值越接近於1,兩個變量間(線性)相關性越強。
  • 數學建模筆記——相關係數
    相關係數,其實就是衡量兩個變量之間相關性的大小的指標,常用的相關係數有兩種,一種是pearson相關係數,也就是《概率論與數理統計》這本書裡提到的,平時最為常用的相關係數。另一種稱之為spearman相關係數,我也是在清風老師的課中第一次聽說,它衡量的是兩個變量的依賴性,唔,也可以理解為單調性啦。
  • 皮爾森相關係數的計算
    在《變量關係大揭秘(一)》,我們提到了皮爾森相關係數r,它可是相關係數大家庭中的「1號人物」。
  • 協方差與相關係數
    協方差協方差這個玩意兒,好多同學仍舊是一頭霧水,而後面再加上相關係數更是讓人一臉懵逼,今天我們就來認認真真研究下。在此之前呢,我們來看一下方差。方差總該知道是啥吧?那麼,我們如何來量化這件事呢?也就是如何來說明:身高X和體重Y之間存在正(或負)相關性呢?這就是引出了協方差的概念:
  • 相關係數計算(Spearman,Pearson,Kendall)
    Spearman相關係數又稱秩相關係數,是利用兩變量的秩次大小作線性相關分析,對原始變量的分布不作要求,屬於非參數統計方法,適用範圍要廣些。斯皮爾曼等級相關是根據等級資料研究兩個變量間相關關係的方法。它是依據兩列成對等級的各對等級數之差來進行計算的,所以又稱為「等級差數法」斯皮爾曼等級相關對數據條件的要求沒有積差相關係數嚴格,只要兩個變量的觀測值是成對的等級評定資料,或者是由連續變量觀測資料轉化得到的等級資料,不論兩個變量的總體分布形態、樣本容量的大小如何,都可以用斯皮爾曼等級相關來進行研究對於服從Pearson相關係數的數據亦可計算Spearman相關係數,但統計效能要低一些
  • SPSS之簡單相關係數
    簡單相關分析是對兩個變量之間的相關程度進行分析。單相關分析所用的指標稱為 單相關係數,又稱為 Pearson(皮爾森)相關係數或相關係數。通常用 ρ 表示總體的相 關係數,以 r 表示樣本的相關係數。 我們已經給出總體相關係數的定義式為
  • 協方差(covariance)與相關係數(2)
    以上涉及的是直線相關,相關係數的取值為【-1,1】:散點完全在同一條直線上,預測的準確性最高,相關係數的正負號表示相關性的正負。若x與y是同向變化,相關係數等於1,為完全正相關;若x與y是反向變化,相關係數等於-1,為完全負相關。
  • 回歸分析的基礎概念之2:相關性與相關關係,相關係數與判定係數
    大家好,歡迎來到許栩原創專欄《從入門到高手:線性回歸分析詳解》(本專欄總目錄見上圖),這是專欄的第二篇文章,確定關係與相關關係,相關係數與判定係數。本專欄第一篇文章,我講解了回歸分析第一個基礎概念,變量。這一章,將講解回歸分析另一個最重要的基礎概念,相關性。本章的主要內容如下。
  • pearson與spearman相關係數的比較
    一般我們常用的是皮爾森相關係數和斯皮爾曼相關係數。    皮爾森相關係數(pearson correlation coefficient, PCC)是衡量兩個連續型變量的線性相關關係。    斯皮爾曼相關係數(spearman's rank correlation coefficient, SCC)是衡量兩變量之間的單調關係,兩個變量同時變化,但是並非同樣速率變化,即並非一定是線性關係。
  • 【方法】相關係數的計算與顯著性檢驗
    樣本相關係數可以用來對論文中建立的統計模型進行驗證,也可以用來進行元分析。相關係數的計算和顯著性檢驗是一個很輕鬆的工作——通常情況下,研究者會使用SPSS計算SPSS中各變量的相關,SPSS也直接提供了對相關係數的顯著性檢驗,研究者需要做的就是點點滑鼠,然後將結果抄寫在論文中。
  • 簡單相關分析中,相關係數r的取值的特點有( )。
    簡單相關分析中,相關係數r的取值的特點有( )。A.r的值越大,意味著變量之間的相關程度越高B.若兩變量相關,且變化的方向一致,則r值為負;反之,則r值為正C.r=0,意味著變量之間完全不相關D.r=l,意味著變量之間完全正相關E.r=﹣1,意味著變量之間完全負相關查看答案解析【正確答案】ACDE