三大相關係數簡介及其在R中的相關函數

2021-02-19 機會的數學

    相關係數是反映隨機變量之間關係的度量指標,是研究變量關係的重要工具。概率統計學習中最常見的是Pearson相關係數,其取值範圍是[-1,1],當取值為0時表示不(線性)相關,取值為[-1,0)表示負相關,取值為(0,1]表示正相關。相關係數絕對值越接近於1,兩個變量間(線性)相關性越強。

    

    Pearson相關係數用來度量連續取值變量的相關性,在醫學、經濟學和社會學等領域還經常需要研究其他類型變量如定序變量等之間的關係,此時可以用Spearman秩相關係數和Kendall τ相關係數。下面簡單介紹一下這三種相關係數的定義及計算公式。

    關於樣本Pearson相關係數的統計性質及檢驗統計量,可參考:Pearson相關係數:熟悉的陌生人。

4. 在R中計算並展示相關係數

    

    在R中可使用cor( )函數來計算三種相關係數值,用cor.test( )檢驗相關係數顯著性,還可以用corrplot包中的corrplot( )函數或者corrgram包中的corrgram( )函數進行圖示化。以著名的鳶尾花數據為例。

cor(x, y = NULL, use = "everything",method = c("pearson", "kendall", "spearman"))

分別計算三種相關係數:

iris.corp<-cor(iris[,-5],method='pearson')iris.cors<-cor(iris[,-5],method='spearman')iris.cork<-cor(iris[,-5],method='kendall')iris.corp#輸出的Pearson相關係數結果             Sepal.Length Sepal.Width Petal.Length Petal.WidthSepal.Length    1.0000000  -0.1175698    0.8717538   0.8179411Sepal.Width    -0.1175698   1.0000000   -0.4284401  -0.3661259Petal.Length    0.8717538  -0.4284401    1.0000000   0.9628654Petal.Width     0.8179411  -0.3661259    0.9628654   1.0000000

以iris數據集前兩個變量為例檢驗相關係數的顯著性:

cor.test(iris[,1],iris[,2],method='pearson')#輸出結果        Pearson's product-moment correlationdata:  iris[, 1] and iris[, 2]t = -1.4403, df = 148, p-value = 0.1519alternative hypothesis: true correlation is not equal to 095 percent confidence interval: -0.27269325  0.04351158sample estimates:       cor -0.1175698

利用corrplot包中的corrplot( )函數圖示化相關係數:

#install.packages("corrplot")library(corrplot)corrplot(corr=iris.corp, method = "ellipse") #具體參數的設置和使用可參考幫助文檔

圖形如下:

利用corrgram包中的corrgram( )函數圖示化相關係數:

#install.packages("corrgram")library(corrgram)corrgram(iris.corp, type="cor", lower.panel=panel.shade, upper.panel=panel.pie, text.panel=panel.txt, main="Correlogram of iris intercorrelations (1)")corrgram(iris.corp, type="cor",order=F, lower.panel=panel.conf, upper.panel=panel.pie, text.panel=panel.txt, main="Correlogram of iris intercorrelations (2)")corrgram(iris[,-5], order=F, lower.panel=panel.ellipse, upper.panel=panel.pts, text.panel=panel.txt, main="Correlogram of iris intercorrelations (3)")#上面顯示了三種不同的相關性展示方法,可以通過設置相應的參數實現。

三種圖形分別如下:

用符號展示相關性程度:

symnum(iris.corp)#輸出結果             S.L S.W P.L P.WSepal.Length 1              Sepal.Width      1          Petal.Length +   .   1      Petal.Width  +   .   B   1  attr(,"legend")[1] 0 『 』 0.3 『.』 0.6 『,』 0.8 『+』 0.9 『*』 0.95 『B』 1

計算三種相關係數之間的相關程度:

i <- lower.tri(iris.corp)cor(cbind(P = iris.corp[i], S = iris.cors[i], K = iris.cork[i]))#輸出結果          P         S         KP 1.0000000 0.9965806 0.9960445S 0.9965806 1.0000000 0.9987646K 0.9960445 0.9987646 1.0000000

相關焦點

  • 簡單相關分析中,相關係數r的取值的特點有( )。
    簡單相關分析中,相關係數r的取值的特點有( )。A.r的值越大,意味著變量之間的相關程度越高B.若兩變量相關,且變化的方向一致,則r值為負;反之,則r值為正C.r=0,意味著變量之間完全不相關D.r=l,意味著變量之間完全正相關E.r=﹣1,意味著變量之間完全負相關查看答案解析【正確答案】ACDE
  • 模型研究4-相關係數問題(皮爾遜相關係數法)
    本期:相關係數問題研究如果有兩個變量:X、Y,最終計算出的相關係數的含義可以有如下理解:當相關係數為
  • K-S檢驗,皮爾遜相關係數,spearman相關係數總結
    2 pearson correlation coeffcient 和 sperman秩相關係數2.1pearson相關係數(注意:描述的是兩個樣本的線性相關性,服從正態分布的連續變量#計算pearson相關係數data = pd.DataFrame({'value1':data1.values,                     'value2':data2.values
  • 相關係數,為何相關,如何相關?
    在現實生活中,變量之間的常見關係有三種:一是確定性函數關係,變量之間的關係可以用函數表示;二是非確定性相關關係,變量之間有一定的關係,但不能完全用函數表達,變量問只存在統計規律;三是毫無關係的兩個變量,譬如上述的日期與氣溫。對於兩個變量,我們如何確定不相關,或者相關,相關性的強弱,如何解決?當然我們可以求出回歸方程,然後再利用相關指數判斷,但似乎有點後知後覺的感覺!
  • 相關係數第二彈:斯皮爾曼相關
    舉個例子,例如表3的數值,用斯皮爾曼等級相關計算相關係數,duang一下,將會呈現下面這種變化表3 基因A、C在8個樣本中的表達量值利用斯皮爾曼等級相關計算A、D基因表達量的相關性,結果是:r=1,p-value = 4.96e-05這裡斯皮爾曼等級相關的顯著性顯然高於皮爾森相關。這是因為雖然兩個基因的表達量是非線性關係,但兩個基因表達量在所有樣本中的排列順序是完全相同的,因為具有極顯著的斯皮爾曼等級相關性。相關係數r的取值範圍是-1≤r ≤ 1,一般取小數點後兩位。
  • 回歸分析的基礎概念之2:相關性與相關關係,相關係數與判定係數
    2、函數關係、相關關係與因果關係。3、相關係數及其計算方法。4、相關關係強弱的評定標準。5、判定係數及其計算方法。6、相關係數與判定係數在回歸分析中的作用。3、不相關,顧名思義,就是指兩個變量之間沒有關係,即一個變量的變化對另一變量沒有明顯影響。二、函數關係、相關關係與因果關係。客觀事物之間的關係,一般來說可以歸納為兩大類,函數關係和相關關係(不相關也是相關關係的一種)。
  • 【R語言】相關性分析、相關係數的顯著性檢驗及可視化
    本篇文章介紹基於R語言的相關性分析、相關係數的顯著性檢驗及可視化,該教程為個人筆記,大家也可參考學習,不足之處也歡迎大家批評指正!相關性分析用於評估兩個或多個變量之間的關聯,能通過定量指標描述變量之間的強弱、直接或間接聯繫。
  • 相關係數之Pearson
    則此城市中任一個家庭中孩子的數目是一個隨機變量,記為 X。它可取值 0,1,2,3。其中,X 取 0 的概率為 0.01,取 1 的概率為 0.9,取 2 的概率為 0.06,取 3 的概率為 0.03。則數學期望:
  • 自相關和互相關函數計算方法總結及心得體會
    [轉版友hustyoung]自相關函數是描述隨機信號X(t)在任意兩個不同時刻t1,t2的取值之間的相關程度;互相關函數給出了在頻域內兩個信號是否相關的一個判斷指標,把兩測點之間信號的互譜與各自的自譜聯繫了起來。它能用來確定輸出信號有多大程度來自輸入信號,對修正測量中接入噪聲源而產生的誤差非常有效。
  • 皮爾森相關係數的計算
    在《變量關係大揭秘(一)》,我們提到了皮爾森相關係數r,它可是相關係數大家庭中的「1號人物」。
  • SPSS之簡單相關係數
    簡單相關分析是對兩個變量之間的相關程度進行分析。單相關分析所用的指標稱為 單相關係數,又稱為 Pearson(皮爾森)相關係數或相關係數。通常用 ρ 表示總體的相 關係數,以 r 表示樣本的相關係數。 我們已經給出總體相關係數的定義式為
  • 自相關函數的性質及其物理意義
    自相關函數與原始信號具有相同的周期(頻率)、衰減率(阻尼)動態特性,可用來檢測隨機過程中是否含有周期成分,或者其信號特徵。自相關函數是自功率譜計算的依據,其既包含了一個隨機過程間隔時間的相關程度和依賴性,同時也包含了能量大小的信息。不過要注意,相關性再也不是象相關係數那樣能夠用- 1到1這樣的數來表示相關大小了。
  • 協方差(covariance)與相關係數(2)
    從上面的公式中可以看出:相關係數的計算公式中包括x與y的協方差、x的方差和y的方差。故計算x與y的協方差是計算相關係數的基礎。相關係數與p值、預測能力如果兩個變量具有相關性,比如說他們的相關係數為0.8,那麼他們之間的相關性是真實的嗎?回答這個問題,也就是回答他們間的相關係數是否具有統計顯著性,而統計中判斷統計顯著性的方法就是求p值。「相關係數的p值:數據越多,p值越小,置信度越高。」
  • 【方法】相關係數的計算與顯著性檢驗
    樣本相關係數可以用來對論文中建立的統計模型進行驗證,也可以用來進行元分析。相關係數的計算和顯著性檢驗是一個很輕鬆的工作——通常情況下,研究者會使用SPSS計算SPSS中各變量的相關,SPSS也直接提供了對相關係數的顯著性檢驗,研究者需要做的就是點點滑鼠,然後將結果抄寫在論文中。
  • R相關性圖如何按比例顯示相關係數
    這張圖裡面不僅展示了相關係數,並且相關係數顯示的大小跟相關係數是成比例的。這樣做的好處是,讓那些最顯著相關的一目了然,而那些不怎麼相關的就不那麼顯眼。這個引起了小編的興趣,想自己也畫一張這樣的相關性圖。
  • 相關係數種類
    如下圖所示的散點圖,除右上角一個離群值外,其餘數據點呈明顯的線性相關關係,但真實計算出來的Pearson相關係數r=-0.283,P=0.214,顯然Pearson相關係數無法正確衡量X和Y的線性相關性。所以,為了解決這幾個問題,後來數據科學家們又定義了其它幾種相關係數公式。
  • 機器學習之計算相關度
    PPMCC或PCCs, 文章中常用 r 或 Pearson's r表示,用於度量兩個變量X和Y之間的相關(線性相關),其值介於-1與1之間。在自然科學領域中,該係數廣泛用於度量兩個變量之間的相關程度。它是由卡爾·皮爾遜從弗朗西斯·高爾頓在19世紀80年代提出的一個相似卻又稍有不同的想法演變而來。這個相關係數也稱作「皮爾森相關係數r」。上圖是幾組(x, y)的點集,以及各個點集中x和y之間的相關係數。
  • 數學建模筆記——相關係數
    相關係數,其實就是衡量兩個變量之間相關性的大小的指標,常用的相關係數有兩種,一種是pearson相關係數,也就是《概率論與數理統計》這本書裡提到的,平時最為常用的相關係數。另一種稱之為spearman相關係數,我也是在清風老師的課中第一次聽說,它衡量的是兩個變量的依賴性,唔,也可以理解為單調性啦。
  • Pearson(皮爾遜)相關係數
    由於使用的統計相關係數比較頻繁,所以這裡就利用幾篇文章簡單介紹一下這些係數。
  • 下列關於相關係數R的說法錯誤的是( )
    下列關於相關係數R的說法錯誤的是( ) 2014-08-28 14:15  來源:  字體:大小  列印 原  題: 下列關於相關係數R的說法錯誤的是( ) 選  項: A.當R=1時,變量x和y沒有線性關係