統計理論深度閱讀:相關係數家譜(第一部)

2021-02-19 生活統計學

基礎準備

今天草堂君不介紹實驗設計的內容,插播一個系列的統計理論基礎文章,詳細介紹一下各種相關係數。提到相關係數,很多統計教科書、很多數據分析人員馬上想到的可能是皮爾森(Pearson)相關係數,更深入一些的,可能會想到斯皮爾曼(Spearman)相關係數和肯達爾(Kendall)相關係數,但是這些相關係數的應用範圍能夠覆蓋的應用場景有限,因此才會有今天這篇文章。如果大家需要回顧草堂君前面已經介紹過的以上三種相關係數,可以點擊下方文章連結回顧:

 

上面這篇文章是按照SPSS分析軟體的相關分析菜單進行介紹的,所以在相關係數的應用解釋上會有很多缺漏,為了將相關係數這部分內容將清楚,草堂君會在接下來一段時間,用幾篇文章來詳細介紹各種相關係數的理論基礎以及如何適用分析軟體進行計算。

相關係數定義

相關係數是統計學中一個非常重要的概念,是相關分析的結果。人們用相關係數來測定兩者之間的相關方向和相關程度,需要注意,相關分析(相關係數)是用來表示「兩者」之間的相關關係,這裡的「兩者」可以是兩個變量(簡單相關)、一個變量對一群變量(復相關)、一群變量對一群變量(典型相關)。相關係數能夠告訴分析者兩個信息:1、兩個變量的相關關係是否顯著(正向顯著相關、無顯著相關、負向顯著相關);2、兩個變量的相關強度如何。

 

今天草堂君著重介紹的是兩個變量之間的簡單相關係數,根據兩個變量的數據類型不同,使用相關係數也不同、因為每個相關係數都有其適用性,這需要從它們的公式入手來理解。關於數據分析中數據類型的介紹,大家可以回顧文章:熱炒的「數據」,你了解「它」嗎?

 

兩個變量的數據類型組合不同,適用的相關係數可以總結為下表所示內容,表中內容列出了目前統計分析中出現過的相關係數,因為統計分析理論在不斷發展,每個相關係數都有其運用局限性,所以適用於不同場景的相關係數還會不斷被創造出來。

Pearson相關係數

Pearson相關係數用於兩個變量都是連續型數據(定距數據)的情況,表示的是兩個變量之間是否存在顯著的線性相關關係,以及相關強度如何,計算公式如下:

需要注意相關分析的兩個變量,它們數值是一一對應的,例如,分析身高與體重的相關,採集100個人,那麼每個人都要採集身高與體重,也就是每個人身高數值都對應他的體重數值。從公式可以看出,皮爾森相關係數考量的是變量x和變量y相對於各自均值同步變化的程度,也就是線性相關關係。例如,每對(xi,yi),如果每個xi相對於其均值改變1,而yi相對於其均值改變k,那麼它們的Pearson相關係數就等於1,也就是它們是完全線性相關的。在散點圖上表現為一條直線,如下圖所示

Spearman相關係數

斯皮爾曼相關係數是一種等級相關係數,在SPSS中,也表示成Spearman Rho係數。適用於兩個定序型變量的相關分析,也可以用於連續型數據,至於區別在那裡,草堂君在下面會結合公式去幫助大家理解。下方是斯皮爾曼相關係數的計算公式:

大家可以發現,斯皮爾曼相關係數與皮爾森相關係數的計算公式是基本相同的,差異在於斯皮爾曼相關係數將皮爾森相關係數中的變量實際值換成了它們的秩(排名)。表示的是秩次(排名)的線性相關關係。

 

對於定序型數據來說,數據本身就是排名,例如,大一到大四分別用1-4表示,這裡的數據1-4本身就是四個年級的排序(秩次),所以對於定序型數據來說,皮爾森相關係數和斯皮爾曼相關係數的計算結果基本是一樣的。

 

對於定距型數據來說,它們的數據和它們的秩次(排名)是不同的,例如,現在有三個人的身高和體重數據,分別是(173cm,176cm,168cm),(60kg,72kg,65kg),那麼身高和體重變量的秩次就是(2,1,3)和(3,1,2),帶入斯皮爾曼相關係數計算公式,結果與皮爾森相關係數就不同了。如果斯皮爾曼相關係數很大,而皮爾森相關係數很小,那麼表示這兩個變量是相關的,而且是非線性相關(皮爾森相關係數小代表不是線性相關)。

Kendall相關係數

與斯皮爾曼相關係數類似,Kendall相關係數也用於兩個定序型變量的相關分析,不同之處在於算法有差異,Kendall相關係數是從兩個定序變量中,對應數值的秩次是否一致著手考察兩個變量之間的相關關係,秩次一致的數值越多,那麼相關性越強。

 

Kendall相關係數其實有三種(Kendall『s tau-a; Kendall’s tau-b; Kendall’s tau-c),在SPSS的兩變量相關分析菜單和大多數的統計書籍中,介紹的Kendall相關係數是Kendall tau-b相關係數。三種Kendall相關係數的計算公式如下:

以上三種Kendall相關係數,Kendall『s tau-a用得最少,因為它剔除排名相同(秩次相同)的數值對,導致分母偏大,所以Kendall’s tau-a相關係數會低估兩個定序變量之間的相關關係。Kendall『s tau-b在分母上減去了秩次相同的數值對,結果會比Kendall’s tau-a來的更為客觀準確。Kendall『s tau-b雖然減去了秩次相同數值對的影響,但是當兩個定序變量水平數不同時,又會高估兩個變量的相關關係,因此才有Kendall’s tau-c,Kendall『s tau-c在分母的位置矯正了兩個定序變量水平數不同的問題,只考慮水平數少的變量水平。

 

綜上所述,Kendall『s tau-a不常用;Kendall『s tau-b常用於兩個定序型變量水平數相同的情況;而Kendall’s tau-c適用於兩個定序型變量水平數不同的情況。在SPSS中,可以計算Kendall『s tau-b和Kendall’s tau-c。

Gamma相關係數

Gamma相關係數也被稱為Goodmanand Kruskal『s gamma相關係數。Gamma相關係數也是用於兩個定序型變量的相關性分析,它的計算公式如下:

從Gamma的公式可知,如果兩個定序型變量的所有數值對都是一致對,那麼Gamma的值為+1,反之則為-1。Gamma相關係數沒有考慮秩次相同的數值對。

Somers『d相關係數

針對上方Gamma相關係數沒有考慮秩次相同數值對的問題,統計學家又設計了Somers『d相關係數進行矯正。根據兩個定序型變量水平數不同的問題,Somers『d相關係數有以下兩種計算公式:

對於以上兩種Somer『s d相關係數,很明顯,第一個公式的分母加上了y變量的秩次相同的數值對,表示x變量對y變量的相關強度;而第二個公式的分母加上了x變量的秩次相同的數值對,表示y變量對x變量的相關強度。與其它相關係數不同,Somers』d相關係數有方向性,這是它與其它表示兩個定序型變量相關程度的相關係數的一個重要特點。

總結一下

今天草堂君介紹了兩種不同數據類型變量組合的相關係數,包括兩個都是定距型變量的相關係數,還有兩個都是定序型變量的相關係數。從上面的公式去理解,還是能夠看出不同相關係數在考量不同數據類型變量的相關關係時,採用了不同的分析邏輯,比如引入和秩次(排名)的概念和秩次數值對(一致對和非一致對)的概念,從而能夠表示不同數據類型變量之間的相關關係。下篇文章,草堂君將介紹其它幾種數據類型變量組合的相關係數。這些理論介紹完後,草堂君將用具體的生活和科研案例幫助大家更好的理解和掌握它們。

溫馨提示:

數據分析課程私人定製,一對一輔導,添加微信(possitive2)諮詢!

生活統計學QQ群:577312904134373751用於分享文章提到的各種案例資料、軟體、數據文件等。支持各種資料的直接下載和百度雲盤下載。

生活統計學微信交流群,用於各自行業的數據研究項目及其成果交流分享;由於人數大於100人,請添加微信possitive2,拉您入群。

數據分析諮詢,請點擊首頁下方「互動諮詢」板塊,獲取諮詢流程!

草堂君的統計基礎導航頁文章已經整理發表,可以前往任意電商網站購買

相關焦點

  • SPSS統計分析案例:相關分析之kendall係數
    SPSS統計訓練營是一個自學平臺,以詳實統計案例教程為基礎,配套練習使用的原始數據,方便讀者自己實踐,致力於讓數據科學學習簡單有趣高效。
  • 數理統計 | 原來協方差與相關係數還能這麼理解
    關鍵詞:協方差\相關係數\數理統計前言:在上一章中,我們介紹了均值,方差和標準差。皮爾遜相關係數(Co-efficient of Correlation)這是一個由統計學家卡爾·皮爾遜設計的統計指標,其作用旨在幫助我們研究變量之間線性相關程度的量。
  • Pearson(皮爾遜)相關係數
    由於使用的統計相關係數比較頻繁,所以這裡就利用幾篇文章簡單介紹一下這些係數。
  • 回歸分析的基礎概念之2:相關性與相關關係,相關係數與判定係數
    大家好,歡迎來到許栩原創專欄《從入門到高手:線性回歸分析詳解》(本專欄總目錄見上圖),這是專欄的第二篇文章,確定關係與相關關係,相關係數與判定係數。本專欄第一篇文章,我講解了回歸分析第一個基礎概念,變量。這一章,將講解回歸分析另一個最重要的基礎概念,相關性。本章的主要內容如下。
  • 【方法】相關係數的計算與顯著性檢驗
    樣本相關係數可以用來對論文中建立的統計模型進行驗證,也可以用來進行元分析。相關係數的計算和顯著性檢驗是一個很輕鬆的工作——通常情況下,研究者會使用SPSS計算SPSS中各變量的相關,SPSS也直接提供了對相關係數的顯著性檢驗,研究者需要做的就是點點滑鼠,然後將結果抄寫在論文中。
  • SPSS:相關係數在遊戲分析中的應用
    ,相關係數的符號(+/-)表明關係的方向(正相關/負相關),其值的大小表示關係的強弱程度。面對這麼多統計的數據,我們會好奇這些指標或者變量之間是否存在某種相關性,以及相關程度如何,這就用到我們今天要分享的內容——相關分析。  在統計學上,用相關係數來描述變量之間的關係,相關係數的符號(+/-)表明關係的方向(正相關/負相關),其值的大小表示關係的強弱程度。下圖是對相關係數的一個解讀。
  • 三大相關係數法
    在分析指標與指標、指標與研究對象的影響程度時,很多時候會用到相關係數法,常見的三種:Pearson相關係數,Kendall相關係數和Spearman
  • 統計顯示:目前我國共有608個姓氏的家譜流傳至今
    我國共有608個姓氏的家譜流傳至今    新華社上海3月31日電(記者 張建松)一本本世代相傳的家譜,以血緣文化的特殊形式,記錄著中華民族每一個世代相傳的姓氏繁衍生息。統計顯示,目前我國共有608個姓氏的家譜流傳至今。
  • 三大相關係數簡介及其在R中的相關函數
    概率統計學習中最常見的是Pearson相關係數,其取值範圍是[-1,1],當取值為0時表示不(線性)相關,取值為[-1,0)表示負相關,取值為(0,1]表示正相關。相關係數絕對值越接近於1,兩個變量間(線性)相關性越強。
  • 《統計指數理論及應用》
    書名:《統計指數理論及應用》從書名:全國統計教材編審委員會「十五」規劃教材作者:徐國祥  內容提要:     該書是我國第一部系統描述統計指數理論及應用方面的著作,注重理論與實踐的結合,全面闡述統計指數的理論、編制方法及其實際應用。
  • Excel相關性分析(一)- 計算相關係數
    本公眾號文章字數500左右,花3分鐘就能學會,點擊上方公眾號名稱關注下吧    相關係數,通常用r表示,是對樣本中變量x和變量
  • DCC-GARCH:動態條件相關係數模型
    請點擊底部「閱讀原文」。為直觀顯示股指收益率間的動態條件相關性,將相關係數時間序列繪製成圖 1。圖 1 中的三組時序圖來源於上一部分得到的三個文件 (1-2.csv、1-3.csv、2-3.csv)。從圖 1 可知,自 2000 年以來,道瓊指數的波動率和上證綜指恒生指數的波動率之間波動較大,大致呈現逐年波動提高的趨勢,上證綜指和恒生指數的波動相關性之間明顯具有先下降後上升的關係。
  • 相關係數簡介及R計算
    就關係的強度而言,相關係數的值在+1和-1之間變化,值±1表示變量之間存在完美關聯程度,即完全相關時絕對值為1;隨著相關係數值趨於0,意味著變量之間的關係將減弱,完全不相關時為0。關係的方向由係數的符號表示;+號表示正向關係,-號表示負向關係。
  • 相關係數計算(Spearman,Pearson,Kendall)
    Spearman相關係數又稱秩相關係數,是利用兩變量的秩次大小作線性相關分析,對原始變量的分布不作要求,屬於非參數統計方法,適用範圍要廣些。斯皮爾曼等級相關是根據等級資料研究兩個變量間相關關係的方法。對於服從Pearson相關係數的數據亦可計算Spearman相關係數,但統計效能要低一些。
  • IV-工具變量法:第一階段係數符號確定時的小樣本無偏估計
    理論基礎3. Stata 應用4. 總結5. 參考文獻6. 相關推文 溫馨提示: 文中連結在微信中無法生效。請點擊底部「閱讀原文」。傳統工具變量的統計推斷基於大樣本理論,即在給定工具變量和內生變量強相關關係情況下,樣本趨於無窮大時,2SLS 估計量是一致估計。而在弱工具變量情況下過度識別的模型係數偏誤很大。儘管過去有不少學者嘗試使用各種方法來解決這種偏誤,但是這些改進的估計量,在有限樣本或弱工具情況下仍然是有偏的。
  • [ENVI APP] Pearson相關係數計算器
    舊版工具連結:http://blog.sina.com.cn/s/blog_764b1e9d0101aar6.html在計算生態因子時,會碰到批量的柵格運算,例如計算年均LAI和年均溫度的Pearson相關係數
  • 家譜的格式
    3.目錄目錄體現家譜的主要內容,它按照一定的次序編排而成並標出詳細頁碼,是指導閱讀檢索的工具。所以編寫一個層次分明詳略有度的目錄確實是非常重要的。4. 凡例又稱譜例,在工作開展之前由編委會共同制定科學合理的修譜所應遵循的指導原則,保證編撰順利進行。完整的凡例可以有十幾條乃至幾十條,內容涉及家譜纂修的各個方面。
  • 家譜:卷帙浩繁的百科全書 連綿不斷的家族史
    今年3月,國家圖書館和澳門基金會籤署「全球中華尋根網」合作項目,開始家譜數位化服務;日前,上海圖書館舉辦了為期半個月的「館藏家譜精品展」,多件家譜珍品與觀眾見面……     國家有史,地方有志,家族有譜。家譜又稱譜牒、族譜、宗譜、家乘、世譜等,是同宗共祖的血親團體記載本族世系和相關事跡、反映本家族繁衍發展過程的歷史圖籍。
  • 深度學習與統計力學(I) :深度學習中的基礎理論問題
    對英文原報告感興趣請在本公眾號回復關鍵詞「深度學習統計力學」。深度神經網絡最近在機器學習方面取得了顯著的成功,這就對其成功背後的理論原理提出了深刻的問題。例如,這樣的深層網絡可以計算什麼?我們如何訓練他們?信息是如何通過它們傳播的?為什麼他們泛化能力很好?我們怎麼能教他們想像呢?
  • 「深度學習與統計學理論」研討會成功舉辦
    作為近年來人工智慧發展最迅猛的領域之一,深度學習通過分層網絡獲取分層次的特徵信息,除了在圖像、語音等領域裡獲得了比較成功的應用之外,也為統計學理論的研究創新打開了新的契口。2020年11月19日上午,由北京大學光華管理學院商務統計與經濟計量系主辦的「深度學習與統計學理論」研討會在北大光華成功舉辦。