詳聊「相關分析」(二)---偏相關、典型相關 | 醫學方統計學專題

2021-01-21 醫學方



一個小孩出生後,父母在屋旁種了一棵小樹,每年量小孩的身高和小樹的高度,發現兩者之間高度正相關,然後下結論說小孩的身高與小樹的生長存在一定聯繫。我想大家一看這個結論都會有種啼笑皆非的感覺,這結論顯然是不可靠的,但是為什麼相關分析就顯示兩者之間存在聯繫呢?

很顯然,小孩身高和小樹高度的生長都與時間有關係,如果排除了時間變化的影響,兩者的關係就未必如此了。

我們之前講到的直線相關、秩相關都只是分析兩個變量間的相關,並沒有考慮當兩個變量同時與第三個變量相關時的情況。所以這就引出了「偏相關分析」。偏相關分析是指當兩個變量同時與第三個變量相關時,將第三個變量的影響剔除,只分析另外兩個變量之間相關程度的過程。

在偏相關中,根據固定變量數目的多少,可分為零階偏相關、一階偏相關、…(p-1)階偏相關。零階偏相關就是簡單相關。假設有三個變量,那麼給定條件下的一階偏相關係數為:

表示變量的簡單相關係數。

如果增加變量,就可以求給定條件下的二階偏相關係數,在這裡不做詳述,只是給大家展示一個簡單的一階偏相關係數讓大家明白偏相關的基本理論思想。

所以對於要排除已知變量對兩變量的影響後,再來看兩變量的「淨相關」,就採用偏相關分析,尤其是臨床中對於兩代謝指標的相關性研究,由於人體結構的複雜性,代謝指標受到多方面的影響,此時就要考慮排除其它指標後再看兩代謝指標的淨相關。



某研究為了研究運動員體力與運動能力的關係,對100名運動員進行了體力測試(共7項指標:反覆橫向跳(次)、縱跳(cm)、背力(kg)、握力(kg)、臺階試驗(指數)、立定體前屈(cm)、俯臥上體後仰(cm)),運動能力測試(共5項指標:50米跑(秒)、跳遠(cm)、投球(m)、引體向上(次)、耐力跑(秒))。

如果讓你分析兩組指標間的相關性,你會怎麼做呢?是拿體力測試的7個指標與運動能力測試的5個指標分別求簡單相關係數嗎?那求出簡單相關係數後,怎樣反映這兩組指標的整體關係呢?

我們之前介紹的直線相關、秩相關、偏相關都是對單變量間的相關性分析,對於要研究兩組變量間的相關關係時,就需用到「典型相關分析」啦!

我估計大部分人對典型相關分析都比較陌生。其實在現實生活中,兩組甚至於多組變量之間具有相關關係的問題很多,典型相關分析就是用於研究一組隨機變量與另一組隨機變量之間的相關關係的方法。它借用了主成分分析的思想,根據變量間的相關關係,尋找一個或少數幾個綜合變量(原始變量的線性組合)對來替代原變量,從而將兩組變量的關係集中到少數幾對綜合變量的關係上。

以上面提到的例子來說明,兩變量組:

設12維隨機向量,其協方差陣

,其中

是X的協方差陣,

是Y的協方差陣,是X、Y的協方差陣。

用X和Y的線性組合之間的關係來研究X和Y之間的相關性,典型相關分析的目的就是希望找到向量ab,使UV之間的相關係數最大,典型相關係數的公式為:

典型相關係數的計算比較複雜,在這邊不再展開介紹,感興趣的可以自行查閱資料學習。典型相關最終的結果能夠表明UV的相關情況,以及U的相關情況,V的相關情況,通過這些相關情況就能夠把握兩變量組的整體相關情況。

對於典型相關分析,有幾點提醒:

(1)典型變量可以提取多對,一般只需要提取1~2對典型變量即可充分的概括樣本信息。

(2)當一個變量同典型變量的相關係數與其在典型變量上的係數符號相反矛盾時,有可能是多個原始變量之間也存在緊密相關造成的。

(3)運用典型相關分析前,需要判斷變量組之間的影響是雙向相關還是單向的因果關係是很重要的,這關係到對結果的正確解釋。


「醫學方」線下資訊與培訓項目已正式上線,各位粉絲可點擊「醫學方」公眾號底部右側MedFun進入二級菜單後點擊「統計學服務」進入



「醫學方」始終致力於服務「醫學人」,將最前沿、最有價值的臨床、科研原創文章推送給各位臨床醫師、科研人員


醫學方已推出「國自然基金申請」「臨床數據挖掘」、「基因數據挖掘」、「R語言教程」、「醫學統計學」、「微創動物實驗培訓」等多個專題課程,如需了解課程詳細推文,可關注「醫學方」公眾號,點擊「精品專題」進入


想了解「醫學方」最新視頻課程動態?可登陸騰訊課堂或網易雲課堂收看

目前已有課程:

(1)醫學方|醫學統計學公開課|石小白老師教您輕鬆學統計(公益免費課程)

(2)醫學方|醫學數據挖掘精品課程|豪斯醫生手把手教您如何數據挖掘

 (3)  醫學方|R語言快速入門與數據清洗|一本R書走天涯系列課程

騰訊課堂:https://medfun.ke.qq.com

網易雲課堂:http://study.163.com/u/ykt1467466791112

客服電話:15821255568

客服微信:yixuefang1234

溫馨提示:醫學方還設有專門的討論群哦~各位明星導師都在群中,可以解答各位的遇到的問題,如有興趣,可以加客服微信後加入群聊~

微信公眾號:



如果你覺得文章還不錯,就請點擊右上角選擇發送給朋友或者轉發到朋友圈。您的支持和鼓勵是我們最大的動力。喜歡就請關注我們吧~

長按二維碼

關注我們




相關焦點

  • 典型相關分析
    典型相關分析,如果是第一次學習這個概念,可能會感到奇怪,怎麼是典型呢?難道我們原來學的相關分析不典型嗎?說實在的,我也不知道為啥叫典型相關分析,但是英文是Canonical Correlation Analysis,翻譯過來就典型了,知道的可以告訴我啊,謝謝啦! 典型相關分析(Canonical Correlation Analysis):是研究兩組變量之間相關關係的一種多元統計分析方法。
  • 「兩組」連續變量之間的相關分析(SPSS:典型相關分析)
    老年人靜態平衡能力與動態平衡能力之間的典型相關分析測試老年人靜態平衡和動態平衡指標。動態平衡指標:Center、VM、HM、Rot. speed。靜態平衡指標:Lng、Area、Lng/A。2)動態平衡四個指標放入「集合1」,靜態平衡三個指標放入「集合2」圖4中,第1行為動態平衡和靜態平衡的第1對典型變量之間相關分析的結果。
  • SPSS、EXCLE——偏相關分析
    SPSS、EXCLE——偏相關分析原始數據:一、為什麼要使用偏相關分析相關分析用於分析兩個事物之間的關係情況,在現實分析中,相關分析往往有第三變量的影響或作用,而使得相關係數不能真實地體現其線性相關程度。
  • 基於典型相關分析的詞向量
    但這篇文章不深入講 word2vec 的內容,而是看看另外一種詞向量生成方式——基於典型相關分析的詞向量。one-hot形式的詞向量說到詞向量就必須先看詞向量的形式,一般有兩類,分別是 one-hot 形式和分布式形式。
  • 概率統計之《指數分布》相關基本概念、性質與典型例題分析
    一、指數分布  在概率論和統計學中,指數分布(Exponential distribution)是一種連續概率分布,可以用來表示獨立隨機事件發生的時間間隔,比如旅客進機場的時間間隔、中文維基百科新條目出現的時間間隔等等。
  • 第五講 典型相關分析——數據結果分析(一)
    在Syntax窗口中,先選擇改程序,然後點擊如圖1中紅色橢圓標識的三角形按鈕(Run Current),典型相關分析即可運行,並會輸出結果(如圖2所示)。    需要注意的是,典型相關分析的輸出結果並不是我們常見的表格形式輸出。一般是以文本的形式輸出的,需要我們對數據結果進行重新整理和分析。
  • 自相關與偏自相關的簡單介紹
    自相關和偏自相關圖在時間序列分析和預測中經常使用。這些圖生動的總結了一個時間序列的觀察值與他之前的時間步的觀察值之間的關係強度。
  • 線性相關
    在統計學中,常研究兩變量之間的關係,也會涉及到多個變量,例如:冠心病與吸菸、年齡、血壓、遺傳等均有關聯。當然,有關聯並不代表就一定是線性相關,也可能是曲線、性線性相關等。本節主要討論線性相關,因為線性相關較其他相關簡單,也是多重線性回歸的基礎。
  • 相關係數,為何相關,如何相關?
    也就是說只要給出我們樣本數據,我們就可以求出樣本的回歸直線方程。通過公式不難發現相關係數是由原始數據得到的,而相關指數則需要由預測值得到,也就是說,給出我們一組數據,我們可以直接求出相關係數,而要想求出相關指數,則必須求出回歸直線方程才可以。
  • 相關分析在遊戲中的應用
    除了常規指標,在分析過程中我們還會建立很多臨時指標來輔助分析,面對這麼多統計的數據,我們會好奇這些指標或者變量之間是否存在某種相關性,以及相關程度如何,這就用到我們今天要分享的內容——相關分析。在統計學上,用相關係數來描述變量之間的關係,相關係數的符號(+/-)表明關係的方向(正相關/負相關),其值的大小表示關係的強弱程度。下圖是對相關係數的一個解讀。
  • 分子克隆的正確打開方式 | 培養基專題(一)
    接下來的時間裡,小編會為大家陸續介紹分子克隆的相關知識。今天為大家介紹下分子克隆的必備液體-LB培養基,又可分為LB肉湯培養基以及LB固體培養基。LB肉湯培養基是一種應用最廣泛和最普通的細菌基礎培養基,有時又稱為普通培養基。生化分子實驗中一般用LB培養基來預培養菌種,使菌種成倍擴增,達到使用要求。可分為液體培養基和固體培養基。
  • 【基因數據挖掘專題第十三期】
    而這個資料庫,可以讓我們站在更高的一個位置來觀察所有相關研究的晶片結果,這一點會在這一節講課中會為大家展示。另外,據統計,該資料庫收集了約500種腫瘤的基因表達和樣本數據。最後的最後,告訴大家的是,oncomine可以進行在線分析,這對於我們一些非生物信息學專業的同志們來說是個極好的消息。那廢話不多說,我們還是來點實實在在的乾貨。
  • 市場調研中的相關分析與回歸分析(2)
    (一)相關分析(2)   2.復相關與偏相關   引入更多的因素變量是我們減少判斷偏差提高準確度的方法之一,這就涉及到復相關和偏相關。為了方便後面的說明,這裡我們先簡單引入一下回歸分析,藉助回歸方程來解釋復相關係數和偏相關係數。
  • 相關係數第二彈:斯皮爾曼相關
    r的正負號表明兩變量間變化的方向;|r|表明兩變量間相關的程度,r>0表示正相關,r<0表示負相關,r=0表示零相關。|r|越接近於1,表明兩變量相關程度越高,它們之間的關係越密切。但是由樣本算得的相關係數是否有統計學意義,還應作假設檢驗。
  • 任昱衡:(三)紐約市政府利用相關分析監控違法建築,皮爾遜相關值的...
    相關分析用於研究兩個或多個變量間的密切程度,在相關分析中變量之間是平等的,不存在哪個是因哪個是果的區別。在相關分析中最重要的指標是相關係數,相關係數主要分為皮爾遜相關係數,等級相關係數,偏相關係數等。 皮爾遜相關係數也叫簡單相關係數,它是用途最廣的一種相關係數。
  • 一庫在手,Chip測序分析不再愁 —ChIP-Atlas公共資料庫
    這些結果,都可以下載到本地電腦上,用Excel自己篩選分析。「醫學方」現正式向粉絲們公開徵稿!內容須原創首發,與科研相關,一經採用,會奉上豐厚稿酬(300-2000元),詳情請戳。「醫學方」始終致力於服務「醫學人」,將最前沿、最有價值的臨床、科研原創文章推送給各位臨床醫師、科研人員。
  • 因子分析(1)——相關概念
    本文以及之後的幾篇文章介紹因子分析的相關內容,【因子分析】的這部分內容其實已經被錄製成視頻課程,發布在了雲課堂,想看課程的直接點擊【閱讀原文】。
  • SPSS分析技術:組內相關係數(ICC)的原理及運用
    ,以及如何使用統計軟體對它們進行計算,大家可以點擊下方文章連結進行回顧:今天草堂君給大家介紹的相關係數類型是在問卷分析中經常會用到的一種可靠性指標,特別是在跨層的問卷分析研究中會用到,它就是組內相關係數ICC(Intraclass Correlation Coefficients)。
  • 皮爾遜積差相關/斯皮爾曼等級相關的含義和使用條件
    二,斯皮爾曼等級相關      Spearman相關係數又稱秩相關係數,是利用兩變量的秩次大小作線性相關分析,對原始變量的分布不作要求,屬於非參數統計方法,適用範圍要廣些。對於服從Pearson相關係數的數據亦可計算Spearman相關係數,但統計效能要低一些。
  • 管理心理學之統計(19)相關 皮爾遜相關與斯皮爾曼相關
    皮爾遜相關的假設檢驗假設檢驗的基本問題在於總體中是否存在相關,總體的相關通常用字母ρ表示。H0表示非零的樣本相關是由偶然因素決定的。也就是說總體沒有相關,樣本所得值是取樣誤差的結果。H1表示非零相關精確的代表了總體真實的非零相關。單尾檢驗的方向性檢驗會在H1中指明ρ>0或ρ<0。用符號表示假設為:樣本相關與它代表的總體相關會存在一些誤差。