典型相關分析,如果是第一次學習這個概念,可能會感到奇怪,怎麼是典型呢?難道我們原來學的相關分析不典型嗎?說實在的,我也不知道為啥叫典型相關分析,但是英文是Canonical Correlation Analysis,翻譯過來就典型了,知道的可以告訴我啊,謝謝啦!
典型相關分析(Canonical Correlation Analysis):是研究兩組變量之間相關關係的一種多元統計分析方法。
研究兩個變量之間的關係時,為了反映他們之間聯繫的密切程度和方向,引入了簡單相關係數(直線相關)。
研究一個變量與一組變量的關係時,為了反映他們之間協同變化關係的密切程度,引入了復相關係數(多元相關)。
研究兩組之間的相互關係呢?
比如某種藥物的不同劑型、劑量、給藥途徑、給藥時間等是一類因素,給藥後人體個各系統(例如神經、循環、呼吸、消化等)產生的反映是另一類因素。如果從整體上研究兩類因素的相互關係,這就是咱們今天說的典型相關。
由上述可知,典型相關包含了復相關,而復相關又包含了簡單相關。
既然典型相關這麼複雜,那我把它變成一對一的相關研究好不好?很簡單,不好!因為這是一個整體,孤立看待,就不能描述整體的相關性,這會出現錯誤。每增加一個變量,我們都認為是增加了一個維度,這樣處理才是合理的。對於高維度的東西,我們一般用降維的方法處理。關於降維,咱們在主成分分析裡面已經提到過,降維簡單理解就是投影。這裡面又是數學問題,咱們儘量避開嚴謹的數學討論,能夠想像明白即可。
典型相關變量:對兩組變量分別尋找線性組合, 使生成的新的綜合變量能夠代表原始變量大部分信息,且生成的兩個新綜合變量相關程度最大,這樣的新的綜合變量成為第一對典型相關變量。簡單理解就是在不同平面下的投影后的線性組合。
典型相關係數:典型相關變量之間的相關係數。每一對典型相關變量都可以計算它的典型相關係數。
在兩組多變量的情形下, 需要用若干對典型變量才能完全反映出它們之間的相關性。下一步, 再在兩組變量的與u1,v1不相關的線性組合中, 找一對相關係數最大的線性組合, 它就是第二對典型變量, 而且p(u2,v2)就是第二個典型相關係數。這樣下去, 可以得到若干對典型變量, 從而提取出兩組變量間的全部信息。
關於典型相關的計算,計算過程是比較複雜的,但是我們無需理會。我的觀念始終是,複雜的數學計算,對於我們使用者來說就是一個黑箱,我只要知道概念和對應的含義就可以了,不需要理解數學公式,這部分就在黑箱裡計算就好。咱們的醫研雲(1rcloud.net)就可以在後臺完成複雜的計算,我們需要知道的是對結果的解釋。
對於檢驗結果,如果第一典型相關係數無統計學意義,則認為兩組指標不相關,不能進行典型相關分析,如果多組有統計學意義,一般也只取第一對典型相關變量。
具體實例請查看原文連結。