協方差
協方差這個玩意兒,好多同學仍舊是一頭霧水,而後面再加上相關係數更是讓人一臉懵逼,今天我們就來認認真真研究下。
在此之前呢,我們來看一下方差。方差總該知道是啥吧?
假設有這麼兩個集合:
[0,8,12,20]和[8,9,11,12]
兩個集合呢,均值都是10,但顯然兩者的差別還是蠻大的,我們通過計算方差即可得出二者的差異:
第一個集合表現的比較動蕩(不是放蕩),第二個集合表現比較平穩,方差就是衡量這個的。
好啦,既然有了方差,問題又來了。假設你統計了兩組樣本:
第一組數據是身高X,第二組數據是體重Y。那麼我現在想知道:
身高和體重是否存在某種聯繫?
一般來說,身高和體重可能是有某種聯繫的,身高較高的人體重一般較大,二者呈正相關性。
我們將其繪製到圖像上,可以驗證我們的直覺是正確的:
那麼,我們如何來量化這件事呢?也就是如何來說明:
身高X和體重Y之間存在正(或負)相關性呢?
這就是引出了協方差的概念:
為啥分母是n-1而不是n呢?這個問題我們之前討論過,這裡不再贅述。
我們將身高和體重的關係計算如下:
最後得到的協方差值是209.4,那麼這個值代表什麼含義呢?
其實這個值大小沒啥含義,我們只需關心其正負性就好:
1)當協方差Cov(X,Y)>0時,X與Y正相關
2)當協方差Cov(X,Y)<0時,X與Y負相關
3)當協方差Cov(X,Y)=0時,X與Y不相關
209.4>0,因此我們就說身高和體重兩個隨機變量之間呈正相關性。
這裡我們還要注意兩個概念,就是相關性和獨立:
獨立一定不相關,但是不相關不一定獨立。