今天給大家講一下用Excel做數據間的相關係數。
按照慣例,我會先講講什麼是相關係數(CorrelationCoefficient)。相關係數是研究變量之間線性相關程度的量。
相關係數的計算公式如下
其中,cov(X,Y)=E[(X-EX)(Y-EY)]為隨機變量X與Y的協方差,E為數學期望或均值,D為方差,D開根號為標準差σ。
那麼下面演示一下怎麼利用Excel計算兩組數據的相關係數吧。
先介紹個函數
Excel的隨機函數,RANDBETWEEN(a,b),它表示可以隨機產生一個在a與b之間並且包括a和b的數。
1.隨機生成一個A列,就這麼叫吧,不知道啥意思,一共99行數據。
2.隨機生成一個B列,範圍在10到35之間,同樣是99行數據。
3.隨機生成C列,範圍是0至8,同樣是99行數據。
D、E、F、G列同理可得出隨機的數據,或者粘過來前面列的數據。
這個數據不重要,只作為演示用。
4.有可能有的小夥伴的Excel沒有(不顯示)數據分析這個模塊,不要緊,按照下列操作進行調試出來。
依次點擊文件
→點擊左下角的選項
→加載項→分析工具庫→轉到
選擇分析工具庫,點擊確定。
然後後面的照著圖做。
點擊數據→點擊數據分析
點擊相關係數→確定
這裡選擇輸入區域即為進行相關係數分析的數據區域,輸出的區域可以選擇本工作頁碼或者建立新的工作表都行的,沒有影響。
最後出這麼一個結果。
這個結果可以大致的說明一下。
列1和列1的相關性肯定是1了,數都一樣,完全相關。
列1和列2的相關係數是0.009338,這種相關性太小了。
等等
以此類推,就這意思。
這裡出現負值了,意思是說這兩組數是負相關的。就好比說一般情況下,某種商品銷量和單價的關係,單價越低銷量越高,這就是負相關(不知道舉的例子能不能說明問題)。
一般來說,相關係數的數值範圍在-1到+1之間的,正值(大於零)說明是正相關,負值(小於零)說明是負相關。
Excel中計算的是皮爾遜相關係數(英語:Pearsonproduct-moment correlation coefficient,又稱作PPMCC或PCCs,用r表示)。
兩個變量之間的皮爾遜相關係數定義為兩個變量之間的協方差和標準差的商。
這從Excel的幫助文件可看出
通常情況下通過以下相關係數取值範圍判斷變量的相關強度:
取絕對值後,
0.0-0.2:極弱相關或無相關,
0.2-0.4:弱相關,
0.4-0.6:中等程度相關,
0.6-0.8:強相關,
0.8-1.0:極強相關。
當兩個變量的標準差都不為零時,相關係數才有定義,皮爾遜相關係數適用於:
兩個變量之間是線性關係,都是連續數據。
兩個變量的總體是正態分布,或接近正態的單峰分布。
兩個變量的觀測值是成對的,每對觀測值之間相互獨立。
看結果,本文隨機產生的這組數據具有很微弱的相關性啊,基本不相關啊。
不管怎麼說,你會了方法就是啦!
歡迎討論學習。