(一)相關分析(2)
2.復相關與偏相關
引入更多的因素變量是我們減少判斷偏差提高準確度的方法之一,這就涉及到復相關和偏相關。為了方便後面的說明,這裡我們先簡單引入一下回歸分析,藉助回歸方程來解釋復相關係數和偏相關係數。有關回歸分析的具體內容我們將在第二節作詳細的介紹。
如前面所提到的,在利用相關係數說明銷售額Y與電視廣告時數X之間聯繫,我們還可以藉助直線方程式來說明。建立模型(在散點圖基礎上)
如果一方程中所包含自變量個數超過二個,我們該回歸為復回歸,該方程為復回歸方程。
即為復相關係數(MultipleCorrelationCoefficient) 為復相關可決係數,在對於銷售額,電視廣告和銷售代表人數之間關係的調查中 這意味著銷售額中87.4%的變動差異與電視廣告時數及銷售代表人數變化有關,銷售代表的引入提高了變量間的相關度,因為87.4%的變動可以用這兩個因素說明而電視廣告時數的不同只能說明77.5%的變動。同時, 說明三者之間存在強的關聯度。
所謂偏相關(PastialCorelation)是在測定n個獨立變量對一個因變量的影響時,在排除其他變量的影響後,指定一個獨立變量對這個因變量計算得的相關係數,稱為偏相關係數,也可稱為純相關係數(NetConelationCoefficient),回憶在簡單相關分析中有關銷售額Y與電視廣告X之間簡單可決係數可以表示如下:
這意味著在銷售變動中有42.4%與電視廣告無關的變動可以從銷售代表數目變化中得出。相應的,在估計銷售額與電視廣告相關性時所犯的偏差減少了42.4%是源於銷售代表數目作為增加項的引入。同樣,偏相關可決係數的平方根即(一般只取正平方根)為偏相關係數。
在這個例子中存在二個自變量X1,X2,因此我們可以定義有關於銷售代表數目X2的偏相關係數為 ,我們可以類似的方法推算出有關電視廣告的偏相關係數 。它表示在充分考慮X2與Y相關度後加入因素X1對於Y整個變動差異的影響或增加的邊際貢獻
之所以我們要借回歸方程來解釋復相關和偏相關係數是想說明各係數所代表的經濟意義,並不是求相關係數非要得出回線方程不可。但從計算簡便以及經濟含義角度,我們經常選擇兩種方法一起使用。
樣本相關係數的分布和測驗
在假定兩變量(x,y)的組合總體適合於正態分布(三度空間的立體正態曲面)的條件下,x與y的相關係數r的抽樣分布是隨著兩個因素——樣本單位數n與總體相關係數P的不同而變化著,不過總的說來,r分布的形態是屬於各種各樣的。
如把總體相關係數p分成三類:P=0,P=0.50以及P=0.90,在不同的n條件下,r的分布形態是:
由於r分布的偏態形態,作實際測驗的計算時,比較困難,英國著名統計學家埃·愛·費煦為了補救這種複雜計算的缺陷,用變量E代替r,替代公式為:
其中ln表示以e為底的自然對數,對E的變量來說,它的分布接近於正態分布,因此,就可利用正態分布表作出測驗。另外,費煦已經作出了r與E間的變換表格,所以計算就大大地簡化了。
關於相關係數r的虛無假設的測驗以及可信任界限的計算可舉例如下:
例如:樣本為35對數據時,求出r為0.80,試用5%的顯著標準來作出總體相關係數ρ=0.90的虛無假設測驗。先假定以虛無假設出發,r=0.80可能從總體ρ=0.90中抽出,如果概率超過5%,就接受這個假設,否則,就推翻這個假設。
從附表我們查出r=0.80時,Z=1.099,並從同一附表中,找出ρ=0.90時,MZ=1.472,我們知道
這裡,Mz是在0.31與0.87之間,因此,P是在0.30與0.70之間,這個指標是以附表中0.31與0.87的正數值而獲得的。