在進行回歸分析時,通常都是考察多個X對Y的影響,但有時複雜的研究也會涉及研究多個X對多個Y的影響,尤其是數據存在當自變量存在多重共線性問題時,普通的多元線性回歸無法很好的解決問題。偏最小二乘法回歸則能很好的解決這些問題。
一、概念
PLS回歸(Partial least squares regression,偏最小二乘法回歸)是一種解決共線性問題、多個因變量Y同時分析、以及處理小樣本時影響關係研究的一種多元統計方法。
二、原理說明
PLS回歸集合了主成分分析、典型相關、多元線性回歸三者於一。簡單說明,PLS的原理可以理解為:
PLS回歸運用主成分分析的原理,將多個X和多個Y,分別濃縮為成分(X對應主成分U,Y對應主成分V),然後藉助於典型相關原理,可分析X與U的關係,Y與V的關係;以及結合多元線性回歸原理,分析X對於V的關係,從而研究到X對於Y的關係。
在進行回歸分析時,理論上要求因變量正態,並且樣本量不能太小等,如果樣本量很小(一般小於100,如果樣本量過大比如超過200則不能使用PLS回歸),又希望研究影響關係,此時則可以使用PLS回歸。
三、案例應用
本案例研究身體特徵指標體重X1、腰圍X2和脈博X3,對於訓練指標單槓Y1、彎曲Y2和跳高Y3的影響關係,樣本數據為20個。由於數據樣本量非常小(20個),並且因變量為3個無法概括成一個,並且3個X之有著共線性,因此使用PLS回歸進行研究。
1、研究步驟
PLS回歸一般的分析步驟分為兩個步驟,分別如下:
第一步:確認提取主成分數量,通過交叉有效性和投影重要性VIP分析表格進行確認。
第二步:基於第一步主成分數量基礎上,進行回歸分析。
其中又包括以下幾個步驟:①建立主成分與Y的關係表達式、②描述主成分與研究項之間的相關係數loading值、③描述主成分與研究間之間信息解釋率(濃縮率)即精度分析、④建立原始自變量X對Y的回歸方程以及⑤X對Y的解釋力度。
2、操作步驟
放置位置如下:
3、結果分析
第一階段:確認提取主成分數量。先不設定提取的成分數量,點擊「開始PLS回歸分析」。
①投影重要性指標匯總
投影重要性指標VIP值匯總表可用於輔助判斷主成分數量,並且更多用於反映X對於Y(整體)的影響力度。值越大說明解釋力度越強,如果說主成分繼續增加,VIP值並沒有明顯的增加,則說此時的主成分個數為最佳提取個數。
上圖表中顯示,1個主成分和2個主成分時,3個X對應的VIP指標變化均很小,僅X3有著一定變化(從0.414到0.565),2個主成分到3個主成分時,3個X對應的VIP指標變化也很小。因而說明可能1個主成分或者2個主成分均較為適合,具體還可以結合交叉有效性進行綜合決定。
②交叉有效性分析
上表展示的是提取不同主成分個數時的誤差平方和SS,預測誤差平方和PRESS,以及Qh共三個指標。
常見的判斷主成分個數的標準是Qh大於0.0975,說明該主成分對模型是有貢獻的,如果Qh小於0.0975,意味著該成分對於模型沒有貢獻。
由上表可知,只有當主成分為1時,Qh值符合判斷大於0.0975,第2個或者第3個主成分對於模型沒有貢獻,因此最終選擇1個主成分作為結論。
第二階段:確定提取主成分個數後,回到分析頁面,將【成分數量】改為1,即提取1個主成分。點擊開始PLS回歸分析。
①主成分與研究項數學關係表達式
②主成分與研究項相關分析(loading值)
上表用於分析主成分與分析項間的相關關係,loading值即為主成分與研究項之間的因子載荷係數(factor loading)值。
由上表可知,主成分U1與原自變量X1、X2、X3的因子載荷係數值分別為0.066、0.676、-0.359。說明主成分U1與X1、X2的相關關係更緊密,有較強的正相關關係,主成分U1與X3呈負相關關係。主成分V1與Y1,Y2,Y3均有著負向的相關關係。
③因變量Y與自變量X間關係之回歸係數
上表格展示因變量Y與自變量X之間的回歸關係表達式,包括每個因變量Y與所有自變量間的關係表達式,具體如下:
Y1(單槓)=-0.202*X1(體重)-0.264*X2(腰圍)+0.082*X3(脈搏)Y2(彎曲)=-0.245*X1(體重)-0.321*X2(腰圍)+0.099*X3(脈搏)Y3(跳高)=-0.084*X1(體重)-0.110*X2(腰圍)+0.034*X3(脈搏)
④精度分析
以上兩個表分別反映的是主成分對U1和V1對應研究項的信息提取情況。實際研究中,一般只需要分析主成分U與X的精度分析;主成分V與Y的精度分析。原因在於主成分U為X的信息濃縮,主成分V為Y的信息濃縮。
由主成分U與研究項精度分析表可知,主成分U1對於所有3個X信息提取比例是0.695,提取信息較高。X1,X2的信息提取比例非常高(分別是0.898和0.925),但是主成分U1對於X3的信息提取比例較低為0.261,意味著主成分U1無法提取出X3的信息量。
由主成分V與研究項精度分析表可知,主成分V1對於所有3個Y信息提取比例是0.735,提取信息比例高。主成分V1對於3個Y都有著較高的信息提取,分別是0.775,0.883和0.549。
④投影重要性指標匯總表
從上表可知,X1對於所有Y的解釋力度最高(VIP值為1.336),其次是X1(VIP為1.022),X3對於所有Y的解釋力度最低。
其他說明
1、主成分是以成對形式出現,比如結合VIP分析和交叉有效性分析,得出主成分數量為2,其實是兩對主成分;U1和V1為一對;U2和V2為一對; U1,U2代表對於X的信息濃縮; V1和V2代表對於Y的信息濃縮。
2、PLS回歸適合小樣本量(不超過200),自變量存在多重共線性以及同時研究多個X對多個Y的影響。