PLS回歸是個啥?與線性回歸有什麼不同?

2020-12-08 SPSSAU

在進行回歸分析時,通常都是考察多個X對Y的影響,但有時複雜的研究也會涉及研究多個X對多個Y的影響,尤其是數據存在當自變量存在多重共線性問題時,普通的多元線性回歸無法很好的解決問題。偏最小二乘法回歸則能很好的解決這些問題。

一、概念

PLS回歸(Partial least squares regression,偏最小二乘法回歸)是一種解決共線性問題、多個因變量Y同時分析、以及處理小樣本時影響關係研究的一種多元統計方法。

二、原理說明

PLS回歸集合了主成分分析、典型相關、多元線性回歸三者於一。簡單說明,PLS的原理可以理解為:

PLS回歸運用主成分分析的原理,將多個X和多個Y,分別濃縮為成分(X對應主成分U,Y對應主成分V),然後藉助於典型相關原理,可分析X與U的關係,Y與V的關係;以及結合多元線性回歸原理,分析X對於V的關係,從而研究到X對於Y的關係。

在進行回歸分析時,理論上要求因變量正態,並且樣本量不能太小等,如果樣本量很小(一般小於100,如果樣本量過大比如超過200則不能使用PLS回歸),又希望研究影響關係,此時則可以使用PLS回歸。

三、案例應用

本案例研究身體特徵指標體重X1、腰圍X2和脈博X3,對於訓練指標單槓Y1、彎曲Y2和跳高Y3的影響關係,樣本數據為20個。由於數據樣本量非常小(20個),並且因變量為3個無法概括成一個,並且3個X之有著共線性,因此使用PLS回歸進行研究。

1、研究步驟

PLS回歸一般的分析步驟分為兩個步驟,分別如下:

第一步:確認提取主成分數量,通過交叉有效性和投影重要性VIP分析表格進行確認。

第二步:基於第一步主成分數量基礎上,進行回歸分析。

其中又包括以下幾個步驟:①建立主成分與Y的關係表達式、②描述主成分與研究項之間的相關係數loading值、③描述主成分與研究間之間信息解釋率(濃縮率)即精度分析、④建立原始自變量X對Y的回歸方程以及⑤X對Y的解釋力度。

2、操作步驟

使用途徑:SPSSAU→進階方法→PLS回歸

放置位置如下:

3、結果分析

第一階段:確認提取主成分數量。先不設定提取的成分數量,點擊「開始PLS回歸分析」。

①投影重要性指標匯總

投影重要性指標匯總表
SPSSAU-VIP指標直方圖

投影重要性指標VIP值匯總表可用於輔助判斷主成分數量,並且更多用於反映X對於Y(整體)的影響力度。值越大說明解釋力度越強,如果說主成分繼續增加,VIP值並沒有明顯的增加,則說此時的主成分個數為最佳提取個數。

上圖表中顯示,1個主成分和2個主成分時,3個X對應的VIP指標變化均很小,僅X3有著一定變化(從0.414到0.565),2個主成分到3個主成分時,3個X對應的VIP指標變化也很小。因而說明可能1個主成分或者2個主成分均較為適合,具體還可以結合交叉有效性進行綜合決定。

②交叉有效性分析

交叉有效性分析

上表展示的是提取不同主成分個數時的誤差平方和SS,預測誤差平方和PRESS,以及Qh共三個指標。

常見的判斷主成分個數的標準是Qh大於0.0975,說明該主成分對模型是有貢獻的,如果Qh小於0.0975,意味著該成分對於模型沒有貢獻。

由上表可知,只有當主成分為1時,Qh值符合判斷大於0.0975,第2個或者第3個主成分對於模型沒有貢獻,因此最終選擇1個主成分作為結論。

第二階段:確定提取主成分個數後,回到分析頁面,將【成分數量】改為1,即提取1個主成分。點擊開始PLS回歸分析。

SPSSAU-PLS回歸分析界面

①主成分與研究項數學關係表達式

SPSSAU智能分析

②主成分與研究項相關分析(loading值)

上表用於分析主成分與分析項間的相關關係,loading值即為主成分與研究項之間的因子載荷係數(factor loading)值。

由上表可知,主成分U1與原自變量X1、X2、X3的因子載荷係數值分別為0.066、0.676、-0.359。說明主成分U1與X1、X2的相關關係更緊密,有較強的正相關關係,主成分U1與X3呈負相關關係。主成分V1與Y1,Y2,Y3均有著負向的相關關係。

③因變量Y與自變量X間關係之回歸係數

SPSSAU-標準化回歸係數

上表格展示因變量Y與自變量X之間的回歸關係表達式,包括每個因變量Y與所有自變量間的關係表達式,具體如下:

Y1(單槓)=-0.202*X1(體重)-0.264*X2(腰圍)+0.082*X3(脈搏)Y2(彎曲)=-0.245*X1(體重)-0.321*X2(腰圍)+0.099*X3(脈搏)Y3(跳高)=-0.084*X1(體重)-0.110*X2(腰圍)+0.034*X3(脈搏)

④精度分析

以上兩個表分別反映的是主成分對U1和V1對應研究項的信息提取情況。實際研究中,一般只需要分析主成分U與X的精度分析;主成分V與Y的精度分析。原因在於主成分U為X的信息濃縮,主成分V為Y的信息濃縮。

由主成分U與研究項精度分析表可知,主成分U1對於所有3個X信息提取比例是0.695,提取信息較高。X1,X2的信息提取比例非常高(分別是0.898和0.925),但是主成分U1對於X3的信息提取比例較低為0.261,意味著主成分U1無法提取出X3的信息量。

由主成分V與研究項精度分析表可知,主成分V1對於所有3個Y信息提取比例是0.735,提取信息比例高。主成分V1對於3個Y都有著較高的信息提取,分別是0.775,0.883和0.549。

④投影重要性指標匯總表

從上表可知,X1對於所有Y的解釋力度最高(VIP值為1.336),其次是X1(VIP為1.022),X3對於所有Y的解釋力度最低。

其他說明

1、主成分是以成對形式出現,比如結合VIP分析和交叉有效性分析,得出主成分數量為2,其實是兩對主成分;U1和V1為一對;U2和V2為一對; U1,U2代表對於X的信息濃縮; V1和V2代表對於Y的信息濃縮。

2、PLS回歸適合小樣本量(不超過200),自變量存在多重共線性以及同時研究多個X對多個Y的影響。

相關焦點

  • 線性回歸:簡單線性回歸詳解
    【導讀】本文是一篇專門介紹線性回歸的技術文章,討論了機器學習中線性回歸的技術細節。線性回歸核心思想是獲得最能夠擬合數據的直線。
  • 機器學習的線性回歸分析
    回歸分析中,只包括一個自變量和一個因變量,且二者的關係可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關係,則稱為多元線性回歸分析。
  • 【線性回歸】多變量分析:多元回歸分析
    強調線性是因為大部分人用回歸都是線性回歸,線性的就是直線的,直線的就是簡單的,簡單的就是因果成比例的;理論上講,非線性的關係我們都可以通過函數變化線性化,就比如:Y=a+bLnX,我們可以令 t=LnX,方程就變成了 Y=a+bt,也就線性化了。
  • 回歸系列(四)|一個完整的線性回歸是怎樣做的
    回顧:多重線性回歸多重線性回歸,一般是指有多個自變量X,只有一個因變量Y。前面我們主要是以簡單線性回歸為例在介紹,兩者的差距主要在於自變量X的數量,在只有一個X時,就稱簡單線性回歸。在實際應用中,我們當然很少只納入一個自變量。
  • 簡單線性回歸分析
    廣義上來講,它是通過建立數學模型的方法,探索自變量與因變量的關係,嘗試以自變量的差異來解釋因變量的不同。上一節我們對67例居民身高和體重的相關性分析發現,居民的體重與身高變化密切相關,即隨著身高的增加,體重逐漸上升。我們還是採用之前的數據,介紹SPSS進行線性回歸分析的具體步驟。
  • 簡單線性回歸模型
    因為統計的結果表明,高個子父母的子女有低於父母身高的趨勢;而矮個子的子女則有高於父母的趨勢。高爾頓解釋說,自然界存在某種約束力將人的身高向某個平均數靠攏——或者說是回歸——也即是統計學上回歸的涵義。本期我們的主題便是通過R來解決線性回歸分析中的若干問題。
  • 入門機器學習之線性回歸
    如果在回歸分析中,只包括一個自變量和一個因變量,且二者的關係可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且自變量之間存在線性相關,則稱為多重線性回歸分析。
  • 線性回歸
    1、標準化對於多元線性回歸需要對各個自變量進行標準化,排除單位的影響。標準化方法:即將原始數據減去相應變量的均數後再除以該變量的標準差,而標準化得到的回歸方程稱為標準化回歸方程,相應得回歸係數為標準化回歸係數。
  • 線性回歸模型
    回歸問題就是擬合輸入變量x與數值型的目標變量y之間的關係,而線性回歸就是假定了x和y之間的線性關係,公式如下:        這條完美直線所對應的參數就是我們要找的線性回歸模型參數w1,w2,w3……b
  • 多元線性回歸分析:納入多元回歸自變量的確定及求解多元回歸方程
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第五章,多元線性回歸分析:如何求解多元線性回歸方程。多元回歸擁有兩個或兩個以上的自變量,多元線性回歸方程式是y=a1x1+a2x2+…+anxn+b。多元回歸方程與一元回歸方程很相似,區別在於一元回歸方程是一個自變量,而多元回歸方程有多個自變量。(見下圖)下圖式中,y為因變量,即我們要預測的目標變量,x1為自變量1,x2為自變量2,x3為自變量3,…,xn為自變量n,。
  • 多元線性回歸預測spss - CSDN
    回歸一直是個很重要的主題。因為在數據分析的領域裡邊,模型重要的也是主要的作用包括兩個方面,一是發現,一是預測。而很多時候我們就要通過回歸來進行預測。關於回歸的知識點也許不一定比參數檢驗,非參數檢驗多,但是複雜度卻絕對在其上。回歸主要包括線性回歸,非線性回歸以及分類回歸。本文主要討論多元線性回歸(包括一般多元回歸,含有虛擬變量的多元回歸,以及一點廣義差分的知識)。
  • 線性回歸的幾何與概率視角
    Content線性回歸-幾何視角線性回歸-概率視角Pseudo-inverse偽逆的介紹局部加權線性回歸多個output的線性回歸情況線性回歸的幾何角度樣本真實值與擬合值之間的noise是同方差的正態分布。我開始學習機器學習的幾個月以來,經常能感受到它的美妙之處,其中之一就是一個問題往往有多種多樣的思考角度,條條大路通羅馬的感覺。
  • 簡單線性回歸(二)
    線性回歸相關知識:簡單線性回歸(一)線性回歸步驟線性回歸需滿足的條件①因變量Y與自變量X呈線性關係②每個個體觀察值之間互相獨立③在一定範圍內,任意給定X值,其對應的隨機變量Y均服從正態分布④在一定範圍內,不同X值所對應的隨機變量Y的方差相等某研究者測量了16名成年男子的體重(Kg)和臀圍(cm)數據,欲探求成年男子的體重與臀圍是否可以建立線性回歸模型。
  • 簡單線性回歸(一)
    回歸分析(regression analysis )是研究一個變量如何隨另一些變量變化的方法。例如,學習成績會受努力的時間,方法,個人的智慧,教育資源等因素影響;疾病的發生與生活環境,方式,遺傳因素,自身體質等影響。常見的回歸分析有 線性回歸、非線性回歸、多重線性回歸、Logistic回歸等等。
  • 回歸系列(五)|線性回歸分析做完後,還應考慮什麼?
    作者:丁點helper 來源:丁點幫你上一篇文章介紹了一般線性回歸的典型操作,並且留了一個思考題。感謝小夥伴的參與,大家很厲害,沒有被迷惑到,線性回歸獲得的係數代表的是相關關係,而非因果關聯。回歸是相關不是因果多重線性回歸,一般是指有多個自變量X,只有一個因變量Y。
  • 兩個例子告訴你:什麼是「線性」回歸模型?
    例如,下列2個模型都是線性回歸模型,即便右圖中的線看起來並不像直線。圖1 同一數據集的兩種不同線性回歸模型若對此表示驚訝,那麼本文值得你讀一讀。(係數的值不同,但方程的形式相同。)所以,第二個模型如下所示:圖6 第二個模型結論:線性回歸模型的線性假設上述
  • r語言多元線性回歸相關性_多元線性回歸調整相關性 - CSDN
    多元線性回歸多元線性回歸的核心問題:應該選擇哪些變量???RSS(殘差平方和)與R2  (相關係數的平方)選擇法:遍歷所有可能的組合,選出使RSS最小,R2  最大的模型。
  • 線性回歸分析詳解10(完結篇):線性回歸分析預測的十大步驟
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第10章,這是本專欄的最後一章,是專欄的完結篇:用線性回歸分析做預測,多元線性回歸分析預測的十大步驟。本章,我將詳細講解用多元線性回歸分析進行需求預測的十大步驟:數據收集、數據清洗、列出所有的變量、確定納入回歸方程的自變量、確定並消除多重共線性、求解多元線性回歸方程、確認回歸方程的精度、顯著性驗證、計算置信區間、正式預測。一、數據收集。我們做統計,進行數據分析,首先的,都是需要有數據。有數據才能統計,有數據才能進行數據分析。
  • 線性回歸中+t值的含義_線性回歸 y截距p值的計算 - CSDN
    線性回歸模型的基本特性就是:模型是參數的線性函數。最簡單的線性回歸模型當然是模型是參數的線性函數的同時,也是輸入變量的線性函數,或者叫做線性組合。一般線性回歸對於一個一般的線性模型而言,其目標就是要建立輸入變量和輸出變量之間的回歸模型。該模型是既是參數的線性組合,同時也是輸入變量的線性組合。
  • 回歸系列(一)|怎樣正確地理解線性回歸
    作者:丁點helper 來源:丁點幫你線性回歸,可能是統計學上運用最廣泛的一類方法了,之所以說它是一類方法,是因為它包括了我們熟知的各種模型:簡單線性回歸、多重線性回歸、Logistic回歸等等。線性回歸運用這麼廣泛很大程度在於它的內在邏輯十分簡單。