聚類分析、判別分析、主成分分析、因子分析的區別與聯繫

2021-02-16 計量經濟學
1 、聚類分析

主成分分析與因子分析的區別

 

1. 目的不同: 因子分析把諸多變量看成由對每一個變量都有作用的一些公共因子和僅對某一個變量有作用的特殊因子線性組合而成,因此就是要從數據中控查出對變量起解釋作用的公共因子和特殊因子以及其組合係數;主成分分析只是從空間生成的角度尋找能解釋諸多變量變異的絕大部分的幾組彼此不相關的新變量(主成分)。

2. 線性表示方向不同: 因子分析是把變量表示成各公因子的線性組合;而主成分分析中則是把主成分表示成各變量的線性組合。

3. 假設條件不同:主成分分析中不需要有假設;因子分析的假設包括:各個公共因子之間不相關,特殊因子之間不相關,公共因子和特殊因子之間不相關。

4. 提取主因子的方法不同:因子分析抽取主因子不僅有主成分法,還有極大似然法,主軸因子法,基於這些方法得到的結果也不同;主成分只能用主成分法抽取。

5. 主成分與因子的變化:當給定的協方差矩陣或者相關矩陣的特徵值唯一時,主成分一般是固定的;而因子分析中因子不是固定的,可以旋轉得到不同的因子。

6. 因子數量與主成分的數量:在因子分析中,因子個數需要分析者指定(SPSS根據一定的條件自動設定,只要是特徵值大於1的因子主可進入分析),指定的因子數量不同而結果也不同;在主成分分析中,成分的數量是一定的,一般有幾個變量就有幾個主成分(只是主成分所解釋的信息量不等)。

7. 功能:和主成分分析相比,由於因子分析可以使用旋轉技術幫助解釋因子,在解釋方面更加有優勢;而如果想把現有的變量變成少數幾個新的變量(新的變量幾乎帶有原來所有變量的信息)來進入後續的分析,則可以使用主成分分析。當然,這種情況也可以使用因子得分做到,所以這種區分不是絕對的。

基本原理:將個體(樣品)或者對象(變量)按相似程度(距離遠近)劃分類別,使得同一類中的元素之間的相似性比其他類的元素的相似性更強。目的在於使類間元素的同質性最大化和類與類間元素的異質性最大化。

常用聚類方法:系統聚類法,K-均值法,模糊聚類法,有序樣品的聚類,分解法,加入法。

注意事項:1. 系統聚類法可對變量或者記錄進行分類,K-均值法只能對記錄進行分類;

          2. K-均值法要求分析人員事先知道樣品分為多少類;

           3. 對變量的多元正態性,方差齊性等要求較高。

應用領域:細分市場,消費行為劃分,設計抽樣方案等

2、判別分析

基本原理:從已知的各種分類情況中總結規律(訓練出判別函數),當新樣品進入時,判斷其與判別函數之間的相似程度(概率最大,距離最近,離差最小等判別準則)。

常用判別方法:最大似然法,距離判別法,Fisher判別法,Bayes判別法,逐步判別法等。

注意事項:1. 判別分析的基本條件:分組類型在兩組以上,解釋變量必須是可測的;

           2. 每個解釋變量不能是其它解釋變量的線性組合(比如出現多重共線性情況時,判別權重會出現問題);

           3. 各解釋變量之間服從多元正態分布(不符合時,可使用Logistic回歸替代),且各組解釋變量的協方差矩陣相等(各組協方方差矩陣有顯著差異時,判別函數不相同)。

相對而言,即使判別函數違反上述適用條件,也很穩健,對結果影響不大。

應用領域:對客戶進行信用預測,尋找潛在客戶(是否為消費者,公司是否成功,學生是否被錄用等等),臨床上用於鑑別診斷。

3、 主成分分析/ 因子分析

主成分分析基本原理:利用降維(線性變換)的思想,在損失很少信息的前提下把多個指標轉化為幾個綜合指標(主成分),即每個主成分都是原始變量的線性組合,且各個主成分之間互不相關,使得主成分比原始變量具有某些更優越的性能(主成分必須保留原始變量90%以上的信息),從而達到簡化系統結構,抓住問題實質的目的。

因子分析基本原理:利用降維的思想,由研究原始變量相關矩陣內部的依賴關係出發,把一些具有錯綜複雜關係的變量歸結為少數幾個綜合因子。(因子分析是主成分的推廣,相對於主成分分析,更傾向於描述原始變量之間的相關關係)

求解主成分的方法:從協方差陣出發(協方差陣已知),從相關陣出發(相關陣R已知)。

        (實際研究中,總體協方差陣與相關陣是未知的,必須通過樣本數據來估計)

求解因子載荷的方法:主成分法,主軸因子法,極大似然法,最小二乘法,a因子提取法。

注意事項:1. 由協方差陣出發與由相關陣出發求解主成分所得結果不一致時,要恰當的選取某一種方法;

          2. 對於度量單位或是取值範圍在同量級的數據,可直接求協方差陣;對於度量單位不同的指標或是取值範圍彼此差異非常大的指標,應考慮將數據標準化,再由協方差陣求主成分;

          3.主成分分析不要求數據來源於正態分布;

          4. 在選取初始變量進入分析時應該特別注意原始變量是否存在多重共線性的問題(最小特徵根接近於零,說明存在多重共線性問題)。

             5. 因子分析中各個公共因子之間不相關,特殊因子之間不相關,公共因子和特殊因子之間不相關。

應用領域:解決共線性問題,評價問卷的結構效度,尋找變量間潛在的結構,內在結構證實。

4、對應分析/最優尺度分析

基本原理:利用降維的思想以達到簡化數據結構的目的,同時對數據表中的行與列進行處理,尋求以低維圖形表示數據表中行與列之間的關係。

對應分析:用於展示變量(兩個/多個分類)間的關係(變量的分類數較多時較佳);

最優尺度分析:可同時分析多個變量間的關係,變量的類型可以是無序多分類,有序多分類或連續性變量,並 對多選題的分析提供

5、典型相關分析

基本原理:借用主成分分析降維的思想,分別對兩組變量提取主成分,且使從兩組變量提取的主成分之間的相關程度達到最大,而從同一組內部提取的各主成分之間互不相關。

相關焦點

  • 【數據分析】R語言實現常用的5種數據分析(主成分+因子+多維標度+判別+聚類)
    但注意如果輸入數據不是原始數據時,則無法計算主成分得分。我們需要在principal中增加score=T的參數設置,結果將存放在結果的score元素中。R語言多元分析系列之二:探索性因子分析探索性因子分析(Exploratory Factor Analysis,EFA)是一項用來找出多元觀測變量的本質結構、並進行處理降維的技術。
  • R語言實現常用的5種分析方法(主成分+因子+多維標度+判別+聚類
    主成分解釋了92%的總方差。注意此結果與princomp函數結果不同,princomp函數返回的是主成分的線性組合係數,而principal函數返回原始變量與主成分之間的相關係數,這樣就和因子分析的結果意義相一致。 三 、旋轉主成分 旋轉是在保持累積方差貢獻率不變條件下,將主成分負荷進行變換,以方便解釋。
  • R語言實現常用的5種分析方法(主成分+因子+多維標度+判別+聚類)
    主成分解釋了92%的總方差。注意此結果與princomp函數結果不同,princomp函數返回的是主成分的線性組合係數,而principal函數返回原始變量與主成分之間的相關係數,這樣就和因子分析的結果意義相一致。三 、旋轉主成分旋轉是在保持累積方差貢獻率不變條件下,將主成分負荷進行變換,以方便解釋。
  • 因子分析和主成分分析的10大不同
  • 主成分分析和因子分析的區別
    線性表示方向不同主成分分析是將主成分表示為原變量的線性組合,而因子分析模型是將原變量表示為公共因子和特殊因子的線性組合3. 假設條件不同主成分分析:可認為不需要假設因子分析:需要一些假設。正交因子模型需假定:各個公共因子之間不相關,特殊因子之間不相關,且公共因子和特殊因子之間也不相關。4.主成分和公共因子的數量不同主成分分析中主成分的個數和變量個數p相同,它是將一組具有相關性的變量變換為一組不相關的變量。當然在實際使用中,我們會選擇少於p個主成分。
  • 安全數據的聚類分析和判別分析概述
    1 聚類分析的基本原理1)聚類分析的含義聚類分析是根據「物以類聚」的原理,對樣品或指標進行分類的一種多元統計分析方法,將安全統計對象的集合分成多個類的分析過程。通常聚類分析可分為Q型聚類和R型聚類,Q型聚類是對樣品進行分類處理,R型聚類是對變量進行分類處理。本章只討論Q型聚類分析。2)聚類與分類的區別分類是有指導的學習,聚類是一種無指導的學習通過一定的方法在逐步分類過程中將沒有類標誌的安全統計數據聚集成有意義的類。
  • 分類分析之判別分析,SPSS判別分析實操
    判別分析是常用的一種分類分析方法。與聚類分析不同的是【聚類分析是直接比較各事物之間的性質,將性質相近的歸為一類,將性質差別較大的歸入不同的類。聚類分析與SPSS實操演練一、判別分析概念>定義:判別分析先根據已知類別的事物的性質(自變量),建立函數式(自變量的線性組合,即判別函數),然後對未知類別的新事物進行判斷以將之歸入已知的類別中。
  • R語言實戰(14)——主成分分析和因子分析
    因此,本章我們將學習兩種用來探索和簡化多變量複雜關係的常用方法,主成分分析和因子分析。後臺回復「R語言實戰「即可獲取二維碼加入R語言實戰學習討論群。主成分分析(PCA)是一種數據降維技巧,它能將大量相關變量轉化為一組很少的不相關變量,這些無關變量稱為主成分。
  • 主成分分析和因子分析,傻傻分不清楚?
    因子分析是主成分分析的推廣和發展,它將具有錯綜複雜關係的變量綜合為數量較少的幾個因子,以再現原始變量與因子之間的相互關係,同時根據不同因子還可以對變量進行分類,它屬於多元分析中處理降維的一種統計方法。兩者的不同點:1、方差損失上:主成分解釋了原始變量的全部方差,無方差損失;因子模型中除了有公因子外還有特殊因子,公因子只解釋了部分信息,有方差損失;2、唯一性:主成分分析不存在因子旋轉,主成分是唯一的;因子分析進行因子旋轉,解不唯一;3、實際意義:主成分沒有實際意義;公因子有實際意義
  • SPSS分析技術:典型判別分析;由鳶(yuan)尾花分類發展而來的分析方法
    基礎準備前面介紹的因子分析和聚類分析都是圍繞變量進行的分析,這裡的變量不分因變量和自變量。
  • 聚類分析和主成分分析
    下面這張圖就形象地展現了如何利用主成分分析將二維降至一維。試對該數據進行主成分分析。根據碎石圖轉折點在2個主成分或3個主成分主成分分析結果:> summary(pr,loadings=TRUE)Importance of
  • R 語言之數據分析高級方法「主成分分析」和「因子分析」
    信息過度複雜是多變量數據最大的挑戰之一,特別是在還要考慮變量間交互關係的時候,變量增加時交互關係的量是按階乘關係在往上漲的,所以降維在很多時候能夠起到減少大量工作量的作用,是數據分析很重要的一個思想。以上是「主成分分析」與「因子分析」聯繫,有共同的目的。但是,兩者的區別也很大,在實現目標時,兩者採用了兩種不同的思路,下面我逐一討論。
  • 基於R語言的主成分和因子分析
    4)僅在變量層面上分析可能會忽略變量之間的潛在聯繫。例如幾個預測變量的綁定才可以反映數據某一方面特徵。因子分析因子分析也是一種降維技術,通過降維來挖掘隱藏在數據中無法觀測的變量,這些變量可以解釋可觀察變量的相關性。
  • 數據分析淺談 | 基礎篇
    統計分析方法論:描述統計、假設檢驗、信度分析、相關分析、方差分析、回歸分析、聚類分析、判別分析、主成分與因子分析、時間序列分析,決策樹。 與聚類分析區別1)聚類分析可以對樣本逬行分類,也可以對指標進行分類;而判別分析只能對樣本2)聚類分析事先不知道事物的類別,也不知道分幾類;而判別分析必須事先知道事物的類別,也知道分幾類3)聚類分析不需要分類的歷史資料,而直接對樣本進行分類;而判別分析需要分類歷史資料去建立判別函數,然後才能對樣本進行分類
  • 關於SPSS因子分析的幾點總結
  • 主成分法因子分析的R語言實現
    主成分分析和因子分析有很多相同之處,在統計方法上又有本質的區別。主成分法是因子分析參數估計的方法之一,本文利用principal()函數對主成分法因子分析進行分步計算,作為因子分析內容的導入。本文例題取自於高惠璇《多元統計分析》,鹽泉又稱食鹽泉,是指含鹽分較多的礦泉。
  • 因子分析
    (CFA),一種是探索性因子分析(EFA), 我們通常一般說的因子分析屬於後者,這裡大概說一下兩者的關係,有興趣的同學可自行尋找相關資料。PCA之間的區別與聯繫4.1 PCA計算步驟先來看看主成分分析的計算步驟(1)
  • 值得一看:因子分析實例分析_SPSSAU實用教程
    在實際生活中,不同的變量之間有著各式各樣的聯繫,如果想全面地研究一個問題,就需要搜集各方面的資料。但大量的數據就容易產生重複的信息,為了減少研究的複雜程度,這時候就可以用到主成分分析或因子分析。應用場景因子分析可以看做是優化後的主成分分析,兩種方法有很多共通的地方,但應用方面各有側重。兩種方法主要用於三種場景下分別是:信息濃縮、權重計算和綜合競爭力研究。
  • 新傳名詞解釋全整理:條件關係/多元分析/多元相關分析/多元方差分析/多元因果分析/聚類分析/因子分析/最小空間分析/社會網絡分析
    聚類分析7.因子分析8.最小空間分析9.相依性分析包括回歸分析、判別分析、典型相關分析等,它們的共同點是分析所涉及的變量是不平等的,即有自變量和因變量之分,相依性分析的目的在於分析多個變量多某個或某些變量的共同影響或相對效應。而互相依性分析包括因素分析、聚類分析等,它所涉及的變量是平等的,分析的目的是變量之間的相互關係,以求簡化這種關係。 3.
  • 因子分析與聚類分析在消費者生活形態研究中的應用
    下面本文主要介紹如何通過因子分析和聚類分析方法來對消費者進行分類。即:將這一系列的語句進行綜合,根據消費者的回答情況,將這些語句分為幾大類,根據實際情況,找出每一類型中的共同因子,對這些類型的含義進行合理解釋。2.利用因子分析的結果,對樣本的回答按照新的類型進行重新評估打分,然後根據這些評價進行聚類分析,根據統計原則以及在現實中容易解釋的原則,確定最終採用的分類個數。3.根據分類結果對每一樣本判別其所屬類別,然後對各類型消費者的背景進行交叉分析。