主成分分析與因子分析的區別
1. 目的不同: 因子分析把諸多變量看成由對每一個變量都有作用的一些公共因子和僅對某一個變量有作用的特殊因子線性組合而成,因此就是要從數據中控查出對變量起解釋作用的公共因子和特殊因子以及其組合係數;主成分分析只是從空間生成的角度尋找能解釋諸多變量變異的絕大部分的幾組彼此不相關的新變量(主成分)。
2. 線性表示方向不同: 因子分析是把變量表示成各公因子的線性組合;而主成分分析中則是把主成分表示成各變量的線性組合。
3. 假設條件不同:主成分分析中不需要有假設;因子分析的假設包括:各個公共因子之間不相關,特殊因子之間不相關,公共因子和特殊因子之間不相關。
4. 提取主因子的方法不同:因子分析抽取主因子不僅有主成分法,還有極大似然法,主軸因子法,基於這些方法得到的結果也不同;主成分只能用主成分法抽取。
5. 主成分與因子的變化:當給定的協方差矩陣或者相關矩陣的特徵值唯一時,主成分一般是固定的;而因子分析中因子不是固定的,可以旋轉得到不同的因子。
6. 因子數量與主成分的數量:在因子分析中,因子個數需要分析者指定(SPSS根據一定的條件自動設定,只要是特徵值大於1的因子主可進入分析),指定的因子數量不同而結果也不同;在主成分分析中,成分的數量是一定的,一般有幾個變量就有幾個主成分(只是主成分所解釋的信息量不等)。
7. 功能:和主成分分析相比,由於因子分析可以使用旋轉技術幫助解釋因子,在解釋方面更加有優勢;而如果想把現有的變量變成少數幾個新的變量(新的變量幾乎帶有原來所有變量的信息)來進入後續的分析,則可以使用主成分分析。當然,這種情況也可以使用因子得分做到,所以這種區分不是絕對的。
基本原理:將個體(樣品)或者對象(變量)按相似程度(距離遠近)劃分類別,使得同一類中的元素之間的相似性比其他類的元素的相似性更強。目的在於使類間元素的同質性最大化和類與類間元素的異質性最大化。
常用聚類方法:系統聚類法,K-均值法,模糊聚類法,有序樣品的聚類,分解法,加入法。
注意事項:1. 系統聚類法可對變量或者記錄進行分類,K-均值法只能對記錄進行分類;
應用領域:細分市場,消費行為劃分,設計抽樣方案等
2、判別分析
基本原理:從已知的各種分類情況中總結規律(訓練出判別函數),當新樣品進入時,判斷其與判別函數之間的相似程度(概率最大,距離最近,離差最小等判別準則)。
常用判別方法:最大似然法,距離判別法,Fisher判別法,Bayes判別法,逐步判別法等。
注意事項:1. 判別分析的基本條件:分組類型在兩組以上,解釋變量必須是可測的;
相對而言,即使判別函數違反上述適用條件,也很穩健,對結果影響不大。
應用領域:對客戶進行信用預測,尋找潛在客戶(是否為消費者,公司是否成功,學生是否被錄用等等),臨床上用於鑑別診斷。
3、 主成分分析/ 因子分析
主成分分析基本原理:利用降維(線性變換)的思想,在損失很少信息的前提下把多個指標轉化為幾個綜合指標(主成分),即每個主成分都是原始變量的線性組合,且各個主成分之間互不相關,使得主成分比原始變量具有某些更優越的性能(主成分必須保留原始變量90%以上的信息),從而達到簡化系統結構,抓住問題實質的目的。
因子分析基本原理:利用降維的思想,由研究原始變量相關矩陣內部的依賴關係出發,把一些具有錯綜複雜關係的變量歸結為少數幾個綜合因子。(因子分析是主成分的推廣,相對於主成分分析,更傾向於描述原始變量之間的相關關係)
求解主成分的方法:從協方差陣出發(協方差陣已知),從相關陣出發(相關陣R已知)。
求解因子載荷的方法:主成分法,主軸因子法,極大似然法,最小二乘法,a因子提取法。
注意事項:1. 由協方差陣出發與由相關陣出發求解主成分所得結果不一致時,要恰當的選取某一種方法;
應用領域:解決共線性問題,評價問卷的結構效度,尋找變量間潛在的結構,內在結構證實。
4、對應分析/最優尺度分析
基本原理:利用降維的思想以達到簡化數據結構的目的,同時對數據表中的行與列進行處理,尋求以低維圖形表示數據表中行與列之間的關係。
對應分析:用於展示變量(兩個/多個分類)間的關係(變量的分類數較多時較佳);
最優尺度分析:可同時分析多個變量間的關係,變量的類型可以是無序多分類,有序多分類或連續性變量,並 對多選題的分析提供
5、典型相關分析
基本原理:借用主成分分析降維的思想,分別對兩組變量提取主成分,且使從兩組變量提取的主成分之間的相關程度達到最大,而從同一組內部提取的各主成分之間互不相關。