阿平 | 作者
知乎 | 來源
研究現象之間是否存在某種依存關係,對具體有依存關係的現象探討相關方向及相關程度。
單相關:兩個因素之間的相關關係叫單相關,即研究時只涉及一個自變量和一個因變量
復相關 :三個或三個以上因素的相關關係叫復相關,即研究時涉及兩個或兩個以上的自變量和因變量相關
偏相關:在某一現象與多種現象相關的場合,當假定其他變量不變時,其中兩個變量之間的相關關係稱為偏相關
主成分分析(Principal Component Analysis,PCA), 是一種統計方法。通過正交變換將一組可能存在相關性的變量轉換為一組線性不相關的變量,轉換後的這組變量叫主成分。
主成分分析首先是由K.皮爾森(Karl Pearson)對非隨機變量引入的,爾後H.霍特林將此方法推廣到隨機向量的情形。信息的大小通常用離差平方和或方差來衡量。
1. 原理
在用統計分析方法研究多變量的課題時,變量個數太多就會增加課題的複雜性。人們自然希望變量個數較少而得到的信息較多。在很多情形,變量之間是有一定的相關關係的,當兩個變量之間有一定相關關係時,可以解釋為這兩個變量反映此課題的信息有一定的重疊。
主成分分析是對於原先提出的所有變量,將重複的變量(關係緊密的變量)刪去多餘,建立儘可能少的新變量,使得這些新變量是兩兩不相關的,而且這些新變量在反映課題的信息方面儘可能保持原有的信息。
設法將原來變量重新組合成一組新的互相無關的幾個綜合變量,同時根據實際需要從中可以取出幾個較少的綜合變量儘可能多地反映原來變量的信息的統計方法叫做主成分分析或稱主分量分析,也是數學上用來降維的一種方法。
2. 缺點
在主成分分析中,我們首先應保證所提取的前幾個主成分的累計貢獻率達到一個較高的水平(即變量降維後的信息量須保持在一個較高水平上),其次對這些被提取的主成分必須都能夠給出符合實際背景和意義的解釋(否則主成分將空有信息量而無實際含義)。
主成分的解釋其含義一般多少帶有點模糊性,不像原始變量的含義那麼清楚、確切,這是變量降維過程中不得不付出的代價。因此,提取的主成分個數m通常應明顯小於原始變量個數p(除非p本身較小),否則維數降低的「利」可能抵不過主成分含義不如原始變量清楚的「弊」。
一種旨在尋找隱藏在多變量數據中、無法直接觀察到卻影響或支配可測變量的潛在因子、並估計潛在因子對可測變量的影響程度以及潛在因子之間的相關性的一種多元統計分析方法。
1. 與主成分分析比較
2. 用途
減少分析變量個數
通過對變量間相關關係探測,將原始變量進行分類
信度(Reliability)即可靠性,它是指採用同樣的方法對同一對象重複測量時所得結果的一致性程度。信度指標多以相關係數表示,大致可分為三類:穩定係數(跨時間的一致性),等值係數(跨形式的一致性)和內在一致性係數(跨項目的一致性)。信度分析的方法主要有以下四種:重測信度法、複本信度法、折半信度法、α信度係數法。
1. 方法
重測信度法編輯
這一方法是用同樣的問卷對同一組被調查者間隔一定時間重複施測,計算兩次施測結果的相關係數。顯然,重測信度屬於穩定係數。
重測信度法特別適用於事實式問卷,如性別、出生年月等在兩次施測中不應有任何差異,大多數被調查者的興趣、愛好、習慣等在短時間內也不會有十分明顯的變化。如果沒有突發事件導致被調查者的態度、意見突變,這種方法也適用於態度、意見式問卷。
由於重測信度法需要對同一樣本試測兩次,被調查者容易受到各種事件、活動和他人的影響,而且間隔時間長短也有一定限制,因此在實施中有一定困難。
複本信度法編輯
讓同一組被調查者一次填答兩份問卷複本,計算兩個複本的相關係數。複本信度屬於等值係數。
複本信度法要求兩個複本除表述方式不同外,在內容、格式、難度和對應題項的提問方向等方面要完全一致,而在實際調查中,很難使調查問卷達到這種要求,因此採用這種方法者較少。
折半信度法編輯
折半信度法是將調查項目分為兩半,計算兩半得分的相關係數,進而估計整個量表的信度。折半信度屬於內在一致性係數,測量的是兩半題項得分間的一致性。
這種方法一般不適用於事實式問卷(如年齡與性別無法相比),常用於態度、意見式問卷的信度分析。
在問卷調查中,態度測量最常見的形式是5級李克特(Likert)量表(李克特量表(Likert scale)是屬評分加總式量表最常用的一種,屬同一構念的這些項目是用加總方式來計分,單獨或個別項目是無意義的。它是由美國社會心理學家李克特於1932年在原有的總加量表基礎上改進而成的。該量表由一組陳述組成,每一陳述有"非常同意"、"同意"、"不一定"、"不同意"、"非常不同意"五種回答,分別記為5、4、3、2、1,每個被調查者的態度總分就是他對各道題的回答所得分數的加總,這一總分可說明他的態度強弱或他在這一量表上的不同狀態。)。
進行折半信度分析時,如果量表中含有反意題項,應先將反意題項的得分作逆向處理,以保證各題項得分方向的一致性,然後將全部題項按奇偶或前後分為儘可能相等的兩半,計算二者的相關係數(rhh,即半個量表的信度係數),最後用斯皮爾曼-布朗(Spearman-Brown)公式:求出整個量表的信度係數(ru)
α信度係數法
α信度係數是目前最常用的信度係數,其公式為:α=(k/(k-1))*(1-(∑Si^2)/ST^2)
其中,K為量表中題項的總數, Si^2為第i題得分的題內方差, ST^2為全部題項總得分的方差。從公式中可以看出,α係數評價的是量表中各題項得分間的一致性,屬於內在一致性係數。這種方法適用於態度、意見式問卷(量表)的信度分析。
總量表的信度係數最好在0.8以上,0.7-0.8之間可以接受;分量表的信度係數最好在0.7以上,0.6-0.7還可以接受。Cronbach 's alpha係數如果在0.6以下就要考慮重新編問卷。用於檢査測量的可信度,例如調查問卷的真實性。
2. 分類
列聯表是觀測數據按兩個或更多屬性(定性變量)分類時所列出的頻數表。
1. 簡介
若總體中的個體可按兩個屬性A、B分類,A有r個等級A1,A2,…,Ar,B有c個等級B1,B2,…,Bc,從總體中抽取大小為n的樣本,設其中有nij個個體的屬性屬於等級Ai和Bj,nij稱為頻數,將r×c個nij排列為一個r行c列的二維列聯表,簡稱r×c表。若所考慮的屬性多於兩個,也可按類似的方式作出列聯表,稱為多維列聯表。
列聯表又稱交互分類表,所謂交互分類,是指同時依據兩個變量的值,將所研究的個案分類。交互分類的目的是將兩變量分組,然後比較各組的分布狀況,以尋找變量間的關係。用於分析離散變量或定型變量之間是否存在相關。
列聯表分析的基本問題是,判明所考察的各屬性之間有無關聯,即是否獨立。
如在前例中,問題是:一個人是否色盲與其性別是否有關?在r×с表中,若以pi、pj和pij分別表示總體中的個體屬於等級Ai,屬於等級Bj和同時屬於Ai、Bj的概率(pi,pj稱邊緣概率,pij稱格概率),「A、B兩屬性無關聯」的假設可以表述為H0:pij=pi·pj,(i=1,2,…,r;j=1,2,…,с),未知參數pij、pi、pj的最大似然估計(見點估計)分別為行和及列和(統稱邊緣和)為樣本大小。根據K.皮爾森(1904)的擬合優度檢驗或似然比檢驗(見假設檢驗),當h0成立,且一切pi>0和pj>0時,統計量的漸近分布是自由度為(r-1)(с-1) 的Ⅹ分布,式中Eij=(ni·nj)/n稱為期望頻數。當n足夠大,且表中各格的Eij都不太小時,可以據此對h0作檢驗:若Ⅹ值足夠大,就拒絕假設h0,即認為A與B有關聯。在前面的色覺問題中,曾按此檢驗,判定出性別與色覺之間存在某種關聯。
2. 需要注意
若樣本大小n不很大,則上述基於漸近分布的方法就不適用。對此,在四格表情形,R.A.費希爾(1935)提出了一種適用於所有n的精確檢驗法。其思想是在固定各邊緣和的條件下,根據超幾何分布(見概率分布),可以計算觀測頻數出現任意一種特定排列的條件概率。把實際出現的觀測頻數排列,以及比它呈現更多關聯跡象的所有可能排列的條件概率都算出來並相加,若所得結果小於給定的顯著性水平,則判定所考慮的兩個屬性存在關聯,從而拒絕h0。
對於二維表,可進行卡方檢驗;對於三維表,可作Mentel-Hanszel分層分析。
列聯表分析還包括配對計數資料的卡方檢驗、行列均為順序變量的相關檢驗。
本文為轉載分享&推薦閱讀,若侵權請聯繫後臺刪除