【乾貨】統計學最常用的「數據分析方法」清單(上)

2021-02-13 數據分析1480

描述統計是通過圖表或數學方法，對數據資料進行整理、分析，並對數據的分布狀態、數字特徵和隨機變量之間關係進行估計和描述的方法。描述統計分為集中趨勢分析和離中趨勢分析和相關分析三大部分。

1. 集中趨勢分析

集中趨勢分析主要靠平均數、中數、眾數等統計指標來表示數據的集中趨勢。例如被試的平均成績多少？是正偏分布還是負偏分布？

2. 離中趨勢分析

離中趨勢分析主要靠全距、四分差、平均差、方差（協方差：用來度量兩個隨機變量關係的統計量）、標準差等統計指標來研究數據的離中趨勢。例如，我們想知道兩個教學班的語文成績中，哪個班級內的成績分布更分散，就可以用兩個班級的四分差或百分點來比較。

3. 相關分析

相關分析探討數據之間是否具有統計學上的關聯性。這種關係既包括兩個數據之間的單一相關關係——如年齡與個人領域空間之間的關係，也包括多個數據之間的多重相關關係——如年齡、抑鬱症發生率、個人領域空間之間的關係；既包括A大B就大(小)，A小B就小(大)的直線相關關係，也可以是複雜相關關係（A=Y-B*X）；既可以是A、B變量同時增大這種正相關關係，也可以是A變量增大時B變量減小這種負相關，還包括兩變量共同變化的緊密程度——即相關係數。

實際上，相關關係唯一不研究的數據關係，就是數據協同變化的內在根據——即因果關係。獲得相關係數有什麼用呢？簡而言之，有了相關係數，就可以根據回歸方程，進行A變量到B變量的估算，這就是所謂的回歸分析，因此，相關分析是一種完整的統計研究方法，它貫穿於提出假設，數據研究，數據分析，數據研究的始終。

例如，我們想知道對監獄情景進行什麼改造，可以降低囚徒的暴力傾向。我們就需要將不同的囚舍顏色基調、囚舍綠化程度、囚室人口密度、放風時間、探視時間進行排列組合，然後讓每個囚室一種實驗處理，然後用因素分析法找出與囚徒暴力傾向的相關係數最高的因素。假定這一因素為囚室人口密度，我們又要將被試隨機分入不同人口密度的十幾個囚室中生活，繼而得到人口密度和暴力傾向兩組變量（即我們討論過的A、B兩列變量）。然後，我們將人口密度排入X軸，將暴力傾向分排入Y軸，獲得了一個很有價值的圖表，當某典獄長想知道，某囚舍擴建到N人/間囚室，暴力傾向能降低多少。我們可以當前人口密度和改建後人口密度帶入相應的回歸方程，算出擴建前的預期暴力傾向和擴建後的預期暴力傾向，兩數據之差即典獄長想知道的結果。

4. 推論統計

推論統計是統計學乃至於心理統計學中較為年輕的一部分內容。它以統計結果為依據，來證明或推翻某個命題。具體來說,就是通過分析樣本與樣本分布的差異，來估算樣本與總體、同一樣本的前後測成績差異，樣本與樣本的成績差距、總體與總體的成績差距是否具有顯著性差異。

例如，我們想研究教育背景是否會影響人的智力測驗成績。可以找100名24歲大學畢業生和100名24歲初中畢業生。採集他們的一些智力測驗成績。用推論統計方法進行數據處理，最後會得出類似這樣兒的結論：「研究發現，大學畢業生組的成績顯著高於初中畢業生組的成績，二者在0.01水平上具有顯著性差異，說明大學畢業生的一些智力測驗成績優於中學畢業生組。」

5. 正態性檢驗

很多統計方法都要求數值服從或近似服從正態分布，所以之前需要進行正態性檢驗。

常用方法：非參數檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動差法。

參數檢驗是在已知總體分布的條件下（一股要求總體服從正態分布）對一些主要的參數(如均值、百分數、方差、相關係數等）進行的檢驗。

單樣本t檢驗：推斷該樣本來自的總體均數μ與已知的某一總體均數μ0 (常為理論值或標準值)有無差別

配對樣本t檢驗：當總體均數未知時，且兩個樣本可以配對，同對中的兩者在可能會影響處理效果的各種條件方面扱為相似

兩獨立樣本t檢驗：無法找到在各方面極為相似的兩樣本作配對比較時使用

非參數檢驗：

非參數檢驗則不考慮總體分布是否已知，常常也不是針對總體參數，而是針對總體的某些一股性假設（如總體分布的位罝是否相同，總體分布是否正態）進行檢驗。

適用情況：順序類型的數據資料，這類數據的分布形態一般是未知的。A 雖然是連續數據，但總體分布形態未知或者非正態；B 體分布雖然正態，數據也是連續類型，但樣本容量極小，如10以下

主要方法包括：卡方檢驗、秩和檢驗、二項檢驗、遊程檢驗、K-量檢驗等。

即可靠性，它是指採用同樣的方法對同一對象重複測量時所得結果的一致性程度。信度指標多以相關係數表示，大致可分為三類：穩定係數（跨時間的一致性），等值係數（跨形式的一致性）和內在一致性係數（跨項目的一致性）。信度分析的方法主要有以下四種：重測信度法、複本信度法、折半信度法、α信度係數法。

方法如下：

1. 重測信度法編輯

這一方法是用同樣的問卷對同一組被調查者間隔一定時間重複施測，計算兩次施測結果的相關係數。顯然，重測信度屬於穩定係數。重測信度法特別適用於事實式問卷，如性別、出生年月等在兩次施測中不應有任何差異，大多數被調查者的興趣、愛好、習慣等在短時間內也不會有十分明顯的變化。如果沒有突發事件導致被調查者的態度、意見突變，這種方法也適用於態度、意見式問卷。由於重測信度法需要對同一樣本試測兩次，被調查者容易受到各種事件、活動和他人的影響，而且間隔時間長短也有一定限制，因此在實施中有一定困難。

2. 複本信度法編輯

讓同一組被調查者一次填答兩份問卷複本，計算兩個複本的相關係數。複本信度屬於等值係數。複本信度法要求兩個複本除表述方式不同外，在內容、格式、難度和對應題項的提問方向等方面要完全一致，而在實際調查中，很難使調查問卷達到這種要求，因此採用這種方法者較少。

3. 折半信度法編輯

折半信度法是將調查項目分為兩半，計算兩半得分的相關係數，進而估計整個量表的信度。折半信度屬於內在一致性係數，測量的是兩半題項得分間的一致性。這種方法一般不適用於事實式問卷（如年齡與性別無法相比），常用於態度、意見式問卷的信度分析。

在問卷調查中，態度測量最常見的形式是5級李克特（Likert）量表（李克特量表(Likert scale)是屬評分加總式量表最常用的一種，屬同一構念的這些項目是用加總方式來計分，單獨或個別項目是無意義的。它是由美國社會心理學家李克特於1932年在原有的總加量表基礎上改進而成的。該量表由一組陳述組成，每一陳述有"非常同意"、"同意"、"不一定"、"不同意"、"非常不同意"五種回答，分別記為5、4、3、2、1，每個被調查者的態度總分就是他對各道題的回答所得分數的加總，這一總分可說明他的態度強弱或他在這一量表上的不同狀態。）。進行折半信度分析時，如果量表中含有反意題項，應先將反意題項的得分作逆向處理，以保證各題項得分方向的一致性，然後將全部題項按奇偶或前後分為儘可能相等的兩半，計算二者的相關係數（rhh，即半個量表的信度係數），最後用斯皮爾曼-布朗（Spearman-Brown）公式：求出整個量表的信度係數（ru）。

4. α信度係數法

α信度係數是目前最常用的信度係數，其公式為：α=(k/(k-1))*(1-(∑Si^2)/ST^2)。其中，K為量表中題項的總數， Si^2為第i題得分的題內方差， ST^2為全部題項總得分的方差。從公式中可以看出，α係數評價的是量表中各題項得分間的一致性，屬於內在一致性係數。這種方法適用於態度、意見式問卷（量表）的信度分析。

總量表的信度係數最好在0.8以上，0.7-0.8之間可以接受；分量表的信度係數最好在0.7以上，0.6-0.7還可以接受。Cronbach 's alpha係數如果在0.6以下就要考慮重新編問卷。用於檢査測量的可信度，例如調查問卷的真實性。

分類有2種：

列聯表是觀測數據按兩個或更多屬性（定性變量）分類時所列出的頻數表。

1. 簡介

若總體中的個體可按兩個屬性A、B分類，A有r個等級A1,A2,…，Ar，B有c個等級B1,B2,…，Bc,從總體中抽取大小為n的樣本，設其中有nij個個體的屬性屬於等級Ai和Bj，nij稱為頻數，將r×c個nij排列為一個r行c列的二維列聯表，簡稱r×c表。若所考慮的屬性多於兩個，也可按類似的方式作出列聯表，稱為多維列聯表。

列聯表又稱交互分類表，所謂交互分類，是指同時依據兩個變量的值，將所研究的個案分類。交互分類的目的是將兩變量分組，然後比較各組的分布狀況，以尋找變量間的關係。用於分析離散變量或定型變量之間是否存在相關。列聯表分析的基本問題是，判明所考察的各屬性之間有無關聯，即是否獨立。

如在前例中，問題是：一個人是否色盲與其性別是否有關？在r×с表中，若以pi、pj和pij分別表示總體中的個體屬於等級Ai，屬於等級Bj和同時屬於Ai、Bj的概率（pi，pj稱邊緣概率，pij稱格概率）,「A、B兩屬性無關聯」的假設可以表述為H0：pij=pi·pj，(i=1，2，…，r；j=1,2,…，с)，未知參數pij、pi、pj的最大似然估計（見點估計）分別為行和及列和（統稱邊緣和）為樣本大小。根據K.皮爾森(1904)的擬合優度檢驗或似然比檢驗（見假設檢驗）,當h0成立，且一切pi>0和pj>0時，統計量的漸近分布是自由度為(r－1)(с－1) 的Ⅹ分布，式中Eij=(ni·nj)/n稱為期望頻數。當n足夠大，且表中各格的Eij都不太小時，可以據此對h0作檢驗：若Ⅹ值足夠大，就拒絕假設h0，即認為A與B有關聯。在前面的色覺問題中，曾按此檢驗，判定出性別與色覺之間存在某種關聯。

2. 注意點

若樣本大小n不很大,則上述基於漸近分布的方法就不適用。對此，在四格表情形，R.A.費希爾(1935)提出了一種適用於所有n的精確檢驗法。其思想是在固定各邊緣和的條件下，根據超幾何分布（見概率分布），可以計算觀測頻數出現任意一種特定排列的條件概率。把實際出現的觀測頻數排列，以及比它呈現更多關聯跡象的所有可能排列的條件概率都算出來並相加，若所得結果小於給定的顯著性水平，則判定所考慮的兩個屬性存在關聯，從而拒絕h0。

對於二維表，可進行卡方檢驗，對於三維表，可作Mentel-Hanszel分層分析。列聯表分析還包括配對計數資料的卡方檢驗、行列均為順序變量的相關檢驗。

研究現象之間是否存在某種依存關係，對具體有依存關係的現象探討相關方向及相關程度。

1. 單相關

兩個因素之間的相關關係叫單相關，即研究時只涉及一個自變量和一個因變量

2. 復相關

三個或三個以上因素的相關關係叫復相關，即研究時涉及兩個或兩個以上的自變量和因變量相關

3. 偏相關

在某一現象與多種現象相關的場合，當假定其他變量不變時，其中兩個變量之間的相關關係稱為偏相關。

使用條件：各樣本須是相互獨立的隨機樣本；各樣本來自正態分布總體；各總體方差相等。有以下幾種分類：

1. 一元線性回歸分析

只有一個自變量X與因變量Y有關，X與Y都必須是連續型變量，因變量y或其殘差必須服從正態分布。

2. 多元線性回歸分析

使用條件：分析多個自變量與因變量Y的關係，X與Y都必須是連續型變量，因變量y或其殘差必須服從正態分布。

變呈篩選方式選擇最優回歸方程的變裡篩選法包括全橫型法（CP法）、逐步回歸法，向前引入法和向後剔除法

橫型診斷方法：

共線性診斷方式：容忍度、方差擴大因子法(又稱膨脹係數VIF)、特徵根判定法、條件指針CI、方差比例

處理方法：增加樣本容量或選取另外的回歸如主成分回歸、嶺回歸等

3. Logistic回歸分析

線性回歸模型要求因變量是連續的正態分布變裡，且自變量和因變量呈線性關係，而Logistic回歸模型對因變量的分布沒有要求，一般用於因變量是離散時的情況。

分類：

Logistic回歸模型有條件與非條件之分，條件Logistic回歸模型和非條件Logistic回歸模型的區別在於參數的估計是否用到了條件概率。

4. 其他回歸方法

非線性回歸、有序回歸、Probit回歸、加權回歸等

【乾貨】統計學最常用的「數據分析方法」清單(上)

相關焦點

【乾貨!】統計學最常用的「數據分析方法」清單(下)

統計學最常用的「數據分析方法」清單（下）

統計學最常用的「數據分析方法」清單(一)

統計學最常用的「數據分析方法」清單（上）

「數據分析」的理念、流程、方法、工具

利用 SPSS 這樣做統計分析,想拿低分 SCI 都難!

統計學最常用的「數據分析方法」清單(二)

「Why-What-How」數據分析方法

五種常用大數據分析方法

R 語言之數據分析「Resampling」

「乾貨精選」數據分析與SPSS全套視頻課程資料,大數據時代必備工具!

乾貨|統計學常用的數據分析方法大總結

學會一個 SPSS 軟體,輕鬆搞定臨床統計方法實操

「統計學」最常用的數據分析方法都在這了！Part.2

R 語言之數據分析高級方法「主成分分析」和「因子分析」

菌群數據的統計和可視化方法

統計|臨床試驗數據分析要點

【原創】常用醫學統計基本知識和統計方法

「數據分析」統計軟體包比較

統計基礎概念及數據分析方法