統計學最常用的「數據分析方法」清單(一)|信度|卡方|施測|統計量|...

2021-01-08 網易

  經常會有朋友問到一個朋友,數據分析常用的分析方法有哪些,我需要學習哪個等等之類的問題,今天數據分析精選給大家整理了十六種常用的數據分析方法,供大家參考學習。

  一、描述統計

  描述統計是通過圖表或數學方法,對數據資料進行整理、分析,並對數據的分布狀態、數字特徵和隨機變量之間關係進行估計和描述的方法。描述統計分為集中趨勢分析和離中趨勢分析和相關分析三大部分。

  1. 集中趨勢分析

  集中趨勢分析主要靠平均數、中數、眾數等統計指標來表示數據的集中趨勢。例如被試的平均成績多少?是正偏分布還是負偏分布?

  2. 離中趨勢分析

  離中趨勢分析主要靠全距、四分差、平均差、方差(協方差:用來度量兩個隨機變量關係的統計量)、標準差等統計指標來研究數據的離中趨勢。例如,我們想知道兩個教學班的語文成績中,哪個班級內的成績分布更分散,就可以用兩個班級的四分差或百分點來比較。

  3. 相關分析

  相關分析探討數據之間是否具有統計學上的關聯性。這種關係既包括兩個數據之間的單一相關關係——如年齡與個人領域空間之間的關係,也包括多個數據之間的多重相關關係——如年齡、抑鬱症發生率、個人領域空間之間的關係;既包括A大B就大(小),A小B就小(大)的直線相關關係,也可以是複雜相關關係(A=Y-B*X);既可以是A、B變量同時增大這種正相關關係,也可以是A變量增大時B變量減小這種負相關,還包括兩變量共同變化的緊密程度——即相關係數。

  實際上,相關關係唯一不研究的數據關係,就是數據協同變化的內在根據——即因果關係。獲得相關係數有什麼用呢?簡而言之,有了相關係數,就可以根據回歸方程,進行A變量到B變量的估算,這就是所謂的回歸分析,因此,相關分析是一種完整的統計研究方法,它貫穿於提出假設,數據研究,數據分析,數據研究的始終。

  例如,我們想知道對監獄情景進行什麼改造,可以降低囚徒的暴力傾向。我們就需要將不同的囚舍顏色基調、囚舍綠化程度、囚室人口密度、放風時間、探視時間進行排列組合,然後讓每個囚室一種實驗處理,然後用因素分析法找出與囚徒暴力傾向的相關係數最高的因素。假定這一因素為囚室人口密度,我們又要將被試隨機分入不同人口密度的十幾個囚室中生活,繼而得到人口密度和暴力傾向兩組變量(即我們討論過的A、B兩列變量)。然後,我們將人口密度排入X軸,將暴力傾向分排入Y軸,獲得了一個很有價值的圖表,當某典獄長想知道,某囚舍擴建到N人/間囚室,暴力傾向能降低多少。我們可以當前人口密度和改建後人口密度帶入相應的回歸方程,算出擴建前的預期暴力傾向和擴建後的預期暴力傾向,兩數據之差即典獄長想知道的結果。

  4. 推論統計

  推論統計是統計學乃至於心理統計學中較為年輕的一部分內容。它以統計結果為依據,來證明或推翻某個命題。具體來說,就是通過分析樣本與樣本分布的差異,來估算樣本與總體、同一樣本的前後測成績差異,樣本與樣本的成績差距、總體與總體的成績差距是否具有顯著性差異。

  例如,我們想研究教育背景是否會影響人的智力測驗成績。可以找100名24歲大學畢業生和100名24歲初中畢業生。採集他們的一些智力測驗成績。用推論統計方法進行數據處理,最後會得出類似這樣兒的結論:「研究發現,大學畢業生組的成績顯著高於初中畢業生組的成績,二者在0.01水平上具有顯著性差異,說明大學畢業生的一些智力測驗成績優於中學畢業生組。」

  5. 正態性檢驗

  很多統計方法都要求數值服從或近似服從正態分布,所以之前需要進行正態性檢驗。

  常用方法:非參數檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動差法。

  二、假設檢驗&參數檢驗

  參數檢驗是在已知總體分布的條件下(一股要求總體服從正態分布)對一些主要的參數(如均值、百分數、方差、相關係數等)進行的檢驗。

  【U驗】使用條件:當樣本含量n較大時,樣本值符合正態分布

   【T檢驗】使用條件:當樣本含量n較小時,樣本值符合正態分布

  單樣本t檢驗:推斷該樣本來自的總體均數μ與已知的某一總體均數μ0 (常為理論值或標準值)有無差別

  配對樣本t檢驗:當總體均數未知時,且兩個樣本可以配對,同對中的兩者在可能會影響處理效果的各種條件方面扱為相似

  兩獨立樣本t檢驗:無法找到在各方面極為相似的兩樣本作配對比較時使用

  非參數檢驗:

  非參數檢驗則不考慮總體分布是否已知,常常也不是針對總體參數,而是針對總體的某些一股性假設(如總體分布的位罝是否相同,總體分布是否正態)進行檢驗。

  適用情況:順序類型的數據資料,這類數據的分布形態一般是未知的。A 雖然是連續數據,但總體分布形態未知或者非正態;B 體分布雖然正態,數據也是連續類型,但樣本容量極小,如10以下

  主要方法包括:卡方檢驗、秩和檢驗、二項檢驗、遊程檢驗、K-量檢驗等。

  

  三、信度分析

  即可靠性,它是指採用同樣的方法對同一對象重複測量時所得結果的一致性程度。信度指標多以相關係數表示,大致可分為三類:穩定係數(跨時間的一致性),等值係數(跨形式的一致性)和內在一致性係數(跨項目的一致性)。信度分析的方法主要有以下四種:重測信度法、複本信度法、折半信度法、α信度係數法。

  方法如下 :

  1. 重測信度法編輯

  這一方法是用同樣的問卷對同一組被調查者間隔一定時間重複施測,計算兩次施測結果的相關係數。顯然,重測信度屬於穩定係數。重測信度法特別適用於事實式問卷,如性別、出生年月等在兩次施測中不應有任何差異,大多數被調查者的興趣、愛好、習慣等在短時間內也不會有十分明顯的變化。如果沒有突發事件導致被調查者的態度、意見突變,這種方法也適用於態度、意見式問卷。由於重測信度法需要對同一樣本試測兩次,被調查者容易受到各種事件、活動和他人的影響,而且間隔時間長短也有一定限制,因此在實施中有一定困難。

  2. 複本信度法編輯

  讓同一組被調查者一次填答兩份問卷複本,計算兩個複本的相關係數。複本信度屬於等值係數。複本信度法要求兩個複本除表述方式不同外,在內容、格式、難度和對應題項的提問方向等方面要完全一致,而在實際調查中,很難使調查問卷達到這種要求,因此採用這種方法者較少。

  3. 折半信度法編輯

  折半信度法是將調查項目分為兩半,計算兩半得分的相關係數,進而估計整個量表的信度。折半信度屬於內在一致性係數,測量的是兩半題項得分間的一致性。這種方法一般不適用於事實式問卷(如年齡與性別無法相比),常用於態度、意見式問卷的信度分析。

  在問卷調查中,態度測量最常見的形式是5級李克特(Likert)量表(李克特量表(Likert scale)是屬評分加總式量表最常用的一種,屬同一構念的這些項目是用加總方式來計分,單獨或個別項目是無意義的。它是由美國社會心理學家李克特於1932年在原有的總加量表基礎上改進而成的。該量表由一組陳述組成,每一陳述有"非常同意"、"同意"、"不一定"、"不同意"、"非常不同意"五種回答,分別記為5、4、3、2、1,每個被調查者的態度總分就是他對各道題的回答所得分數的加總,這一總分可說明他的態度強弱或他在這一量表上的不同狀態。)。進行折半信度分析時,如果量表中含有反意題項,應先將反意題項的得分作逆向處理,以保證各題項得分方向的一致性,然後將全部題項按奇偶或前後分為儘可能相等的兩半,計算二者的相關係數(rhh,即半個量表的信度係數),最後用斯皮爾曼-布朗(Spearman-Brown)公式:求出整個量表的信度係數(ru)。

  4. α信度係數法

  α信度係數是目前最常用的信度係數,其公式為:α=(k/(k-1))*(1-(∑Si^2)/ST^2)。其中,K為量表中題項的總數, Si^2為第i題得分的題內方差, ST^2為全部題項總得分的方差。從公式中可以看出,α係數評價的是量表中各題項得分間的一致性,屬於內在一致性係數。這種方法適用於態度、意見式問卷(量表)的信度分析。

  總量表的信度係數最好在0.8以上,0.7-0.8之間可以接受;分量表的信度係數最好在0.7以上,0.6-0.7還可以接受。Cronbach 's alpha係數如果在0.6以下就要考慮重新編問卷。用於檢査測量的可信度,例如調查問卷的真實性。

  分類有2種:

  外在信度:不同時間測量時量表的一致性程度,常用方法重測信度;

  內在信度:每個量表是否測量到單一的概念,同時組成兩表的內在體項一致性如何,常用方法分半信度;

  四、列聯表分析

  列聯表是觀測數據按兩個或更多屬性(定性變量)分類時所列出的頻數表。

  1. 簡介

  若總體中的個體可按兩個屬性A、B分類,A有r個等級A1,A2,…,Ar,B有c個等級B1,B2,…,Bc,從總體中抽取大小為n的樣本,設其中有nij個個體的屬性屬於等級Ai和Bj,nij稱為頻數,將r×c個nij排列為一個r行c列的二維列聯表,簡稱r×c表。若所考慮的屬性多於兩個,也可按類似的方式作出列聯表,稱為多維列聯表。

  列聯表又稱交互分類表,所謂交互分類,是指同時依據兩個變量的值,將所研究的個案分類。交互分類的目的是將兩變量分組,然後比較各組的分布狀況,以尋找變量間的關係。用於分析離散變量或定型變量之間是否存在相關。列聯表分析的基本問題是,判明所考察的各屬性之間有無關聯,即是否獨立。

  如在前例中,問題是:一個人是否色盲與其性別是否有關?在r×с表中,若以pi、pj和pij分別表示總體中的個體屬於等級Ai,屬於等級Bj和同時屬於Ai、Bj的概率(pi,pj稱邊緣概率,pij稱格概率),「A、B兩屬性無關聯」的假設可以表述為H0:pij=pi·pj,(i=1,2,…,r;j=1,2,…,с),未知參數pij、pi、pj的最大似然估計(見點估計)分別為行和及列和(統稱邊緣和)為樣本大小。根據K.皮爾森(1904)的擬合優度檢驗或似然比檢驗(見假設檢驗),當h0成立,且一切pi>0和pj>0時,統計量的漸近分布是自由度為(r-1)(с-1) 的Ⅹ分布,式中Eij=(ni·nj)/n稱為期望頻數。當n足夠大,且表中各格的Eij都不太小時,可以據此對h0作檢驗:若Ⅹ值足夠大,就拒絕假設h0,即認為A與B有關聯。在前面的色覺問題中,曾按此檢驗,判定出性別與色覺之間存在某種關聯。

  2. 注意點

  若樣本大小n不很大,則上述基於漸近分布的方法就不適用。對此,在四格表情形,R.A.費希爾(1935)提出了一種適用於所有n的精確檢驗法。其思想是在固定各邊緣和的條件下,根據超幾何分布(見概率分布),可以計算觀測頻數出現任意一種特定排列的條件概率。把實際出現的觀測頻數排列,以及比它呈現更多關聯跡象的所有可能排列的條件概率都算出來並相加,若所得結果小於給定的顯著性水平,則判定所考慮的兩個屬性存在關聯,從而拒絕h0。

  對於二維表,可進行卡方檢驗,對於三維表,可作Mentel-Hanszel分層分析。列聯表分析還包括配對計數資料的卡方檢驗、行列均為順序變量的相關檢驗。

  

  五、相關分析

  研究現象之間是否存在某種依存關係,對具體有依存關係的現象探討相關方向及相關程度。

  1. 單相關

  兩個因素之間的相關關係叫單相關,即研究時只涉及一個自變量和一個因變量

  2. 復相關

  三個或三個以上因素的相關關係叫復相關,即研究時涉及兩個或兩個以上的自變量和因變量相關

  3. 偏相關

  在某一現象與多種現象相關的場合,當假定其他變量不變時,其中兩個變量之間的相關關係稱為偏相關。

  六、方差分析

  使用條件:各樣本須是相互獨立的隨機樣本;各樣本來自正態分布總體;各總體方差相等。有以下幾種分類:

  單因素方差分析:一項試驗只有一個影響因素,或者存在多個影響因素時,只分析一個因素與響應變量的關係

  多因素有交互方差分析:一頊實驗有多個影響因素,分析多個影響因素與響應變量的關係,同時考慮多個影響因素之間的關係

  多因素無交互方差分析:分析多個影響因素與響應變量的關係,但是影響因素之間沒有影響關係或忽略影響關係

  協方差分析:傳統的方差分析存在明顯的弊端,無法控制分析中存在的某些隨機因素,使之影響了分析結果的準確度。協方差分析主要是在排除了協變量的影響後再對修正後的主效應進行方差分析,是將線性回歸與方差分析結合起來的一種分析方法

  

  七、回歸分析

  1、一元線性回歸分析

  只有一個自變量X與因變量Y有關,X與Y都必須是連續型變量,因變量y或其殘差必須服從正態分布。

  2、多元線性回歸分析

  使用條件:分析多個自變量與因變量Y的關係,X與Y都必須是連續型變量,因變量y或其殘差必須服從正態分布 。

  變呈篩選方式選擇最優回歸方程的變裡篩選法包括全橫型法(CP法)、逐步回歸法,向前引入法和向後剔除法

  橫型診斷方法:

  殘差檢驗:觀測值與估計值的差值要艱從正態分布

  強影響點判斷:尋找方式一般分為標準誤差法、Mahalanobis距離法

  共線性診斷方式:容忍度、方差擴大因子法(又稱膨脹係數VIF)、特徵根判定法、條件指針CI、方差比例

  處理方法:增加樣本容量或選取另外的回歸如主成分回歸、嶺回歸等

  3、Logistic回歸分析

  線性回歸模型要求因變量是連續的正態分布變裡,且自變量和因變量呈線性關係,而Logistic回歸模型對因變量的分布沒有要求,一般用於因變量是離散時的情況。

  分類:

  Logistic回歸模型有條件與非條件之分,條件Logistic回歸模型和非條件Logistic回歸模型的區別在於參數的估計是否用到了條件概率。

  4、其他回歸方法

  非線性回歸、有序回歸、Probit回歸、加權回歸等

  八、聚類分析

  聚類與分類的不同在於,聚類所要求劃分的類是未知的。聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數據出發,自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對於同一組數據進行聚類分析,所得到的聚類數未必一致。

  從實際應用的角度看,聚類分析是數據挖掘的主要任務之一。而且聚類能夠作為一個獨立的工具獲得數據的分布狀況,觀察每一簇數據的特徵,集中對特定的聚簇集合作進一步地分析。聚類分析還可以作為其他算法(如分類和定性歸納算法)的預處理步驟。

  1. 定義

  依據研究對象(樣品或指標)的特徵,對其進行分類的方法,減少研究對象的數目。

  各類事物缺乏可靠的歷史資料,無法確定共有多少類別,目的是將性質相近事物歸入一類。各指標之間具有一定的相關關係。變量類型:定類變量、定量(離散和連續)變量。

  樣本個體或指標變量按其具有的特性進行分類,尋找合理的度量事物相似性的統計量。

  2. 性質分類

  Q型聚類分析:對樣本進行分類處理,又稱樣本聚類分析使用距離係數作為統計量衡量相似度,如歐式距離、極端距離、絕對距離等。

  R型聚類分析:對指標進行分類處理,又稱指標聚類分析使用相似係數作為統計量衡量相似度,相關係數、列聯繫數等。

  3. 方法分類

  系統聚類法:適用於小樣本的樣本聚類或指標聚類,一般用系統聚類法來聚類指標,又稱分層聚類

  逐步聚類法:適用於大樣本的樣本聚類

  其他聚類法:兩步聚類、K均值聚類等

相關焦點

  • 【乾貨】統計學×數據分析|信度|卡方|施測|統計量|正態分布_網易...
    離中趨勢分析  離中趨勢分析主要靠全距、四分差、平均差、方差(協方差: 用來度量兩個隨機變量關係的統計量)、標準差等統計指標來研究數據的離中趨勢。 例如,我們想知道兩個教學班的語文成績中,哪個班級內的成績分布更分散,就可以用兩個班級的四分差或百分點來比較。  相關分析  相關分析探討數據之間是否具有統計學上的關聯性。
  • 統計學常用概念|T檢驗、F檢驗、卡方檢驗、P值、自由度
    雖然還是有5%機會出錯(1-0.05=5%),但我們還是可以「比較有信心」的說:目前樣本中這情況(男女生出現差異的 情況)不是巧合,是具統計學意義的,「總體中男女生不存差異」的虛無假設應予拒絕,簡言之,總體應該存在著差異。
  • 『統計學』最常用的數據分析方法都在這了!Part.2
    (Principal Component Analysis,PCA), 是一種統計方法。設法將原來變量重新組合成一組新的互相無關的幾個綜合變量,同時根據實際需要從中可以取出幾個較少的綜合變量儘可能多地反映原來變量的信息的統計方法叫做主成分分析或稱主分量分析,也是數學上用來降維的一種方法。2.
  • 數據分析的方法(一)
    — — 假設檢驗 1、參數檢驗 2、非參數檢驗 假設檢驗一般分為三個步驟:建立假設,確定檢驗水平;選擇檢驗方法,計算統計量大小;根據統計量確定P值,做出推斷統計。
  • 2017年考研心理學大綱詳解(六):心理統計與測量
    一、心理統計與測量考查目標1、正確理解心理統計與心理測量的基本概念,掌握心理統計與心理測量的基本方法。
  • 統計學——常用統計量以及統計三大分布
    統計學中最重要的提取信息的方式就是對原始數據進行一定的運算,得出某些代表性的數字,以反映數據某些方面的特徵,這種數字稱為統計量。用統計學語言表述就是:統計量是樣本的函數,它不依賴於任何未知參數。常用統計量① 樣本均值它反映出總體X數學期望的信息。樣本均值是最常用的統計量。② 樣本方差 它反映的是總體X方差的信息。樣本方差和樣本標準差也是最常用的統計量。
  • 統計學最常用的「數據分析方法」清單(二)
    設法將原來變量重新組合成一組新的互相無關的幾個綜合變量,同時根據實際需要從中可以取出幾個較少的綜合變量儘可能多地反映原來變量的信息的統計方法叫做主成分分析或稱主分量分析,也是數學上用來降維的一種方法。 2.
  • 統計學中算變異量為什麼要除以n-1?什麼是「自由度」?
    這個公式的分子是所謂「差方和」(sum of squared deviations) , 還不算太難懂。真正難懂的地方是分母:如果要求 「平均差方」(mean squared deviations),應該把差方和除以n,為什麼要除以n-1?
  • 2012考研心理學大綱心理統計與測量變化詳解:
    一、 心理統計與測量考查目標 1、 正確理解心理統計與心理測量的基本概念,掌握心理統計與心理測量的基本方法。 2、 掌握有關統計分析的原理和方法,能正確解釋統計分析結果。 3、 掌握各種搞測量理論和各種測量值變得計算方法:能夠正確使用各種測驗,並對結果進行解釋。
  • 常用的數據分析方法及案例講解
    常用的數據分析方法有描述統計、信度分析、相關分析、回歸分析、聚類分析等。本文將結合實際案例,為大家一一講解這些數據分析的方法。如果你想了解如何做數據分析,就接著看下去吧~1、描述性統計分析絕大多數的報紙、雜誌、公司報告上的統計信息都會以簡單、易懂的方式匯總和展示,這種將數據以表格、圖形或數值的形式匯總的統計分析方法稱為描述性統計。
  • 百篇數據分析方法合集,真是太太太全面了
    從SPSSAU發布第一篇文章到現在已有大半年的時間,在這段時間裡,我們前前後後更新了近百篇統計方法的相關文章,希望這些文章可以真正幫助沒有接觸過數據分析的朋友,輕鬆上手學會數據分析。1.初步了解什麼是統計學數據分析快速入門一些統計學必懂的概念1小時掌握數據分析的邏輯2.通用方法頻數分析:計算百分比、頻率
  • 數據分析必備——統計學入門基礎知識
    數據之路,與你同行!——數據說·夢想季 導讀:要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!因此,統計學是數據分析必須掌握的基礎知識,即通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。統計學用到了大量的數學及其它學科的專業知識,其應用範圍幾乎覆蓋了社會科學和自然科學的各個領域,而在數據量極大的網際網路領域也不例外,因此紮實的統計學基礎是一個優秀的數據人必備的技能。
  • 「spss數據分析系列」卡方檢驗-2x2
    前面的t檢驗都是對均值的分析,這類分析主要是針對於連續性變量,比如身高,溫度,降雨量等,但是如果針對於分類變量的差異分析怎麼分析呢,這裡就用到了我們所說的卡方檢驗,但是卡方檢驗對應的情況有很多種,這裡我將第一種,就是2x2的表格,2x2意思就是兩個變量都是2分類的變量。
  • 等級資料的比較:秩和還是卡方?
    分類數據中,等級資料相對特殊。由於它兼具了定量數據和分類數據的一些特點,分析策略更為靈活。研究目的不同,採用的統計策略將有所區別。本文就卡方檢驗和秩和檢驗方法的在等級資料中的應用進行比較分析。•例1:某醫生用某種中藥治療糖尿病患者共45例,隨機分為兩組結果如下,問該中藥對兩型糖尿病的療效有無差異?
  • 問卷信度效度之間有什麼關係如何分析
    外在信度:通常指不同時間測量時,是否測量結果具有一致性。比如說剛才舉例中提到的考試成績例子。衡量信度的方法有很多種,其中,常用的內在信度係數包括:克隆巴赫α係數和折半係數;常用的外在信度是重測信度。α信度係數,即內部一致性係數。
  • 信度分析概述
    在分析問題時,我們常藉助於量表或問卷進行。如果一個問卷設計出來無法有效地考察問卷中所涉及的各個因素,則我們為調查問卷所作的抽樣、調查、分析結論等一系列的工作也就白做了。因此我們對調查問卷的結果展開統計分析之前,必須對其可信度加以分析,只有可信度在相關研究可以接受的範圍之內時,問卷的統計結果才是有價值的,才有進一步進行分析的必要。我們來具體說說什麼是信度分析。
  • 抽樣分布之卡方分布01
    最常用的描述分布特徵的統計量有期望(E)和方差(Var),在對總體進行樣本抽樣時,如果按照特定樣本量n,按照特定的抽樣方式進行反覆抽樣Xi,所有
  • 卡方檢驗(2x2表格)
    摘自:醫學統計園(微信公眾號)臨床上會遇到評價兩種藥物,對治療同一種疾病的不同患者,哪一種療效會更好,如下表,這時就需要用到卡方檢驗。卡方檢驗是針對計數資料的一種檢驗方法。下面介紹如何使用SPSS對2x2表格,進行卡方檢驗;如前所述,對數據的預處理,是數據分析過程中花費時間最多也是最麻煩的,因此我們先講述如何將計量資料輸入SPSS。
  • SPSS教學|信度分析
    在問卷研究中,信效度分析總是不可避免的環節之一,那麼如何做一個更規範、有效的信度分析呢?今天我們就來講一講克隆巴赫係數(Cronbch's α)的SPSS分析過程。信度(Reliability)是指測驗結果的一致性程度或可靠性程度,最早由斯皮爾曼(Spearman)於1904年將其引入心理測量。根據所關心的重點不同,信度可分為內在和外在信度兩類。
  • 數據分析必備——統計學入門基礎知識 - 人人都是產品經理
    編輯導語:不論在什麼崗位,都要懂得本崗位的基礎知識,打牢基礎後面才能穩步發展;數據分析也是如此,數據分析必須要掌握統計學的基礎知識;本文是作者分享的關於統計學入門基礎的知識,我們一起來學習一下吧。要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!