『統計學』最常用的數據分析方法都在這了!Part.2

2021-01-14 中國統計網


阿平 | 作者

知乎 | 來源


研究現象之間是否存在某種依存關係,對具體有依存關係的現象探討相關方向及相關程度。


單相關兩個因素之間的相關關係叫單相關,即研究時只涉及一個自變量和一個因變量

復相關 :三個或三個以上因素的相關關係叫復相關,即研究時涉及兩個或兩個以上的自變量和因變量相關

偏相關在某一現象與多種現象相關的場合,當假定其他變量不變時,其中兩個變量之間的相關關係稱為偏相關



主成分分析(Principal Component Analysis,PCA), 是一種統計方法。通過正交變換將一組可能存在相關性的變量轉換為一組線性不相關的變量,轉換後的這組變量叫主成分。


主成分分析首先是由K.皮爾森(Karl Pearson)對非隨機變量引入的,爾後H.霍特林將此方法推廣到隨機向量的情形。信息的大小通常用離差平方和或方差來衡量。


1. 原理


在用統計分析方法研究多變量的課題時,變量個數太多就會增加課題的複雜性。人們自然希望變量個數較少而得到的信息較多。在很多情形,變量之間是有一定的相關關係的,當兩個變量之間有一定相關關係時,可以解釋為這兩個變量反映此課題的信息有一定的重疊。


主成分分析是對於原先提出的所有變量,將重複的變量(關係緊密的變量)刪去多餘,建立儘可能少的新變量,使得這些新變量是兩兩不相關的,而且這些新變量在反映課題的信息方面儘可能保持原有的信息。


設法將原來變量重新組合成一組新的互相無關的幾個綜合變量,同時根據實際需要從中可以取出幾個較少的綜合變量儘可能多地反映原來變量的信息的統計方法叫做主成分分析或稱主分量分析,也是數學上用來降維的一種方法。


2. 缺點


在主成分分析中,我們首先應保證所提取的前幾個主成分的累計貢獻率達到一個較高的水平(即變量降維後的信息量須保持在一個較高水平上),其次對這些被提取的主成分必須都能夠給出符合實際背景和意義的解釋(否則主成分將空有信息量而無實際含義)。


主成分的解釋其含義一般多少帶有點模糊性,不像原始變量的含義那麼清楚、確切,這是變量降維過程中不得不付出的代價。因此,提取的主成分個數m通常應明顯小於原始變量個數p(除非p本身較小),否則維數降低的「利」可能抵不過主成分含義不如原始變量清楚的「弊」。



一種旨在尋找隱藏在多變量數據中、無法直接觀察到卻影響或支配可測變量的潛在因子、並估計潛在因子對可測變量的影響程度以及潛在因子之間的相關性的一種多元統計分析方法。


1. 與主成分分析比較



2. 用途


減少分析變量個數

通過對變量間相關關係探測,將原始變量進行分類

信度(Reliability)即可靠性,它是指採用同樣的方法對同一對象重複測量時所得結果的一致性程度。信度指標多以相關係數表示,大致可分為三類:穩定係數(跨時間的一致性),等值係數(跨形式的一致性)和內在一致性係數(跨項目的一致性)。信度分析的方法主要有以下四種:重測信度法、複本信度法、折半信度法、α信度係數法。


1. 方法


 重測信度法編輯 


這一方法是用同樣的問卷對同一組被調查者間隔一定時間重複施測,計算兩次施測結果的相關係數。顯然,重測信度屬於穩定係數。


重測信度法特別適用於事實式問卷,如性別、出生年月等在兩次施測中不應有任何差異,大多數被調查者的興趣、愛好、習慣等在短時間內也不會有十分明顯的變化。如果沒有突發事件導致被調查者的態度、意見突變,這種方法也適用於態度、意見式問卷。


由於重測信度法需要對同一樣本試測兩次,被調查者容易受到各種事件、活動和他人的影響,而且間隔時間長短也有一定限制,因此在實施中有一定困難。


 複本信度法編輯 


讓同一組被調查者一次填答兩份問卷複本,計算兩個複本的相關係數。複本信度屬於等值係數


複本信度法要求兩個複本除表述方式不同外,在內容、格式、難度和對應題項的提問方向等方面要完全一致,而在實際調查中,很難使調查問卷達到這種要求,因此採用這種方法者較少。


 折半信度法編輯 


折半信度法是將調查項目分為兩半,計算兩半得分的相關係數,進而估計整個量表的信度。折半信度屬於內在一致性係數,測量的是兩半題項得分間的一致性。


這種方法一般不適用於事實式問卷(如年齡與性別無法相比),常用於態度、意見式問卷的信度分析。


在問卷調查中,態度測量最常見的形式是5級李克特(Likert)量表(李克特量表(Likert scale)是屬評分加總式量表最常用的一種,屬同一構念的這些項目是用加總方式來計分,單獨或個別項目是無意義的。它是由美國社會心理學家李克特於1932年在原有的總加量表基礎上改進而成的。該量表由一組陳述組成,每一陳述有"非常同意"、"同意"、"不一定"、"不同意"、"非常不同意"五種回答,分別記為5、4、3、2、1,每個被調查者的態度總分就是他對各道題的回答所得分數的加總,這一總分可說明他的態度強弱或他在這一量表上的不同狀態。)。


進行折半信度分析時,如果量表中含有反意題項,應先將反意題項的得分作逆向處理,以保證各題項得分方向的一致性,然後將全部題項按奇偶或前後分為儘可能相等的兩半,計算二者的相關係數(rhh,即半個量表的信度係數),最後用斯皮爾曼-布朗(Spearman-Brown)公式:求出整個量表的信度係數(ru)


 α信度係數法 


α信度係數是目前最常用的信度係數,其公式為:α=(k/(k-1))*(1-(∑Si^2)/ST^2)


其中,K為量表中題項的總數, Si^2為第i題得分的題內方差, ST^2為全部題項總得分的方差。從公式中可以看出,α係數評價的是量表中各題項得分間的一致性,屬於內在一致性係數。這種方法適用於態度、意見式問卷(量表)的信度分析。


總量表的信度係數最好在0.8以上,0.7-0.8之間可以接受;分量表的信度係數最好在0.7以上,0.6-0.7還可以接受。Cronbach 's alpha係數如果在0.6以下就要考慮重新編問卷。用於檢査測量的可信度,例如調查問卷的真實性。


2. 分類



列聯表是觀測數據按兩個或更多屬性(定性變量)分類時所列出的頻數表。


1. 簡介


若總體中的個體可按兩個屬性A、B分類,A有r個等級A1,A2,…,Ar,B有c個等級B1,B2,…,Bc,從總體中抽取大小為n的樣本,設其中有nij個個體的屬性屬於等級Ai和Bj,nij稱為頻數,將r×c個nij排列為一個r行c列的二維列聯表,簡稱r×c表。若所考慮的屬性多於兩個,也可按類似的方式作出列聯表,稱為多維列聯表。


列聯表又稱交互分類表,所謂交互分類,是指同時依據兩個變量的值,將所研究的個案分類。交互分類的目的是將兩變量分組,然後比較各組的分布狀況,以尋找變量間的關係。用於分析離散變量或定型變量之間是否存在相關。


列聯表分析的基本問題是,判明所考察的各屬性之間有無關聯,即是否獨立


如在前例中,問題是:一個人是否色盲與其性別是否有關?在r×с表中,若以pi、pj和pij分別表示總體中的個體屬於等級Ai,屬於等級Bj和同時屬於Ai、Bj的概率(pi,pj稱邊緣概率,pij稱格概率),「A、B兩屬性無關聯」的假設可以表述為H0:pij=pi·pj,(i=1,2,…,r;j=1,2,…,с),未知參數pij、pi、pj的最大似然估計(見點估計)分別為行和及列和(統稱邊緣和)為樣本大小。根據K.皮爾森(1904)的擬合優度檢驗或似然比檢驗(見假設檢驗),當h0成立,且一切pi>0和pj>0時,統計量的漸近分布是自由度為(r-1)(с-1) 的Ⅹ分布,式中Eij=(ni·nj)/n稱為期望頻數。當n足夠大,且表中各格的Eij都不太小時,可以據此對h0作檢驗:若Ⅹ值足夠大,就拒絕假設h0,即認為A與B有關聯。在前面的色覺問題中,曾按此檢驗,判定出性別與色覺之間存在某種關聯。


2. 需要注意


若樣本大小n不很大,則上述基於漸近分布的方法就不適用。對此,在四格表情形,R.A.費希爾(1935)提出了一種適用於所有n的精確檢驗法。其思想是在固定各邊緣和的條件下,根據超幾何分布(見概率分布),可以計算觀測頻數出現任意一種特定排列的條件概率。把實際出現的觀測頻數排列,以及比它呈現更多關聯跡象的所有可能排列的條件概率都算出來並相加,若所得結果小於給定的顯著性水平,則判定所考慮的兩個屬性存在關聯,從而拒絕h0。


對於二維表,可進行卡方檢驗;對於三維表,可作Mentel-Hanszel分層分析


列聯表分析還包括配對計數資料的卡方檢驗、行列均為順序變量的相關檢驗。


本文為轉載分享&推薦閱讀,若侵權請聯繫後臺刪除



相關焦點

  • 統計學最常用的「數據分析方法」清單(二)
    設法將原來變量重新組合成一組新的互相無關的幾個綜合變量,同時根據實際需要從中可以取出幾個較少的綜合變量儘可能多地反映原來變量的信息的統計方法叫做主成分分析或稱主分量分析,也是數學上用來降維的一種方法。 2.
  • 統計學最常用的「數據分析方法」清單(一)|信度|卡方|施測|統計量|...
    經常會有朋友問到一個朋友,數據分析常用的分析方法有哪些,我需要學習哪個等等之類的問題,今天數據分析精選給大家整理了十六種常用的數據分析方法,供大家參考學習。  2. 離中趨勢分析  離中趨勢分析主要靠全距、四分差、平均差、方差(協方差:用來度量兩個隨機變量關係的統計量)、標準差等統計指標來研究數據的離中趨勢。例如,我們想知道兩個教學班的語文成績中,哪個班級內的成績分布更分散,就可以用兩個班級的四分差或百分點來比較。  3. 相關分析  相關分析探討數據之間是否具有統計學上的關聯性。
  • 『支原體qPCR檢測』的方法學驗證
    生物源性原材料、採用細胞培養技術製備的疫苗、抗體,以及細胞或基因治療產品在生產過程的不同階段都要進行支原體汙染的檢查。 傳統支原體檢查方法是培養法和指示細胞培養法,並為藥典所認可和收錄。近年來,『支原體qPCR檢測』在工業領域的應用越來越多,但在項目申報前,先需要進行方法學驗證,依據藥典,在檢測限、特異性和耐用性方面達到要求後,才能替代傳統的檢查方法。
  • 數據分析必備——統計學入門基礎知識 - 人人都是產品經理
    編輯導語:不論在什麼崗位,都要懂得本崗位的基礎知識,打牢基礎後面才能穩步發展;數據分析也是如此,數據分析必須要掌握統計學的基礎知識;本文是作者分享的關於統計學入門基礎的知識,我們一起來學習一下吧。要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!
  • 數據分析必備——統計學入門基礎知識
    數據之路,與你同行!——數據說·夢想季 導讀:要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!因此,統計學是數據分析必須掌握的基礎知識,即通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。統計學用到了大量的數學及其它學科的專業知識,其應用範圍幾乎覆蓋了社會科學和自然科學的各個領域,而在數據量極大的網際網路領域也不例外,因此紮實的統計學基礎是一個優秀的數據人必備的技能。
  • 數據分析中『平均數』其實並不準確,是時候開始使用『中位數』了
    Mean這一概念最初由希臘數學家畢達哥拉斯提出。畢達哥拉斯時代的mean並不具有表徵作用,它指的只是三個數字中間的那個數字,那個數字必需與兩頭的數字呈「相等的關係」。這三個數字可以是等距(如2,4,6),也可以是等比(如1,10,100)。
  • 五種常用大數據分析方法
    2、通過轉化率定位轉化最有效的關鍵方法絕大部分的商業變現流程,都可以梳理出漏鬥,通常我們會採取多種方法希望增加轉化,漏鬥分析可以幫助我們很好的梳理整個業務流程,明確最重要的轉化節點,所以在分析的過程中,可以找出是否有其他不重要的過程參與,影響了主要流程的轉化,從而進行取捨優化  對比分析法  對比分析法不管是從生活中還是工作中,都會經常用到,對比分析法也稱比較分析法
  • 常見的7種數據分析手段
    本文將為產品經理介紹數據分析的基本思路,並基於此,衍生出 2 個常見方法和 7 個應用手段,希望在數據分析的實際應用中能給大家帶來幫助。一、數據分析的基本思路數據分析應該以業務場景為起始思考點,以業務決策作為終點。
  • 『認識』鉸刀特點·用途·種類
    鉸刀的特點:鉸刀效率(精鏜孔均是單刃切削,而鉸刀都在
  • 『因果推斷』主要英文期刊推薦
    很多小夥伴在問,如何快速地獲取最新的『因果推斷』相關研究成果,小編的建議就是有針對性地選擇幾本經常刊發『因果推斷』理論、方法與應用的期刊,跟蹤期刊最新的文章
  • 朋友圈瘋傳過的10條『近視謠言』,90%的人至今仍深信不疑!
    』— 答:兩者的發病機制截然不同,隨著老花程度的進展,近視眼同樣需要一副老花鏡,也就是說近視的人看遠看近都需要眼鏡了,比沒有近視的人更加麻煩。 ▼ 謠言 2 「 做眼珠轉動或遠眺等眼部動作 能治療近視 」 —『錯誤』—
  • 『因果關係』英文研究熱點知識圖譜
    前面我們分享了『因果關係』中文研究熱點知識圖譜(←超連結)
  • 股票投資中常用的一些分析方法
    學習巴菲特,不僅要學他的投資策略,更要學他分析問題的能力和方法,也就是思維方式,而思維方式不是一天兩天就能學到家的,重要的是要有相關的知識架構來支撐你的思維能力。那麼巴菲特常用的分析方法有哪些呢?或者說他平常都在思考什麼樣的問題呢?
  • 數據分析的幾種常用方法概覽(之二)
    數據分析常用方法概覽(之二)上一篇,我們了解了數據分析時常用的對比分析法、分組分析法、結構分析法、交叉分析法、漏鬥圖分析法、矩陣分析法、綜合評價分析法等八種分析方法,今天我們繼續了解下上文提到的另外八種常見數據分析方法。
  • 統計學原理 導論
    ——德國斯勒茲統計學在現實生活中的重要作用幾乎無處不在:一個數學(統計)算法成就一個巨大產業,如Google(PageRank搜索算法)大數據分析,本質上依賴於統計算法(網購、輿情)提升產品質量的核心手段之一是統計學的試驗設計經濟指數的建立,使人們對經濟運行的狀態的了解變得更容易組合投資、資產定價
  • 『點亮屏幕:攝·影·書』開啟冬日閱讀模式
    原創 PHOTOFAIRS PHOTOFAIRS影像藝術博覽會 收錄於話題#2021年影像上海藝術博覽會4#影像藝術博覽會2#『出版』1#『點亮屏幕:攝·影·書』1#如何讀,為什麼讀1
  • 常用的數據分析方法及案例講解
    常用的數據分析方法有描述統計、信度分析、相關分析、回歸分析、聚類分析等。本文將結合實際案例,為大家一一講解這些數據分析的方法。如果你想了解如何做數據分析,就接著看下去吧~描述性統計分析是通過圖表或數學方法,對數據資料進行整理、分析,並對數據的分布狀態、數字特徵和隨機變量之間關係進行估計和描述的方法。這也是我們在日常生活最常用的一種數據分析方法,因此這裡就不再用案例展開講解了。2、信度分析信度即可靠性,它是指採用同樣的方法對同一對象重複測量時所得結果的一致性程度。企業在招聘員工時會有一套性格測試題,這裡面就用到了信度分析。
  • 常用的四種大數據分析方法
    本文主要講述數據挖掘分析領域中,最常用的四種數據分析方法:描述型分析、診斷型分析、預測型分析和指令型分析。簡單地來說,分析可被劃分為4種關鍵方法。下面會詳細介紹這四種方法。1. 描述型分析:發生了什麼?
  • 『求生者對海月水母的理解』
    在盛夏的海邊,每年都有很多遊客被水母蟄傷,全球有大約250種水母,它們都是肉食生物,幾乎都帶有毒性,有的毒性極強,而且在海岸線都有可能隨機產生大量水母聚集。小編這次來到海邊遊泳,發現了一個比手掌大一些的水母,把它撈起來後,突然感到手腕處就像被針刺了一樣,發現手腕處出現了一些小紅點,接著紅腫起來,一開始可以說的非常痛,過了大約不到十分鐘,疼痛有些緩解,但還是有些痛感,寫這篇文章的時候已經距離蟄傷已經過去30個小時,被蟄傷的地方依然發紅,如果用手撓一撓,還會隱隱作痛。
  • Google和NASA一起開群嘲:『我們電腦比你們快100萬倍~』|極客早知道
    早在2013年Google和NASA就開始了他們對D-Wave X2量子計算的研究,D-Wave被認為是世界上第一個實現使用的量子計算機。不過直到今天,他們才真正證明了這一計算機模式的可行性。Google周三的宣布內容集中在了一種名為『量子退火』(quantum annealing)的技術,由它量子計算機的全新算法模式才得以實現,在面對大量可變的數據選項時,這一技術幫助計算機能在給定的多種可變選項面前,夠得出在總體上的最優計算結果。