「統計學」最常用的數據分析方法都在這了!Part.2

2020-09-10 中國統計網

文末掃碼領取【統計學知識導圖】


阿平 | 作者

知乎 | 來源




一.相關分析


研究現象之間是否存在某種依存關係,對具體有依存關係的現象探討相關方向及相關程度。


  • 單相關:兩個因素之間的相關關係叫單相關,即研究時只涉及一個自變量和一個因變量
  • 復相關 :三個或三個以上因素的相關關係叫復相關,即研究時涉及兩個或兩個以上的自變量和因變量相關
  • 偏相關:在某一現象與多種現象相關的場合,當假定其他變量不變時,其中兩個變量之間的相關關係稱為偏相關


二.主成分分析


主成分分析(Principal Component Analysis,PCA), 是一種統計方法。通過正交變換將一組可能存在相關性的變量轉換為一組線性不相關的變量,轉換後的這組變量叫主成分。


主成分分析首先是由K.皮爾森(Karl Pearson)對非隨機變量引入的,爾後H.霍特林將此方法推廣到隨機向量的情形。信息的大小通常用離差平方和或方差來衡量。


1. 原理


在用統計分析方法研究多變量的課題時,變量個數太多就會增加課題的複雜性。人們自然希望變量個數較少而得到的信息較多。在很多情形,變量之間是有一定的相關關係的,當兩個變量之間有一定相關關係時,可以解釋為這兩個變量反映此課題的信息有一定的重疊。


主成分分析是對於原先提出的所有變量,將重複的變量(關係緊密的變量)刪去多餘,建立儘可能少的新變量,使得這些新變量是兩兩不相關的,而且這些新變量在反映課題的信息方面儘可能保持原有的信息。


設法將原來變量重新組合成一組新的互相無關的幾個綜合變量,同時根據實際需要從中可以取出幾個較少的綜合變量儘可能多地反映原來變量的信息的統計方法叫做主成分分析或稱主分量分析,也是數學上用來降維的一種方法。


2. 缺點


在主成分分析中,我們首先應保證所提取的前幾個主成分的累計貢獻率達到一個較高的水平(即變量降維後的信息量須保持在一個較高水平上),其次對這些被提取的主成分必須都能夠給出符合實際背景和意義的解釋(否則主成分將空有信息量而無實際含義)。


主成分的解釋其含義一般多少帶有點模糊性,不像原始變量的含義那麼清楚、確切,這是變量降維過程中不得不付出的代價。因此,提取的主成分個數m通常應明顯小於原始變量個數p(除非p本身較小),否則維數降低的「利」可能抵不過主成分含義不如原始變量清楚的「弊」。


三.因子分析


一種旨在尋找隱藏在多變量數據中、無法直接觀察到卻影響或支配可測變量的潛在因子、並估計潛在因子對可測變量的影響程度以及潛在因子之間的相關性的一種多元統計分析方法。


1. 與主成分分析比較


  • 相同:都能夠起到治理多個原始變量內在結構關係的作用
  • 不同:主成分分析重在綜合原始變化的信息;而因子分析重在解釋原始變量間的關係,是比主成分分析更深入的一種多元統計方法


2. 用途


  • 減少分析變量個數
  • 通過對變量間相關關係探測,將原始變量進行分類


四.信度分析


信度(Reliability)即可靠性,它是指採用同樣的方法對同一對象重複測量時所得結果的一致性程度。信度指標多以相關係數表示,大致可分為三類:穩定係數(跨時間的一致性),等值係數(跨形式的一致性)和內在一致性係數(跨項目的一致性)。信度分析的方法主要有以下四種:重測信度法、複本信度法、折半信度法、α信度係數法。


1. 方法


重測信度法編輯


這一方法是用同樣的問卷對同一組被調查者間隔一定時間重複施測,計算兩次施測結果的相關係數。顯然,重測信度屬於穩定係數。


重測信度法特別適用於事實式問卷,如性別、出生年月等在兩次施測中不應有任何差異,大多數被調查者的興趣、愛好、習慣等在短時間內也不會有十分明顯的變化。如果沒有突發事件導致被調查者的態度、意見突變,這種方法也適用於態度、意見式問卷。


由於重測信度法需要對同一樣本試測兩次,被調查者容易受到各種事件、活動和他人的影響,而且間隔時間長短也有一定限制,因此在實施中有一定困難。


複本信度法編輯


讓同一組被調查者一次填答兩份問卷複本,計算兩個複本的相關係數。複本信度屬於等值係數


複本信度法要求兩個複本除表述方式不同外,在內容、格式、難度和對應題項的提問方向等方面要完全一致,而在實際調查中,很難使調查問卷達到這種要求,因此採用這種方法者較少。


折半信度法編輯


折半信度法是將調查項目分為兩半,計算兩半得分的相關係數,進而估計整個量表的信度。折半信度屬於內在一致性係數,測量的是兩半題項得分間的一致性。


這種方法一般不適用於事實式問卷(如年齡與性別無法相比),常用於態度、意見式問卷的信度分析。


在問卷調查中,態度測量最常見的形式是5級李克特(Likert)量表(李克特量表(Likert scale)是屬評分加總式量表最常用的一種,屬同一構念的這些項目是用加總方式來計分,單獨或個別項目是無意義的。它是由美國社會心理學家李克特於1932年在原有的總加量表基礎上改進而成的。該量表由一組陳述組成,每一陳述有&34;、&34;、&34;、&34;、&34;五種回答,分別記為5、4、3、2、1,每個被調查者的態度總分就是他對各道題的回答所得分數的加總,這一總分可說明他的態度強弱或他在這一量表上的不同狀態。)。


進行折半信度分析時,如果量表中含有反意題項,應先將反意題項的得分作逆向處理,以保證各題項得分方向的一致性,然後將全部題項按奇偶或前後分為儘可能相等的兩半,計算二者的相關係數(rhh,即半個量表的信度係數),最後用斯皮爾曼-布朗(Spearman-Brown)公式:求出整個量表的信度係數(ru)


α信度係數法


α信度係數是目前最常用的信度係數,其公式為:α=(k/(k-1))*(1-(∑Si^2)/ST^2)


其中,K為量表中題項的總數, Si^2為第i題得分的題內方差, ST^2為全部題項總得分的方差。從公式中可以看出,α係數評價的是量表中各題項得分間的一致性,屬於內在一致性係數。這種方法適用於態度、意見式問卷(量表)的信度分析。


總量表的信度係數最好在0.8以上,0.7-0.8之間可以接受;分量表的信度係數最好在0.7以上,0.6-0.7還可以接受。Cronbach 's alpha係數如果在0.6以下就要考慮重新編問卷。用於檢測測量的可信度,例如調查問卷的真實性。


2. 分類


  • 外在信度:不同時間測量時量表的一致性程度,常用方法重測信度
  • 內在信度:每個量表是否測量到單一的概念,同時組成兩表的內在體項一致性如何,常用方法分辨信度


五.列聯表分析


列聯表是觀測數據按兩個或更多屬性(定性變量)分類時所列出的頻數表。


1. 簡介


若總體中的個體可按兩個屬性A、B分類,A有r個等級A1,A2,…,Ar,B有c個等級B1,B2,…,Bc,從總體中抽取大小為n的樣本,設其中有nij個個體的屬性屬於等級Ai和Bj,nij稱為頻數,將r×c個nij排列為一個r行c列的二維列聯表,簡稱r×c表。若所考慮的屬性多於兩個,也可按類似的方式作出列聯表,稱為多維列聯表。


列聯表又稱交互分類表,所謂交互分類,是指同時依據兩個變量的值,將所研究的個案分類。交互分類的目的是將兩變量分組,然後比較各組的分布狀況,以尋找變量間的關係。用於分析離散變量或定型變量之間是否存在相關。


列聯表分析的基本問題是,判明所考察的各屬性之間有無關聯,即是否獨立


如在前例中,問題是:一個人是否色盲與其性別是否有關?在r×с表中,若以pi、pj和pij分別表示總體中的個體屬於等級Ai,屬於等級Bj和同時屬於Ai、Bj的概率(pi,pj稱邊緣概率,pij稱格概率),「A、B兩屬性無關聯」的假設可以表述為H0:pij=pi·pj,(i=1,2,…,r;j=1,2,…,с),未知參數pij、pi、pj的最大似然估計(見點估計)分別為行和及列和(統稱邊緣和)為樣本大小。根據K.皮爾森(1904)的擬合優度檢驗或似然比檢驗(見假設檢驗),當h0成立,且一切pi>0和pj>0時,統計量的漸近分布是自由度為(r-1)(с-1) 的Ⅹ分布,式中Eij=(ni·nj)/n稱為期望頻數。當n足夠大,且表中各格的Eij都不太小時,可以據此對h0作檢驗:若Ⅹ值足夠大,就拒絕假設h0,即認為A與B有關聯。在前面的色覺問題中,曾按此檢驗,判定出性別與色覺之間存在某種關聯。


2. 需要注意


若樣本大小n不很大,則上述基於漸近分布的方法就不適用。對此,在四格表情形,R.A.費希爾(1935)提出了一種適用於所有n的精確檢驗法。其思想是在固定各邊緣和的條件下,根據超幾何分布(見概率分布),可以計算觀測頻數出現任意一種特定排列的條件概率把實際出現的觀測頻數排列,以及比它呈現更多關聯跡象的所有可能排列的條件概率都算出來並相加,若所得結果小於給定的顯著性水平,則判定所考慮的兩個屬性存在關聯,從而拒絕h0。


對於二維表,可進行卡方檢驗;對於三維表,可作Mentel-Hanszel分層分析


列聯表分析還包括配對計數資料的卡方檢驗、行列均為順序變量的相關檢驗。


- END -

本文為轉載分享&推薦閱讀,若侵權請聯繫後臺刪除

相關焦點

  • 統計學最常用的「數據分析方法」清單(一)
    經常會有朋友問到一個朋友,數據分析常用的分析方法有哪些,我需要學習哪個等等之類的問題,今天數據分析精選給大家整理了十六種常用的數據分析方法,供大家參考學習。  2. 離中趨勢分析  離中趨勢分析主要靠全距、四分差、平均差、方差(協方差:用來度量兩個隨機變量關係的統計量)、標準差等統計指標來研究數據的離中趨勢。例如,我們想知道兩個教學班的語文成績中,哪個班級內的成績分布更分散,就可以用兩個班級的四分差或百分點來比較。  3. 相關分析  相關分析探討數據之間是否具有統計學上的關聯性。
  • 統計學最常用的「數據分析方法」清單(下)
    本文是<統計學最常用的數據分析方法清單>的下篇,沒有看過上篇的小夥伴請點擊【D】統計學最常用的「數據分析方法」清單(上)複習內容哦!與主成分分析比較相同:都能夠起到治理多個原始變量內在結構關係的作用不同:主成分分析重在綜合原始變適的信息,而因子分析重在解釋原始變量間的關係,是比主成分分析更深入的一種多元統計方法2.
  • 統計學最常用的「數據分析方法」清單(上)
    相關分析相關分析探討數據之間是否具有統計學上的關聯性。實際上,相關關係唯一不研究的數據關係,就是數據協同變化的內在根據——即因果關係。獲得相關係數有什麼用呢?簡而言之,有了相關係數,就可以根據回歸方程,進行A變量到B變量的估算,這就是所謂的回歸分析,因此,相關分析是一種完整的統計研究方法,它貫穿於提出假設,數據研究,數據分析,數據研究的始終。
  • 「數據分析」的理念、流程、方法、工具
    不論是網際網路行業,還是零售業、製造業等,各行各業都在依託網際網路大數據(數據採集、數據存儲、數據處理、數據挖掘、數據分析、數據呈現)實現企業價值。 2. RFM模型分群法 傳統行業對用戶分類最常用的方法是RFM模型,RFM分別是三個英文單詞的首字母。
  • 五種常用大數據分析方法
    2、通過轉化率定位轉化最有效的關鍵方法絕大部分的商業變現流程,都可以梳理出漏鬥,通常我們會採取多種方法希望增加轉化,漏鬥分析可以幫助我們很好的梳理整個業務流程,明確最重要的轉化節點,所以在分析的過程中,可以找出是否有其他不重要的過程參與,影響了主要流程的轉化,從而進行取捨優化  對比分析法  對比分析法不管是從生活中還是工作中,都會經常用到,對比分析法也稱比較分析法
  • 史上最全的,統計學常用的數據分析方法大總結
    △相關分析相關分析探討數據之間是否具有統計學上的關聯性。這種方法一般不適用於事實式問卷(如年齡與性別無法相比),常用於態度、意見式問卷的信度分析。在問卷調查中,態度測量最常見的形式是5級李克特(Likert)量表(李克特量表(Likert scale)是屬評分加總式量表最常用的一種,屬同一構念的這些項目是用加總方式來計分,單獨或個別項目是無意義的。它是由美國社會心理學家李克特於1932年在原有的總加量表基礎上改進而成的。
  • 統計學常用的數據分析方法大總結!
    用推論統計方法進行數據處理,最後會得出類似這樣兒的結論:「研究發現,大學畢業生組的成績顯著高於初中畢業生組的成績,二者在0.01水平上具有顯著性差異,說明大學畢業生的一些智力測驗成績優於中學畢業生組。」很多統計方法都要求數值服從或近似服從正態分布,所以之前需要進行正態性檢驗。常用方法:非參數檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動差法。
  • 【乾貨】統計學最常用的「數據分析方法」清單(上)
    描述統計是通過圖表或數學方法,對數據資料進行整理、分析,並對數據的分布狀態、數字特徵和隨機變量之間關係進行估計和描述的方法。描述統計分為集中趨勢分析和離中趨勢分析和相關分析三大部分。1.相關分析相關分析探討數據之間是否具有統計學上的關聯性。
  • 「Why-What-How」數據分析方法
    統一認知後,才能保證不同層級,不同部門的人在平等話語權和同一個方向進行討論和協作,才能避免公司內的人以「我感覺」「我猜測」來猜測當前業務的情況。除了「量化」之外,另外一個重點詞語是「業務」。只有解決業務問題分析才能創造價值,價值包括個人價值和公司價值。對於公司來講,你提高了收入水平或者降低了業務成本,對於個人來講,你知道怎麼去利用數據解決業務問題,這對個人的能力成長和職業生涯都有非常大的幫助。
  • 乾貨|統計學常用的數據分析方法大總結
    △相關分析相關分析探討數據之間是否具有統計學上的關聯性。實際上,相關關係唯一不研究的數據關係,就是數據協同變化的內在根據——即因果關係。獲得相關係數有什麼用呢?簡而言之,有了相關係數,就可以根據回歸方程,進行A變量到B變量的估算,這就是所謂的回歸分析,因此,相關分析是一種完整的統計研究方法,它貫穿於提出假設,數據研究,數據分析,數據研究的始終。
  • 統計學最常用的「數據分析方法」清單(二)
    設法將原來變量重新組合成一組新的互相無關的幾個綜合變量,同時根據實際需要從中可以取出幾個較少的綜合變量儘可能多地反映原來變量的信息的統計方法叫做主成分分析或稱主分量分析,也是數學上用來降維的一種方法。 2.
  • R 語言之數據分析高級方法「主成分分析」和「因子分析」
    本節主要總結「數據分析」的「主成分分析」和「因子分析」的思想。通過學習《 R 語言實戰 》關於這兩種方法的解釋,我們很容易理解這兩種方法其存在的意義。——降維。我們將要面對的數據實在是太大,變量實在太多,因此計算機所承受的壓力也會越來越大。信息過度複雜是多變量數據最大的挑戰之一,特別是在還要考慮變量間交互關係的時候,變量增加時交互關係的量是按階乘關係在往上漲的,所以降維在很多時候能夠起到減少大量工作量的作用,是數據分析很重要的一個思想。以上是「主成分分析」與「因子分析」聯繫,有共同的目的。
  • 「大數據分析」深入淺出:如何從零開始學習大數據分析與挖掘
    在公司實際工作中,最好的大數據挖掘工程師一定是最熟悉和理解業務的人。對於大數據挖掘的學習心得,作者認為學習數據挖掘一定要結合實際業務背景、案例背景來學習,這樣才是以解決問題為導向的學習方法。2、聚類問題細分市場、細分客戶群體都屬於數據挖掘的聚類問題,我們要掌握聚類特點,知道無監督學習,了解常見的聚類算法,例如劃分聚類、層次聚類、密度聚類、網格聚類、基於模型聚類等。
  • 「競品分析」的理念、流程、方法、工具
    2,競品分析與市場分析其實是有區別的。市場分析、競品分析、產品分析、產品體驗分析在「分析目的」、「產品數量」、「分析維度」三個方面都是有所區別的,是一個從宏觀到微觀的過程。對於個人來說,不論是產品運營還是產品經理,競品分析都是職業技能的重要組成部分,多做競品分析還能提升我們的「產品感」。一份優秀的「競品分析報告」甚至有可能成為你職業生涯的轉折點。
  • 擁有「數據分析」+「數據可視化」能力,更能受到社會偏愛?
    數據分析其實是時代下的產物,隨著大數據的應用,數據分析可以幫助企業了解到自身的情況和行業環境,輔助進行風險評判與決策,那麼數據分析員/師賦予的分析報告的價值,才是對企業最有用的。乍一聽『數據分析』,無論是從名頭上,還是從工作內容上,都感覺很高大上。
  • 數據分析必備——統計學入門基礎知識
    ——數據說·夢想季 導讀:要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!因此,統計學是數據分析必須掌握的基礎知識,即通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。
  • 數據分析必備——統計學入門基礎知識 - 人人都是產品經理
    編輯導語:不論在什麼崗位,都要懂得本崗位的基礎知識,打牢基礎後面才能穩步發展;數據分析也是如此,數據分析必須要掌握統計學的基礎知識;本文是作者分享的關於統計學入門基礎的知識,我們一起來學習一下吧。要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!
  • 數據分析的理念、流程、方法、工具
    2. RFM模型分群法 (1)RFM模型——用於建立分群維度 傳統行業對用戶分類最常用的方法是RFM模型,RFM分別是三個英文單詞的首字母。同期群分析是指將用戶進行同期群劃分以後,分析和對比不同同期群組用戶的相同指標。五、數據分析模型 很多時候我們聽到「模型」兩個字都會覺得高深莫測,當然也有不少人會對這種「學院派」的做法嗤之以鼻。但實際上,模型只是「對數據分析思路的抽象」,通過模型能快速幫助我們梳理思路,理清數據的內在關聯。
  • HR數據分析常用的統計學知識,立即收藏!
    這一次,Daisy想特別滴捋一捋統計學知識和常用分析方法的實操過程,讓大家不僅懂得人力資本分析是怎麼回事,也能親自動手,「捅破最後一層窗戶紙」。   開講前,Daisy說,對於從事HR的大多數文科生而言,下午的內容可能真的會有點難度。大家做個決定是不是要繼續,也可以現在就退學費出去吃火鍋哈。
  • R 語言之數據分析「Resampling」
    本節主要總結「數據分析」的「Resampling」重抽樣思想,並通過 R 語言實現。有一種東西叫作「傳統」,它在很多時候很有用,但會讓你思維固化,在新的環境下讓你出錯。在總結回歸分析和方差分析的時候 ④R語言之數據分析「初章」,我總是會在模型的建立之前提到「統計假設」,在模型建立之後進行「假設檢驗」,原因想必大家都能理解,就是因為這些「統計假設」是我們模型建立思想的基礎,是支撐我們模型正確性的「必要條件」。但是,不可否認的是,這些「必要條件」最終會成為我們「數據分析」的局限,讓我們對「不滿足條件的數據集」束手無策。