SPSSAU數據分析思維培養系列2:分析方法

2020-11-29 SPSSAU

大家好!在上篇文章中,我們一起學習了如何掌握正確的數據處理思維搞定數據分析,你需要這樣的思維方式。在完成數據準備和清理工作後,就要進入到正式分析階段,而選擇什麼樣的數據分析方法進行分析是關鍵。

想要進行科學和系統化的數據分析,分析方法的思維是必備項。

本文為SPSSAU數據分析思維培養的第2篇文章,將分別從數據類型談起,剖析數據應該如何分析,包括數據的基礎描述,數據質量的判斷。除此之外,還進行差異關係,影響關係涉及的分析方法解析,最後針對更深入的影響關係進行說明。

希望通過本文幫助大家更快地掌握數學分析的思維,使用正確和科學的分析方法,完成科學的研究報告。

第1點,數據類型

進行數據分析的第一個思維,數據類型的識別。數據一般分成兩類,定類和定量,如下:

如果數據是類別,比如性別,或者醫學上的陽性陰性,數字1表示男2表示女;也或者數字1表示陽性0表示陰性。數字的大小是不能進行PK對比,而只能代表類別,此類數據SPSSAU稱為『定類數據』(也稱分類數據,定性數據等)。還有一類數據比如身高體重年齡,數字的大小具有實際意義可以對比大小,數字越大身高越高,體重越重,年齡越大,此類數據SPSSAU稱為『定量數據』(也稱連續數據)。

還有一種數據即像定類數據,也像定量數據。比如學歷分成4組,分別是大專以下,大專,本科,本科以上,分別使用數字1,2,3,4標識。我們可以把其看成是四個類別,也可以看成是數字越大學歷越高。針對此種數據在具體分析的時候需要看實際情況,一般來說把它看成定類數據更方便分析,那就看成是定類數據;如果把它看成定量數據更方便,那就看成是定量數據。

定類和定量數據的最大區別在於:定類數據一般是看頻數百分比,定量數據一般是看平均值;而且分析上定類數據一般只能看差異性,定量數據一般是看影響關係。接下來的內容中會更加理解這種思維上的區別。

第2點,基礎描述

上述第1點已經說明了數據類型的鑑別方法,那麼針對定類數據來講,一般就是使用頻數分析,查看選擇頻數和百分比;如果是定量數據一般就使用描述分析,查看平均值和中位數等。此兩項分析均可在SPSSAU通用方法裡面輕鬆地找到。

得到一份數據後,通常第一步就是查看數據情況,分別對定類和定量數據做下簡要的分析,以便對於數據基本特徵有個大概的了解,同時可查到數據是否具有異常值情況等。比如對身高做描述分析發現最小值為負數。

如果數據中有發現異常值,此時需要及時的進行處理,如果有異常數據但沒有處理,這種情況會導致後續的分析完全無用,因為異常數據對於分析的影響巨大。SPSSAU數據處理裡面有異常值功能,同時生成變量也提供比如Winsor處理等。

第3點,數據質量

除了對數據基礎情況有所了解外,還需要分析下數據的質量情況,如果數據中有量表,那麼信度分析和效度分析最好不過。效度分析時可使用EFA和CFA,即探索性因子和驗證性因子分析方法進行。信度或者效度分析等都是針對量表問卷一類的數據。

如果是實驗數據,也或者專家打分數據等,此類數據不能做問卷式的信度和效度分析,但是可用於評定數據的一致性情況等,當然也是用於驗證數據的有效可靠性等。此時可使用相關的方法比如ICC組內相關係數,Kappa係數,Kendall係數,也或者使用相關係數方法等,具體一致性檢驗方法的區別和使用情況,建議查看SPSSAU手冊,醫學/實驗研究方法裡面均有提供對應的研究方法。

第4點,差異關係

上述已經提及數據的類型,數據質量判斷,當所有數據都準備完善,去除掉無效樣本,異常值之後,數據質量也達標後。那麼進入正式的分析就顯得順其自然。什麼是差異關係呢,接下來舉例說明:

如果是定類數據的差異性,那麼可使用卡方擬合優度檢驗。比如想研究陽性和陰性這兩個組別的樣本比例是否有差異性。如果是研究2個定類數據的差異性,則需要使用卡方檢驗,SPSSAU有兩個按鈕均可進行卡方檢驗,包括通用方法裡面的交叉卡方和醫學研究裡面的卡方檢驗,區別在於後者可提供更多深入指標以及支持加權數據格式。

如果是定量數據的差異性,比如想研究樣本群體平均身高是否等於1.8,一般是使用單樣本T檢驗,但如果身高數據並不符合正態性時,此時可使用單樣本Wilcoxon檢驗。

如果是研究定類和定量數據的差異性,比如想研究不同性別群體的體重上是否有明顯的差異性,那麼方差分析或T檢驗均可,區別在於方差可對比多重(比如東北、西南、東南三個地區的差異),而T檢驗只對比兩組(比如男和女)的差異性。除此之外,如果這裡體重這個數據嚴重的不正態時,最好使用非參數檢驗進行,SPSSAU通用方法裡面有提供此方法。

如果是配對實驗數據,比如實驗前患病狀態(陽性和陰性),與實驗後患病狀態(陽性和陰性)的差異對比,明顯的是實驗數據且為定類數據差異對比,此時需要使用配對卡方。如果是實驗前成績和實驗後成績的對比,那麼是實驗數據且定量數據差異對比,此時使用配對T檢驗較多,當然如果說成績這個定量數據嚴重的不正態,此時使用配對Wilcoxon檢驗也許更優。

特別提示一點,實驗數據是指『實驗前和實驗後』,也或者『同一個樣本分別測量兩次』這種情況。常見的實驗組和對照組數據並不是絕對的實驗數據,對比差異時一般是使用普通的T檢驗,而不是配對T檢驗。

除此之外,有時候實驗數據的對比,比如同一個病例進行3次測量,測量1、測量2、測量3的對比差異性,此時可使用比如Friedman檢驗等。

第5點,影響關係

上述講完差異關係,差異係數研究時,基本上都會有定類數據。因為定類數據是不同的類別,不同類別間只能說類別A和類別B是否有明顯的不一樣,也就是差異性。定量數據能說越怎麼樣越怎麼樣,比如身高越高體重越重。因此定量數據更容易進行影響關係,即帶『回歸』二字的影響關係研究。

影響關係是研究X影響Y;如果Y是定量數據,那麼一般是使用線性回歸;線性回歸的使用頻率最高而且深入最高,其延遲出來還有比如分層線性回歸、逐步回歸等等,其實質上就是線性回歸,只是另外一種變形(為了解決特定問題而產生)而已。

如果Y是定類數據,那麼就應該使用Logit回歸等。Logit回歸還可分為3類,如果Y是二分類(比如是和否),那麼就叫二元Logit回歸;如果Y是多個類別,那麼就叫多分類Logit回歸。如果說Y是定類數據(但同時又可看成是定量數據),那麼可使用有序多分類Logit回歸。

除此之外,如果研究的回歸影響關係是曲線的,比如二次曲線,三次曲線等,那麼就可以使用曲線回歸。

針對X對於Y的研究上,一般情況下是多個X對於1個Y的影響;如果是研究多個X對於多個Y的影響,那麼可選的方法包括PLS回歸、典型相關等。

第6點,深入影響關係

除上一部分的影響關係研究外,還有更深入的影響關係拓展。比如心理學、管理學上的調節作用或中介作用研究等,其實質上就是線性回歸的升華和拓展,它們是分析方法的實質應用,比如調節作用和中介作用,一般就是使用分層線性回歸進行驗證。

當然當前還有更深入的研究,比如多個X和多個Y之間的影響關係情況研究,可使用路徑模型,結構方程模型等進行深入分析。否則的話就需要重複進行多次線性回歸分析。

除此之外,當前還有一些更深入的影響關係研究,比如面板回歸模型,嶺回歸等,其實質上依舊是影響關係研究。但區別在於比如面板回歸模型,它是特定對於面板數據進行的回歸影響關係研究。嶺回歸是特定解決數據的共線性問題共誕生的研究方法而已,全部在SPSSAU平臺裡面均能找到。

總結

數據分析思維的培訓上,最關鍵的是數據類型的區別,接著針對數據的清理(即通過基礎描述和數據質量的分析),並且區分數據類型後,採用差異研究和影響關係,也或者更深入的影響關係研究,最終為實際研究服務。

一文無法全部概括所有的研究,希望對數據分析思維有所引導。比如數據其實還有其它的研究,包括數據濃縮(主成分或因子分析)、數據聚類(Kmeans聚類、分層聚類)等等,在後續的文章中均會單獨進行說明。

相關焦點

  • SPSSAU數據分析思維培養系列3:分析思路篇
    本文章為SPSSAU數據分析思維培養的第3期文章。上文講解如何選擇正確的分析方法,除了有正確的分析方法外,還需要把分析方法進行靈活運用。拿到一份數據,應該如何進行分析,總共有幾個步驟,第一步第二步應該做什麼,需要有個宏觀把控,只有這樣才能有規範的研究科學的思維和邏輯。
  • 快速掌握SPSS數據分析
    無非就是數據類型的區別後,就能理解應該用什麼樣的分析方法,對應著分析方法無非是找一些參考資料進行即可。甚至在線網頁SPSS軟體直接可以將數據分析結果指標人工智慧地分析出來,這有多難呢?本文章將周老師(統計學專家)8年的數據分析經驗濃縮,便於讓不會數據分析的同學,在學習數據分析的過程中可以少走彎路,樹立數據分析價值觀,以及以數據進行決策的思維意識,並且可以快速的掌握數據分析。
  • 學會spss就能找到數據分析工作嗎
    大學課堂上學習了spss,老師也講了很多知識,但是現在準備畢業了,我做的實習工作就是用業內的數據進行最新的行業研究。現在真正需要用到spss進行分析了,我卻看不懂老闆給的數據和分析要求,難道這就是理論與實際的脫節嗎?
  • 大數據分析關鍵的5個思維
    數據分析在網際網路公司的重要性不言而喻,隨著社會對數據分析人才需求量的增大,越來越多的人在朝數據分析的方向發展。但很多人談到數據分析時首先想到的是數據分析工具,如Python、SQL等,卻忽略了數據分析思維的培養。
  • 試想一下,用PDCA(戴明環)方法來培養數據分析能力會怎麼樣?
    這樣我們才能得到同事的認可,上司的肯定,今天為大家介紹一個名叫「PDCA循環」的方法論,用它來培養我們的數據分析能力,同時它是一個能夠幫助我們有效進行任何工作的一項工具。 首先,我們得知道什麼是PDCA循環。
  • 數據分析能力的核心是思維
    對於業務人,比如產品或運營,數據分析能力的核心不在方法和工具,而在於思維。以上,我覺得太在意數據分析方法和工具,我覺得都還沒有把握住一個業務人數據分析能力的核心。數據分析只是手段,它的誤區就是,太在意方法和工具。而最缺少的,恰恰是最重要的思維。數據分析的本質數據分析最重要的思維就是,不斷確定業務中兩組變量之間的關係,用以解釋業務。收入、轉化、用戶規模、用戶活躍等,我們稱為現象。而只有通過數據量化的現象,我們才能精準感知。所以,數據是用來描述現象的,是被量化的現象。
  • 交完論文才發現spss數據分析做錯了
    我將論文翻了一遍,發現原來是文章的spss分析做錯了,裡面的一個分析結果與論文的結論完全相反。由於自己做的太快,看到有結果就直接把分析表格複製粘貼到了論文裡,所以完全沒看出來。回到宿舍,我苦惱地思考怎麼修改。因為太久沒用spss了,我已經忘記了當初的分析步驟。本來就是為了畢業論文現學的軟體,一步一步上網搜索怎麼做,艱難地寫出來的,現在讓我回憶這些真的太難了。
  • 5個要點,讓你擁有數據分析思維
    本文分析了如何擁有數據分析思維的5個要點:說事實,而不是觀點、用客觀標準代替主觀判斷、不預設立場、演繹而不是歸納、找出背後的邏輯。大部分的數據分析教學都會教你excel,Python,sql,機器學習,還有一些分析方法比如對比分析、漏鬥分析、留存分析等等技能。但是,很多人掌握了這麼多工具和技能,依然做不好數據分析。面對具體的業務問題,我們還是容易兩眼一抹黑。就像我們大部分人學習英語,都會學習單詞、語法、音標等等,但是一開口就跪了。
  • 大數據信息分析的方法與工具
    那麼大數據給我們帶來了什麼好處呢?大數據最大的好處在於能夠讓我們從這些數據中分析出很多智能的、深入的、有價值的信息。,確定性關係主要是數量關係,是定量分析的基礎   2、信息分析的思維模式   (1)樣本微觀分析:信息分析以數據、信息和現象為對象,一般是從全體或總體中選擇部分樣本進行分析,稱為樣本分析或抽樣分析
  • 數據分析必備思維之:邏輯思維
    本文來說一下數據分析必備的第二種思維——邏輯推理思維。邏輯推理一般有演繹法、歸納法、類比法,文章簡單介紹一下數據分析工作中比較常用的演繹法和歸納法。我翻閱了一些數據分析師的招聘要求,幾乎所有的招聘要求中,都會有這麼一條,叫做「邏輯思維能力強」。但是又很少有人能說清楚到底什麼叫做「邏輯思維能力強」。
  • 9種常用數據分析方法
    數據分析是從數據中提取有價值信息的過程,過程中需要對數據進行各種處理和歸類,只有掌握了正確的數據分類方法和數據處理模式,才能起到事半功倍的效果,以下是數據分析員必備的9種數據分析思維模式:分類分類是一種基本的數據分析方式,數據根據其特點,可將數據對象劃分為不同的部分和類型,再進一步分析,能夠進一步挖掘事物的本質。2.
  • 數據分析基礎思維之:指標思維
    在數據分析工作中,數據必須呈現的是事實而不能是觀點,這樣才能保證每個人接收到的信息是相同的。而想要保持穩定的事實能力,指標思維是不可忽略的一個關鍵點。數據分析思維繫列文章第一部分留了一個尾巴,還有一個底層思維——事實思維沒有介紹。但是我覺得事實思維可以直接引申到指標思維,因此乾脆放到一起說。
  • 從諮詢公司學到的思考分析方法:矩陣思維
    今天便介紹給大家一款思考框架:矩陣思維。這裡的矩陣不涉及數學概念,我第一次接觸到它,還是在大學畢業季,那時不斷為面試準備,囫圇吞棗地學了不少應試招數。其中一種叫波士頓矩陣(BCG Matrix)。它是由波士頓諮詢公司創始人首創。波士頓矩陣在傳統以營銷為主導的企業中,不論是日用品消費還是生產製造加工,企業一定有一系列的產品。
  • 從電影中看:探索性數據分析思維應用
    在電影《東方快車謀殺案》中,神探波洛利用探索性分析的思維方式完美破案,而在日常工作中,我們也可以利用該思維解決難題。現在已經進入DT時代,海量、混亂的數據不斷湧來,我們需要理清頭緒,探尋數據間的內在聯繫,這就好像偵探辦案,雖然人們總形容偵探「目光犀利、嗅覺敏銳」,似乎偵探是條犬科動物。然而偵探本人通常不會僅僅靠著自己的眼睛和鼻子辦事兒。
  • 辦公必備的大數據分析利器,數據分析工具推薦
    說到數據分析,很多小夥伴可能第一時間聯想到複雜的算法,龐大的數據,甚至是讓人眼花繚亂的代碼。但實際上,運營做數據分析並不需要懂這些,關鍵是你對業務流程的理解,以及用數據解決問題的思維。本文將介紹在一些領域被高頻率使用,且不可缺少的大數據分析利器,使用尚可的數據分析工具。
  • 數據分析入門:14種常用的數據分析方法
    分析數據是將收集的數據通過加工、整理和分析、使其轉化為信息,通常用方法有:排列圖排列圖是一種找出影響產品質量主要因素的圖表方法。其結構是由兩個縱坐標和一個橫坐標,若干個直方形和一條折線構成。魚骨圖魚骨圖是一種發現問題「根本原因」的方法,用於質量管理。方法是通過頭腦風暴找出問題的可能原因,並將它們與特性值一起,按相互關聯性整理而成的層次分明、條理清楚,並標出重要因素。
  • 數據分析常用的7大思維方法詳解
    結構思維  很多人在分析的時候沒有思路,不知道從何下手,這就是缺少結構化思維的表現  不如我們就直接看一下下面這個例子,看看大家是否具有結構化思維:  一家線下零售企業最近某個產品的銷售額下降了,讓你找一下造成銷售額下降的原因是什麼。
  • 數據分析科普系列:2—祭出大招(假設檢驗)
    咳咳,各位搬好小板凳,宗介數據分析專題正式開講了,雖本次為系列第二節課,但是你的焦慮我懂得,所以不再扯淡,直接上乾貨,本次乾貨就是經典統計學大招:假設檢驗。由於涉及一些專業名詞,宗介儘量用通俗去和大家一起探討數據分析應用。
  • 論文常用數據分析方法分類總結-2
    上篇文章我們總結了基本描述統計、信度分析、效度分析、差異關係、影響關係五種常見分析方法,下面繼續我們的總結。6. 相關分析匯總相關分析用於研究X和Y的關係情況,X、Y都為定量數據。如果Y有兩個選項時,可使用二元Logit回歸如果Y的選項大於2個時,可使用多分類Logit回歸如果Y為定類數據,且選項有順序大小之分時,可使用有序Logit回歸9.
  • 方差分析常見問題匯總,你想知道的都在這裡
    此時可考慮使用Welch anova或Brown-Forsythe anova或非參數檢驗作為代替方法,進行分析。方差分析④問題四:方差分析需要的數據格式?正常問卷數據(即原始格式)可直接進行分析。原始格式參考:https://spssau.com/front/spssau/helps/otherdocuments/methodsdataformat.html如果是實驗數據,通常要把數據按照下圖格式進行整理:數據格式整理前,每一組數據結果各佔一列