正確的數據格式是分析的基礎,一直以來大家問得最多的就是數據格式的問題。什麼樣的格式才能分析?為什麼我的數據顯示格式不對?怎麼批量添加標籤?針對這樣那樣的問題,今天我們就來總結一下。
一、格式規範
1、基礎格式
數據格式是基礎,其中我們最常見的數據格式是原始數據格式。下圖即是一份原始數據,它的特點是:一行代表一個樣本,一列代表一個屬性。
這樣的數據有多少樣本,就需要錄入多少行,100個樣本錄入一百行,每一行即代表一個樣本的回答數據;每列代表一個屬性即一個變量。而不能是已經進行過統計的數據。
2、文字標籤
上傳時數據須為數字格式,如果想讓結果顯示成具體的文字標籤,而不是數字。可以在Excel中添加一個工作表批量為數據設置標籤。
標籤設置步驟如下:
第1個sheet裡放收集到的數據;新建一個sheet「tags」放置標籤。
「tags」工作表中共包括3列內容:「標題」、「數字」和「標籤」
「標題」列,放置標題,且不能有完全相同一模一樣的標題。「數字」列,放置每項的數值,比如5個選項「1,2,3,4,5」就分5行放置。「標籤」列,放置對應數字的標籤信息。
3、無法識別數據如何處理
有時上傳數據會提示「無有效數據」或只識別出部分數據,大概率還是由於數據格式不規範導致的。
遇到上面的問題,可以按這樣的步驟檢查數據:
第一:如果EXCEL上傳,數據應該放在第一個工作表裡面,如果不是請調整後再上傳。第二:EXCEL數據中不能合併單元格,如果有合併單元格,請取消合併。第三:數據第1行一定是標題,如果本該有標題但是為空,請處理後再上傳。
二、常見方法格式
在日常分析中,有些分析方法使用的格式與常規的格式不太一樣。因此我們除了用到原始數據,有時也需要根據所用的分析方法,將數據整理成可以分析的格式。
1、T檢驗、方差分析
T檢驗、方差分析都是研究不同組別的差異,比如不同學歷時滿意度的差異。因此數據格式中一定需要有組別X(比如學歷)和分析項Y(比如滿意度)。
有時候只有分析項(比如3個分析項),但是現在希望此3個分析項的差異,那麼就需要對數據進行改造,自己加入一列『組別』,然後把數據重疊起來得到分析項Y,類似如下圖:
如果是用t檢驗對比兩組數據,比如實驗組和對照組,也需要加入一列『組別』項,類似如下圖:
2、配對T檢驗
配對數據的格式相對較為特殊,包括配對t 檢驗、配對卡方、配對樣本Wilcoxon等。比如實驗組和對照組數據的差異。如下圖:
配對數據一般是在實驗時使用,而且配對數據的特點為:行數一定完全相等並且只有兩列。如果研究數據的行數不相等,那可能不是配對數據,如果還想對比差異,可能需要使用獨立t 檢驗。
3、多選題
在問卷研究時會使用到多選題,多選題的數據格式比較特殊。比如一個多選題有4個選項,那麼其數據中就會有4列,分別代表4個選項。而且使用數字1表示選中,數字0表示沒有選中。如下圖:
分析時將同一多選題下的選項一起放入進行分析才可以。
4、卡方檢驗
SPSSAU系統中的卡方檢驗,支持兩種數據格式:一是常規格式,另一種是加權數據格式。
對於只有匯總結果的數據,無法整理成原始數據。此時就可以整理為加權數據格式。格式要求如下:
比如下圖中X有2種情況,Y有3個情況,一種有2*3=6種組合,數據信息只有6種組別的匯總項(即加權項),分別是40,10,20,30,20,50;相當於總共有170個樣本。整理為加權格式即只需要錄入6行即可。
除卡方檢驗,涉及使用加權格式數據的分析方法還有很多,比如
5、重複測量方差
重複測量數據是指同一批樣本(病例)在不同的時間點測量了多次數據,因此重複測量數據的特殊之處在於一定會有ID號(即樣本或者病例號),以及時間點數據。
同一個ID會有多個時間點的數據,比如下面有12個樣本(12個ID號),並且測量5個時間點。那麼就一定會有12*5=60行數據。同一個ID號會重複5次,同一個時間點會重複12次。
6、時間序列
時間序列的格式包括時間和實際分析項共兩列。ARIMA預測、ADF檢驗、偏(自)相關圖等方法均是使用此類格式的數據進行分析。
比如下圖中年份就是時間項,「阿里雙十一銷售額(億元)」就是實際分析項。分析時並不需要設置時間項,但研究人員整理的數據一定是類似如下圖,從上至下的日期遞增,因為算法在分析時也是默認按照從上至下遞增進行計算。
7、面板數據
面板模型是針對面板數據進行分析,面板數據是一種特殊的數據格式。比如當前研究100家公司5年的財務數據。100家公司,每家5年,最終會有100*5=500行數據。
如果說100家公司全部都有完整的5年數據,即100*5=500行數據,這種叫平衡面板數據。如果說某家公司只有3年的數據,意味著有2年的缺失數據,這種叫非平衡面板數據。
使用SPSSAU進行分析時,『個體ID』就是下圖中的『公司編號』,『時間』就是下圖中的『年份』。『公司編號』一般是指上市公司的股票代碼,也或者只是個編號均可;『年份』一般是指年或者時間點。『公司編號』和『年份』兩項共同用於告訴系統當前為面板數據,通常無其它意義。
三、綜合評價中的數據格式
綜合評價中各個方法所需要的數據格式都比較特殊,這裡列出單獨進行說明。
1、模糊綜合評價
模糊綜合評價是對具有多種屬性的事物,綜合各因素作出一個總體評價。
上傳的數據一般包括三個部分:指標項、權重項、評語項。
其中指標項為參與評價的考核指標,1行放1個。
評語項,是指類似於{優秀,良好,一般,差} 或{非常滿意,滿意,一般,不滿意,非常不滿意}這樣的評價標準。1列放1個評價項。
如果說各個指標項有著自己的權重,那麼就需要單獨用一列表示『指標項權重值』,『如果沒有此數據,則默認各個指標的權重完全一致。
特別提示:一個表格對應的是一個評價對象的數據。如果有多個評價對象就需要構建多個表格矩陣,分別上傳進行分析。
2、灰色關聯法
灰色關聯法研究數據之間的關聯程度,即特徵序列與母序列的關聯性情況。母序列單獨使用一列標識,每個特徵序列都使用1列標識。下圖中樣本編號只是個編號無實際意義,用於標識下樣本的ID號,一般是比如年份一類的數據信息,分析時並不需要使用。
3、AHP層次分析法
AHP層次分析法需要分別對各級指標兩兩比較得到判斷矩陣,然後將指標數值填入白色單元格。
研究人員可修改指標項名稱,以及白色單元格內的數字,『藍色』背景的信息會自動變化。
4、熵值法
熵值法用於指標的權重情況。1個指標佔用1列數據。下圖中樣本編號只是個編號無實際意義,用於標識下樣本的ID號,一般是比如年份一類的數據信息,分析時並不需要使用。
熵值法的原理是針對數據不確定性進行度量,從而計算權重。無論是什麼數據(包括面板數據),均可正常的進行熵值法,一般不需要進行處理。
當然面板數據進行熵值法分析時,也可以先篩選出不同的年份,重複進行多次熵值法均可。
5、TOPSIS法
TOPSIS法用於研究指標與理想解的接近度情況。1個指標佔用1列數據。1個研究對象為1行,但研究對象在分析時並不需要使用,SPSSAU默認會從上到下依次編號。
6、RSR秩和比
RSR秩和比可分析研究對象在『研究指標』上的綜合表現水平情況。數據格式上需要1列表示1上研究指標,1行表示1個研究對象,如下圖所示:
7、耦合協調度
耦合協調度研究不同系統之間的耦合協調情況,因此1列表示1個系統的數據,1行表示1個研究對象,其數據格式如下圖所示:
8、熵權TOPSIS
熵權TOPSIS法用於研究指標與理想解的接近度情況。1個指標佔用1列數據。1個研究對象為1行,但研究對象在分析時並不需要使用,SPSSAU默認會從上到下依次編號。
9、灰色預測模型
灰色預測模型可針對數量非常少、數據完整性和可靠性較低的數據序列進行有效預測。
灰色預測模型適用於數量少(比如20個以內)時使用,大量數據時不適合;整理數據時1列年份1列實際分析項,但年份在分析時並不需要使用,SPSSAU默認會從上到下依次編號。
實際上還有更多數據格式,更多內容請查看幫助手冊說明,這裡就不再一一介紹。