數據格式規範,這些方法的格式你都get了嗎?

2020-12-13 SPSSAU

正確的數據格式是分析的基礎，一直以來大家問得最多的就是數據格式的問題。什麼樣的格式才能分析？為什麼我的數據顯示格式不對？怎麼批量添加標籤？針對這樣那樣的問題，今天我們就來總結一下。

一、格式規範

1、基礎格式

數據格式是基礎，其中我們最常見的數據格式是原始數據格式。下圖即是一份原始數據，它的特點是：一行代表一個樣本，一列代表一個屬性。

這樣的數據有多少樣本，就需要錄入多少行，100個樣本錄入一百行，每一行即代表一個樣本的回答數據；每列代表一個屬性即一個變量。而不能是已經進行過統計的數據。

2、文字標籤

上傳時數據須為數字格式，如果想讓結果顯示成具體的文字標籤，而不是數字。可以在Excel中添加一個工作表批量為數據設置標籤。

標籤設置步驟如下：

第1個sheet裡放收集到的數據；新建一個sheet「tags」放置標籤。

「tags」工作表中共包括3列內容：「標題」、「數字」和「標籤」

「標題」列，放置標題，且不能有完全相同一模一樣的標題。「數字」列，放置每項的數值，比如5個選項「1,2,3,4,5」就分5行放置。「標籤」列，放置對應數字的標籤信息。

3、無法識別數據如何處理

有時上傳數據會提示「無有效數據」或只識別出部分數據，大概率還是由於數據格式不規範導致的。

遇到上面的問題，可以按這樣的步驟檢查數據：

第一：如果EXCEL上傳，數據應該放在第一個工作表裡面，如果不是請調整後再上傳。第二：EXCEL數據中不能合併單元格，如果有合併單元格，請取消合併。第三：數據第1行一定是標題，如果本該有標題但是為空，請處理後再上傳。

二、常見方法格式

在日常分析中，有些分析方法使用的格式與常規的格式不太一樣。因此我們除了用到原始數據，有時也需要根據所用的分析方法，將數據整理成可以分析的格式。

1、T檢驗、方差分析

T檢驗、方差分析都是研究不同組別的差異，比如不同學歷時滿意度的差異。因此數據格式中一定需要有組別X（比如學歷）和分析項Y（比如滿意度）。

有時候只有分析項（比如3個分析項），但是現在希望此3個分析項的差異，那麼就需要對數據進行改造，自己加入一列『組別』，然後把數據重疊起來得到分析項Y，類似如下圖：

如果是用t檢驗對比兩組數據，比如實驗組和對照組，也需要加入一列『組別』項，類似如下圖：

2、配對T檢驗

配對數據的格式相對較為特殊，包括配對t 檢驗、配對卡方、配對樣本Wilcoxon等。比如實驗組和對照組數據的差異。如下圖：

配對數據一般是在實驗時使用，而且配對數據的特點為：行數一定完全相等並且只有兩列。如果研究數據的行數不相等，那可能不是配對數據，如果還想對比差異，可能需要使用獨立t 檢驗。

3、多選題

在問卷研究時會使用到多選題，多選題的數據格式比較特殊。比如一個多選題有4個選項，那麼其數據中就會有4列，分別代表4個選項。而且使用數字1表示選中，數字0表示沒有選中。如下圖：

分析時將同一多選題下的選項一起放入進行分析才可以。

4、卡方檢驗

SPSSAU系統中的卡方檢驗，支持兩種數據格式：一是常規格式，另一種是加權數據格式。

對於只有匯總結果的數據，無法整理成原始數據。此時就可以整理為加權數據格式。格式要求如下：

比如下圖中X有2種情況，Y有3個情況，一種有2*3=6種組合，數據信息只有6種組別的匯總項（即加權項），分別是40，10，20，30，20，50；相當於總共有170個樣本。整理為加權格式即只需要錄入6行即可。

除卡方檢驗，涉及使用加權格式數據的分析方法還有很多，比如

5、重複測量方差

重複測量數據是指同一批樣本（病例）在不同的時間點測量了多次數據，因此重複測量數據的特殊之處在於一定會有ID號（即樣本或者病例號），以及時間點數據。

同一個ID會有多個時間點的數據，比如下面有12個樣本（12個ID號），並且測量5個時間點。那麼就一定會有12*5=60行數據。同一個ID號會重複5次，同一個時間點會重複12次。

6、時間序列

時間序列的格式包括時間和實際分析項共兩列。ARIMA預測、ADF檢驗、偏(自)相關圖等方法均是使用此類格式的數據進行分析。

比如下圖中年份就是時間項，「阿里雙十一銷售額(億元)」就是實際分析項。分析時並不需要設置時間項，但研究人員整理的數據一定是類似如下圖，從上至下的日期遞增，因為算法在分析時也是默認按照從上至下遞增進行計算。

7、面板數據

面板模型是針對面板數據進行分析，面板數據是一種特殊的數據格式。比如當前研究100家公司5年的財務數據。100家公司，每家5年，最終會有100*5=500行數據。

如果說100家公司全部都有完整的5年數據，即100*5=500行數據，這種叫平衡面板數據。如果說某家公司只有3年的數據，意味著有2年的缺失數據，這種叫非平衡面板數據。

使用SPSSAU進行分析時，『個體ID』就是下圖中的『公司編號』，『時間』就是下圖中的『年份』。『公司編號』一般是指上市公司的股票代碼，也或者只是個編號均可；『年份』一般是指年或者時間點。『公司編號』和『年份』兩項共同用於告訴系統當前為面板數據，通常無其它意義。

三、綜合評價中的數據格式

綜合評價中各個方法所需要的數據格式都比較特殊，這裡列出單獨進行說明。

1、模糊綜合評價

模糊綜合評價是對具有多種屬性的事物，綜合各因素作出一個總體評價。

上傳的數據一般包括三個部分：指標項、權重項、評語項。

其中指標項為參與評價的考核指標，1行放1個。

評語項，是指類似於{優秀，良好，一般，差} 或{非常滿意，滿意，一般，不滿意，非常不滿意}這樣的評價標準。1列放1個評價項。

如果說各個指標項有著自己的權重，那麼就需要單獨用一列表示『指標項權重值』，『如果沒有此數據，則默認各個指標的權重完全一致。

特別提示：一個表格對應的是一個評價對象的數據。如果有多個評價對象就需要構建多個表格矩陣，分別上傳進行分析。

2、灰色關聯法

灰色關聯法研究數據之間的關聯程度，即特徵序列與母序列的關聯性情況。母序列單獨使用一列標識，每個特徵序列都使用1列標識。下圖中樣本編號只是個編號無實際意義，用於標識下樣本的ID號，一般是比如年份一類的數據信息，分析時並不需要使用。

3、AHP層次分析法

AHP層次分析法需要分別對各級指標兩兩比較得到判斷矩陣，然後將指標數值填入白色單元格。

研究人員可修改指標項名稱，以及白色單元格內的數字，『藍色』背景的信息會自動變化。

4、熵值法

熵值法用於指標的權重情況。1個指標佔用1列數據。下圖中樣本編號只是個編號無實際意義，用於標識下樣本的ID號，一般是比如年份一類的數據信息，分析時並不需要使用。

熵值法的原理是針對數據不確定性進行度量，從而計算權重。無論是什麼數據（包括面板數據），均可正常的進行熵值法，一般不需要進行處理。

當然面板數據進行熵值法分析時，也可以先篩選出不同的年份，重複進行多次熵值法均可。

5、TOPSIS法

TOPSIS法用於研究指標與理想解的接近度情況。1個指標佔用1列數據。1個研究對象為1行，但研究對象在分析時並不需要使用，SPSSAU默認會從上到下依次編號。

6、RSR秩和比

RSR秩和比可分析研究對象在『研究指標』上的綜合表現水平情況。數據格式上需要1列表示1上研究指標，1行表示1個研究對象，如下圖所示：

7、耦合協調度

耦合協調度研究不同系統之間的耦合協調情況，因此1列表示1個系統的數據，1行表示1個研究對象，其數據格式如下圖所示：

8、熵權TOPSIS

熵權TOPSIS法用於研究指標與理想解的接近度情況。1個指標佔用1列數據。1個研究對象為1行，但研究對象在分析時並不需要使用，SPSSAU默認會從上到下依次編號。

9、灰色預測模型

灰色預測模型可針對數量非常少、數據完整性和可靠性較低的數據序列進行有效預測。

灰色預測模型適用於數量少(比如20個以內)時使用，大量數據時不適合；整理數據時1列年份1列實際分析項，但年份在分析時並不需要使用，SPSSAU默認會從上到下依次編號。

實際上還有更多數據格式，更多內容請查看幫助手冊說明，這裡就不再一一介紹。

數據格式規範,這些方法的格式你都get了嗎?

相關焦點

你造嗎?Word如何規範格式

Excel表格中格式轉換的這些套路,你都get了嗎?

規範論文不是「刷格式」

Excel中文本格式轉化成數字的五個方法,你都知道get到了嗎?

把其他視頻格式轉換mp4格式的方法你學會了嗎?

利用pandas讀取格式不規範的Excel文件

本科生畢業論文格式規範,論文降重的根本方法是什麼?

畢業論文格式規範的重要性和排版方法

論文格式不規範怎麼修改？

數據分析:基於Python的自定義文件格式轉換系統

PHP獲取HTTP POST中不同格式的數據

實用技巧|如何正確整理你的數據格式?

郵箱格式怎麼寫?電子郵箱格式書寫規範

Excel技巧:3種方法,快速將文本格式數字轉變為常規格式數據

excel怎麼轉換成word格式的文件格式?這些方法應該掌握!

如何利用Python處理JSON格式的數據接口(詳細版)

剪貼板中的數據格式(Clipboard Formats)

基於ePub格式的電子教科書格式標準化研究

科技小論文格式規範

XRD數據格式的轉換和TXT格式數據正確導入Jade的辦法