數據格式規範,這些方法的格式你都get了嗎?

2020-12-13 SPSSAU

正確的數據格式是分析的基礎,一直以來大家問得最多的就是數據格式的問題。什麼樣的格式才能分析?為什麼我的數據顯示格式不對?怎麼批量添加標籤?針對這樣那樣的問題,今天我們就來總結一下。

一、格式規範

1、基礎格式

數據格式是基礎,其中我們最常見的數據格式是原始數據格式。下圖即是一份原始數據,它的特點是:一行代表一個樣本,一列代表一個屬性。

這樣的數據有多少樣本,就需要錄入多少行,100個樣本錄入一百行,每一行即代表一個樣本的回答數據;每列代表一個屬性即一個變量。而不能是已經進行過統計的數據。

2、文字標籤

上傳時數據須為數字格式,如果想讓結果顯示成具體的文字標籤,而不是數字。可以在Excel中添加一個工作表批量為數據設置標籤。

標籤設置步驟如下:

第1個sheet裡放收集到的數據;新建一個sheet「tags」放置標籤。

「tags」工作表中共包括3列內容:「標題」、「數字」和「標籤」

「標題」列,放置標題,且不能有完全相同一模一樣的標題。「數字」列,放置每項的數值,比如5個選項「1,2,3,4,5」就分5行放置。「標籤」列,放置對應數字的標籤信息。

3、無法識別數據如何處理

有時上傳數據會提示「無有效數據」或只識別出部分數據,大概率還是由於數據格式不規範導致的。

遇到上面的問題,可以按這樣的步驟檢查數據:

第一:如果EXCEL上傳,數據應該放在第一個工作表裡面,如果不是請調整後再上傳。第二:EXCEL數據中不能合併單元格,如果有合併單元格,請取消合併。第三:數據第1行一定是標題,如果本該有標題但是為空,請處理後再上傳。

二、常見方法格式

在日常分析中,有些分析方法使用的格式與常規的格式不太一樣。因此我們除了用到原始數據,有時也需要根據所用的分析方法,將數據整理成可以分析的格式。

1、T檢驗、方差分析

T檢驗、方差分析都是研究不同組別的差異,比如不同學歷時滿意度的差異。因此數據格式中一定需要有組別X(比如學歷)和分析項Y(比如滿意度)。

有時候只有分析項(比如3個分析項),但是現在希望此3個分析項的差異,那麼就需要對數據進行改造,自己加入一列『組別』,然後把數據重疊起來得到分析項Y,類似如下圖:

如果是用t檢驗對比兩組數據,比如實驗組和對照組,也需要加入一列『組別』項,類似如下圖:

2、配對T檢驗

配對數據的格式相對較為特殊,包括配對t 檢驗、配對卡方、配對樣本Wilcoxon等。比如實驗組和對照組數據的差異。如下圖:

配對數據一般是在實驗時使用,而且配對數據的特點為:行數一定完全相等並且只有兩列。如果研究數據的行數不相等,那可能不是配對數據,如果還想對比差異,可能需要使用獨立t 檢驗。

3、多選題

在問卷研究時會使用到多選題,多選題的數據格式比較特殊。比如一個多選題有4個選項,那麼其數據中就會有4列,分別代表4個選項。而且使用數字1表示選中,數字0表示沒有選中。如下圖:

分析時將同一多選題下的選項一起放入進行分析才可以。

4、卡方檢驗

SPSSAU系統中的卡方檢驗,支持兩種數據格式:一是常規格式,另一種是加權數據格式。

對於只有匯總結果的數據,無法整理成原始數據。此時就可以整理為加權數據格式。格式要求如下:

比如下圖中X有2種情況,Y有3個情況,一種有2*3=6種組合,數據信息只有6種組別的匯總項(即加權項),分別是40,10,20,30,20,50;相當於總共有170個樣本。整理為加權格式即只需要錄入6行即可。

除卡方檢驗,涉及使用加權格式數據的分析方法還有很多,比如

5、重複測量方差

重複測量數據是指同一批樣本(病例)在不同的時間點測量了多次數據,因此重複測量數據的特殊之處在於一定會有ID號(即樣本或者病例號),以及時間點數據。

同一個ID會有多個時間點的數據,比如下面有12個樣本(12個ID號),並且測量5個時間點。那麼就一定會有12*5=60行數據。同一個ID號會重複5次,同一個時間點會重複12次。

6、時間序列

時間序列的格式包括時間和實際分析項共兩列。ARIMA預測、ADF檢驗、偏(自)相關圖等方法均是使用此類格式的數據進行分析。

比如下圖中年份就是時間項,「阿里雙十一銷售額(億元)」就是實際分析項。分析時並不需要設置時間項,但研究人員整理的數據一定是類似如下圖,從上至下的日期遞增,因為算法在分析時也是默認按照從上至下遞增進行計算。

7、面板數據

面板模型是針對面板數據進行分析,面板數據是一種特殊的數據格式。比如當前研究100家公司5年的財務數據。100家公司,每家5年,最終會有100*5=500行數據。

如果說100家公司全部都有完整的5年數據,即100*5=500行數據,這種叫平衡面板數據。如果說某家公司只有3年的數據,意味著有2年的缺失數據,這種叫非平衡面板數據。

使用SPSSAU進行分析時,『個體ID』就是下圖中的『公司編號』,『時間』就是下圖中的『年份』。『公司編號』一般是指上市公司的股票代碼,也或者只是個編號均可;『年份』一般是指年或者時間點。『公司編號』和『年份』兩項共同用於告訴系統當前為面板數據,通常無其它意義。

三、綜合評價中的數據格式

綜合評價中各個方法所需要的數據格式都比較特殊,這裡列出單獨進行說明。

1、模糊綜合評價

模糊綜合評價是對具有多種屬性的事物,綜合各因素作出一個總體評價。

上傳的數據一般包括三個部分:指標項、權重項、評語項。

其中指標項為參與評價的考核指標,1行放1個。

評語項,是指類似於{優秀,良好,一般,差} 或{非常滿意,滿意,一般,不滿意,非常不滿意}這樣的評價標準。1列放1個評價項。

如果說各個指標項有著自己的權重,那麼就需要單獨用一列表示『指標項權重值』,『如果沒有此數據,則默認各個指標的權重完全一致。

特別提示:一個表格對應的是一個評價對象的數據。如果有多個評價對象就需要構建多個表格矩陣,分別上傳進行分析。

2、灰色關聯法

灰色關聯法研究數據之間的關聯程度,即特徵序列與母序列的關聯性情況。母序列單獨使用一列標識,每個特徵序列都使用1列標識。下圖中樣本編號只是個編號無實際意義,用於標識下樣本的ID號,一般是比如年份一類的數據信息,分析時並不需要使用。

3、AHP層次分析法

AHP層次分析法需要分別對各級指標兩兩比較得到判斷矩陣,然後將指標數值填入白色單元格。

研究人員可修改指標項名稱,以及白色單元格內的數字,『藍色』背景的信息會自動變化。

4、熵值法

熵值法用於指標的權重情況。1個指標佔用1列數據。下圖中樣本編號只是個編號無實際意義,用於標識下樣本的ID號,一般是比如年份一類的數據信息,分析時並不需要使用。

熵值法的原理是針對數據不確定性進行度量,從而計算權重。無論是什麼數據(包括面板數據),均可正常的進行熵值法,一般不需要進行處理。

當然面板數據進行熵值法分析時,也可以先篩選出不同的年份,重複進行多次熵值法均可。

5、TOPSIS法

TOPSIS法用於研究指標與理想解的接近度情況。1個指標佔用1列數據。1個研究對象為1行,但研究對象在分析時並不需要使用,SPSSAU默認會從上到下依次編號。

6、RSR秩和比

RSR秩和比可分析研究對象在『研究指標』上的綜合表現水平情況。數據格式上需要1列表示1上研究指標,1行表示1個研究對象,如下圖所示:

7、耦合協調度

耦合協調度研究不同系統之間的耦合協調情況,因此1列表示1個系統的數據,1行表示1個研究對象,其數據格式如下圖所示:

8、熵權TOPSIS

熵權TOPSIS法用於研究指標與理想解的接近度情況。1個指標佔用1列數據。1個研究對象為1行,但研究對象在分析時並不需要使用,SPSSAU默認會從上到下依次編號。

9、灰色預測模型

灰色預測模型可針對數量非常少、數據完整性和可靠性較低的數據序列進行有效預測。

灰色預測模型適用於數量少(比如20個以內)時使用,大量數據時不適合;整理數據時1列年份1列實際分析項,但年份在分析時並不需要使用,SPSSAU默認會從上到下依次編號。

實際上還有更多數據格式,更多內容請查看幫助手冊說明,這裡就不再一一介紹。

相關焦點

  • 你造嗎?Word如何規範格式
    今天分享的這些知識點,也許在你急需時能用上。今天的知識點共4點:➤方法:插入表格,輸入好原始數據後,在菜單欄表格工具——布局——數據——公式,然後設置好公式和編號格式,點擊確定就好啦。➤方法:選中表頭——表格工具——布局——數據裡面的重複標題行點一下,就可以啦,如果想要取消,再選中第一個表頭然後再點一下重複標題行就好了。
  • Excel表格中格式轉換的這些套路,你都get了嗎?
    下面我們一起看下處理這種格式問題的辦法。問題1:如何將文本型數字轉換為數值格式?下面是淘寶嬰兒數據,「購買數量」雖然看上去是數字,但其實是文本格式。方法1)使用「數據」-「分列」功能方法2)使用value函數新建一列作為輔助列,用於存放轉換後的數值。在這個案例數據上,我新建的列是F列。在這一列的F2單元格裡輸入下圖中的value函數:=value(D2),表示讓這一單元格的值等於D2單元格的值。
  • 規範論文不是「刷格式」
    所謂論文規範,不就是『刷刷』格式嗎?」學生對論文規範的漠視讓她心驚。 論文規範既是準則與格式,更體現求真務實的學術精神 「論文規範,並非刷格式那麼簡單。」復旦大學國家與傳播治理研究中心研究員沈逸認為,論文規範包含「術」與「道」兩方面:「術」作為形式,是一個學術共同體必須遵守的準則和格式;而「道」是核心,也就是一種求真務實、探索未知的科學精神。
  • Excel中文本格式轉化成數字的五個方法,你都知道get到了嗎?
    在Excel中,我們經常遇到存儲為文本格式的數字。有的是人為輸入,有的是從某些系統中導出時數字是文本格式。存儲為文本的數字可能導致意外的結果。有多種辦法把這些文本轉換成數字格式,我根據不同使用場景,從易到難,一一整理如下。
  • 把其他視頻格式轉換mp4格式的方法你學會了嗎?
    經常和視頻打交道的小夥伴應該發現了,雖說現如今的視頻格式挺豐富,但是最為好用的,依然還是那些,就比如說在電腦中和手機中都能順暢播放的MP4格式。今天小峰想要分享的實用技巧便是與MP4相關的,話說你知道把其他視頻格式轉換mp4格式的方法嗎?不知道的話,請繼續往下看!
  • 利用pandas讀取格式不規範的Excel文件
    介紹pandas 很容易將Excel文件讀取為DataFrame,但是在現實中,Excel文件裡面的數據格式往往是不規範的
  • 本科生畢業論文格式規範,論文降重的根本方法是什麼?
    很多同學想了解一下本科生畢業論文格式規範,以及論文降重的根本方法是什麼,那麼我們就來解析一下吧!畢業論文格式規範,論文降重本科生畢業論文格式規範畢業論文的格式修改是一個重中之重,尤其是不擅長使用word等辦公軟體的同學可以說被折騰得不輕。
  • 畢業論文格式規範的重要性和排版方法
    首先,一篇完整的論文是由多部分內容構成的,包括封面、目錄、摘要、正文、參考文獻、附錄、致謝等等,每一部分都承載有不同的功能並且有自己的格式要求。可以說,格式規範也是一篇論文不可或缺的組成部分。其次,畢業論文動輒幾十頁和上萬字的內容使得閱讀的人不可能一目了然。
  • 論文格式不規範怎麼修改?
    論文格式不規範怎麼修改?又到了畢業季,同學們在辛辛苦苦寫論文時,經常會碰到論文格式不規範的情況,論文格式也是所有畢業生都要面對的重要問題。那麼論文格式不規範怎麼修改?下面papercrazy就貼心地為大家準備了論文格式修改方法,希望能夠幫助到大家。
  • 數據分析:基於Python的自定義文件格式轉換系統
    1.1 背景介紹為什麼要文件格式轉換?       無論讀者現在是做數據挖掘、數據分析、自然語言處理、智能對話系統、商品推薦系統等等,都不可避免的涉及語料的問題即大數據。數據來源無非分為結構化數據、半結構化數據和非結構化數據。
  • PHP獲取HTTP POST中不同格式的數據
    源 / php中文網      源 / www.php.cnHTTP協議中的POST 方法有多中格式的數據協議,在HTTP的head中用不同的Content-type標識.常用的有application/x-www-form-urlencoded,這是最常見的,就是from表單的格式.在HTTP的head中是Content-Type: application
  • 實用技巧|如何正確整理你的數據格式?
    數據格式,直接影響著分析結果是否準確。小編最近也收到一些關於「數據格式」的提問,不知道自己的數據應該整理成什麼格式上傳分析?正好在這裡統一分享幾種常見的數據格式,包括問卷數據、實驗數據、時序數據、面板數據以及一些特殊數據格式。希望今天的文章,能夠幫助你解決數據格式方面的困擾。
  • 郵箱格式怎麼寫?電子郵箱格式書寫規範
    不過相信也有不少網友發現,平常填寫電子郵箱時很容易出錯,那麼電子郵箱格式怎麼寫?電子郵箱格式書寫規範又是怎樣?  電子郵箱,即我們通常所說的Email,是一種模擬郵局,通過電子郵箱,用戶與用戶之間可進行信息傳遞,而這些信息包括文本信息、圖片文件和視頻文件等等。隨著網際網路科技的發展,電子郵箱的存儲量和安全性都得到了極大的改進。  電子郵箱格式  電子郵箱具有單獨的網絡域名,其書寫格式也有一定的要求。
  • Excel技巧:3種方法,快速將文本格式數字轉變為常規格式數據
    在用Excel處理數據分析時,其他格式的數字導入Excel表格時,數字格式默認為文本格式,即便修改單元格格式,數據仍為文本格式。今天小編就教給大家如何快速將文本格式數字修改為常規格式數據的三種方法。選擇性粘貼文本格式數據乘以1,文本格式可以變為常規格式。
  • excel怎麼轉換成word格式的文件格式?這些方法應該掌握!
    製作數據調查表的時候,不僅要有數據統計圖,還要有文字總結,和調查結果等。但是直接將excel表格複製到word文檔,完全行不通,亂碼現象都沒眼看。但我們也不能否定「複製」這一方法,因為用對了「複製」,我們也可以實現直接將excel轉word。
  • 如何利用Python處理JSON格式的數據接口(詳細版)
    在網際網路公司,當我們需要其他團隊提供數據支持時,一般沒有團隊會直接給你一個資料庫或者數據表的權限,道理很簡單,一是數據安全性,二是增加自身工作量。通常情況下,提供一個數據接口,數據格式為JSON。本篇將對數據接口為JSON格式時,如何進行數據處理進行詳細的介紹,內容分如下兩個部分:JSON(JavaScript Object Notation, JS 對象簡譜)是一種輕量級的數據交換格式。它基於 ECMAScript的一個子集,採用完全獨立於程式語言的文本格式來存儲和表示數據。簡潔和清晰的層次結構使得JSON成為理想的數據交換語言。
  • 剪貼板中的數據格式(Clipboard Formats)
    第四節  剪貼板中的數據格式(Clipboard Formats)在前面的講解中我們已經了解到使用MSForms.DataObject可以很輕鬆地提取剪貼板中的文本數據,但DataObject目前只支持文本操作,所以它的GetFromClipboard方法只能用於讀取剪貼板內文本。
  • 基於ePub格式的電子教科書格式標準化研究
    因此,規範電子教科書格式標準,制定統一的格式規範,實現各個平臺系統之間的互通成為了業界關注的焦點。  ePub格式具備良好的兼容性,可以使文字內容根據閱讀設備的特性,以最適應閱讀的方式顯示。可以有效解決目前電子教科書格式種類繁多、缺少主導性格式標準、兼容性差等缺點。近年來,在歐美一些發達地區,出現了大量ePub格式的電子教科書和硬體終端,為ePub格式的推廣起到了良好的促進作用。
  • 科技小論文格式規範
    全國青少年科技創新大賽參賽作品科技小論文格式規範:   科技論文格式說明   科技小論文按撰寫方式分類包括:調查、考察、觀察、實驗探究、發現、 研究等類型。>   1、課題研究論文   題目、 作者、指導教師、綜述、目的、意義、方法、前人工作、自己貢獻 、 正文:主要觀點、論據、論證 、研究方法、過程、結果、 結論 總結性觀點、對研究的反思、   附錄: 資料來源、參考文獻、 課題組成員、結題時間   2、科學實驗報告   題目 作者、指導教師 實驗目的 實驗用品 實驗方法 過程步驟實驗原始數據、
  • XRD數據格式的轉換和TXT格式數據正確導入Jade的辦法
    前兩天不慎刪除了《TXT格式數據導入Jade的方法》一文,今天索性將該文章內容充實一下重新發布出來,希望對大家有用。