計算和轉化變量是數據處理分析過程中一個非常重要的過程,針對一些分析方法,原變量可能並不適合分析,此時就需要對原變量進行轉化,以利於後續分析。
針對這一需求,SPSSAU提供多種計算變量的方法,三步即可生成變量,不需要再單獨輸入函數。
操作步驟
Step1:點擊 [數據處理] 下的 [生成變量]。
Step2:點擊選擇具體分析題項,下拉複選框選擇計算功能(如平均值、乘積等)。
Step3:填寫新變量名(部分功能不需要填寫),點擊確認處理。
生成變量的一系列功能包括:常用函數、量綱處理、科學計算、匯總處理、其它。下面具體說明。
常用功能
常用功能
l 平均值
平均值是最常使用的,作用是將多個變量值的取平均,生成新的變量。適用場景:量表題中,將多個題目合併為一個維度進行分析等。
例如,計算每個學生各科成績的平均值或將「我願意向朋友推薦SPSSAU」,「我有需要會再來使用SPSSAU」,合併為「忠誠度」一個整體維度。
l 求和
求和多用於計算多個題項的總體得分,如量表總分等。
適用場景:計算每個學生各科成績的總和(總成績)。
l 乘積(交互項)
用於計算兩個變量或多個變量的乘積值。
適用場景:計算權重與指標的乘積,或計算調節作用交互項等。
l 虛擬(啞)變量
用於將分類變量納入模型。具體理論說明可查看spssau文章:《啞變量是什麼?怎麼設置?》
適用場景:研究回歸分析,逐步回歸,分層回歸,Logistic回歸,PLS回歸、調節作用等這類影響關係研究的方法時,需要將分類變量作為研究變量加入模型中,需要做啞變量處理。
l 標準化(S)
標準化用於數據無量綱化處理。在多數模型研究中,都需要先對數據進行標準化處理,以消除量綱影響。
l 中心化(C)
中心化也是無量綱化處理方法之一。與標準化的區別是,標準化需要除以標準差,而中心化則沒有要求。
適用場景:數據無量綱化處理,即如果原始數據不是統一量綱的,需要先進行數據標準化處理,以消除量綱(單位)不同對結果造成的影響。
l 自然對數(Ln)
l 10為底對數(Log10)
取對數是常見的數據變換處理。取對數可以縮小數據的絕對數值,方便計算。在計量研究中,經常先取對數再做回歸。
適用場景:數據的數值過大不方便計算;數據呈偏態時可以通過取對數調整數據分布。(數值必須大於0)
其他常用的數據變換方式:
(1)對數變換(2)平方根變換(3)倒數變換(4)冪變換
量綱處理
量綱處理
除了上面介紹的標準化、中心化。spssau還提供了其他多種量綱處理方法,大致可分為三種類型:
①極值化方法
歸一化——每個變量值與變量最小值之差除以該變量取值的全距(最大值減最小值)。標準化後使各變量的取值範圍限於0~1。
區間化——標準化後使各變量取值範圍限於固定的區間範圍內。
最大值化——每個變量值除以該變量取值的最大值。標準化後使各變量的最大取值為1。
最小值化——標準化後使各變量的最小取值為1。
極值化方法在無量綱化過程中僅與變量的最大值和最小值有關,使得該方法過分依賴極端這兩個極端值。因而,最大值和最小值這兩個值會對結果產生很大影響。
②標準化方法
標準化——無量綱化後個變量的平均值為0,標準差為1。標準化的不足之處在於轉換後消除了各變量在變異程度上的差異,如果後續分析中需要比較變量變異程度上的差異,則不適合使用標準化方法。
③均值化方法
均值化——每一變量除以該變量的平均值。均值化後各變量的平均值都為1,標準差為原始變量的變異係數。均值化保留了各變量取值差異程度上的信息。
對於一般用戶而言,不需要掌握這麼多量綱處理方法,大多數情況下選擇標準化或歸一化即可。
l 正向化(MMS)
l 逆向化(NMMS)
在綜合評價中,可能同時存在正向指標(數值越大評價越好)和逆向指標(數值越小評價越好)。兩種指標數據方向不一致,分析時必須先將所有指標統一成一個方向。此時,可以對數據進行正向化或逆向化處理。
正向指標:(X-Min)/(Max-Min) (生成變量-正向化MMS)
逆向指標:(Max-X)/(Max-Min) (生成變量-逆向化NMMS)
除此之外,還可以通過取倒數、取負數等方式使指標一致化。
除了以上常用的計算變量方法,還有一些其它的變量處理功能。具體整理在下面表格裡。
如果以上生成變量功能無法滿足計算需求,可使用自主性更強的[高級公式]進行操作。
當前公式支持sin、cos、tan、exp、ln、log、sqrt、abs等函數。
其他說明
生成變量功能,標題都是直接選中即可,不需要拖拽操作。配合ctrl或者shift鍵同時選擇多項,批量一次性操作處理。