凡是搞計量經濟的,都關注這個號了
所有計量經濟圈方法論叢的code程序, 宏微觀資料庫和各種軟件都放在社群裡.歡迎到計量經濟圈社群交流訪問.
correction:"如何選擇正確的自變量(控制變量),讓你的計量模型不再骯髒"標題應該是選擇正確的自變量(控制變量)。
正文
當一個變量的作用取決於另一變量的值時,就會發生交互效應。交互效應在回歸分析,方差分析和設計的實驗中很常見。在此文中,我們將解釋交互效應,如何在回歸中解釋它們,以及如果不將其包括在模型中將面臨的問題。
在任何研究中,無論是味道測試還是製造過程,許多變量都會影響結果。改變這些變量會直接影響到結果。例如,在味道測試中改變食物中的調味品會影響其整體帶給我們的享受。以這種方式,分析人員使用模型來評估每個自變量與因變量之間的關係。這種效果稱為主效應。但是,僅評估主效應可能是錯誤的。
在更複雜的研究領域,自變量可能會相互影響。交互效應表明,第三個變量會影響自變量和因變量之間的關係。這種影響使模型更加複雜,但是如果現實世界確實以這種方式運行,則將其包括到模型中就顯得至關重要。例如,調味品和味覺享受之間的關係可能取決於食物的類型,正如我們將在本文中看到的那樣!
具有類別自變量的交互效應的示例
我們認為交互效應就是「取決於」效應。您會明白為什麼!讓我們從一個直觀的示例開始,以幫助你從概念上理解這些影響。
想像一下,我們正在進行味道測試,以確定哪種食物調味品產生最高的味覺享受。我們將執行方差分析,其中我們的因變量是味覺享受(enjoyment)。我們的兩個自變量都是分類變量:食物(food)和調味品(condiment)。
具有交互效應項的方差分析模型為:
味覺享受enjoyment=食物food*調味品condiment
為簡單起見,我們在分析中將僅包括兩種食物(冰淇淋icecream和熱狗hotdog)和兩種調味品(巧克力醬chocolate和芥末醬mustard)。
給定示例的細節,交互效應就不足為奇了。如果有人問你:「你喜歡在食物中加入番茄醬或巧克力醬嗎?」 毫無疑問,你會回答:「這取決於食物的類型!」 這就是交互效應的「取決於」性質。在不了解有關交互效應術語中其他變量更多信息的情況下,你不能回答問題。
這就是概念。現在,我將向你展示如何在模型中包括一個交互項以及如何解釋結果。
如何解釋交互效應
讓我們進行分析。所有統計軟體都允許您在模型中添加交互項。
下面輸出的p值告訴我們,交互較硬(食物調味品)在統計上是顯著的。因此,我們知道你從調味品中獲得的味覺享受取決於食物的類型。
但是,我們如何解釋交互效應並真正理解數據在說什麼呢?理解這些影響的最佳方法是使用特殊類型的圖——交互圖(interaction plot)。這種類型的繪圖在y軸上顯示因變量的擬合值,而在x軸上顯示第一個自變量的值。同時,各條線代表第二個自變量的值。
在一個交互效應圖上,平行線表示沒有交互作用,而不同的斜率表明可能存在一個。以下是食物*調味品的圖。
圖中的交叉線表明存在交互作用,而從食物*調味品的p值也可以得到確認。該圖顯示,當食物為冰淇淋時,巧克力醬的味覺享受水平更高。相反,當食物是熱狗時,芥菜的味覺享受較高。如果將芥末放在熱狗上的冰淇淋或巧克力醬上,你不會高興!
哪種調味料最好?這取決於食物的類型,我們使用統計數據來證明這種效應。
忽視交互效應是危險的!
當你具有統計學上顯著的交互效應時,如果不考慮交互效應就無法解釋主效應。在前面的示例中,如果不知道食物的類型,就無法回答哪種調味品更好的問題。同樣,它「取決於」。
假設我們想通過選擇最好的食物和最好的調味品來最大化味覺享受。但是,想像一下我們忘記了交互作用,而只評估了主效應。我們將根據以下主效應圖做出決定。
根據這個圖,我們會選擇巧克力醬和熱狗,因為它們各自都能帶來更高程度的味覺享受。儘管主效應顯示出來他們各自都能帶來最高的味覺享受,但這不是一個好的搭配選擇!當你進行具有統計學分析時,如果不考慮交互效應,就無法解釋主效應。
考慮到我們這個愚蠢示例的直觀性質,一眼就可以看出忽略交互效應的後果。但是,情況並非總是如此。
具有連續自變量的交互效應示例
在下一個示例中,我們將在製造過程(manufacturing process)的回歸模型中評估連續自變量。自變量(加工時間time,溫度temperature和壓力pressure)影響因變量(產品強度strength)。
在回歸模型中,我將包括溫度*壓力作為交互效應。結果如下:
如你所見,交互項在統計上顯著。但是,你如何解釋回歸方程中的交互項係數?你可以嘗試在回歸方程式中輸入值,然後將它們拼湊在一起。但是,使用交互關係圖要容易得多!
在上圖中,變量是連續的而不是類別的。為了生成該圖,統計軟體會選擇一個壓力高值和一個低值,並將它們與溫度值範圍一起輸入方程式中。
如你所見,溫度和強度之間的關係會根據壓力改變方向。對於高壓,溫度和強度之間呈正相關,而對於低壓,則呈負相關。通過在模型中包括交互項,你可以捕獲基於另一個變量的值而變化的關係。
如果你想最大程度地提高產品強度,並且有人問你該過程應該使用高溫還是低溫,則你必須做出回答,「這取決於情況」。在當前這種情況下,產品強度取決於壓力。如果不知道壓力值,就無法回答有關溫度的問題。
交互項的重要注意事項
雖然這些圖可以幫助你理解交互項的影響,但可以使用假設檢驗來確定這種影響是否具有統計學意義。圖表可以顯示代表隨機樣本誤差而非實際效果的非平行線。P值和假設檢驗可幫助你理清噪聲的實際影響。
本文中的示例是雙向交互,因為每個交互項中都有兩個自變量(食物 * 調味品和溫度 * 壓力)。用兩種方式解釋這些影響同樣有效。例如,以下變量之間的關係:
味覺享受和調味品取決於食物。
味覺享受和食物取決於調味品。
您可以進行更高階的交互。例如,三向交互效應在交互項中具有三個變量,例如Food * Condiment * X。在這種情況下,味覺滿意度和調味品之間的關係取決於食物和X。但是,這種效果很難解釋。在實踐中,我們很少使用它們。但是,在某些模型中,可能需要提供適當的擬合。
最後,當具有統計學上顯著的交互效應時,不要在不考慮交互效應的情況下嘗試解釋主效應。如本文所示,你可能出錯誤的結論!