凡是搞計量經濟的,都關注這個號了
所有計量經濟圈方法論叢的code程序, 宏微觀資料庫和各種軟件都放在社群裡.歡迎到計量經濟圈社群交流訪問.
在讀本文之前,強烈建議各位學者參看之前第一篇文章「在數據中查找異常值的5種方法總結及示例解釋」。
正文
刪除和處理數據中異常值的指南
異常值是數據集中的不尋常的值,它們可能會扭曲統計分析並違反其假設。所有分析人員都會面臨異常值並被迫決定如何處理它們。這些問題可能使你認為最好的方法是從數據中刪除它們。但是,事實並非總是如此,刪除異常值僅出於特定原因才是合理的。
異常值可以非常翔實地介紹主題和數據收集過程。了解異常值是如何發生的,以及它們是否會在正常過程或作為研究區域的正常值再次出現非常重要。不幸的是,抵制不適當地刪除異常值可能很困難。異常值會增加數據的可變性,從而降低統計效果。因此,排除異常值可能會使你的結果在統計上顯著。
在上一篇文章中,我們展示了五種可以用來識別異常值的方法。但是,識別只是第一步。決定如何處理異常值取決於調查異常值的根本原因。
在這篇文章中,我們將幫助你決定是否應該從數據集中刪除異常值,以及如何在無法刪除數據時分析該數據。正確的操作取決於導致異常值的原因。寬泛地陳述,異常值的出現通常源於三個原因:數據輸入(或測量誤差)、採樣問題和異常條件、自然變化。
讓我們來討論這三個原因。
1.數據輸入、測量錯誤、異常值
測量和數據輸入期間可能發生錯誤。在數據輸入期間,拼寫錯誤會產生奇怪的值。想像我們測量成年男性的身高並收集以下數據集。
在此數據集中,10.8135 顯然是一個異常值。它不僅脫穎而出,而且是一個不可能的高度值。更仔細地檢查這些數字,零可能是偶然的。我們可以回到原始記錄,甚至重新測量以確定正確的高度。
這些類型的錯誤很容易理解。如果確定異常值是錯誤的,請儘可能更正該值。這可能涉及修復拼寫錯誤或重新測量。如果這行不通的話,你必須刪除數據點,因為你知道數據點的值不正確。
2.採樣問題可能導致異常值
推斷性統計使用樣本得出關於特定總體的結論。研究應仔細定義總體,然後從中具體抽取隨機樣本。這是一個可以了解總體的研究過程。
不幸的是,你的研究可能會意外地獲得來自非目標群體的項目或人員。有幾種方法可以發生這種情況。例如,可能發生偏離定義總體的異常事件或特徵。或者也許實驗者在異常條件下測量項目或主體。在其他情況下,你可能會意外地收集到不屬於目標總體的項,因此,它可能具有異常特徵。
採樣問題示例
讓我們用幾個例子來呈現!
假設一項研究評估產品的強度。研究人員將種群定義為標準製造過程的輸出。正常流程包括標準材料、製造設置和條件。如果在一部分研究的過程中出現異常 (如電源故障或機器設置偏離標準值),則會影響產品。這些異常的製造條件可以通過創建具有非典型強度值的產品而導致異常值。在這些異常條件下生產的產品不會反映你正常工藝中產品的目標數量。因此,你可以合理地從數據集中刪除這些數據點。
作為科學家參與的一項骨密度研究中,我們發現一個受試者的骨密度增長的異常值。她的成長價值非常不尋常。該研究的主要協調人發現,受試者所患的糖尿病會影響骨骼健康。我們研究的目標是為青春期前的女孩骨密度生長建模,這些女孩沒有影響骨骼生長的健康問題。由於發現的那個女孩不是我們目標人群的成員,所以她的數據被排除在我們的分析之外。
如果可以確定某個項或個人不是你的目標總體,則可以刪除該數據點。但是,你必須能夠確定該項不符合目標總體的原因。
3.自然變化可能產生異常值
前面兩個產生異常值的原因是壞事。它們代表著你需要糾正的不同類型問題。然而,自然變化也會產生異常值,但這不一定是個問題。
如果樣本足夠大,則一定會有異常值。在正態分布中,大約每340個觀測值中至少有一個與均值相差三個標準偏差。但是,隨機情況下可能包含較小數據集中的極端值!換句話說,你正在研究的過程或總體可能會自然而然地產生奇怪的變異。這些數據點沒有問題,它們是數據分布的一個正常部分但它們並不常見。
導致異常值的自然變化案例
例如,建立一個模型,它使用歷史上的美國總統支持率,來預測後來的歷史學家最終將如何對每位總統進行排名。事實證明,最低支持率的總統驗證了歷史學家的排名。但是,一個數據點會影響模型的多個方面。杜魯門總統就不適合這個模型,他的支持率最低為22%,但後來歷史學家給他排名弟6,排名相對較好。如果刪除單個觀測值,R2將會增加超過 30 個百分點!然而,我們沒有理由刪除這個觀察值。雖然這是一件奇怪的事,但它準確地反映了政治制度中固有的潛在驚喜和不確定性。如果刪除它,模型會使該過程顯得比實際更加可預測。儘管這個不尋常的觀察是有影響力的,我把它留在模型中。如果刪除數據點只是為了生成更好的擬合模型或具有統計顯著性的結果,那將是個不好的做法。
如果極值是你所研究的總體的自然部分的合法觀測值,那麼應將其保留在數據集中。我們將解釋如何分析含有無法很快排除的異常值的數據集!
處理異常值的準則
最好在數據中保留異常值,這些信息是你研究領域的一部分,因為它們可以捕獲有價值的信息。保留這些異常值可能很難,尤其是當它降低了統計意義時!然而,僅僅由於極端性而排除極端值,會導致刪除關於研究領域固有的變異信息進而扭曲研究結果。因為你強制主要研究領域看起來比實際變量小。
在考慮是否刪除異常值時,你需要評估它是否適當地反映了你的目標總體、主題領域、研究問題和研究方法。測量這些觀測值時是否發生了異常情況,例如電源故障、異常實驗條件或其他任何不符合標準的情況。觀察結果,無論是人員、物品還是交易,是否有實質性不同?是否發生測量或數據輸入錯誤?
如果相關異常值為:
• 測量錯誤或數據輸入錯誤,如果可能的話就糾正錯誤,如果無法修復,請刪除該觀察值,因為你知道該觀測值不正確。
• 如果你正在研究的是總體不是一部分(即異常屬性或條件),那麼你可以合理地刪除異常值。
• 如果你所研究的是總體自然的一部分,那麼你不應該刪除它。
當你決定刪除異常值時,你必須確定刪除異常值的原因,記錄排除的數據點並解釋原因。另一種方法是,分析有這些觀察點和沒有這些觀察點的兩種情況,並討論差異。當你不確定是否刪除異常值或者團隊內部在這個問題上存在重大分歧時,用這種方法進行比較分析比較有效。
可處理異常值的統計分析
當你無法合理地刪除異常值,而且那些異常值違反了統計分析的假設時,該怎麼辦?你希望保留它們,但不希望它們扭曲結果。幸運的是,有多種統計分析可以完成這些任務。下面是幾個可以嘗試的方法。
非參數假設檢驗對異常值的檢驗是可靠的。對於這些較常用的參數檢驗的替代方法,異常值不一定違反其假設或扭曲結果。
在回歸分析中,你可以嘗試轉換數據或使用某些統計包中提供的可靠的回歸分析方法。
最後,bootstrap技術按原樣使用示例數據,而不對分布進行假設。
這些類型的分析幫助你捕獲數據集的全部可變性,從而不會違反假設和扭曲結果。
拓展性閱讀
下面這些短連結文章屬於合集,可以收藏起來閱讀,不然以後都找不到了。
2.5年,計量經濟圈近1000篇不重類計量文章,
可直接在公眾號菜單欄搜索任何計量相關問題,
Econometrics Circle
計量經濟圈組織了一個計量社群,有如下特徵:熱情互助最多、前沿趨勢最多、社科資料最多、社科數據最多、科研牛人最多、海外名校最多。因此,建議積極進取和有強烈研習激情的中青年學者到社群交流探討,始終堅信優秀是通過感染優秀而互相成就彼此的。