正文開始之前,先祝大家國慶快樂,7天長假和統計學習更配哦。
統計數據會說謊?除了有意為之,再者可能是因為沒有掌握分析要領,不知不覺就掉入分析思維陷阱,貽笑大方了。現以齊齊哈爾大學經濟與管理學院「吳佔坤」在《中國統計》上發表的文章進行解讀,看看常見的5種錯誤,提高對數據分析的認識。
1,缺乏對領域知識的了解
當你對一個領域不甚了解的時候,隨意進行數據分析,就可能出現錯誤推理。文中作者例舉了醫學雜誌的案例,如果父母在嬰兒房間內睡覺總是開著燈,嬰兒就會有高度近視,這時候會有人認為由於開燈造成嬰兒高度近似。然而進一步研究會發現,凡是父母高度近視的, 往往有給小孩開燈的習慣。
2,辛普森悖論
百度百科的解釋:辛普森悖論(Simpson's Paradox)亦有人譯為辛普森詭論,為英國統計學家E.H.辛普森(E.H.Simpson)於1951年提出的悖論,即在某個條件下的兩組數據,分別討論時都會滿足某種性質,可是一旦合併考慮,卻可能導致相反的結論。
援引維基百科與科普寫作獎佳作獎作者林守德的向理性與直覺挑戰的頑皮精靈-綜觀詭譎的悖論等文:
「校長,不好了,有很多男生在校門口抗議,他們說今年研究所女生錄取率42%是男生21%的兩倍,我們學校遴選學生有性別歧視」,校長滿臉疑惑的問秘書:「我不是特別交代,今年要儘量提升男生錄取率以免落人口實嗎?」
秘書趕緊回答說:「確實有交代下去,我剛剛也查過,的確是有注意到,今年法學院錄取率是男性75%,女性只有49%;而商學院錄取率是男性10%,女性為5%。二個學院都是男生錄取率比較高,校長這是我作的調查報告。」
學院
女生
申請
女生
錄取
女生
錄取率
男生
申請
男生
錄取
男生
錄取率
合計
申請
合計
錄取
合計
錄取率
商學院
100
49
49%
20
15
75%
120
64
53.3%
法學院
20
1
5%
100
10
10%
120
11
9.2%
總計
120
50
42%
120
25
21%
240
75
31.3%
「秘書,你知道為什麼個別錄取率男皆大於女,但是總體錄取率男卻遠小於女嗎?」
此例這就是統計上著名的辛普森悖論(Simpson's Paradox)。
為了避免辛普森悖論出現,就需要斟酌個別分組的權重,以一定的係數去消除以分組資料基數差異所造成的影響,同時必需了解該情境是否存在其他潛在要因而綜合考慮。
3,先驗信息的誤導
在數據分析時,有效地利用先驗信息,可以使得結果更加準確,更加全面。然而錯誤的先驗信息不但不會起到正向作用,反而會起反作用。如「黃金周」期間商城對電器採取了打折促銷活動,然而發現效果並不明顯,找一個諮詢公司進行數據分析,可能會很快地從數據中得出效果不明顯的原因。比如,打折不夠低,沒有吸引力、消費者都去網購了,分流了很大訂單、消費者更多的去旅遊了,沒有去購物等各種原因。之所以會有五花八門的原因,是因為諮詢公司在以往的數據分析時經常會得出這樣的結論,分析數據之前,已經有了先入為主的結論。
4,以偏概全
該類錯誤常見抽樣調查中,查看結果時,需要反思抽樣過程是否隨機,是否具有代表性。
5,扭曲的結果展示
正確選擇和正確使用圖表,才能有效避免該類錯誤出現。觀察下圖,同一組數據在圖2和圖3展示不一樣的波動情況,明眼人一下子就能從坐標軸縱軸發現起始點和間距不相同。
下次當您開始數據分析時,需要多個「心眼兒」,免得鬧出笑話。
註:本文內容部分節選自《中國統計》2016年第9期,作者為吳佔坤,版權歸作者所有,此處僅供學習探討。