許多人覺得統計數據就是存在於新聞裡的抽象派。
統計數據?
不就是每隔幾年的人口普查?
是每年的GDP增幅?CPI指數?
好像都跟我沒什麼關係……
但是說到各地的平均工資水平、最低收入、納稅基數,很多隱性貧困人口就感到喪喪的:原來那些良好的自我感覺都是假象,我的收入拖了後腿還不到當地的平均水平???
那我們暫且先不討論收入這種傷人的話題,就說說最常見的朋友圈爆款吧。
前段時間有關星巴克致癌的文章刷爆了朋友圈,文章稱咖啡裡的丙烯醯胺會誘發不可逆的基因損傷,60公斤成人每天攝取60毫克丙烯醯胺,患癌風險就將高出500倍。
但是,文章並未就一杯中杯星巴克含有的丙烯醯胺含量進行說明,也並未說明丙烯醯胺產生的原因以及是否在其他食品中也有存在。也缺乏對比含有同樣丙烯醯胺跨食品的對比。
這就是文章的漏洞——看似科學的數據深究下來則是不攻自破的謠言。
原來統計數據也會說謊???
這麼一來,下次再買買買之前要擦亮眼睛了:那些號稱具有N年「科學臨床數據」的產品說不定也是騙人的陷阱呢。
美國統計學家達萊爾哈夫在《統計數據會說謊》中,從10個方面說明了統計數據的陷阱和如何反駁看似科學的統計數據。其中,樣本偏差、有選擇的平均數、極端數據是我們在日常生活中最容易踩到的統計陷阱。
1、 樣本偏差
統計的基礎就是如何選擇樣本進行調查,抽取的樣本數量足夠大並且分布合理的話選取的樣本是能夠代表整體水平的。而在選擇樣本時會因為調查者、樣本等多方面因素造成統計出現偏差。
回憶一下大學時你參加的街頭攔截調查,你是不是會選擇那些看起來年輕、好說話、以學生為主的群體來回答問題。這種情況就是因為調查者有意無意的選擇而使抽樣年輕化。而且,在參加諸如「你的年收入」是多少的時候,一般人都會虛報自己的收入讓自己感覺好一點,而在年度納稅時,則會因為「合理避稅」而讓自己的收入最小化。
2、 有選擇的平均數
比方說常常被我們吐槽的平均收入。
大家都聽說過二八法則,百分之二十的人佔有百分之八十的收入。所以,針對某一群體的收入並沒有遵循正態分布,而是一種偏態分布,差不多長下面這樣,只不過峰值應該出現在末端。
由於高收入人群會拉高整體的算術平均數,所以針對某群體的收入,採用集中頻率較高的眾數,或者針對收入由高到低降序排列選擇位於中間水平的中位數,可能更有代表性。
3、 極端數據
就是沒有透露的小數據。這些沒有透露的小數有的是因為樣本量很小,有個是隱瞞了在何種水平下數據的差異是有意義的。
說到小樣本,在一些廣告中展示的臨床試驗中就很常見。兩個貝殼一個塗抹了某牙膏產品,一個未塗抹某牙膏產品,浸沒在酸性環境下,塗抹某產品的貝殼更堅固。但是,僅僅這兩個對比樣本就能說明產品的功效嗎?貝殼真的能夠代表牙齒嗎?
顯著性水平,聽起來很玄乎,其實就是出現誤差的概率。用一個成語來解釋顯著性水平就很容易理解。十拿九穩,就是出現誤差的概率是0.1。因為心理統計掛科過一次,現在想起統計學還是瑟瑟發抖……但回想起來統計學知識真的很有用啊,起碼看到某些一本正經胡說八道看起來差異很大表明效果很好的「科學數據」,心中還是能夠非常冷靜地報之以呵呵的。
統計學畢竟還是一門博大精深的學科。想想曾經學過的概率論與數理統計、快要掛掉的高數和線性代數,再不濟回顧一下中學時的課程或者是你的高考試卷。是不是沒有想到統計學的應用是這麼的廣泛,比起你沒有從事的本專業課程應用得更廣泛了。
除此之外,統計學還是一種統計分析的批判性思維。統計分析能力其實和讀寫能力一樣,是一種了解真實世界的必備技能。在數字時代,面臨海量數據,如何從中篩選出真實、有效的信息,化為己用,而不是人云亦云不假思索地拿來就用,是我們需要思考的。