轉載自鳳凰WEEKLY(公眾號ID:phoenixweekly)
這星期,一條關於「平均工資」的報告,被頂上了熱搜。
報告顯示:春節後招聘市場很火,平均薪資高達6014元。上海連基層崗位薪資,都高達8389元。
評論區一片哀嚎,「我又拖祖國後腿了」的喊聲不絕於耳。
近年來,這類「權威調查」層出不窮:
《2018年全國平均工資7850元,你拖後腿了嗎?》
《90後沒有性生活了:30%的人無性且單身5年以上》
《網際網路巨頭:公司員工平均年薪50萬!》
《就業寒冬來了!全國平均32人競爭一個崗位》
《中國男女比7連降,3000萬男性將「打光棍」!》
《長期單身會短命:單身男性比已婚死亡風險增加20%》
看到這些報告,很多人大呼:我不信!但是除了翻個白眼之外,好像也說不出哪裡有問題。畢竟「數據不會說謊」。
數據真的那麼可靠嗎?並非如此。恰恰相反的是,有大把方法,能讓統計數字說謊。
年初,某招聘平臺發布報告,報告中顯示,2018年年末,全國半數白領拿到年終獎,並且平均獎金高達7100元。
真有這麼多人拿到了年終獎??難道1毛錢都沒拿到的,只有我一個???
點開評論區,原來大家都一樣。
當數據和感受嚴重不符時,很多人會認為是自己錯了。或許自己就是混的比較差的那批人...
可是錯的不一定是你,也可能是數據本身。
這類數據,通常都以問卷抽樣調查形式進行。偏偏抽樣調查,是一種很容易被幹擾的調查方式。
首先是樣本規模。我們可以在廣州市,調查冬天穿羽絨服的人群比例。但不能聲稱:調查顯示,全國人民冬天幾乎都不穿羽絨服。
我們看到的很多調查報告,實際上就是類似這樣操作的。一個網站可能只發了幾百份問卷,就敢發布「全國XX調查」。
其次是抽樣方法。不是樣本規模夠大,數據就一定準確。
有一個經典段子:電話調查顯示,美國100%的家庭擁有電話。
同樣的例子有很多。譬如某招聘平臺,通過對平臺的資料庫分析,得出了「2018年夏季,求職人才需求量最多的10大城市」。
這份報告其實該叫 」2018年夏季,在該招聘平臺發布職位最多的城市」。
要保證調查數據的準確,需要花費不少精力。
但如果想要「私人訂製」一個對自己有利的數據,就輕鬆很多了。
例如某線上理財平臺,做了一個調查。他們得出結論:超過半數的受訪者,傾向於使用網際網路理財平臺。
但這份報告中,對於樣本的介紹只有一句話:對全國多個城市年終獎數據進行調查。
用這種調查方式,甚至可以調查出:全國超半數受訪者,都使用本平臺理財呢。
同樣的騷操作,很多招聘網站也幹過。某招聘平臺有過一個報告:近八成的白領,都在尋找新的工作機會。
但有一個問題,那些不想找工作的人,上招聘網站幹啥?閒著沒事?,真的有4.4%的用戶這麼閒。
這類調查無異於在飯店外面問排隊的顧客:會不會選擇在該店就餐?屬於廢話。
即使樣本夠大,抽樣方法也足夠科學,調查呈現的結果,仍然可以被主觀意志所左右。
修改數值、編造數據是最低劣的手段,更高明的是,根據需求採用不同的分析策略。
最典型的例子就是人盡皆知的「被平均」。
有網友雲「拿我的工資和馬雲平均,我也能進福布斯」。
我們可以把這個案例放大到現實世界。據統計,全球最富有的26個人的財富總和,相當於最貧窮38億人的財富總和。這38億人構成全球一半人口。
假設最富有的26人財富共2600000000元,每人平均100000000元資產,那最貧窮的38億人平均只有0.68元的資產。
如果「被平均」一下呢?
38億最貧窮的人,人均資產變為了1.36元,直接翻了一倍。
資源是不會平均分配的。比起均值,眾數和中位數也許更能說明問題。
▲2018年上半年居民人均可支配收入平均數與中位數 圖片、數據來源:國家統計局
眾數是指在統計中,具有明顯集中趨勢點的樣本,代表統計樣本的一般水平;中位數是按順序排列的一組樣本數據中,居於中間位置的樣本。
以馬雲和網友的故事為例:
假設兩名網友收入為0元,一名網友的收入為1元,馬雲的收入為100元,那麼統計數據的整體眾數為0元。
將4個人的收入按順序排列,排在最中間的兩個數之和為1,取個平均數,可以得出四人年收入的中位數是0.5。
收入的眾數,可以體現多數人的收入水平。收入的中位數,可以讓大家知道,自己的收入,處在什麼位置。
一份統計報告中,只要列出眾數和中位數,就能得到相對中肯的結果。但就是有人故意迴避這些數據,專拿平均數說事,非蠢既壞。
除了有目的地選用數據,還可以別有用心地解讀數據。
下圖中的兩個對比項曲線無比吻合,如果不知道圖表的具體內容,一定會認為兩項數據,有緊密的相關性。
其實這兩條曲線,分別代表 [尼古拉斯凱奇每年在電影中的出鏡次數] 及 [每年遊泳池裡溺死的人數] 。
顯然這是八竿子打不著的兩件事,曲線的吻合實屬巧合。
誰讓這是個充滿巧合的世界呢?
在1989年的一次調查裡,調查者發現法國人愛吃的食物高脂肪、高蛋白、高熱量,但法國的肥胖人口卻只有10%,冠心病發病率和死亡率,還比其它西方國家低得多。
鑑於法國盛產紅酒,法國人也向來有喝紅酒的習慣,研究人員便「順理成章」地推測:「每天適當飲用紅酒有利於心血管健康,可預防心血管疾病的發生」。
實際上,並沒有醫學證據支持紅酒有利於心血管健康的結論。[法國人心血管疾病發病率低] 與 [法國人愛喝紅酒] 只是兩個獨立事件。
這樣的謠言廣為傳播,要拜紅酒商人所賜。
巧合無處不在,但是把巧合放在一起,並暗示相關性或因果關係,就其心可誅了。
在數據領域,謊言絕不僅僅限於數字和樣本,它同樣是視覺的藝術。
為了直觀解讀,數據通常會做成圖表。在設計圖表過程中,有許多誤導性的手法。
修改坐標軸,修改坐標軸中,截斷Y軸的操作最為常見。
上圖是08年金融危機後,美國領取政府福利的人數增長情況。
乍一看,每個季度都有巨量增長。柱狀圖赫然呈現出:聯邦政府與日俱增的財政壓力。
美國人民看到後,內心對政府充滿了感激。
但如果仔細觀察,會發現這張圖的Y軸不是從0開始,而是從94M開始的。如果將Y軸展開,改為從0開始,這張圖就會呈現以下效果:
是不是馬上變得平平無奇了?
美國民眾的感激之情,瞬間能消散80%。
還可以換一個更直觀的例子。
上圖是2017年維密大秀的現場採訪。
圖中左側是主持人,右側是身高為178cm的超模何穗、奚夢瑤。
圖中看到,主持人和兩位超模幾乎平起平坐,觀眾可以大膽推測:主持人的身材一定也相當優越。
事實並非如此,因為這張圖截去了Y軸。我們將Y軸打開,這張圖長這個樣子:
此外,還可以拉伸、擠壓坐標軸。同一份數據,做出的圖坐標刻度不同,可以呈現出完全不同的效果。
選用不同的圖表,除了利用坐標軸誤導讀者之外,作圖者還經常利用圖表特性掩蓋、扭曲關鍵信息。
比如用累積數據圖代替階段數據圖。
上圖是蘋果手機的歷年銷量,圖中可以看到2016年銷量數據預測,將出現較大下滑。
如果作圖人想掩蓋這一信息,可以將歷年銷量圖改為累計銷量圖,這部分信息就會在圖中消失無蹤。
利用圖表特性扭曲關鍵信息,比如利用3D圖表的特殊透視誤導讀者。
下圖是2008年賈伯斯在發布會上引用的數據,顯示當時蘋果佔據了智慧型手機市場19.5%的份額。
在這張3D圖中,由於陰影的存在,iPhone所佔據的綠色區域會看起來會比實際上更大。
將這張3D餅狀圖還原為平面圖,如下,視覺效果明顯差了很多。
作為世界級的演講大師,這種失真的細節是不會逃過賈伯斯的眼睛的。
換句話說,他故意的。
看了上述這些,通過人為手段操縱數據,得到某個結論的伎倆後,再來看看那些「聳人聽聞」的標題:
《2018年全國平均工資7850元,你拖後腿了嗎?》
《90後沒有性生活了:30%的人無性且單身5年以上》
《網際網路巨頭:公司員工平均年薪50萬!》
《就業寒冬來了!全國平均32人競爭一個崗位》
《中國男女比7連降,3000萬男性將「打光棍」!》
《長期單身會短命:單身男性比已婚死亡風險增加20%》
是不是焦慮的感覺少了許多?
此外,即使統計者沒有數據曲解,而是竭力想從數據中得出準確信息,也未必能如願。
因為現實世界的變量實在太多。
譬如說預測天氣吧。我們早就會呼風喚雨(人工降雨),還能控制藍天(G20藍、APEC藍),天上還飄著數以百計的衛星,結果呢?
天氣預報還沒有蕭敬騰準。
▼
互動話題
你還知道哪些數據被平均過嗎?
點好看都能暴富哦~