統計數據沒有告訴你的那些事兒

2021-01-08 梆裡個梆

許多人覺得統計數據就是存在於新聞裡的抽象派。

統計數據？

不就是每隔幾年的人口普查？

是每年的GDP增幅？CPI指數？

好像都跟我沒什麼關係……

但是說到各地的平均工資水平、最低收入、納稅基數，很多隱性貧困人口就感到喪喪的：原來那些良好的自我感覺都是假象，我的收入拖了後腿還不到當地的平均水平???

那我們暫且先不討論收入這種傷人的話題，就說說最常見的朋友圈爆款吧。

前段時間有關星巴克致癌的文章刷爆了朋友圈，文章稱咖啡裡的丙烯醯胺會誘發不可逆的基因損傷，60公斤成人每天攝取60毫克丙烯醯胺，患癌風險就將高出500倍。

但是，文章並未就一杯中杯星巴克含有的丙烯醯胺含量進行說明，也並未說明丙烯醯胺產生的原因以及是否在其他食品中也有存在。也缺乏對比含有同樣丙烯醯胺跨食品的對比。

這就是文章的漏洞——看似科學的數據深究下來則是不攻自破的謠言。

原來統計數據也會說謊???

這麼一來，下次再買買買之前要擦亮眼睛了：那些號稱具有N年「科學臨床數據」的產品說不定也是騙人的陷阱呢。

美國統計學家達萊爾哈夫在《統計數據會說謊》中，從10個方面說明了統計數據的陷阱和如何反駁看似科學的統計數據。其中，樣本偏差、有選擇的平均數、極端數據是我們在日常生活中最容易踩到的統計陷阱。

1、樣本偏差

統計的基礎就是如何選擇樣本進行調查，抽取的樣本數量足夠大並且分布合理的話選取的樣本是能夠代表整體水平的。而在選擇樣本時會因為調查者、樣本等多方面因素造成統計出現偏差。

回憶一下大學時你參加的街頭攔截調查，你是不是會選擇那些看起來年輕、好說話、以學生為主的群體來回答問題。這種情況就是因為調查者有意無意的選擇而使抽樣年輕化。而且，在參加諸如「你的年收入」是多少的時候，一般人都會虛報自己的收入讓自己感覺好一點，而在年度納稅時，則會因為「合理避稅」而讓自己的收入最小化。

2、有選擇的平均數

比方說常常被我們吐槽的平均收入。

大家都聽說過二八法則，百分之二十的人佔有百分之八十的收入。所以，針對某一群體的收入並沒有遵循正態分布，而是一種偏態分布，差不多長下面這樣，只不過峰值應該出現在末端。

由於高收入人群會拉高整體的算術平均數，所以針對某群體的收入，採用集中頻率較高的眾數，或者針對收入由高到低降序排列選擇位於中間水平的中位數，可能更有代表性。

3、極端數據

就是沒有透露的小數據。這些沒有透露的小數有的是因為樣本量很小，有個是隱瞞了在何種水平下數據的差異是有意義的。

說到小樣本，在一些廣告中展示的臨床試驗中就很常見。兩個貝殼一個塗抹了某牙膏產品，一個未塗抹某牙膏產品，浸沒在酸性環境下，塗抹某產品的貝殼更堅固。但是，僅僅這兩個對比樣本就能說明產品的功效嗎？貝殼真的能夠代表牙齒嗎？

顯著性水平，聽起來很玄乎，其實就是出現誤差的概率。用一個成語來解釋顯著性水平就很容易理解。十拿九穩，就是出現誤差的概率是0.1。因為心理統計掛科過一次，現在想起統計學還是瑟瑟發抖……但回想起來統計學知識真的很有用啊，起碼看到某些一本正經胡說八道看起來差異很大表明效果很好的「科學數據」，心中還是能夠非常冷靜地報之以呵呵的。

統計學畢竟還是一門博大精深的學科。想想曾經學過的概率論與數理統計、快要掛掉的高數和線性代數，再不濟回顧一下中學時的課程或者是你的高考試卷。是不是沒有想到統計學的應用是這麼的廣泛，比起你沒有從事的本專業課程應用得更廣泛了。

除此之外，統計學還是一種統計分析的批判性思維。統計分析能力其實和讀寫能力一樣，是一種了解真實世界的必備技能。在數字時代，面臨海量數據，如何從中篩選出真實、有效的信息，化為己用，而不是人云亦云不假思索地拿來就用，是我們需要思考的。

相關焦點

噬菌體:中國的那些事兒

這兩天微信群、朋友圈被來自「英國那些事兒」公號的一篇文章刷屏了。這文章名字有點長：《丈夫金字塔感染超級細菌，試遍所有抗生素無效。
熱機告訴我的那些事兒(學生

現在，聽聽我的學生陪你聊聊熱機那些事兒。主持人：歡迎來到熱機群英會，熱機展覽會現在開始。請參賽者們把自己的優點介紹出來！主持人：下面我重點介紹一對兄弟：汽油機和柴油機。它們在工作時一個工作循環有四個衝程，分別是「氣」納百川的吸氣衝程、運氣壓縮的壓縮衝程，如來神掌的做功衝程，排出氣體的排氣衝程。
那些讓你「相見恨晚」的數據分析軟體,一般人我不告訴他

CDA數據分析研究院原創作品，轉載要授權喲前段時間考研結束，衷心祝願那些奮鬥數載的小夥伴們可以考到自己夢寐以求的大學。人生短暫，人間美好，希望通過努力奮鬥你我都可以體會到生活的點點滴滴。開頭說點題外話哈哈哈，今天呢，小編想跟大家分享的是那些超級好用的數據分析軟體，好用到吹爆它，恨這麼晚才遇見。菜單式操作軟體電子製表軟體一哥：ExcelMicrosoft Excel是Microsoft為使用Windows和Apple Macintosh作業系統的計算機編寫的一款電子表格軟體。
數據告訴你關於地震監測預報那些事兒

……在我國第八個防災減災日來臨之際，新華社記者對話中國地震臺網中心主任潘懷文，就熱點問題回應民眾關切，並用數據解讀我國地震活動特點、監測預報及災害防禦等相關工作。近期地震形勢如何？專家認為，來自網際網路平臺的海量大數據及其處理結果應用于震害防禦和應急救援系統上，將為預測預警、智能研判、信息共享、應急聯動和輔助決策提供支撐，有效改善地震應急救援現狀。目前，中國地震臺網中心也正在努力把大數據與地震應急救援工作進行深度融合。在地震速報內容、服務方式、服務能力等方面，中國地震臺網通過新技術應用，初步建立了「網際網路＋地震」的雙向信息服務體系。
8月關於中韓機票的那些事兒

我在之前的一篇文章《關於中韓兩國機票的那些事兒》已經全面介紹了目前的留學機票及航班現狀，整體來講是樂觀的。那麼目前的發展也印證了這種樂觀的看法。到了7月底，各個航空公司又公布了8月份的航班計劃，有小夥伴要問了：「現在都買不到8月份的票，公布航班計劃還有用嗎？」
關於梅毒,那些你不知道的事兒

關於梅毒，那些你不知道的事兒 2020-11-30 14:07 來源：澎湃新聞·澎湃號·湃客
GitHub數據告訴你:最幸福的碼農在用什麼程式語言?

GitHub數據告訴你：最幸福的碼農在用什麼程式語言？根據codingame調查的TOP3是：數據科學家/機器學習專家遊戲開發者/工程師成為老師和學術研究人員總結數據分析並沒有得出非常科學的結果，但是可以提供一定程度的洞察力。
excel數據統計:三個公式提高統計工作效率

在日常的辦公中，我們經常會統計excel裡各種數據。在excel裡關於統計的函數也是數不勝數，SUM、SUIMIF、SUMIFS、COUNT、COUNTIFS等等。實際上在Excel的函數中，有個專門統計區間內數據個數的函數——FREQUENCY。函數的基本格式為FREQUENCY（數據區域，臨界點）。在本例中，數據區域是成績所在的單元格區域B2:B17。統計結果劃分了四個區間，相當於有了三個臨界點60、75和90。由於這個函數得到的是一個數組結果，所以必須同時按Ctrl+Shift+回車鍵完成數組公式的輸入。
SEM數據分析的4個誤區,你有沒有遇到過?

SEM數據分析的4個誤區，你有沒有遇到過？數據分析是每個從事SEM競價專員工作時必須著手的事情，而且數據分析也是SEM行業比較難做的事情。作為一個推廣優化師，您真的了解數據嗎？世界上有三種謊言：謊言、糟糕透頂的謊言和數據。
喜馬拉雅籤約《明朝那些事兒》版權推動IP多元開發

日前，喜馬拉雅與磨鐵圖書籤約超級暢銷書《明朝那些事兒》的音頻版權及電子書版權。《明朝那些事兒》是全本白話正說明朝大歷史，問世多年經久不衰，在歷史著作中異軍突起，成為一部現象級作品。《明朝那些事兒》有聲書已在喜馬拉雅獨家上線，一直位居暢銷榜前五，播放量超3.38億。
用數據告訴你如何定投

定投是基金投資的一種方法，長期以來受到諸多投資者的推崇，但在很多情況下，更多人還是選擇一次性投資基金或者股市，到底是定投好還是一次性投資好也一直是大家爭議的焦點，我們會用市場數據告訴你答案　　但我們的數據證明牛市高位接盤並不可怕，只要有適當的方法不僅能解套，甚至還能有不錯的收益。以華夏上證50ETF為例，即使牛市高位入場，每周定投至今也能有24.03%的收益，但單筆投資收益仍為負數，更別說當時高位賣房炒股、融資買入的投資者損失的慘重性了。
統計數據要經得起檢驗

這些年來,但凡和百姓生活有關的統計數據出爐,或多或少總要受到質疑。很重要的一點就是,它們與人們的切身感受大相逕庭。CPI「被拉低」,房價「被降低」,工資「被增長」等都是如此。當下引起爭議的是:根據國家統計局上周公布的2010年國民經濟核算中對居民消費支出的統計結果,每月人均住房支出僅為111元,排在衣食住行的末位。
花草日誌 | 關于洋甘菊的那些事兒

說到洋甘菊，相信你一定會想起那朵擁有著黃色內心、白色花瓣，葉片略感毛茸茸的小花。然而，這看似「不起眼」的花中卻有著大學問！今天，就讓小森帶你了解關于洋甘菊的那些你不知道的事兒。它的名字源自希臘文，意指「地上的蘋果」，而其拉丁種名NobiliS意指高貴的花朵。
備孕那些事兒之監測排卵

接上文《備孕那些事兒之孕前體檢》我們在前篇說了最基礎的孕前體檢問題，那麼今天，說的是體檢結束正式備孕階段的——監測排卵。很多人一聽監測排卵，就會說我孕前體檢一切正常，生活作息規律，周圍也不存在環境汙染，對懷孕這件事不想給自己太大壓力，抱著順其自然的態度，是不是就不必做排卵監測了？
選擇投影那些事兒編輯教你幾招小竅門

這是一個非常令人頭疼的問題，不要著急，今天編輯就來跟大家聊聊購買投影那些事兒。選擇投影那些事兒編輯教你幾招小竅門　　我們在挑選家用投影機的過程中，一是要考慮到自己家庭的實際空間環境和需要，例如客廳或者臥室的空間布局是否能夠順利的進行安裝，二是要考慮到投影機的各種功能是不是能夠滿足我們娛樂的需求
統計數字會說謊:世界上有三種謊言:謊言、彌天大謊和統計數據

統計思維與讀寫能力一樣，是幫你了解真實世界的必備技能。本書幫你會看圖表，會做比較，分辨虛實真假的統計數據，撥開媒體、銷售員、廣告文案向你拋來的數據迷霧，是揭露"虛假數據"的有力武器。整數總是有問題。無論什麼時候你都不能怪我不說實話。這就是利用統計學撒謊的奧妙所在。
酒店不會告訴你的事兒遙控器和電燈開關比馬桶髒

原標題：酒店不會告訴你的事兒遙控器和電燈開關比馬桶髒　　旅行途中酒店就像家，但即使是最豪華的住處也不如自己家一樣衛生、隱私和安全。那麼住酒店要注意哪些事項呢?英國廣播公司(BBC)帶著這些問題來到問答網Quora上提問「酒店房間裡我們不知道的那些事」。
古代手工業那些事兒

今日話題：中國古代手工業的那些事兒~ 等你來挑戰哦 01 早期手工業的發展 1、原始社會的手工業（1）冶煉技術：原始社會晚期，人類已經掌握了冶銅技術
美國版「脫單」地圖告訴你

你是否正在等待緣分，卻因身邊沒有「資源」而煩惱？一份美國版「脫單」地圖告訴你，「婚戀市場」中，在哪個城市生活是個事兒。　　美國市場觀察網站報導，對於想尋覓單身、有工作的男士的女士而言，加利福尼亞州聖何塞是最佳擇偶聖地。
關於質譜使用的那些事兒

在代謝組學研究中，質譜作為前端數據的採集工具，其數據獲取的準確性將會直接影響後續流程的進行，足以見得質譜的重要性。那今天就來聊聊質譜使用過程中的那些事兒。前一陣在社交媒體上看到這樣一句話，分享給大家「Without a goodscientist, your 500K mass spec will just be a bigexpensive brick」, 意思就是說，如果沒有一個很好的操作者，質譜就只是一個昂貴的擺設。雖然說的有些嚴重，但是仔細想想也不無道理。

統計數據沒有告訴你的那些事兒

相關焦點

噬菌體:中國的那些事兒

熱機告訴我的那些事兒(學生

那些讓你「相見恨晚」的數據分析軟體,一般人我不告訴他

數據告訴你關於地震監測預報那些事兒

8月關於中韓機票的那些事兒

關於梅毒,那些你不知道的事兒

GitHub數據告訴你:最幸福的碼農在用什麼程式語言?

excel數據統計:三個公式提高統計工作效率

SEM數據分析的4個誤區,你有沒有遇到過?

喜馬拉雅籤約《明朝那些事兒》版權 推動IP多元開發

用數據告訴你如何定投

統計數據要經得起檢驗

花草日誌 | 關于洋甘菊的那些事兒

備孕那些事兒之監測排卵

選擇投影那些事兒 編輯教你幾招小竅門

統計數字會說謊:世界上有三種謊言:謊言、彌天大謊和統計數據

酒店不會告訴你的事兒 遙控器和電燈開關比馬桶髒

古代手工業那些事兒

美國版「脫單」地圖告訴你

關於質譜使用的那些事兒

喜馬拉雅籤約《明朝那些事兒》版權推動IP多元開發

選擇投影那些事兒編輯教你幾招小竅門

酒店不會告訴你的事兒遙控器和電燈開關比馬桶髒