這個著名的統計學悖論,第一次聽說的人很可能懷疑人生

2020-11-23 騰訊網

來源:把科學帶回家(ID:steamforkids)

作者:七君

我們平時在做重大決策的時候,比如擇校啊,選專業啊,總是會參考這些比較對象的硬指標,比如它們的錄取率啊,就業率啊等等。像是,哪個學校的就業率高,我們就會去報考這個學校。

統計數字可以幫助我們了解這些比較對象的優劣,讓我們做出明智的決策。不光是個人,公司和國家也是這樣做決策的。那麼這樣做對嗎?

其...實...不...對

今天我們就來介紹一個讓人非常頭疼,但非常有用的悖論,它會告訴你,很多時候統計數字相當不可靠,特別容易誤導人。

先來看一個假設的例子。

小明生了慢粒白血病,她的失散多年的哥哥找到有2家比較好的醫院,醫院A和醫院B供小明選擇就醫。

小明的哥哥多方打聽,搜集了這兩家醫院的統計數據,它們是這樣的:

醫院A最近接收的1000個病人裡,有900個活著,100個死了。

醫院B最近接收的1000個病人裡,有800個活著,200個死了。

作為對統計學懵懵懂懂的普通人來說,看起來最明智的選擇應該是醫院A對吧,病人存活率很高有90%啊!總不可能選醫院B吧,存活率只有80%啊。

呵呵,如果小明的選擇是醫院A,那麼她就中計了。

就這麼說吧,如果醫院A最近接收的1000個病人裡,有100個病人病情很嚴重,900個病人病情並不嚴重。

在這100個病情嚴重的病人裡,有30個活下來了,其他70人死了。所以病重的病人在醫院A的存活率是30%。

而在病情不嚴重的900個病人裡,870個活著,30個人死了。所以病情不嚴重的病人在醫院A的存活率是96.7%。

在醫院B最近接收的1000個病人裡,有400個病情很嚴重,其中210個人存活,因此病重的病人在醫院B的存活率是52.5%。

有600個病人病情不嚴重,590個人存活,所以病情不嚴重的病人在醫院B的存活率是98.3%。

畫成表格,就是這樣的——

醫院A:

醫院B:

你可以看到,在區分了病情嚴重和不嚴重的病人後,不管怎麼看,最好的選擇都是醫院B。但是只看整體的存活率,醫院A反而是更好的選擇了。所謂遠看是汪峰,近看白巖松,就是這個道理。

這讓人很抓狂。萬一我們真的患上了什麼病,又遇到了這種類似的情況,豈不是會讓自己掉坑裡?大韓民國這麼多小明就是因為這個原因去世的嗎?到底這是怎麼回事?

實際上,我們剛剛看到的例子,就是統計學中著名的黑魔法之一——辛普森悖論(Simpson's paradox)。辛普森悖論最初是英國數學家愛德華·H·辛普森(Edward H. Simpson)在1951年發現的。

辛普森悖論就是當你把數據拆開細看的時候,細節和整體趨勢完全不同的現象。

辛普森悖論:同一組數據,整體的趨勢和分組後的趨勢完全不同。

從統計學家的觀點來看,出現辛普森悖論的原因是因為這些數據中潛藏著一個魔鬼——潛在變量(lurking variable),比如在上面這個例子裡,潛在變量就是病情嚴重程度不同的病人的佔比。

辛普森悖論在日常生活中層出不窮。

最著名的辛普森悖論的實例,就是1973年加利福尼亞大學伯克利分校性別歧視案的例子。

加利福尼亞大學伯克利分校

大家從表格裡可以看到,如果只看整體錄取率,那麼男生的錄取率是44%,女生的是35%。

不求甚解的話,一般人肯定會得出這樣的結論——女生被歧視了。打算申請這所著名大學的女生要是看到這樣的數據,八成肺都氣炸了。

別急,現在把上面的數據按照院系拆分,再來看看每個系的錄取率。

你可以看到,在6個院系的4個裡,女生的錄取率大於男生,女生只在2個院系裡容易折戟。加利福尼亞大學伯克利分校的統計學教授 Peter Bickel 後來發現,如果按照這樣的分類,女生實際上比男生的錄取率還高一點點。

Bickel 認為,在這個案例中,辛普森悖論出現的原因是,女生更願意申請那些競爭壓力很大的院系(比如英語系),但是男生卻更願意申請那些相對容易進的院系(比如工程學系)。辛普森悖論真是太奇怪了。

點擊播放 GIF 1.7M

再比如這個經典的佛羅裡達死刑悖論。

1991年,科羅拉多大學的統計學家 Michael L. Radelet 和東北大學的社會學研究院主任 Glenn Pierce 重新查看了1976-1987年間美國佛羅裡達州的謀殺案的審判數據,發現了重大的司法不公正事件。

從歸總的數據來看,佛羅裡達的法官在審判的時候並沒有偏向白人,因為白人嫌疑人的死刑率甚至還比黑人高一些。

但是,如果按照被害人的種族來分割數據的話,我們就會看到很不一樣的結果了——黑人比白人更容易被判死刑。

現在你可以很明顯地看出,不管被害人是什麼種族,黑人比白人更有可能被判死刑。

這還不算。分類後的數據顯示,如果受害人是白人,那麼嫌疑人就更容易被判死刑。如果被害人是黑人,嫌疑人被判死刑的可能性很低。種族歧視昭然若揭啊。

所以,我們要怎樣才能避免辛普森悖論呢?

答案是…很難。不少統計學家認為,辛普森悖論的存在,讓我們不可能光用統計數字來推導準確的因果關係。

因為數據可以用各種各樣的方式分類,然後再進行比較,所以理論上潛在變量無窮無盡,你總是可以用某個潛在變量得到某種結論。

而且對於那些不懷好意的人來說,他們很容易對數據進行拆分或者歸總,得到一個對自己有利的指標,從而來迷惑甚至操縱他人。醫學和社會學的研究者也常常會遇到辛普森悖論,從而得出錯誤的結論。

辛普森悖論完美地闡釋了這句古老的哲學寓言:「假如一棵樹在森林裡倒下而沒有人在附近聽見,它有沒有發出聲音?」如果有一個邪惡的潛在變量逃脫了你的眼睛,那麼統計數字得出的結論還可信嗎?

我們能做的,就是仔細地研究分析各種影響因素,不要籠統概括地、淺嘗輒止地看問題。

什麼,你要我舉個利用辛普森悖論操縱別人的例子?

很簡單啊。那些常說「我是聰明的小朋友裡最漂亮的,漂亮的小朋友裡最聰明的」小孩,一般都是既不_____,也不_____的。

相關焦點

  • 那些反直覺的統計學悖論(下)
    對於60人的大班,兩人生日相同的概率要大於99%。生日悖論其實並不是一種「悖論」,只是這個數學事實十分反直覺,故稱之為一個悖論。第二個選擇,雖然有機會獲得1億美元,但也有50%的可能一分錢都得不到,想想就不甘心。我們來看看,富人是怎麼將這個有50%機會獲得1億美元的選擇權產生巨大價值的。既然有50%的機會得到1億美元,說明這個選擇權的價值是5000萬美元,這個世界一定有比你更有錢、更願意冒險的人存在,他們想試試手氣。
  • 數據分析必須要避開的坑:讓人懷疑人生的七大悖論
    數理統計學是數據分析的基礎理論,我們之前所有為數據分析所做的工作,比如梳理指標、篩選數據、可視化等等,都是為了我們能夠更好地找到數據之間的關係,利用統計學原理對這些關係進行界定和聯繫。在進行數據分析的時候,我們尤其要注意這個坑:比如當我們的數據顯示肺癌的人80%都是因為抽菸時,我們就不能說所有抽菸的人都會導致肺癌。二、變量關係存在的兩個悖論1、辛普森悖論指當我們對兩個變量進行分組研究時,在分組中都佔優勢的一方,在總評中反而成為失勢的一方。
  • 辛普森悖論與「人生的三條路」
    辛普森悖論揭示了數據會說謊的秘密。本文最後少不了來一碗實用主義的雞湯,扯了一下「懷才不遇」的統計學原理,和逆向運用辛普森悖論的人生第三條路。01意外嗎?統計顯示iPhone用戶忠誠度沒Android高。
  • 機器學習中的忒修斯之船:那些「愚弄」專家的著名悖論
    全文共3269字,預計學習時長11分鐘悖論是人類認知的奇蹟之一,它難以用數學和統計學來求解。理論上來說,悖論是一種基於問題的原始前提得出明顯自相矛盾結論的陳述。即便是最著名的且有案可稽的悖論,也會經常愚弄住相關專家,因為悖論從根本上違背了常識。
  • 《人鬼情》悲愴的女性體驗和人生悖論
    黃蜀芹的《人。鬼.情》是一部風格獨特、思想內涵深邃,具有較高藝術成就的電影,也是一部真正意義上的「女性主義"電影。影片根據著名女藝術家裴豔玲的真實人生經歷改編。影片將筆觸深入人物的內心世界,沿著人物的心理軌跡去呈現一位戲曲女演員的人生狀態和生命歷程,從而將一個女人從少女時代到中年時期各種獨特的生命體驗表現得淋漓盡致。主人公秋芸的成長,是一一個不斷否認自己性別但又不斷體味自己性別的過程,對應著「我是誰」這樣一個經典的人生追問。
  • 科學祛魅與人生意義的悖論
    (湖北武漢 430205)馬克斯·韋伯可以說是一位在基本理念方面矛盾重重的思想家,具體表現之一就是他在1919 年亦即一百年前為慕尼黑一批大學生所做的「以科學為業」的講演中,一方面十分強調科學祛魅的重要效應,另一方面卻又深度懷疑科學知識對現實人生是否具有積極意義,結果落入了富於悲 劇意味的自敗悖論。
  • 足球著名的三個悖論,你知道幾個?
    關於足球,有三個著名的坊間悖論,雖然初聽感覺好像有點道理,實質上都是足球悖論,筆者就來一一反駁這3個悖論。 1.足球著名悖論一:如果派11個死刑犯去踢世界盃,拿到冠軍就減刑,可以拿到世界盃。
  • 你有沒有想過,你可能高估了統計學(一)
    01 無處不在的統計學我國著名的數學家華羅庚說起數學的用途,是「宇宙之大,粒子之微,火箭之速,化工之巧,地球之變,生物之謎,日用之繁,無處不同。」作為數學的分支,統計學在人類生活中的作用也大抵如此。統計學不僅可以給個人提供幫助,更可以用於集體。你應該聽說過「樣本」這個詞,我們常常需要從包含了大量個體的對象中抽取一小部分作為樣本,來推理這個對象的特徵,而不是直接利用這個對象本身。這個對象我們稱為總體。如果研究的對象是人,那麼一個集體就是總體。統計學中有一條中心極限定理,它已經證明,在正確抽樣的前提下,樣本與它所代表的總體存在相似關係。
  • 去雲南旅遊,昆蟲宴上讓人「懷疑人生」的4種美食,你敢吃嗎?
    ,當然這也是雲南的特色美食,看慣了精美的美味佳餚,現在來看看不同尋常的黑暗美食吧,而去雲南旅遊,昆蟲宴上讓人「懷疑人生」的4種美食,你敢吃嗎?第一種:炸海馬首先我們來說一說第一種昆蟲宴會上讓人「懷疑人生」的美食炸海馬,很多人都不敢相信海馬還能炸著吃,覺得太不可思議了,而在雲南就見怪不怪,昆蟲宴會上常見的美食之一,它的口感特別的酥脆,油炸到金黃色就行,很多人在第一次看到它的時候覺得「懷疑人生」,以為自己看錯了,其實它的口感還是不錯的哦。
  • 世界三大著名悖論
    這就是著名的「費米悖論」。理論上講,人類能用100萬年的時間飛往銀河系各個星球,那麼,外星人只要比人類早進化100萬年,現在就應該來到地球了。「費米悖論」表明了這樣的悖論:A.外星人是存在的——科學推論可以證明,外星人的進化要遠早於人類,他們應該已經來到地球並存在於某處了。
  • 最著名的物理悖論,即將走向終結?
    這導致了黑洞信息悖論,任何落入黑洞的東西似乎都會永遠消失,包括信息,而這違反了量子力學中時間演化的么正性,也就是說對於某個粒子,在全空間內任意時刻找到它的概率應該為1。隨著一系列突破性的論文,理論物理學家已經非常接近於解決近50年來一直困擾著他們的黑洞信息悖論。
  • 那些著名又有趣的悖論!你了解多少!?
    2.紙牌悖論:紙牌的一面寫著:"紙牌反面的句子是對的。"而另一面卻寫著:"紙牌反面的句子是錯的。"這是由英國數學家Jourdain提出來的。這也是一個有名的悖論,叫喬丹真值(Jourdain Truth-Value)悖論。
  • 巴西科學家破解著名的「潛水艇悖論」
    這是一個悖論,是由愛因斯坦相對論引出的著名的「潛水艇悖論」。    巴西聖保羅州立大學的科學家馬察斯最近宣布徹底破解了這個悖論。他在新一期美國《物理評論D》雜誌上發表的研究結論認為,那艘潛水艇最終將沉入水底。    根據愛因斯坦的相對論,物體的長度在運動方向上會產生收縮。
  • 最著名的物理悖論,即將走向終結?-虎嗅網
    這導致了黑洞信息悖論,任何落入黑洞的東西似乎都會永遠消失,包括信息,而這違反了量子力學中時間演化的么正性,也就是說對於某個粒子,在全空間內任意時刻找到它的概率應該為1。隨著一系列突破性的論文,理論物理學家已經非常接近於解決近50年來一直困擾著他們的黑洞信息悖論。現在,他們可以確切地說,信息確實離開了黑洞。
  • 《人生第一次》中國人的人生圖鑑
    通過一部紀錄片,系統地把人生的第一次,展現在廣大觀眾面前,這對大家都是重要的人生回顧和反思。」中國文藝評論家協會主席仲呈祥認為,《人生第一次》很好地回應了習近平總書記2019年3月4日看望參加全國政協會議的文藝界、社科界委員們時講到的四個字:培根鑄魂。「這部紀錄片用深刻的選題、獨特的視角,關照人與自然的關係、人與社會的關係、人與人的關係,提升民族的素質和境界,真正在做培根鑄魂的工作。」
  • 統計學是什麼?| 統計學七支柱
    下文節選自《統計學七支柱》, 已獲人郵圖靈許可, [遇見數學] 特此表示感謝「統計學是什麼?」早在1838年就有人提出過這個問題(與英國皇家統計學會有關),此後這個問題又被反覆提起。多年來,鐵打的問題和流水的答案已成為該討論的特點。綜合問題和答案可以看出,持續的疑問源於,統計學並不是一個單一學科。
  • 悖論溯源:蘇格拉底將自以為是者推入兩難困境漩渦
    第二章擾人的二難困境(古希臘是一個洋溢著追求智慧空氣的地方,蘇格拉底等哲學家貢獻了最初的一批悖論,蘇格拉底將很多自以為是的人推進了兩難困境的漩渦,最後甚至他自己也被卷了進去)蘇格拉底的詰問法蘇格拉底堪稱哲學家的典範,他曾把自己比作將人們從精神的慵懶
  • 你有沒有想過,你可能高估了統計學(二)
    在前一節【你有沒有想過,你可能高估了統計學(一)】,我們聊到了統計學的無所不在和它的趣味盎然。從《赤裸裸的統計學》這本書中,我們還會發現統計學不為人知的另一面。-3- 會欺騙人的統計學我們從網站上、報紙上會看到各行各業的統計數字,有一些數字讓你覺得可信,有一些卻會讓你產生懷疑。不要懷疑,統計數字的確可能會欺騙你。
  • 歷史上著名的五大悖論,你知道幾個
    公元前6世紀古希臘哲學家伊壁孟德所創的四個悖論之一。是關於「我正在撒謊」的悖論。具體為:如果他的確正在撒謊,那麼這句話是真的,所以伊壁孟德不在撤謊,如果他不在撒謊,那麼這句話是假的,因而伊壁孟德正在撒謊。
  • 華應龍的「悖論」
    這三個悖論,也是數學發展歷史上的三次危機。第一個是畢達哥拉斯悖論。畢達哥拉斯學派的哲學基礎是「萬物皆數」,而「一切數均可表示成整數或整數之比」則是這一學派的數學信仰。但√2這樣的數是無法用兩個整數的比表示出來的,因此產生了「無理數」這個概念。第二個是芝諾悖論。