數據,圖表和謊言,辛普森悖論每一個都會提供一些有用的

2020-12-16 張聚哲家常事

在這一章裡,我會提供一些有用的工具,以幫助我們更好地理解統計數據,並提高我們檢測統計謊言的能力——不幸的是,錯誤的數據往往可被用來相對輕鬆地證明幾乎所有的事情。我會使用日常生活裡的一些滑稽且有啟發性的案例。

當需要做決定時,我們往往會訴諸數字——很多很多的數字。涉及分析和理解數字的學科被稱為統計學。小說家赫伯特·喬治·威爾斯(1866—1946)預測,"未來,高效的公民有必要擁有統計學的思維,作為其讀寫的能力"。確實,統計數據在今天隨處可見。你在讀報紙、看電視或上網時,不可能不看到一些統計術語和數字。

受數據影響幾年前,我在一家主流報紙上讀到這樣一則新聞:超速不會導致事故。這個斷言基於以下統計數據:在所有的交通事故中,僅有2%發生在車輛時速為100公裡或更快的情況下。這被解讀為每小時100公裡是一個非常安全的駕駛速度。當然,雖然這則報導刊登在報紙上,但它是絕對錯誤的結論。畢竟,如果確實如此,我們為什麼要限速每小時100公裡?即使是首悲傷的歌,也把它唱得快樂些吧。根據我的數據,在時速為300公裡時,沒有事故發生,所以國家應要求所有的駕駛員將車速保持在這個安全的水平。我甚至願意有以我自己的名字命名的法律,來約束每個人駕車的速度不得低於每小時300公裡,這個法律將被稱為《夏皮拉法》。

言歸正傳,那條報導沒能提供一些關鍵的數據信息——如駕駛員保持那個速度的時間比例。我們需要這一信息來確定這個速度是否確實安全,還是實際相對危險。舉例來說,如果駕駛員在全部駕駛時間中僅有2%的時間是保持在每小時100公裡及以上,而所有事故中有2%在那個時間段內發生,那麼這就是一個"規範性"速度:既不是比其他速度更安全,也不是比其他速度更危險。但如果我們僅有0.1%的駕駛時間將速度達到每小時100公裡,而仍然有2%的事故率,那麼這個速度就非常危險了。

最近發表的一份以色列調查結果指出,女性開車比男性更好。這有可能是對的,但這項調查為這個結論引用了一個奇怪的理由,那就是涉及嚴重駕駛事故的以色列男人比女人要多。實際上,這一事實說明不了什麼。假設在全以色列只有兩位女性駕駛員,而她們去年捲入了800次嚴重的駕駛事故,而100萬男性駕駛員捲入了1000次事故中。那就意味著每位女司機的平均事故數量是每年400次(超過一天一次)。在此基礎上,我不可能說她們是好司機。

此外,根據《每日電訊報》網絡版2016年2月21日發表的一篇文章,女司機還是要比男司機更好,至少在英國是這樣。這篇文章指出,"女性司機不僅在行車測試中得分高於男性,而且在匿名觀察英國最繁忙的交叉路口——海德公園角時,得分也高於男性司機"。

圖表和謊言

以下是用圖表的方式演示數據的一個案例。假設一家公司的股價在2015年1月到2016年1月從27美元上升至28美元。在這樣一個被電腦控制的時間和年代裡,人們喜歡用圖表和報告來展示這些東西。怎麼才能做好呢?這取決於你的觀眾。

如果是在給稅務員做展示,

正如你所看到的,事情看起來並不太好。看起來像是一個死人的脈搏。它會讓聯邦稅務局哪怕是最堅強的員工心碎。

如果將同樣的數據展示給公司董事會,我會稍微修改一下圖表,讓它看起來能顯示出股價高漲,且將持續上漲的趨勢

這兩個展示的區別在於其中的一個標尺——也是我們選擇的特殊碼尺。靠著一點想像力和一些努力,我們可以用滿足我們需要的方式展示任何東西。在看電視廣告時,我看到一個有關三家服務公司的客戶滿意度的圖表展示。自然,贊助這個廣告的公司得分最高——7.5分(滿分是10分)——而它的兩個競爭者分別得分7.3和7.2。這個圖表沒有顯示抽樣客戶的數量,因此我們無法知道這三家公司的區別是否真實。不論怎樣,數據都是這樣展示的。

這些柱子創造出一種表象,即做廣告的公司比其他競爭者要遠遠領先。

班傑明·迪斯雷利(1804—1881)曾說過,有三種類型的謬誤:謊言、該死的謊言和統計數據。然而,事實上這個故事也可能是不真實的。馬克·吐溫(1835—1910)將這一評論歸功於迪斯雷利,但沒有人聲稱曾聽到英國首相說過這句名言,而且在他的所有作品中也沒有提及。

1973年,調查加州大學伯克利分校性別歧視案的人員發現,在申請攻讀研究生的8000名男性和4000名女性中,錄取男性的比例要遠遠高於女性。大學因此被控告性別歧視,但它真的有歧視女性嗎?調查人員調出各個學院的錄取數據,發現如果真要找出訴訟的理由,應當是投訴其相反的偏見:該大學所有的學院都偏愛女性申請人,從百分比來看,錄取的女性人數高於男性。

如果你對統計學(或分數計算)不熟悉,這是有可能發生的。如果所有的學院都偏向女性,那麼學校整體上應展示同樣的性別劃分,然而事實並非如此。

英國統計學家愛德華·H.辛普森在其1951年的論文中將這一現象描述為"對列聯表中關聯性的解讀"。今天我們將其稱為"辛普森悖論"或"尤爾-辛普森效應"(英國數據學家烏德尼·尤爾早在1901年就提到過類似的效應)。我將對其進行解釋,但不是用伯克利分校裡的實際生活數據,而是用一個簡單的假設版本。

假設有一所大學只有數學和法律兩個學院,我們假設有100位女性和100位男性申請了數學學院,而60位女性(或60%)和58位男性(或58%)被錄取。看起來數學學院好像更偏愛女性。另有100位女性申請了法學院,其中40位(女性人數的40%)被錄取,而只有3位男性申請,且其中1位被錄取。三分之一比40%要少,因此,看起來兩個學院都更偏向女性。然而,如果我們看一下學校的整體數據,就會發現,申請入學的200位女性中,有100位(或50%)被錄取,而申請入學的103位男性中,有59位被錄取,無論你怎麼看,59除以103都要高於50%。

這怎麼解釋?請讓我先給一個直覺性的解釋,而非技術性解釋。根據我們擁有的數據,法學院顯然對申請人要求更嚴格。因此,當許多女性(100人)申請法學院時,數學學院60%的錄取率失去相當的價值。考慮到同樣數量的女性申請了兩個學院,錄取率加起來是60%和40%的平均數,即50%。然而,由於知道法學院有著嚴格的錄取政策,只有3位男性提出申請,而只有1人被錄取(即使沒人被錄取也不會改變什麼),這只會讓數學學院錄取男性的比例稍稍降低。

由此得出結論:儘管兩個學院都偏愛女性,但由於有更多的女性申請錄取率較低的法學院,因此當兩個學院的錄取率加起來時,男性的錄取率看起來更高。

實話實說,辛普森悖論告訴我們關於分數法則很簡單的一條。用分數式描述這個故事:60/100>58/100,以及40/100>1/3,但是(60+40)/(100+100)<(58+1)/(100+3)。

一個聰明的男人有一次說,數據讓他想到穿著比基尼的女人:露出來的部分是美好的,但遮住的部分才是真正關鍵的。

我們可以本著同樣的精神聯想出大量的例子。舉例來說,我們可以想像有兩位籃球運動員:斯蒂夫和麥可,儘管斯蒂夫連續兩年得分數據比麥可要高(用嘗試投籃次數的百分比來看),但兩年的數據加起來顯示麥可是更好的得分者。

相關焦點

  • 用戶流失分析的兩大誤區:「辛普森悖論」和「倖存者偏差」
    遊戲公司為了解用戶的喜好,並提供他們想要的內容,需要經常對用戶的行為進行分析。不過,韓國用戶分析AI服務商在一次演講中表示,由於遊戲開發者們會認為「這是我製作的遊戲,所以我比誰都了解這個遊戲」,所以在分析用戶行為時,常常會產生兩個錯誤——「辛普森悖論」和「倖存者偏差」。
  • 數據分析之辛普森悖論
    因為我是做房產電商相關的,相信大家在找房,聯繫中介小哥哥的過程中,都用過兩種途徑的方式:400和IM(電話聯繫和線上發消息聯繫)。我們在分析兩家門店A和B的1分鐘響應率數據的時候,發現了這樣的情況:無論是400還是IM的方式,門店A兩個渠道的響應率都低於門店B,但是總體來看,門店A的表現卻是優於門店B的!
  • 真實的謊言——我們是如何被事實和數字欺騙的?
    今天我就來聊一類「真實的謊言「,這類謊言它說的每一個事實都是真的,每一個數字都是正確的,但它卻能成功地欺騙我們。 五、平均數謊言 馬克吐溫說過一句名言——「有三種謊言:謊言,該死的謊言和統計數據」,平均數也是統計數據中極具迷惑性的常用術語。
  • 從大廠數據分析面試題了解「辛普森悖論」
    一般來說,30歲以上的用戶,經濟實力更強,購買轉化率應該更高,所以,這裡只用「年齡」來做客戶區分,顯示是片面了,我們接下來再來看這組數據:我們把每個年齡段的客戶再按性別拆分,這樣就構成了4個維度的數據:從這組數據我們可以看到,30歲以上,無論是男性還是女性,都要比30歲以下的轉化率更高,但是為什麼合在一起,結論就是相反的了呢?
  • 論文速遞-新冠死亡率的辛普森悖論,因果推斷的一個例子
    1)問題引入上圖是中國和義大利的新冠死亡率,圖中每個年齡段,中國的都大於義大利,但義大利的總死亡率卻比中國更高,這在統計學中被稱為辛普森悖論,指在某個條件下的兩組數據,分別討論時都會滿足某種性質,可是一旦合併考慮,卻可能導致相反的結論。對此,直接的解釋是,由於義大利的老齡化程度更高,所以總死亡率更高上圖是義大利和中國的人口比例對比。
  • excel圖表製作技巧:多系列數據,如何製作組合圖表?
    本篇教程是做懂領導心思圖表的第三篇,分享多系列數據圖表的製作經驗。多系列數據圖表的製作,在工作中,一直是個難題。由於數據系列較多,做出來的圖表看著總顯得混亂,各數據之間的對比性也不強,基本違背了我們作圖的初衷。那有沒有什麼好的思路或者方法來製作多系列的圖表呢?下面我們就來看看excel高手是如何進行製作的。學習更多技巧,請收藏關注部落窩教育excel圖文教程。
  • excel圖表應用技巧:不同類型圖表對數據表現的意義和作用
    Excel圖表類型非常多,並且各類型有相似之處。譬如折線圖和面積圖,都可以用來表達趨勢。那什麼時候更適合用面積圖,什麼時候更適合用折線圖呢?我來看看下面這篇文章吧!學習更多技巧,請收藏關注部落窩教育excel圖文教程。 今天不講技巧,講講每位Excel使用者都無法迴避的問題。
  • 如何用DataFocus將Excel數據繪製成圖表?(二)
    上篇文章,我們了解到,有些圖表類型可以反應多種數據關係,有些數據關係可以用多種圖表類型來反映。所以,製作圖表前要先確認製作圖表的目的,再根據目的選擇所需圖表。接下來我們結合一些應用場景,來了解如何用DataFocus將Excel數據繪製成圖表。圖表的製作在用DataFocus系統製作圖表之前,我們先看下如何將Excel數據表導入到系統中並進行選擇,以及圖表的製作方式。
  • 機器學習中的忒修斯之船:那些「愚弄」專家的著名悖論
    全文共3269字,預計學習時長11分鐘悖論是人類認知的奇蹟之一,它難以用數學和統計學來求解。理論上來說,悖論是一種基於問題的原始前提得出明顯自相矛盾結論的陳述。即便是最著名的且有案可稽的悖論,也會經常愚弄住相關專家,因為悖論從根本上違背了常識。
  • 數據可視化當中的圖表組合:比例面積圖
    該圖表對於發現兩個類別或變量之間的相關性以及查找數據中的模式很有用。在此,圓顯示在指定的地理區域內,圓的面積與數據集中的相應值成正比。當然,如果需要,可以用正方形代替圓形,但是圓形看起來會更好。16 +跨度圖要為範圍數據提供其他變量,可以將比例面積圖和跨度圖組合在一起。在這裡,形狀區域被附加到鋼筋的中間,而不是被添加到最大值和最小值的每一端。
  • 用DataFocus將Excel數據繪製圖表後的編輯與美化
    用DataFocus將Excel數據繪製圖表後的編輯與美化 前面的內容我們了解到,專業的圖表需要有 圖表類型簡單、觀點表達明確、細節處理到位、設計美觀等特點,以及了解了圖表的繪製方式和圖表的選擇。
  • 歷史上五個能自圓其說的悖論,每一個都能把你繞進去
    悖論是啥?悖論就是:如果A發生事件,就可以推導出非A,而非A發生則能推導出A。如果還是不明白,那就看下面五個歷史上知名的侼論,每一個都能把你繞進去。 一、雞和蛋悖論 這個我們從小就聽說過,別人問你小雞從那裡來?你會回答,從蛋裡來。然後別人又反問你,蛋從那裡來。你就會回答,從雞肚子裡來。如此就形成了一個循環往復。
  • B端互動設計——數據可視化圖表
    什麼是數據可視化  將不可見的數據轉化為可見的圖形和符號,從中發現規律和特徵,以獲取更多的信息和價值。  在當前網際網路的時代下,一頁圖可能對標一個龐大且複雜的數據表格,按照人類本身對圖的記憶遠大於對抽象文字的記憶,所以我們要學會讓數據說話,數據可視化除了「簡潔直觀」,還可有容易理解和記憶、傳遞信息更豐富的特點。
  • Excel圖表製作難?這款excel圖表工具插件免費用
    但是這段時間一直在翻找有效的圖表工具,不論是百度還是知乎,基本上都是用Excel圖表製作的,各類大牛的教材,實在讓人膜拜,我也自己動手用Excel,做了一些試試,感覺跟大咖的圖表效果一比,天壤之別。我深深的感覺到,知識真是個好東西...要練成大咖的模樣,我不知道需要經過多久才能得達到....
  • 數據可視化最有價值的50個圖表 | 網際網路數據資訊網-199IT | 中文...
    Tips:本文原文部分代碼有不準確的地方,已進行修改;所有正確的原始碼,已整合到 jupyter notebook 文件中;運行本文代碼,除了安裝 matplotlib 和 seaborn 可視化庫外,還需要安裝其他的一些輔助可視化庫
  • excel圖表技巧:新冠數據動態組合圖,讓你看到抗疫曙光
    雖然我們不知道這場戰「疫」什麼時候結束,也沒有直接地參與到前線中去,但是我知道每一天、每一個人都一定在關注疫情的數據,相信國家,相信人民,我們一定會戰勝病魔。二、確定圖表的重點一篇數據確立後,往往有幾個重點信息,我們如果要使用圖表來表現數據的可視化,那麼要儘量保證每個圖表中的信息量不要太多,否則就沒有重點可言,而且顯得雜亂。比如我們上面的動圖就是一個以「累計確診病例」為重點的圖表,從中可以看出疫情的發展態勢。
  • 數據可視化,Excel圖表篇,如何製作圖表與美化
    咱們上篇打聽到微圖表的才氣,能夠或許將完成數據和表格的一體化,利便旁觀者用非常短的光陰打聽到事變的進度,好比哪些項目的完成率非常高,哪些項目應當點竄大概是摒棄。總的來說,微圖表加倍適用紀錄事變歷程以及借鑑、舉止的打卡。
  • 如何用DataFocus將Excel數據繪製成圖表?(三)
    前面,我們了解到,需要根據目的選擇圖表類型,並介紹了對Excel表中數據進行比較、百分比數據比較和查看相關性時的圖表選擇。接下來,我們將繼續探究其他應用場景下,用DataFocus系統分析Excel數據時圖表類型的選擇使用。
  • Excel商務圖表設計,從數據到圖表,變身可視化達人
    視覺暗示:可視化包括用圖形、顏色和大小來編碼數據,選擇什麼取決於數據本身和目標 坐標系:用散點圖映射數據和用餅圖是不一樣的,散點圖中有x坐標和y坐標,其他圖中則有角度,就像直角坐標系和極坐標系的對比。人口金字塔圖:類似於旋風圖,用類似古埃及金字塔的形象描繪人口年齡和性別分布狀況的圖形,能表明人口現狀及其發展類型。點矩陣:用點的多少表示頻數的多少。直方圖:又稱質量分布圖,能夠顯示各組頻數分布的情況。
  • EXCEL的數據和圖表如何與ppt,Word關聯,看完你就會了
    大家好,我是雨果,今天和大家講講EXCEL的數據和圖表如何與ppt,Word關聯。下面我就跟大家分享一下該如何做到EXCEL的數據和圖表與ppt,Word相關聯,我打算從3個方面來講解,學完之後我保證你會受益匪淺,因為我是從我的工作實際情況來講解的,這是我幾乎每天都用到的,如果大家覺得有什麼地方生澀難懂,就仔細的去理解一下。