數據分析之辛普森悖論

2021-01-10 一個數據人的自留地

是新朋友嗎?記得先點藍字關注我哦~

1、回復「數據中臺」,獲取<大廠數據中臺資料>

2、回復「數據產品」,獲取<大廠數據產品面試題>

3、回復「商業分析」,獲取<大廠商業分析面試題>

4、回復「交個朋友」,進入<交流群>

令狐衝雖然從小在華山勤學苦練,但武功造詣卻一直平平無奇,自機緣巧合在思過崖上碰見風清揚,練得其真傳獨孤九劍,從此便獨步武林……

在我們數據分析的領域,也有獨孤九劍這樣的武功秘籍,就是六字箴言:細分、對比、溯源。也正是因為在分析業務數據的時候,總是用到分組對比的方法,所以我們一不小心就可能會陷入統計學的陷阱 -- 辛普森悖論。

實際案例分享

我們先來看工作中一個實際的例子,相信做電商的朋友都非常清楚一個指標:1分鐘響應率,指的是買家諮詢了貨品問題,賣家能否在1分鐘內及時響應。因為我是做房產電商相關的,相信大家在找房,聯繫中介小哥哥的過程中,都用過兩種途徑的方式:400和IM(電話聯繫和線上發消息聯繫)。我們在分析兩家門店A和B的1分鐘響應率數據的時候,發現了這樣的情況:

無論是400還是IM的方式,門店A兩個渠道的響應率都低於門店B,但是總體來看,門店A的表現卻是優於門店B的!

這就是辛普森悖論:即在某個條件下的兩組數據,分別討論時都會滿足某種趨勢,可是一旦合併考慮,卻可能導致相反的結論。是英國統計學家E.H.辛普森(E.H.Simpson)於1951年提出來的。

讀到這裡,你可能就會思考這是為什麼呢?

我們重新再看一下分組數據,發現門店B雖然每個渠道的響應率都較高,但是內部來看400的量級比IM的多,360條和40條,所以門店B主要受到400響應率的影響更大。同理,門店A受到IM響應的影響較大一些。那如果我們拿門店A的IM響應和門店B的400響應來比較,就和最終的結論一致了!這麼理解似乎有點道理。我們看一下數學上的證明:

從上面這幅圖就可以很清楚證明辛普森悖論的存在,當然,並不是分組一定會出現這樣的情況,每個類別高,總體也高的情況也是存在的。(我們通過移動圖中線條的位置,很容易就能達到這個要求)。

那回到這個工作場景,我們最終如何評估門店A和B的表現呢,根據實際經驗,我們會從整體性的表現,認為門店A是優於門店B的,當具體到門店內部,就會根據不同的渠道表現,告訴門店下一步的提升點在哪裡,當然多說一句,提升空間不僅要從率的現狀出發,還要考慮渠道本身的天花板,比如說假設門店B的IM響應率很低,我們也沒有提升的必要,因為40條的量級對整體的影響較小,當下還是要投入精力在360條的400響應上。

混淆變量

我們再看一個生活場景中的例子:假設小明得了腎結石,醫生給他推薦兩套治療方案,A是開口手術(創口比較大),B是微創手術,兩種治療方案的歷史數據如下:

我們咋一看,方案B的成功率更高,可能就建議小明選擇微創手術治療了。但我們回想一下平時生了病,醫生開藥的時候都會考慮我們的病情嚴重程度,所以在這裡分析治療方案A和B的時候,我們也忽略了這點(當然,我們不是醫生,不太能第一反應這麼專業,但是我們在分析數據的時候,也要有這種警惕思維,是不是有個關鍵變量我們還沒有考慮進來,被整體的數據蒙蔽了)。

再接著,醫生給了一份詳細的數據:

在腎結石的治療當中,主要根據結石的大小來判斷病情的程度,小結石病情比大結石輕,因此無論選擇哪種治療方案,康復率都比大結石高。然而,當你患了小結石時,考慮到病情比較輕,醫生會傾向選擇方案B(微創)。而如果患了大結石,醫生會傾向選擇方案A(創口比較大),療效也更好。雖然無論病情嚴重與否,方案A都比方案B治療效果好。但是,選擇方案A的病人通常是大結石,因此整體康復率比方案B差一些。

腎結石的大小 (病情嚴重程度) 在這裡是一個混淆變量,它同時影響著自變量(治療方案)和因變量(康復率)。從匯總數據中,我們並不能看到混淆變量的存在。

來自<百度百科>

混淆變量是一個基於因果關係的概念,不能完全由對統計數據的相關分析得出。相關關係是一種無向關係,而因果關係則具有方向性。例如有三個變量 X、Y、Z,如果是 Z 影響 X,Z 影響 Y,則 Z 為混淆變量。X 和 Y 之間的相關性可能部分來自於二者對 Z 的共同依賴。例如 X = 服藥,Y = 康復,Z = 年齡、性別等。某些疾病的發病率和康復率都和年齡、性別有關。檢驗藥物是否有效必須考慮到這些因素的影響,最好進行分組實驗。

我們要怎樣才能避免辛普森悖論呢?

辛普森悖論的存在,讓我們不可能光用統計數字來推導準確的因果關係。我們看到的數據很可能不是事實的全貌。我們不能只滿足於數據本身,我們必須關注整個數據的生成過程,考慮因果模型,對數據負責。當我們理解了數據產生的機制,我們就能站在更高的角度,找到其他潛在影響因素。

一個數據人的自留地是一個助力數據人成長的大家庭,幫助對數據感興趣的夥伴們明確學習方向、精準提升技能。

我知道你在看喲

相關焦點

  • 用戶流失分析的兩大誤區:「辛普森悖論」和「倖存者偏差」
    不過,韓國用戶分析AI服務商在一次演講中表示,由於遊戲開發者們會認為「這是我製作的遊戲,所以我比誰都了解這個遊戲」,所以在分析用戶行為時,常常會產生兩個錯誤——「辛普森悖論」和「倖存者偏差」。因為,即使是在同一款遊戲中,既有比其他人更重視遊戲內排名的用戶,也有比起競爭、認為用包裝角色更有價值的用戶,情況多樣。因此,詳細的數據分析是很重要的。
  • 辛普森悖論,是很多人懷才不遇的重要原因
    一個有趣的矛盾是,一旦我們下意識接受數據很重要,就必然陷入辛普森悖論製造的陷阱中。最終使我們錯誤判斷別人的能力,或者使自己的能力被別人錯誤判斷,導致懷才不遇。辛普森悖論辛普森悖論簡單來說,就是當你把數據拆開看的時候,細節和整體趨勢會有完全不同的結論。
  • 辛普森悖論與「人生的第三條路」
    辛普森悖論揭示了數據會說謊的秘密。 本文最後少不了來一碗實用主義的雞湯,扯了一下「懷才不遇」的統計學原理,和逆向運用辛普森悖論的人生第三條路。 一 意外嗎?統計顯示iPhone用戶忠誠度沒Android高。
  • 數據分析必須警惕的坑:辛普森悖論
    辛普森悖論為英國統計學家E.H.辛普森於1951年提出的悖論,即在某個條件下的兩組數據,分別討論時都會滿足某種性質,可是一旦合併考慮,卻可能導致相反的結論。然而在數據背後,隱藏著一些似是而非的謬誤,比如「辛普森悖論」,作為數據分析人員必須警惕。悖論出處:辛普森悖論為英國統計學家E.H.辛普森(E.H.Simpson)於1951年提出的悖論,即在某個條件下的兩組數據,分別討論時都會滿足某種性質,可是一旦合併考慮,卻可能導致相反的結論。
  • 論文速遞-新冠死亡率的辛普森悖論,因果推斷的一個例子
    1)問題引入上圖是中國和義大利的新冠死亡率,圖中每個年齡段,中國的都大於義大利,但義大利的總死亡率卻比中國更高,這在統計學中被稱為辛普森悖論,指在某個條件下的兩組數據,分別討論時都會滿足某種性質,可是一旦合併考慮,卻可能導致相反的結論。對此,直接的解釋是,由於義大利的老齡化程度更高,所以總死亡率更高上圖是義大利和中國的人口比例對比。
  • 帶你了解辛普森悖論
    相信很多人對世界盃都不陌生,就算沒看過也應該聽說過,那你知道和世界盃有關的統計學當中的一個悖論嗎?這個悖論叫做辛普森悖論,這個錯誤在工作生活中很常見,總容易犯錯,那我們就來看一看究竟應該如何透過現象看本質呢?
  • 數據,圖表和謊言,辛普森悖論每一個都會提供一些有用的
    英國統計學家愛德華·H.辛普森在其1951年的論文中將這一現象描述為"對列聯表中關聯性的解讀"。今天我們將其稱為"辛普森悖論"或"尤爾-辛普森效應"(英國數據學家烏德尼·尤爾早在1901年就提到過類似的效應)。我將對其進行解釋,但不是用伯克利分校裡的實際生活數據,而是用一個簡單的假設版本。
  • 辛普森:我這樣殺前妻
    在18日出版的最新一期中,《國民問詢》用了長達4頁的篇幅報導將在數周后正式出版的辛普森自傳,並披露了書中的部分細節。  辛普森將自傳暫命名為《如果我做了》。《國民問詢》稱,「辛普森完全是以半真半假的態度宣稱本書部分內容屬於『虛構』。」辛普森在描述殺人場面時「真實得讓人不寒而慄,沒有人會質疑他所說的就是真相」,該雜誌援引消息人士的話說。
  • 《辛普森一家》巴特將被殺死
    巴特將死於鮑勃之手?沒錯,根據美國《娛樂周刊》報導,今年秋天,由著名演員凱爾希·格蘭莫配音的小丑鮑勃將最終得償所願殺死巴特,不過這只是在《辛普森一家》的萬聖節特輯中,這將是一次思維實驗,目的在於觀察當心理變態的鮑勃最終實現了自己的人生目標後,這部劇的劇情會如何發展。
  • 十大燒腦悖論之祖父悖論!科學家給出三種解釋,你能理解幾個?
    十大燒腦悖論之祖父悖論!科學家給出三種解釋,你能理解幾個?人類對穿越時空這一話題討論甚多,其中最著名的理論就是祖父悖論。相信很多小夥伴都聽過關於祖父悖論這一觀點,讓我們一起去了解一下吧!祖父悖論講述的是,現在的你有穿越時空的能力,你回到你祖父年前的時候,設定你的目的是殺死自己年輕時的祖父,當年輕的祖父被殺死時,你的父親自然而然不會出生,沒有父親,現在的你自然也不會出生,更不可能存在如今的你回到過去殺死自己祖父的場景。假如祖父當然一切按照原來的順序發展,祖父生下了父親,父親生下了你,而你現在掌握了穿越時空的能力,你並且回到了過去殺死了自己的祖父,那麼你還活著嗎?
  • 數據分析必須要避開的坑:讓人懷疑人生的七大悖論
    但是在實際分析中,我們很可能會因為沒有避開數理統計中常見的「坑」,造成我們最終分析結果與實際偏差很大, 我主要總結了三個方面:錯把數理關係當成因果關係不同變量之間會存在悖論數據統計有偏差一、不要把數據統計關係當成因果關係我們先看三個例子:1、彩票悖論首先根據假設檢驗,如果原假設概率非常小,就可以拒絕原假設。
  • 數據分析之小白的第二條sql語句
    數據分析之小白的第一條sql語句
  • "辛普森一家"致敬宮崎駿 "千與千尋""龍貓"場景再現
    如今,最新一集《辛普森一家》也將加入這一行列,在《辛普森一家》的最新一集中,有許多畫面致敬了包括《千與千尋》、《龍貓》、《哈爾的移動城堡》、《魔女宅急便》等許多宮崎駿和吉卜力工作室的動畫。而出現在預告視頻裡的這些可愛迷人的宮崎駿動畫場景,也化解了《辛普森一家》本身的幽默惡搞氣質,變得別具一格。
  • 祖父悖論:一種關於時間旅行的悖論
    祖父悖論又稱為「外祖母悖論」,是一種時間旅行的悖論,科幻故事中常見的主題。 霍金對「外祖母悖論"的評價   霍金把「外祖母悖論」的結論置放在「不能干預物理律」,既不能干預歷史的層面上,應該說是不錯的。但他不明白一個更為深層的理論,那就是順向的邏輯順序的物理衍生並不是理論上的邏輯定義。
  • 《辛普森一家》將會在英國登陸Disney+
    據外媒報導,圍繞Disney+在英國推出的最大謎團之一已經解開:《辛普森一家》將可在線觀看。Sky的一位代表日前告訴The Verge,《辛普森一家》將仍在Sky繼續獨家播出--聯合獨家播出並且包括老目錄。
  • 香港辛普森遊艇公司在三亞設立子公司
    辦好後請立即通知我」……11月30日,在三亞半山半島帆船港,海南日報記者對辛普森遊艇(三亞)有限公司銷售總監馬洪娟的採訪多次被電話中斷。「海南建設自由貿易港,遊艇業是國家重點支持發展的產業,故新公司成立後業務繁忙。」馬洪娟說,當前,國內遊艇購買者越來越多,國際遊艇製造商普遍看好海南遊艇市場。
  • 燃燒的沙漠——全時四驅穿越辛普森
    >3、徒步帝王谷,感受壯麗澳洲風光4、在荒漠中體驗罕見的恆溫溫泉5、資深華裔嚮導SAM為你提供最為專業的野外自駕生存指導7、專業攝影師隨行,為你提供攝影指導6、在南澳洲首府品嘗澳洲知名紅酒奔富Penfolds
  • 婚姻中的悖論
    2020年馬上就結束了,看了下民政局公布的各大省份離婚數據,東北三省的離婚率原來如此之高了,70%以上,這個放在哪個國家估計都是很高的了。解讀過那麼多情感問題之後,我發現兩性關係本身就是充滿悖論的關係。可能男女之間的生理構造,還有後天塑造的文化差異本身就很多悖論。
  • 少女前線悖論模擬玩法攻略悖論模擬開啟時間
    少女前線悖論模擬是一個非常不錯的新模式玩法,那麼這個全新的模式到底有什麼不一樣的地方呢?玩家要怎麼玩才比較好呢?我們這次就帶來了新模式悖論模擬的玩法攻略,希望下面這篇少女前線悖論模擬玩法攻略能幫到大家。
  • 「忒修斯」之船悖論趣解
    那麼,在所有零件被更換過後,這艘船還是原來的特修斯之船嗎?後來又有更延伸的問題,如果用特修斯之船取下來的部件重新打造一艘船,那麼兩艘船哪個才是真正的特修斯之船。特修斯之船被稱為世界十大悖論之一,假定某物體的構成元素全部被置換以後,但它還是原來的物體嗎?對於哲學家來說,這個實驗的核心思想是強迫人們去反思身份僅僅局限於實際物體和現象中這一常識。