數據分析之辛普森悖論

2020-12-19 一個數據人的自留地

是新朋友嗎？記得先點藍字關注我哦～

1、回復「數據中臺」，獲取<大廠數據中臺資料>

2、回復「數據產品」，獲取<大廠數據產品面試題>

3、回復「商業分析」，獲取<大廠商業分析面試題>

4、回復「交個朋友」，進入<交流群>

令狐衝雖然從小在華山勤學苦練，但武功造詣卻一直平平無奇，自機緣巧合在思過崖上碰見風清揚，練得其真傳獨孤九劍，從此便獨步武林……

在我們數據分析的領域，也有獨孤九劍這樣的武功秘籍，就是六字箴言：細分、對比、溯源。也正是因為在分析業務數據的時候，總是用到分組對比的方法，所以我們一不小心就可能會陷入統計學的陷阱 -- 辛普森悖論。

實際案例分享

我們先來看工作中一個實際的例子，相信做電商的朋友都非常清楚一個指標：1分鐘響應率，指的是買家諮詢了貨品問題，賣家能否在1分鐘內及時響應。因為我是做房產電商相關的，相信大家在找房，聯繫中介小哥哥的過程中，都用過兩種途徑的方式：400和IM（電話聯繫和線上發消息聯繫）。我們在分析兩家門店A和B的1分鐘響應率數據的時候，發現了這樣的情況：

無論是400還是IM的方式，門店A兩個渠道的響應率都低於門店B，但是總體來看，門店A的表現卻是優於門店B的！

這就是辛普森悖論：即在某個條件下的兩組數據，分別討論時都會滿足某種趨勢，可是一旦合併考慮，卻可能導致相反的結論。是英國統計學家E.H.辛普森（E.H.Simpson）於1951年提出來的。

讀到這裡，你可能就會思考這是為什麼呢？

我們重新再看一下分組數據，發現門店B雖然每個渠道的響應率都較高，但是內部來看400的量級比IM的多，360條和40條，所以門店B主要受到400響應率的影響更大。同理，門店A受到IM響應的影響較大一些。那如果我們拿門店A的IM響應和門店B的400響應來比較，就和最終的結論一致了！這麼理解似乎有點道理。我們看一下數學上的證明：

從上面這幅圖就可以很清楚證明辛普森悖論的存在，當然，並不是分組一定會出現這樣的情況，每個類別高，總體也高的情況也是存在的。（我們通過移動圖中線條的位置，很容易就能達到這個要求）。

那回到這個工作場景，我們最終如何評估門店A和B的表現呢，根據實際經驗，我們會從整體性的表現，認為門店A是優於門店B的，當具體到門店內部，就會根據不同的渠道表現，告訴門店下一步的提升點在哪裡，當然多說一句，提升空間不僅要從率的現狀出發，還要考慮渠道本身的天花板，比如說假設門店B的IM響應率很低，我們也沒有提升的必要，因為40條的量級對整體的影響較小，當下還是要投入精力在360條的400響應上。

混淆變量

我們再看一個生活場景中的例子：假設小明得了腎結石，醫生給他推薦兩套治療方案，A是開口手術（創口比較大），B是微創手術，兩種治療方案的歷史數據如下：

我們咋一看，方案B的成功率更高，可能就建議小明選擇微創手術治療了。但我們回想一下平時生了病，醫生開藥的時候都會考慮我們的病情嚴重程度，所以在這裡分析治療方案A和B的時候，我們也忽略了這點（當然，我們不是醫生，不太能第一反應這麼專業，但是我們在分析數據的時候，也要有這種警惕思維，是不是有個關鍵變量我們還沒有考慮進來，被整體的數據蒙蔽了）。

再接著，醫生給了一份詳細的數據：

在腎結石的治療當中，主要根據結石的大小來判斷病情的程度，小結石病情比大結石輕，因此無論選擇哪種治療方案，康復率都比大結石高。然而，當你患了小結石時，考慮到病情比較輕，醫生會傾向選擇方案B（微創）。而如果患了大結石，醫生會傾向選擇方案A（創口比較大），療效也更好。雖然無論病情嚴重與否，方案A都比方案B治療效果好。但是，選擇方案A的病人通常是大結石，因此整體康復率比方案B差一些。

腎結石的大小 (病情嚴重程度) 在這裡是一個混淆變量，它同時影響著自變量（治療方案）和因變量（康復率)。從匯總數據中，我們並不能看到混淆變量的存在。

來自<百度百科>

混淆變量是一個基於因果關係的概念，不能完全由對統計數據的相關分析得出。相關關係是一種無向關係，而因果關係則具有方向性。例如有三個變量 X、Y、Z，如果是 Z 影響 X，Z 影響 Y，則 Z 為混淆變量。X 和 Y 之間的相關性可能部分來自於二者對 Z 的共同依賴。例如 X = 服藥，Y = 康復，Z = 年齡、性別等。某些疾病的發病率和康復率都和年齡、性別有關。檢驗藥物是否有效必須考慮到這些因素的影響，最好進行分組實驗。

我們要怎樣才能避免辛普森悖論呢？

辛普森悖論的存在，讓我們不可能光用統計數字來推導準確的因果關係。我們看到的數據很可能不是事實的全貌。我們不能只滿足於數據本身，我們必須關注整個數據的生成過程，考慮因果模型，對數據負責。當我們理解了數據產生的機制，我們就能站在更高的角度，找到其他潛在影響因素。

一個數據人的自留地是一個助力數據人成長的大家庭，幫助對數據感興趣的夥伴們明確學習方向、精準提升技能。

我知道你在看喲

相關焦點

從大廠數據分析面試題了解「辛普森悖論」

前幾天一個朋友去參加頭條數據分析面試，面試官出了這樣一道問題：對潛在客戶進行投放時，30歲以上客戶1000人，轉化率2%，30歲以下3000人，轉化率4%，整體轉化率就是3.5%，所以分析師得出結論：30歲以上的客戶價值低，不建議再投放。
用戶流失分析的兩大誤區:「辛普森悖論」和「倖存者偏差」

不過，韓國用戶分析AI服務商在一次演講中表示，由於遊戲開發者們會認為「這是我製作的遊戲，所以我比誰都了解這個遊戲」，所以在分析用戶行為時，常常會產生兩個錯誤——「辛普森悖論」和「倖存者偏差」。因為，即使是在同一款遊戲中，既有比其他人更重視遊戲內排名的用戶，也有比起競爭、認為用包裝角色更有價值的用戶，情況多樣。因此，詳細的數據分析是很重要的。
論文速遞-新冠死亡率的辛普森悖論,因果推斷的一個例子

1）問題引入上圖是中國和義大利的新冠死亡率，圖中每個年齡段，中國的都大於義大利，但義大利的總死亡率卻比中國更高，這在統計學中被稱為辛普森悖論，指在某個條件下的兩組數據，分別討論時都會滿足某種性質，可是一旦合併考慮，卻可能導致相反的結論。對此，直接的解釋是，由於義大利的老齡化程度更高，所以總死亡率更高上圖是義大利和中國的人口比例對比。
機器學習中的忒修斯之船:那些「愚弄」專家的著名悖論

全文共3269字，預計學習時長11分鐘悖論是人類認知的奇蹟之一，它難以用數學和統計學來求解。理論上來說，悖論是一種基於問題的原始前提得出明顯自相矛盾結論的陳述。即便是最著名的且有案可稽的悖論，也會經常愚弄住相關專家，因為悖論從根本上違背了常識。
數據,圖表和謊言,辛普森悖論每一個都會提供一些有用的

英國統計學家愛德華·H.辛普森在其1951年的論文中將這一現象描述為"對列聯表中關聯性的解讀"。今天我們將其稱為"辛普森悖論"或"尤爾-辛普森效應"（英國數據學家烏德尼·尤爾早在1901年就提到過類似的效應）。我將對其進行解釋，但不是用伯克利分校裡的實際生活數據，而是用一個簡單的假設版本。
紀錄片《辛普森:美國製造》:被製造的不僅是辛普森

辛普森獨白片名並沒有叫《辛普森殺妻案事件始末》，而是《辛普森：美國製造》，很貼切。一個擅於製造英雄的國度，英雄之路必定也是悲情之路。在全景式的細細討論中，影片試圖還原這位橄欖球明星辛普森，同時讓種族、法律、名利場、大眾心態等美國社會一直以來的社會矛盾集中浮出水面。
樂高藝術牛逼之作辛普森之家

更多精彩視頻請點擊進入遊俠視頻站觀看　　本周早些時候已經有關於樂高辛普森之家的曝光圖流出，讓人意外的是樂高與今天正式對外發布了這款辛普森之家。　　不但房屋外部可供娛樂，房子內部更是亮點十足。
十大燒腦悖論之祖父悖論!科學家給出三種解釋,你能理解幾個?

十大燒腦悖論之祖父悖論！科學家給出三種解釋，你能理解幾個？人類對穿越時空這一話題討論甚多，其中最著名的理論就是祖父悖論。相信很多小夥伴都聽過關於祖父悖論這一觀點，讓我們一起去了解一下吧！祖父悖論講述的是，現在的你有穿越時空的能力，你回到你祖父年前的時候，設定你的目的是殺死自己年輕時的祖父，當年輕的祖父被殺死時，你的父親自然而然不會出生，沒有父親，現在的你自然也不會出生，更不可能存在如今的你回到過去殺死自己祖父的場景。假如祖父當然一切按照原來的順序發展，祖父生下了父親，父親生下了你，而你現在掌握了穿越時空的能力，你並且回到了過去殺死了自己的祖父，那麼你還活著嗎？
在美國著名的「辛普森案」中,被無罪釋放的辛普森,後來怎麼樣了

辛普森是美國著名的體育明星。1994年，辛普森的前妻和前妻的男友被雙雙殺害，警方指控了辛普森。辛普森花巨資僱傭了夢幻律師團隊，為自己辯護。由於辯護雙方強大的陣容，這場審判也被稱為世紀審判。最終，法庭認為辛普森罪名不成立，無罪釋放。
辛普森案中的程序正義

一番調查過後，警方發現辛普森家離案發現場妮可爾家只有六分鐘車程，於是白人警探馬克前往調查。可惜在辛普森家門口按了多次門鈴依舊沒有人開門，加上在辛普森家後院發現的白色越野車門把手、車窗和輪胎上都有血跡，馬克越加懷疑辛普森是兇手。於是在沒有搜查令的情況下，馬克和其他幾個警員一起翻進了辛普森家。
不一樣的一家人,辛普森一家人

歌曲為什麼要選《愛樂之城因為在《辛普森一家》中有一集就是改編了《愛樂之城》的開頭作為自己的開頭，不過歌詞改變了很多，包含著對生活現狀的不滿與諷刺，充滿著美式幽默。我個人把《辛普森一家》定義為荒誕搞笑風格的成人動漫，畫風類似《怪誕小鎮》。
美國「辛普森案」中,花費千萬美元獲釋的辛普森,後來怎麼樣了?

一些朋友建議辛普森去打籃球。他的黑人前輩創造了非凡記錄。只要努力，他也能夠做到。辛普森輕蔑一笑。在籃球領域，黑人們已經有了喬丹。而他要做的，則是成為橄欖球明星。辛普森展開了艱苦訓練。沒有球場，他乾脆混入大學生之中。他身材魁梧，說話蠻狠。沒有人敢轟走他。第一次接觸橄欖球，辛普森就表現出了天賦。他迅速穿插，不停過人。數個月，他的實力就有了質的飛躍。
時間悖論

這個真正的時間悖論就足以排除時間旅行的可能。這些時間悖論可以分為幾大類：1.祖父悖論(見文末注釋①)在這種悖論中，你以一種方式改變過去，使今天的存在成為不可能。例如，你回到遙遠過去的恐龍時代，不小心踩到一個小的滿身是毛的哺乳動物，它是人類原始的祖先。因為你殺死了你的祖先，使得你今天在邏輯上不能存在。
可愛的辛普森一家

朱利葉斯·希伯特醫生是動畫片《辛普森一家》中的角色，他是一名醫學博士，有高達155的智商，是鎮子上最好的醫生，但他的治療費用很高。他很喜歡笑——特別是在同病人開價錢的玩笑時。除去希伯特醫生，哈利還曾為《辛普森一家》中的伯恩斯先生、史密瑟斯、斯金納校長、內德·弗蘭德等角色進行過配音，這也充分的展現出了他聲音豐富可塑性。
輪到《辛普森一家》了…

知名的美國動畫《辛普森一家》成為西方輿論中首個被檢討的對象。據紐約時報報導，當地時間26日，美國福克斯廣播公司發布公告稱，其製作出品的動畫《辛普森一家》和《惡搞之家》將在白人演員的使用上有重大調整，即他們不會再給有色人種角色進行配音。
辛普森殺妻案25年後,辛普森稱「我現在過得很好」

前美式橄欖球明星、演員O·J·辛普森被指控於1994年6月12日年謀殺了其前妻妮克爾·布朗·辛普森及其好友羅納德·高曼，雖然當時DNA檢測和大量物證都指向辛普森是兇手，但在經歷了創加州審判史紀錄的長達九個月的馬拉松式審判後，辛普森仍然被陪審團判決無罪。
辛普森殺妻案神還原成電視劇

就是加州警察對辛普森殺妻案的唯一嫌疑人O.J.辛普森的高速公路追捕，1994年的6月17日，約1億觀眾通過電視觀看這次追捕直播。此外，當時美國足球世界盃收視率都遠不如辛普森殺妻案，可見大眾對此事件關注度之高。約1億觀眾同時觀看對辛普森的追捕直播早在殺妻案前，O.J.辛普森就已經紅遍美國。
《辛普森一家》來中國了!

原標題：《辛普森一家》來中國了！　　美國長壽動畫片《辛普森一家》將在搜狐視頻播出，而該動畫片第26季將於美國時間9月28日首播。《辛普森一家》曾31次獲艾美獎　　時光網訊美國家喻戶曉的動畫片《辛普森一家》即將在中國播出啦！據悉，《辛普森一家》首次來華，第26季馬上開播，大家能在搜狐視頻看到該劇。
最成功的辯護——辛普森殺妻案

這個案子實在太出名，不多做介紹，辛普森是美國著名橄欖球運動員。被指控殺了妻子，但是最後法庭無罪釋放。多說一句，這個案子要是放在中國，是絕對得定故意殺人罪的。辛普森最後無罪釋放，歸功於資本主義法治的看事也看人，得益於辛普森背後強大的律師團隊。
神奇的辛普森預言!

看過《辛普森一家》的朋友們應該都清楚這部動畫從首秀開始到目前一共播出了31季。而在這其中的有些劇情神奇的預言了未來發生的事情。在2014年巴西世界盃開賽前，辛普森一家動畫就準確的預測了在半決賽中德國對陣巴西，並且擊敗了巴西，而在世界盃的那場比賽中，德國人出人意料的擊敗了巴西，而且還是以7比1這樣的方式狂勝。並且在2001年播出的動畫裡，美國冰壺隊擊敗了瑞典隊獲得了冠軍，而在8年後平昌冬奧會美國隊首次晉級冬奧會決賽就擊敗了當時的奪冠大熱門瑞典隊。這就和當年動畫裡提到了的是一模一樣的。

數據分析之辛普森悖論

相關焦點

從大廠數據分析面試題了解「辛普森悖論」

用戶流失分析的兩大誤區:「辛普森悖論」和「倖存者偏差」

論文速遞-新冠死亡率的辛普森悖論,因果推斷的一個例子

機器學習中的忒修斯之船:那些「愚弄」專家的著名悖論

數據,圖表和謊言,辛普森悖論每一個都會提供一些有用的

紀錄片《辛普森:美國製造》:被製造的不僅是辛普森

樂高藝術牛逼之作辛普森之家

十大燒腦悖論之祖父悖論!科學家給出三種解釋,你能理解幾個?

在美國著名的「辛普森案」中,被無罪釋放的辛普森,後來怎麼樣了

辛普森案中的程序正義

不一樣的一家人,辛普森一家人

美國「辛普森案」中,花費千萬美元獲釋的辛普森,後來怎麼樣了?

時間悖論

可愛的辛普森一家

輪到《辛普森一家》了…

辛普森殺妻案25年後,辛普森稱「我現在過得很好」

辛普森殺妻案神還原成電視劇

《辛普森一家》來中國了!

最成功的辯護——辛普森殺妻案

神奇的辛普森預言!