數據分析必須警惕的坑:辛普森悖論

2021-01-10 人人都是產品經理

辛普森悖論為英國統計學家E.H.辛普森於1951年提出的悖論,即在某個條件下的兩組數據,分別討論時都會滿足某種性質,可是一旦合併考慮,卻可能導致相反的結論。

近些年來,隨著大數據行業的蓬勃發展,「Data-Driven(數據驅動)」受到越來越多企業的追捧。越來越多場景的數據採集、越來越成熟的分析模型、越來越強大的分析效率,這些無疑都是精細用戶行為分析、優化決策體系的智舉。

然而在數據背後,隱藏著一些似是而非的謬誤,比如「辛普森悖論」,作為數據分析人員必須警惕。

悖論出處

辛普森悖論為英國統計學家E.H.辛普森(E.H.Simpson)於1951年提出的悖論,即在某個條件下的兩組數據,分別討論時都會滿足某種性質,可是一旦合併考慮,卻可能導致相反的結論。

一所美國高校的兩個學院,分別是:

法學院和商學院,新學期招生。人們懷疑這兩個學院有性別歧視,現作如下統計:

從上圖顯示的數據我們可以看到,法學院男生的錄取比例為8/53=15.1%,女生錄取的比例為51/152=33.6%。同理,商學院男生的錄取比例為80.1%,女生的錄取比例為91.1%。

無論在法學院還是在商學院,女生的錄取比例都高於男生,由此可以推斷學校在招生時更傾向於招女生嗎?

當計算全校錄取情況時,男生錄取的比例為209/304=68.8%,女生錄取的比例為143/253=56.5%。男生的錄取率要高於女生,這下,恐怕要輪到女生感到不公了。

那麼問題來了:該大學的招生政策,到底有沒有性別歧視?到底是歧視男生還是女生?

先不說結論,我們再來看一個實際工作中會遇到的案例。

工作中的典型案例

某產品的用戶中有10000人使用Android設備、5000人使用IOS設備,整體的付費轉化率應該是5%。細分發現其中IOS設備的轉化率僅為4%,而Android設備則是5.5%。「聰明」的數據分析師得出結論:IOS平臺的用戶付費轉化率低下,建議放棄IOS平臺的研發。

一般來說,IOS平板的付費轉化率比Android平板高出很多,而IOS手機的轉化率也相對更好。這種情況下,設備類型就是複雜變量,如果數據是根據設備類型得到,那麼其他的數據就可能被完全忽略。

接下來我們來對比這一組數據:

由此可見,Android設備轉化率無論在平板端還是在手機端的轉化率都小於IOS設備,這也很我們的常規預期相符。

當計算全設備情況時,Android的轉化比例為550/10000=5.5%,IOS的轉化比例只有200/5000=4.0%。這也是題幹中「聰明」的數據分析師得出IOS版本應該下線的根源。

原因與應對策略

誤區產生的原因說起來也很簡單,就在於將「值與量」兩個維度的數據,歸納成了「值」一個維度的數據,並進行了合併。

如果要避免「辛普森悖論」給我們帶來的誤區,就需要斟酌個別分組的權重,以一定的係數去消除以分組資料基數差異所造成的影響。而在實際轉化例子中,就需要用如「ARPU」、「ARPPU」這樣看似相似實際上有很大差異的指標來進行分割。

同樣地,如果要更客觀分析產品的運營情況,就需要設立更多角度去綜合評判。還是拿上述的設備轉化率為例,產品層考慮轉化的前提會優先考慮分發量、用戶量、運營思路、口碑等等。而往往為了實現最後的轉化需要,需要更多前置目標做鋪墊。

常用的前置目標

用戶量:免費產品需要很大的用戶量才能獲得足夠的總收入,因為該模式的轉化率極低。而這些用戶通常來自全球各個地區,使用各種不同類型的設備。針對不同的設備類型,採用通用的平均值是沒有意義的。LTV範圍:免費產品需要很長的貨幣化周期,把用戶消費當作玩家是否開心的依據,就像參與度和消費緊密相關一樣,因此可以作為分類的標準。

大多數的用戶是不會付費的,免費產品的綜合付費轉化率比較低,是因為把付費玩家和非付費玩家綜合到了一起,所以任何對免費用戶的衡量都是非常低的。因為大多數的用戶是不付費的,所以ARPU以及ARPPU相差很多。

A/B測試中的注意點

聯想到產品運營的實踐,一個常見的A/B測試誤判例子是這樣的:拿1%用戶跑了一個重大版本,發現試驗版本購買率比對照版本高,就說試驗版本更好,我們應該發布試驗版本。

而事實上,我們選取的試驗組裡往往會挑選那些樂於交流、熱衷產品、又或者是付費率高粘性高的用戶,把他們的數據與全體用戶對比是不客觀的。當最後發布試驗版本時,反而可能降低用戶體驗,甚至造成用戶留存和營收數據的雙雙下降。

收穫與總結

避免辛普森悖論的關鍵是要同時參考不同用戶間的事實全貌。

第一,準確的用戶分群在數據分析中是非常重要的,尤其是在免費產品當中,平均用戶不僅不存在,而且是誤導研發的因素之一,所以關鍵在於利用特徵將用戶進行合理劃分。

第二,在一個具體的產品中,普適型的數據(如粗暴的對比IOS和Android總體情況)是沒有多大參考意義的,一定要細分到具體設備、國家、獲取渠道、消費能力等等再進行比對才有價值。

第三,斟酌個別分組的權重,以一定的係數去消除以分組資料基數差異所造成的影響,同時必需了解該情境是否存在其他潛在要因而綜合考慮。

用戶分析常用縮略詞

DNU,Daily New Users:每日新增用戶AU,Active User:活躍用戶,統計特定周期內完成過指定事項或指標的用戶數PU,Paying User:付費用戶APA,Active Payment Account:活躍付費用戶數ARPU,Average Revenue Per User:平均每用戶收入,總收入/AUARPPU,Average Revenue Per Paying User:平均每付費用戶收入,總收入/APAPUR,Pay User Rate:付費比例,APA/AULTV,Life Time Value:生命周期價值

 

作者:數數科技,公眾號,數數科技(ThinkingData)

本文由 @數數科技 原創發布於人人都是產品經理。未經許可,禁止轉載

題圖來自 Pexels,基於 CC0 協議

收藏已收藏 | {{ postmeta.bookmark }} 點讚已贊 | {{ postmeta.postlike }}

相關焦點

  • 數據分析之辛普森悖論
    也正是因為在分析業務數據的時候,總是用到分組對比的方法,所以我們一不小心就可能會陷入統計學的陷阱 -- 辛普森悖論。實際案例分享我們先來看工作中一個實際的例子,相信做電商的朋友都非常清楚一個指標:1分鐘響應率,指的是買家諮詢了貨品問題,賣家能否在1分鐘內及時響應。
  • 數據分析必須要避開的坑:讓人懷疑人生的七大悖論
    數理統計學是數據分析的基礎理論,我們之前所有為數據分析所做的工作,比如梳理指標、篩選數據、可視化等等,都是為了我們能夠更好地找到數據之間的關係,利用統計學原理對這些關係進行界定和聯繫。但是在實際分析中,我們很可能會因為沒有避開數理統計中常見的「坑」,造成我們最終分析結果與實際偏差很大, 我主要總結了三個方面:錯把數理關係當成因果關係不同變量之間會存在悖論數據統計有偏差一、不要把數據統計關係當成因果關係我們先看三個例子:1、彩票悖論首先根據假設檢驗,如果原假設概率非常小,就可以拒絕原假設。
  • 用戶流失分析的兩大誤區:「辛普森悖論」和「倖存者偏差」
    遊戲公司為了解用戶的喜好,並提供他們想要的內容,需要經常對用戶的行為進行分析。不過,韓國用戶分析AI服務商在一次演講中表示,由於遊戲開發者們會認為「這是我製作的遊戲,所以我比誰都了解這個遊戲」,所以在分析用戶行為時,常常會產生兩個錯誤——「辛普森悖論」和「倖存者偏差」。
  • 辛普森悖論與「人生的第三條路」
    兩個數據都是「真實」,原因何在? 辛普森悖論揭示了數據會說謊的秘密。 本文最後少不了來一碗實用主義的雞湯,扯了一下「懷才不遇」的統計學原理,和逆向運用辛普森悖論的人生第三條路。 一 意外嗎?統計顯示iPhone用戶忠誠度沒Android高。
  • 辛普森悖論,是很多人懷才不遇的重要原因
    我們都相信一個人身上的數據,對了解這個人是非常有用的。數據往往非常直觀的顯示出一個人的特性,比如年齡數據小可能會有就業優勢、身高數據高就有身高優勢、高考成績數據好說明是學霸、月收入數據高是高級人才。一個有趣的矛盾是,一旦我們下意識接受數據很重要,就必然陷入辛普森悖論製造的陷阱中。
  • 論文速遞-新冠死亡率的辛普森悖論,因果推斷的一個例子
    1)問題引入上圖是中國和義大利的新冠死亡率,圖中每個年齡段,中國的都大於義大利,但義大利的總死亡率卻比中國更高,這在統計學中被稱為辛普森悖論,指在某個條件下的兩組數據,分別討論時都會滿足某種性質,可是一旦合併考慮,卻可能導致相反的結論。對此,直接的解釋是,由於義大利的老齡化程度更高,所以總死亡率更高上圖是義大利和中國的人口比例對比。
  • 數據,圖表和謊言,辛普森悖論每一個都會提供一些有用的
    在這一章裡,我會提供一些有用的工具,以幫助我們更好地理解統計數據,並提高我們檢測統計謊言的能力——不幸的是,錯誤的數據往往可被用來相對輕鬆地證明幾乎所有的事情。我會使用日常生活裡的一些滑稽且有啟發性的案例。當需要做決定時,我們往往會訴諸數字——很多很多的數字。涉及分析和理解數字的學科被稱為統計學。
  • 帶你了解辛普森悖論
    相信很多人對世界盃都不陌生,就算沒看過也應該聽說過,那你知道和世界盃有關的統計學當中的一個悖論嗎?這個悖論叫做辛普森悖論,這個錯誤在工作生活中很常見,總容易犯錯,那我們就來看一看究竟應該如何透過現象看本質呢?
  • 必須警惕的國內外十大坑爹景點:坑你沒商量!
    原標題:必須警惕的國內外十大坑爹景點:坑你沒商量!   春節剛過,相信很多小夥伴們都會出遊去玩幾天,十大排行網(Top10.ph)希望小夥伴們出遊的時候一定要選好目的地,不要被坑!以下介紹10個國內外坑爹景點,下來就曝光它們。
  • 辛普森:呵呵,19年前我就知道了…
    政府發表個什麼有爭議的法案,或者出了什麼新科技,《辛普森一家》都會立馬跟進,諷刺諷刺,說道說道。也正因為各種針對現實的諷刺和黑色幽默,《辛普森一家》特別敢挖深坑,巧不巧的,就能一語中的,預言一些不可思議的事情。
  • 婚姻中的悖論
    2020年馬上就結束了,看了下民政局公布的各大省份離婚數據,東北三省的離婚率原來如此之高了,70%以上,這個放在哪個國家估計都是很高的了。解讀過那麼多情感問題之後,我發現兩性關係本身就是充滿悖論的關係。可能男女之間的生理構造,還有後天塑造的文化差異本身就很多悖論。
  • 祖父悖論:一種關於時間旅行的悖論
    祖父悖論又稱為「外祖母悖論」,是一種時間旅行的悖論,科幻故事中常見的主題。 霍金對「外祖母悖論"的評價   霍金把「外祖母悖論」的結論置放在「不能干預物理律」,既不能干預歷史的層面上,應該說是不錯的。但他不明白一個更為深層的理論,那就是順向的邏輯順序的物理衍生並不是理論上的邏輯定義。
  • 辛普森:我這樣殺前妻
    在18日出版的最新一期中,《國民問詢》用了長達4頁的篇幅報導將在數周后正式出版的辛普森自傳,並披露了書中的部分細節。  辛普森將自傳暫命名為《如果我做了》。《國民問詢》稱,「辛普森完全是以半真半假的態度宣稱本書部分內容屬於『虛構』。」辛普森在描述殺人場面時「真實得讓人不寒而慄,沒有人會質疑他所說的就是真相」,該雜誌援引消息人士的話說。
  • 預言準到細思極恐,辛普森竟然說中了福克斯會被迪士尼收購
    政府發表個什麼有爭議的法案,或者出了什麼新科技,《辛普森一家》都會立馬跟進,諷刺諷刺,說道說道。   看這劇裡劇外同步進行的川普當選總統的劇情,都讓人懷疑,《辛普森一家》的編劇,是不是從未來穿越回過去寫的故事。
  • 境外購物 需要警惕的退稅坑
    但你可能不曾想到,在商品選擇、退稅手續、退稅支付等環節上也存在「步步為坑」的現象,警惕一下就能省下不少錢。 1 商品選擇 不少人對退稅、免稅的概念「傻傻分不清」,以至於明明退稅划算的,卻還去了免稅店購買,結果吃了悶虧。免稅划算或退稅划算,還要就具體商品而言,只有了解這個,才能避開商品選擇的第一坑。
  • 現代有軌電車警惕功能的分析
    1.1 地鐵警惕電路分析警惕功能由司控器主手柄上的司控器警惕按鈕、延時斷電繼電器、零速繼電器、列車控制單元(vehicle control unit, VCU)/牽引控制單元(traction control unit, TCU)及牽引電制動執行電路組成。
  • 「何為數據分析」-遊戲數據分析實踐
    一、什麼是數據分析數據分析,對數據有目的地進行分析以獲取信息並使其更易於理解。對於從事數據分析工作的人員,除了藉助數據發現事實存在的「經驗和常識」,還應通過適當的統計、分析方法,發現數據潛在的價值,預知未來可能發生的某種情景,在為公司規避風險的同時抓住機遇,實現數據分析工作的價值。
  • 斬龍之人的大道悖論:必須有真龍活著
    第七百九十章 備戰導讀:一、阿良開場,陳平安收尾二、備戰,各洲統計上報戰力、財力,分派任務三、鄭居中的算計,斬龍之人的大道悖論詳述:>一、文廟議事,必須阿良開場,生動活潑水字數,阿良臉皮十四境,讀者的劍戳不破!
  • 《辛普森一家》巴特將被殺死
    沒錯,根據美國《娛樂周刊》報導,今年秋天,由著名演員凱爾希·格蘭莫配音的小丑鮑勃將最終得償所願殺死巴特,不過這只是在《辛普森一家》的萬聖節特輯中,這將是一次思維實驗,目的在於觀察當心理變態的鮑勃最終實現了自己的人生目標後,這部劇的劇情會如何發展。
  • 全民財經:打破節儉悖論魔咒,可能嗎?
    全民財經每日話題打破節儉悖論的魔咒談到節儉悖論,每個國家都有自己的憂慮。如何避免這種繞不開的經濟學定律呢?一般在這個時候,就需要更複雜的財政和貨幣政策配合來刺激經濟增長。這就看出來了凱恩斯的節儉悖論,當初是從靜態分析中得到的結論,它忽略了家庭和社會的動態發展。而目前我們的宏觀經濟學,現在都是動態分析。所以我們作為普通老百姓,只要根據需要正常消費,不鋪張浪費就可以了,就能做到既為國家經濟做貢獻,也不損害家庭利益,忠孝兩全了。這個時候,也就無所謂節儉悖論了。所以大家也不用把節儉悖論當回事。