是新朋友嗎?記得先點藍字關注我哦~
1、回復「數據中臺」,獲取<大廠數據中臺資料>
2、回復「數據產品」,獲取<大廠數據產品面試題>
3、回復「商業分析」,獲取<大廠商業分析面試題>
4、回復「交個朋友」,進入<交流群>
令狐衝雖然從小在華山勤學苦練,但武功造詣卻一直平平無奇,自機緣巧合在思過崖上碰見風清揚,練得其真傳獨孤九劍,從此便獨步武林……
在我們數據分析的領域,也有獨孤九劍這樣的武功秘籍,就是六字箴言:細分、對比、溯源。也正是因為在分析業務數據的時候,總是用到分組對比的方法,所以我們一不小心就可能會陷入統計學的陷阱 -- 辛普森悖論。
實際案例分享
我們先來看工作中一個實際的例子,相信做電商的朋友都非常清楚一個指標:1分鐘響應率,指的是買家諮詢了貨品問題,賣家能否在1分鐘內及時響應。因為我是做房產電商相關的,相信大家在找房,聯繫中介小哥哥的過程中,都用過兩種途徑的方式:400和IM(電話聯繫和線上發消息聯繫)。我們在分析兩家門店A和B的1分鐘響應率數據的時候,發現了這樣的情況:
無論是400還是IM的方式,門店A兩個渠道的響應率都低於門店B,但是總體來看,門店A的表現卻是優於門店B的!
這就是辛普森悖論:即在某個條件下的兩組數據,分別討論時都會滿足某種趨勢,可是一旦合併考慮,卻可能導致相反的結論。是英國統計學家E.H.辛普森(E.H.Simpson)於1951年提出來的。
讀到這裡,你可能就會思考這是為什麼呢?
我們重新再看一下分組數據,發現門店B雖然每個渠道的響應率都較高,但是內部來看400的量級比IM的多,360條和40條,所以門店B主要受到400響應率的影響更大。同理,門店A受到IM響應的影響較大一些。那如果我們拿門店A的IM響應和門店B的400響應來比較,就和最終的結論一致了!這麼理解似乎有點道理。我們看一下數學上的證明:
從上面這幅圖就可以很清楚證明辛普森悖論的存在,當然,並不是分組一定會出現這樣的情況,每個類別高,總體也高的情況也是存在的。(我們通過移動圖中線條的位置,很容易就能達到這個要求)。
那回到這個工作場景,我們最終如何評估門店A和B的表現呢,根據實際經驗,我們會從整體性的表現,認為門店A是優於門店B的,當具體到門店內部,就會根據不同的渠道表現,告訴門店下一步的提升點在哪裡,當然多說一句,提升空間不僅要從率的現狀出發,還要考慮渠道本身的天花板,比如說假設門店B的IM響應率很低,我們也沒有提升的必要,因為40條的量級對整體的影響較小,當下還是要投入精力在360條的400響應上。
混淆變量
我們再看一個生活場景中的例子:假設小明得了腎結石,醫生給他推薦兩套治療方案,A是開口手術(創口比較大),B是微創手術,兩種治療方案的歷史數據如下:
我們咋一看,方案B的成功率更高,可能就建議小明選擇微創手術治療了。但我們回想一下平時生了病,醫生開藥的時候都會考慮我們的病情嚴重程度,所以在這裡分析治療方案A和B的時候,我們也忽略了這點(當然,我們不是醫生,不太能第一反應這麼專業,但是我們在分析數據的時候,也要有這種警惕思維,是不是有個關鍵變量我們還沒有考慮進來,被整體的數據蒙蔽了)。
再接著,醫生給了一份詳細的數據:
在腎結石的治療當中,主要根據結石的大小來判斷病情的程度,小結石病情比大結石輕,因此無論選擇哪種治療方案,康復率都比大結石高。然而,當你患了小結石時,考慮到病情比較輕,醫生會傾向選擇方案B(微創)。而如果患了大結石,醫生會傾向選擇方案A(創口比較大),療效也更好。雖然無論病情嚴重與否,方案A都比方案B治療效果好。但是,選擇方案A的病人通常是大結石,因此整體康復率比方案B差一些。
腎結石的大小 (病情嚴重程度) 在這裡是一個混淆變量,它同時影響著自變量(治療方案)和因變量(康復率)。從匯總數據中,我們並不能看到混淆變量的存在。
來自<百度百科>
混淆變量是一個基於因果關係的概念,不能完全由對統計數據的相關分析得出。相關關係是一種無向關係,而因果關係則具有方向性。例如有三個變量 X、Y、Z,如果是 Z 影響 X,Z 影響 Y,則 Z 為混淆變量。X 和 Y 之間的相關性可能部分來自於二者對 Z 的共同依賴。例如 X = 服藥,Y = 康復,Z = 年齡、性別等。某些疾病的發病率和康復率都和年齡、性別有關。檢驗藥物是否有效必須考慮到這些因素的影響,最好進行分組實驗。
我們要怎樣才能避免辛普森悖論呢?
辛普森悖論的存在,讓我們不可能光用統計數字來推導準確的因果關係。我們看到的數據很可能不是事實的全貌。我們不能只滿足於數據本身,我們必須關注整個數據的生成過程,考慮因果模型,對數據負責。當我們理解了數據產生的機制,我們就能站在更高的角度,找到其他潛在影響因素。
一個數據人的自留地是一個助力數據人成長的大家庭,幫助對數據感興趣的夥伴們明確學習方向、精準提升技能。
我知道你在看喲