編者按:本文來自「孤獨大腦」公眾號(ID:lonelybrain),作者 老喻。36氪經授權轉載。
概 述有新聞說美國iPhone用戶忠誠度沒Android高,但該國iPhone的佔有率卻是在上漲。
兩個數據都是「真實」,原因何在?
辛普森悖論揭示了數據會說謊的秘密。
本文最後少不了來一碗實用主義的雞湯,扯了一下「懷才不遇」的統計學原理,和逆向運用辛普森悖論的人生第三條路。
一意外嗎?統計顯示iPhone用戶忠誠度沒Android高。
據CIRP分享的最新統計數據,截至9月份的前12個月,(美國市場)Android用戶的忠誠度(用戶留存率)為92%,而iOS則是89%。
據了解,CIRP的季度統計以500名真實消費者為樣本。
我好奇查了一下,CIRP公布了2017年Q4美國智慧型手機市場,iPhone的市場份額達39%,與2016年四季度的34%相比,同比增長了5%。
由上圖我們也可以看到,自2017年底以來,iOS用戶的忠誠度是持續上升的。
既然iPhone用戶更不忠誠,投奔Android陣營的人不該更多嗎?為何市場份額不降反升?
這裡的確會有一個令人「疑惑」之處。
讓我們簡單算一下:
1、500個用戶,按照最新市場份額,iPhone用戶有195人,Android用戶有305人;
2、Android用戶的忠誠度(用戶留存率)為92%,而iOS則是89%。所以叛逃率分別為8%和11%;
3、按此計算,Android用戶叛逃了305*8%=24.4人,iPhone用戶叛逃了195*11%=21.45人。
所以,真相是,儘管所謂「忠誠度」更低,但iPhone用戶的淨流入人數還是更多。
二這讓我想起了以前曾經寫過的辛普森悖論。
斯坦福講義裡的例子:某大學歷史系和地理系招生,共有13男13女報名。
歷史系5男報名錄取1男,8女報名錄取2女。地理系8男報名錄取6男,5女報名錄取4女。
歷史系:1/5(男) < 2/8 (女)
地理系:6/8(男) < 4/5 (女)
合 計:7/13(男)> 6/13 (女)
上面的數據給出一個令人迷惑的結論:儘管每個系女生的錄取率都更高,但整體算下來男生的錄取率卻更高。
1、每個系的女生的錄取率卻都高於男生錄取率。
歷史系女生的錄取率(2/8)大於男生錄取率(1/5)。地理系女生錄取率(4/5)也高於男生錄取率(6/8);
2、整個學校統計,男生錄取率(7/13)高於女生錄取率(6/13)。
當人們嘗試探究兩種變量(比如新生錄取率與性別)是否具有相關性的時候,會分別對之進行分組研究。然而,在分組比較中都佔優勢的一方,在總評中有時反而是失勢的一方。
該現象於20世紀初就有人討論,但一直到1951年,E.H.辛普森在他發表的論文中闡述此一現象後,該現象才算正式被描述解釋。後來就以他的名字命名此悖論,即辛普森悖論。
關於上題「錄取率」,倒過來想容易很多,歷史系女生被淘汰6人,男生被淘汰4人。地理系女生被淘汰1人,男生被淘汰2人。男生在基數較大的歷史系申請人群中,絕對錄取數更多,從而令整體淘汰率更低。
為了避免辛普森悖論出現,就需要斟酌個別分組的權重,以一定的係數去消除以分組資料基數差異所造成的影響,同時必需了解該情境是否存在其他潛在要因而綜合考慮。
關於基數差異所帶來的相關思考,我在(請點擊➡️)《財富取決於極少的大高潮,幸福取決於較多的小高潮》一文中,有所提及。
另外一種基數差異所帶來的認知陷阱,就是卡尼曼和特維爾斯基提出的「基礎概率謬誤」(Base Rate Fallacy)。我在此前的文章,多次探討了這個使人困惑的問題:為什麼人的直覺經常與貝葉斯公式計算的結果相悖?這是因為,人們在使用直覺的時候經常會忽略基礎概率。(請點擊➡️生命、宇宙以及任何事情的終極答案)
三《簡單統計學》裡寫道:混雜因素常常出現在使用觀測性數據的研究中,因為人們無法通過現實的方法使這些因素維持恆定。
所以,我們應該牢記:
一項研究的結論有可能受到混雜因素的幹擾。
該書作者加裡.史密斯說,辛普森悖論實際上是更早時候由兩位統計學家發現的。
辛普森悖論指的是:
當聚合數據被分解時其中的模式發生逆轉的現象。
該書還舉了幾個有趣的例子:
1、阿拉斯加航空公司在五個存在競爭的主要機場,擁有優於另一家航空公司的準點運行記錄,但其總體準點記錄則不如競爭對手,為什麼?
因為阿拉斯加航空擁有許多飛往西雅圖的航班,而西雅圖的天氣問題經常導致飛機延誤 。
2、對於每個年齡群體,瑞典的女性死亡率都要低於哥斯大黎加,但瑞典擁有更高的女性總體死亡率,為什麼?
因為瑞典擁有更多的老年女性 (老年人擁有相對較高的死亡率 ) 。
3、一項醫學研究發現,一種手術對於小型和大型腎結石的治療成功率均高於另一種手術,但其總體成功率卻不如另一種手術,為什麼 ?
因為它經常被用於治療大型腎結石(大型腎結石的治療成功率相對較低 ) 。
以上例子之所以存在辛普森悖論,是因為某種混雜因素對聚合數據產生了影響 。
更值得學習的是,加裡.史密斯寫道:這並不意味著分解數據永遠優於聚合數據 。舉例如下:
在下表中,對兩個假想的棒球選手進行了比較,將數據分解成了單日和雙日。例如 ,科裡在雙日的 1 0 0次擊球中擊出 2 0個安打 ,安打率為 2 0 / 1 0 0 = 0 . 2 0 0 。
在這些編造出來的數據中 ,兩名選手恰巧在單日擁有更好的表現 ,科裡恰巧在單日擁有更多的擊球次數 。因此 ,雖然吉米在單雙日都具有更高的安打率 ,但是整個賽季安打率更高的人是科裡 。
根據這些數據 ,你認為誰是更好的擊球手 ?
正確答案是:科裡。
因為我們沒有理由認為單雙日是一個有意義的混雜因素 。這只是數據中的一種巧合而已 。
在此情況下,聚合數據可以更加準確地衡量誰是更好的擊球手 。
四下面介紹一個更「實戰」的案例,這段內容來自「數數科技」(公眾號:ThinkingData)。
這個例子其實是倒過來說辛普森悖論:
總評中佔優勢的,在每個分組比較中反而都佔劣勢。
工作中的典型案例:
某產品的用戶中有10000人使用Android設備、5000人使用iOS設備,整體的付費轉化率應該是5%。細分發現其中IOS設備的轉化率僅為4%,而Android設備則是5.5%。「聰明」的數據分析師得出結論:iOS平臺的用戶付費轉化率低下,建議放棄IOS平臺的研發。
一般來說,iOS平板的付費轉化率比Android平板高出很多,而iOS手機的轉化率也相對更好。這種情況下,設備類型就是複雜變量,如果數據是根據設備類型得到,那麼其他的數據就可能被完全忽略。
接下來我們來對比這一組數據:
由此可見,Android設備轉化率無論在平板端還是在手機端的轉化率都小於iOS設備,這也跟我們的常規預期相符。
當計算全設備情況時,Android的轉化比例為550/10000=5.5%,iOS的轉化比例只有200/5000=4.0%。這也是題中「聰明」的數據分析師得出iOS版本應該下線的根源。
原因與應對策略:
誤區產生的原因說起來也很簡單,就在於將「值與量」兩個維度的數據,歸納成了「值」一個維度的數據,並進行了合併。
(從上上圖我們可以看到,基數較大的Android平板把「整體轉化率」的數據帶偏了。)
如果要避免「辛普森悖論」給我們帶來的誤區,就需要斟酌個別分組的權重,以一定的係數去消除因分組資料基數差異所造成的影響。而在實際轉化例子中,就需要用如「ARPU」、「ARPPU」這樣看似相似實際上有很大差異的指標來進行分割。
同樣地,如果要更客觀分析產品的運營情況,就需要設立更多角度去綜合評判。還是拿上述的設備轉化率為例,產品層考慮轉化的前提會優先考慮分發量、用戶量、運營思路、口碑等等。而往往為了實現最後的轉化需要,需要更多前置目標做鋪墊。
A/B測試中的注意點:
聯想到產品運營的實踐,一個常見的A/B測試誤判例子是這樣的:拿1%用戶跑了一個重大版本,發現試驗版本購買率比對照版本高,就說試驗版本更好,我們應該發布試驗版本。
而事實上,我們選取的試驗組裡往往會挑選那些樂於交流、熱衷產品、又或者是付費率高粘性高的用戶,把他們的數據與全體用戶對比是不客觀的。當最後發布試驗版本時,反而可能降低用戶體驗,甚至造成用戶留存和營收數據的雙雙下降。
收穫與總結:
避免辛普森悖論的關鍵是要同時參考不同用戶間的事實全貌。
第一,準確的用戶分群在數據分析中是非常重要的,尤其是在免費產品當中,平均用戶不僅不存在,而且是誤導研發的因素之一,所以關鍵在於利用特徵將用戶進行合理劃分。
第二,在一個具體的產品中,普適型的數據(如粗暴的對比IOS和Android總體情況)是沒有多大參考意義的,一定要細分到具體設備、國家、獲取渠道、消費能力等等再進行比對才有價值。
第三,斟酌個別分組的權重,以一定的係數去消除以分組資料基數差異所造成的影響,同時必需了解該情境是否存在其他潛在要因而綜合考慮。
五我們認為數據科學家和分析師是客觀的,但數據可能會撒謊,如西諺所言:「通往地獄的道路是用好意鋪就的」。
亞馬遜歐洲商業智能部門負責人、資深數據科學家KarolisUrbonas,研究了數據科學家們應該知道的三種常見的「謊言」。以下是引用他的觀點:
1、平均無處不在的平均值
平均值這種過度使用的聚合度量造成了無處不在的謊言。無論何時使用平均指標–除非底層數據正常分布(這種狀況很少出現)–平均值都無法反應現實的任何有用信息。當數據分布偏斜時,平均值將受到影響,沒有任何意義。平均值不是一個強大度量工具,容易受到異常值與正態分布有偏差的影響。
2、將數據擬合為假設–證實性偏見
如果數據科學家不得不快速得到結果,他們不得不快速回答或者解決問題。這意味著他們會把發現的第一個雜散相關就當做答案。在這些情況下,數據科學家搜索證據以確認假設,即「為假設尋找數據」。
3、並不存在的模式
人類的大腦善於在混亂中發現模式或圖案--有時,它們開始發現並不存在的模式。這是數據科學家的致命陷阱。
說到數據會說謊,最有欺騙性的的例子莫過於統計學中著名的辛普森悖論了。正如前面兩段所提及的。
六假如我們的工作與數據和統計無關,辛普森悖論有何意義呢?
(來自百度百科)辛普森悖論就像是欲比賽100場籃球以總勝率評價好壞,於是有人專找高手挑戰20 場而勝1場,另外80場找平手挑戰而勝40場,結果勝率41%,另一人則專挑高手挑戰80場而勝8場,而剩下20場平手打個全勝,結果勝率為28%,比 41%小很多,但仔細觀察挑戰對象,後者明顯較有實力。
量與質是不等價的,無奈的是量比質來得容易量測,所以人們總是習慣用量來評定好壞,而此數據卻不是重要的。
除了質與量的迷思之外,辛普森悖論的另外一個啟示是:
如果我們在人生的抉擇上選擇了一條比較難走的路,就得要有可能不被賞識的領悟,所以這算是懷才不遇這個成語在統計學上的詮釋。
關於道路難易的選擇,有三種人生路線:
1、較難的道路。例如愛因斯坦,他說,科學研究好像鑽木板,有人喜歡鑽薄的,而我喜歡鑽厚的。
類似的職業有科學家、首富、體育冠軍、明星基金經理、超級巨星,等等。
這類道路,獲勝概率極低,付出代價極大。也容易落入「懷才不遇」的境地。
當然,在一個富足的、有安全感的社會裡,會有更多的人選擇這條路。期待我們亦如是。
此謂:Think big!
2、較容易的道路。平凡之路,是你我普通人主動、或者被動的選擇。過過日子,陪好家人,自得其樂,不危害社會,也沒啥不好。
比較是萬惡之源,這條道路上的人的絕大多數苦惱,來自與第一條道路人士的比較。
3、短期容易長期較難的道路。這種道路眼下看起來並不難,人人可以走,但最終堅持下來的卻極少。
巴菲特在1989年給股東的信裡寫道:
我們之所以能夠獲得現在這樣的成功,是因為我們總是專注於發現那些一英尺高的,我們能夠跨越的障礙,而不是因為我們獲得了什麼能夠一舉越過七英尺的能力。
雖然說起來似乎有點不公平,但是無論在經營還是投資當中,往往都是堅持那些簡單和顯而易見的東西比解決難題更賺錢。
如同上面的「辛普森悖論」裡提及的籃球比賽,長期投資這類事,是可以繞開「專挑高手挑戰」之路的。
在某種意義上,價值投資,長線思維,其實是逆向運用了「辛普森悖論」,找到高確定性的小目標,看起來「分組比較」中沒什麼優勢,但利用時間的魔力,最終實現了總體統計上的最高回報。
選擇較容易的「一英尺高的橫杆」,去找平手挑戰籃球,並非逃避難題,專挑軟柿子捏,而是為了實現可重複、可持續的事情。
只有在更少的、更重要的變量分析上持續做到最好,才是提高整體投資回報確定性與大概率的最簡單、最樸素的方法。
此謂:Thinklong!
最終,正確的Long,都將變成Big。
最後第三條道路,其實是前兩條道路的混合。其短期看起來是第二條路,長期看起來是第一條路。
對比「較難的道路」,理論上這條路普通人也有指望。在這條道路上,要取得非凡的成果,沒有必要非得做非凡的事情。
但,反之,僅靠平庸的疊加,不管你多麼拼命、堅持,也未必能夠取得非凡的成果。
這其中需要天賦、勇氣、努力、熱愛、意志、運氣和夢想。
深究下去,第二條路上的人,就條件而言與第三條路上的人並無二致。對於絕大多數資質平庸的世人,第二條路是生活的常態,第三條路是生活的希望。辛普森悖論是兩條路之間神秘連結的一種。
關於這「短期容易、長期較難的道路」,上帝是慈悲的,令這路可期盼;上帝是智慧的,讓這路不簡單。