有個叫辛普森悖論的真是太奇怪了。辛普森悖論說的是:同一組數據,整體的趨勢和分組後的趨勢完全不同。即在某個條件下的兩組數據,分別討論時都會滿足某種性質,可是一旦合併考慮,卻可能導致相反的結論。
比如一所學院招收新生,以下是招生錄取數據:
男生 女生
申請人數 304 253
錄取人數 209 143
未錄取人數 95 110
錄取率 68.8% 56.5%
大家從表格裡可以看到,如果只看整體錄取率,那麼男生的錄取率是68.8%,女生的是56.5%。 從表面上看肯定會得出這樣的結論——男生錄取率高於女生,明顯女生被歧視了。別急,現在把上面的數據按照院系拆分,再來看看每個系的錄取率。
院系 男生 女生
申請人數 錄取人數 未錄取人數 錄取比例 申請人數 錄取人數 未錄取人數 錄取比例
A 53 8 45 15.1% 152 51 101 33.6%
B 251 201 50 80.1% 101 92 9 91.1%
從上圖顯示的數據可以發現,A系男生的錄取比例為8/53=15.1%,女生錄取的比例為51/152=33.6%。女生的錄取率大於男生,同理,B系男生的錄取比例為80.1%,女生的錄取比例為91.1%。還是女生的錄取比例都高於男生。按照這樣的分類,女生實際上比男生的錄取率還高一點點。由此可以推斷學校在招生時更傾向於招女生嗎?
個別錄取率女皆大於男,但是總體錄取率女卻遠小於男,典型的辛普森悖論出現了。究其原因是,A、B兩系錄取率相差太大,而錄取率高的系女生申請數量少,而錄取率低的系女生申請數量巨大,從而導致男生的錄取總數遠遠超過女生,因此整體計算時男生錄取率反而高於女生。這種情況出現,是因為男生更願意申請那些競爭壓力很大的院系,但是女生卻更願意申請那些相對容易進的院系。辛普森悖論真是太奇怪了。導致辛普森悖論成立的原因,往往是有我們考慮的相關因素之外的隱藏因素起關鍵作用。像此例中就是懸殊的錄取率及懸殊的申請數量比例差異是隱藏的關鍵作用。如果你找不到隱藏的關鍵因素,你只會被這個悖論迷惑而找不到答案。
同時辛普森悖論在生活中普遍存在,它通過數據來迷惑人。人有時在不經意間中招後都不知道怎麼中的。
再看一個例子,有人去買蔥,他打算買100斤,便問賣蔥的老闆,蔥多少錢一斤?老闆說一塊錢一斤,買100斤的話,便是100元。買蔥人又問:蔥白跟蔥綠分開賣不?賣蔥人說:可以賣,蔥白7毛—斤,蔥綠3毛一斤。買蔥人說好,然後讓老闆將蔥白和蔥綠完全分開。他要分開買,蔥白買五十斤,蔥綠也買五十斤。老闆照做了。將一百斤蔥都分成了蔥白和蔥綠兩部分,然後一稱,蔥白和蔥綠恰好各五十斤。買蔥人便按說好的價格付錢老。蔥白七毛一斤,50斤就是35元。然後蔥綠三毛一斤,50斤就是15元。合計五十元。買蔥人付完五十元走後,老闆才發現不對:他的蔥一元錢一斤,共—百斤,理應收一百元,如今只收了五十元,怎麼會少收五十元呢?
這裡面就有辛普森悖論的影子。這帳大家算清楚了?算不清要賠錢的。
想明白很簡單,蔥白和蔥綠都要按一元錢一斤算,這樣才正確。但我們的生活常識告訴我們,蔥白和蔥綠這樣分開來計價也是可以的,但為什麼分開來計價會賠錢?這裡的奧妙就是關鍵。想不通永遠要賠錢。
假如顧客要將蔥分成蔥綠、蔥白、蔥根三份,價格變為蔥綠3毛一斤,蔥白4毛一斤,蔥根3毛一斤,分完一稱,蔥綠30斤,蔥白40斤,蔥根30斤,合起來正好一百斤。蔥綠三毛一斤,30斤要9塊錢,蔥白4毛一斤,40斤要16元錢,蔥根3毛一斤有30斤要9元錢,合起來共付9+16+9=34元錢。得了,這樣虧得更多了。
通過這不同的數字,你是否能看透背後隱藏的秘密?
想想現實中賣豬肉的例子。我們賣豬肉,就是按照豬肉的不同部分,以不同的價格來賣,像瘦肉、肥肉、五花肉、排骨等都有不同的價格。這跟將蔥分為蔥白和蔥綠以不同的價來賣是一個道理。但為什麼賣豬肉可以賺錢,而賣蔥卻虧錢了呢?
例如,一頭進入屠宰場的豬,一般有二百五十斤左右,經過屠宰後,最終這頭豬還能剩下一百九十斤左右,再將豬肉切分,各個部位分別售賣。一般純排骨價格稍貴,一斤在40元左右,瘦肉的價格一斤20元左右,其它部位相對便宜。假設一頭豬平均每斤能賣20元,減去一些水電費,人工費等,一頭整豬賣完大概有300元的盈利,每個地方的豬肉售價都不一樣,受到經濟因素的影響,一二線城市的豬肉價格普遍高,相對而言,利潤也更高,一頭生豬賣完大約有400元的盈利,如果擺在超市裡售賣,價格還能定得更高。
通過例子,不知聰明的你是否看穿其中的奧妙?看不穿的話,說不定你賣豬肉也賠錢呢!