這是一個數據爆炸的時代,數據的作用被無限放大。
美國管理學家、統計學家愛德華·戴明有一句名言:除了上帝,任何人都必須用數據說話。
然而,這也帶來了一個問題:數據也許是客觀的、科學的,但是獲取、分析和處理數據的方法,卻未必是科學和客觀的。
美國統計專家達萊爾·哈夫在其傳世之作《統計數據會說謊》中說到:「世界上有三種謊言:謊言、彌天大謊和統計數據!」
著名數學家亞伯拉罕·瓦爾德(Abraham Wald)1902年出生於當時的克勞森堡,隸屬奧匈帝國(後隸屬羅馬尼亞)。
瓦爾德憑藉出眾的數學天賦,被維也納大學錄取,二戰期間由於眾所周知的原因去了紐約。
瓦爾德都在哥倫比亞大學的統計研究小組(SRG)中工作。統計研究小組是一個秘密計劃的產物,它的任務是組織美國的統計學家為「二戰」服務。
在英國和德國進行的空戰中,雙方都損失了不少轟炸機和飛行員。當時英美軍方需要解決飛機被擊落的概率問題,只要降低飛機被擊落的概率,就可以奪得空戰的優勢。
當時的英國軍方研究了那些從歐洲大陸空戰中飛回來的轟炸機。如上圖所示,飛機上被打到的彈孔主要集中在機身中央,兩側的機翼和尾翼部分。因此研究人員提議,在彈孔最密集的部分加上裝甲,以提高飛機的防禦能力。
然而,瓦爾德力排眾議,指出更應該注意彈痕少的部位,因為這些部位受到重創的戰機,很難有機會返航,而這部分數據被忽略了。
為此,瓦爾德連續寫了8篇研究報告,指出這些百孔千瘡的轟炸機是從戰場上成功飛回來的「倖存者」,因此它們機身上的彈孔對於飛機來說算不上致命。
飛機各部位受到攻擊的概率應該是均等的,但是引擎罩上的彈孔卻比其餘部位少,那些失蹤的彈孔在哪兒呢?瓦爾德深信,這些彈孔應該都在那些未能返航的飛機上。
勝利返航的飛機引擎上的彈孔比較少,其原因是引擎被擊中的飛機未能返航。
大量飛機在機身被打得千瘡百孔的情況下仍能返回基地,這個事實充分說明機身可以經受住打擊(因此無須加裝裝甲)。
如果去醫院的病房看看,就會發現腿部受創的病人比胸部中彈的病人多,其原因不在於胸部中彈的人少,而是胸部中彈後難以存活。
要想救那些轟炸機飛行員的性命,更正確的方法應該是去研究那些被打中並墜毀的轟炸機。只有研究那些沒有成功返航的轟炸機,才能找到這些飛機最脆弱的地方並用裝甲加強。
當然,瓦爾德是對的。瓦爾德的建議後來被英美軍方採納,不久之後,聯軍轟炸機被擊落的比例,果然顯著地降低了,挽救了成千上萬的飛行員性命。
為了確認這個決策的正確性,一段時間後,英國軍方動用了敵後工作人員,搜集了部分墜毀在德國境內的聯軍飛機殘骸,他們中彈的部位,果真如沃德教授所預料,主要集中在駕駛艙與發動機的位置。真所謂看不見的彈痕最致命!
在這之前英美軍官們在無意間做出了一個假設:返航飛機是所有飛機的隨機樣本。如果這個假設真的成立,我們僅依據倖存飛機上的彈孔分布情況就可以得出結論。
但是,一旦認識到自己做出了這樣的假設,我們立刻就會知道這個假設根本不成立,因為我們沒有理由認為,無論飛機的哪個部位被擊中,倖存的可能性是一樣的。
用數學語言來說,飛機倖存的概率與彈孔的位置具有相關性。
關於返航飛機上彈孔分布不均的這個現象,我們稱之為「倖存者偏差」(survivorship bias ),而這種現象幾乎在各種環境下都會出現。
倖存者偏差,指的是在做統計分析時,我們只專注於那些成功的例子,從而得出以偏概全的錯誤結論。
大致來講,成功的例子往往只屬於少數。如果我們只看成功的倖存者,而忽略那些沉默的大多數,那麼就會得出很多不符合常理的荒唐結論。
兩千年前的古羅馬,有一個政治家和無神論者叫西塞羅,他的朋友勸他去拜神,他反問朋友為什麼要去拜神?朋友說:「海難當中活下來的都是拜神的人」
西塞羅反問:「那你把那些拜神的被淹死的給我拉過來」。西塞羅是第一個提出倖存者偏差的人。
飛機失事和車禍,哪個概率高?
很明顯,車禍發生概率更高,而且死亡人數也更多。但是,因為機失事是重大事件,一般都會有新聞報導,而車禍很少被報導,或者說車禍因為發生較為普遍,即使報導出來了,我們一般會忽略。
所以,大家得出結論:飛機不安全。這就是典型的倖存者偏差問題,事實上飛機遠比汽車安全。
襪子總會丟一隻:因為兩隻襪子都丟了就不容易發現襪子丟了,所以往往注意到襪子丟了的時候都是只丟了一隻襪子。
讀書無用論:如今很多人在說,誰誰誰當初沒好好上學如今照樣掙大錢,而好多用功讀書的人,畢業後反而不如那些沒好好學習的人混得好。並且因為這樣的例子有很多,所以很多人得出「上學沒有用處」,「讀書無用」的結論。
這些其實只是個例,因為基數太大,所以看起來有很多。2010年第六次全國人口普查的官方口徑,可以算出來大專以上文化程度的人口僅佔總人口的8.7%左右。可以看出學歷低的人數遠高於學歷高的人數,所以即便低學歷者成功率遠低於高學歷者,也照樣會導致低學歷者出現大批成功人士。
倖存者偏差存在於很多方面,而有些例子的結論甚至被很多人當成真理,被心靈雞湯利用。心靈雞湯的特徵是簡單歸因,缺乏縝密的邏輯,只能成為弱者的安慰劑,不符合事實真相。如果相信心靈雞湯,就會陷入思維的誤區,導致邏輯能力的缺乏。
既然倖存者偏差存在於很多方面,應該如何應對?
最好的應對方法是避免數據的偏差。讓沉默的數據或者說是「死人」的數據也被收集到,並參與到統計和分析中,就可以得到更全面的結論。
此外,雙盲對照實驗也可以有效避免倖存者偏差。
有些情況下,無法避免數據的偏差,只能收集到片面的數據,這時候就需要逆向思考。逆向思考可以有效避免以偏概全、簡單歸因等造成倖存者偏差的因素,跳出思維慣性,可能會看到更多的因素。