你親眼看到的數據也可能是假的:倖存者偏差,識破數據的詭計

2020-12-17 無限奇異果

這是一個數據爆炸的時代,數據的作用被無限放大。

美國管理學家、統計學家愛德華·戴明有一句名言:除了上帝,任何人都必須用數據說話。

然而,這也帶來了一個問題:數據也許是客觀的、科學的,但是獲取、分析和處理數據的方法,卻未必是科學和客觀的。

美國統計專家達萊爾·哈夫在其傳世之作《統計數據會說謊》中說到:「世界上有三種謊言:謊言、彌天大謊和統計數據!」

著名數學家亞伯拉罕·瓦爾德(Abraham Wald)1902年出生於當時的克勞森堡,隸屬奧匈帝國(後隸屬羅馬尼亞)。

瓦爾德憑藉出眾的數學天賦,被維也納大學錄取,二戰期間由於眾所周知的原因去了紐約。

瓦爾德都在哥倫比亞大學的統計研究小組(SRG)中工作。統計研究小組是一個秘密計劃的產物,它的任務是組織美國的統計學家為「二戰」服務。

在英國和德國進行的空戰中,雙方都損失了不少轟炸機和飛行員。當時英美軍方需要解決飛機被擊落的概率問題,只要降低飛機被擊落的概率,就可以奪得空戰的優勢。

當時的英國軍方研究了那些從歐洲大陸空戰中飛回來的轟炸機。如上圖所示,飛機上被打到的彈孔主要集中在機身中央,兩側的機翼和尾翼部分。因此研究人員提議,在彈孔最密集的部分加上裝甲,以提高飛機的防禦能力

然而,瓦爾德力排眾議,指出更應該注意彈痕少的部位,因為這些部位受到重創的戰機,很難有機會返航,而這部分數據被忽略了。

為此,瓦爾德連續寫了8篇研究報告,指出這些百孔千瘡的轟炸機是從戰場上成功飛回來的「倖存者」,因此它們機身上的彈孔對於飛機來說算不上致命。

飛機各部位受到攻擊的概率應該是均等的,但是引擎罩上的彈孔卻比其餘部位少,那些失蹤的彈孔在哪兒呢?瓦爾德深信,這些彈孔應該都在那些未能返航的飛機上。

勝利返航的飛機引擎上的彈孔比較少,其原因是引擎被擊中的飛機未能返航。

大量飛機在機身被打得千瘡百孔的情況下仍能返回基地,這個事實充分說明機身可以經受住打擊(因此無須加裝裝甲)。

如果去醫院的病房看看,就會發現腿部受創的病人比胸部中彈的病人多,其原因不在於胸部中彈的人少,而是胸部中彈後難以存活。

要想救那些轟炸機飛行員的性命,更正確的方法應該是去研究那些被打中並墜毀的轟炸機。只有研究那些沒有成功返航的轟炸機,才能找到這些飛機最脆弱的地方並用裝甲加強。

當然,瓦爾德是對的。瓦爾德的建議後來被英美軍方採納,不久之後,聯軍轟炸機被擊落的比例,果然顯著地降低了,挽救了成千上萬的飛行員性命。

為了確認這個決策的正確性,一段時間後,英國軍方動用了敵後工作人員,搜集了部分墜毀在德國境內的聯軍飛機殘骸,他們中彈的部位,果真如沃德教授所預料,主要集中在駕駛艙與發動機的位置。真所謂看不見的彈痕最致命!

在這之前英美軍官們在無意間做出了一個假設:返航飛機是所有飛機的隨機樣本。如果這個假設真的成立,我們僅依據倖存飛機上的彈孔分布情況就可以得出結論。

但是,一旦認識到自己做出了這樣的假設,我們立刻就會知道這個假設根本不成立,因為我們沒有理由認為,無論飛機的哪個部位被擊中,倖存的可能性是一樣的。

用數學語言來說,飛機倖存的概率與彈孔的位置具有相關性。

關於返航飛機上彈孔分布不均的這個現象,我們稱之為「倖存者偏差」(survivorship bias ,而這種現象幾乎在各種環境下都會出現。

倖存者偏差,指的是在做統計分析時,我們只專注於那些成功的例子,從而得出以偏概全的錯誤結論。

大致來講,成功的例子往往只屬於少數。如果我們只看成功的倖存者,而忽略那些沉默的大多數,那麼就會得出很多不符合常理的荒唐結論。

兩千年前的古羅馬,有一個政治家和無神論者叫西塞羅,他的朋友勸他去拜神,他反問朋友為什麼要去拜神?朋友說:「海難當中活下來的都是拜神的人」

西塞羅反問:「那你把那些拜神的被淹死的給我拉過來」。西塞羅是第一個提出倖存者偏差的人。

飛機失事和車禍,哪個概率高?

很明顯,車禍發生概率更高,而且死亡人數也更多。但是,因為機失事是重大事件,一般都會有新聞報導,而車禍很少被報導,或者說車禍因為發生較為普遍,即使報導出來了,我們一般會忽略。

所以,大家得出結論:飛機不安全。這就是典型的倖存者偏差問題,事實上飛機遠比汽車安全。

襪子總會丟一隻:因為兩隻襪子都丟了就不容易發現襪子丟了,所以往往注意到襪子丟了的時候都是只丟了一隻襪子。

讀書無用論:如今很多人在說,誰誰誰當初沒好好上學如今照樣掙大錢,而好多用功讀書的人,畢業後反而不如那些沒好好學習的人混得好。並且因為這樣的例子有很多,所以很多人得出「上學沒有用處」,「讀書無用」的結論。

這些其實只是個例,因為基數太大,所以看起來有很多。2010年第六次全國人口普查的官方口徑,可以算出來大專以上文化程度的人口僅佔總人口的8.7%左右。可以看出學歷低的人數遠高於學歷高的人數,所以即便低學歷者成功率遠低於高學歷者,也照樣會導致低學歷者出現大批成功人士。

倖存者偏差存在於很多方面,而有些例子的結論甚至被很多人當成真理,被心靈雞湯利用。心靈雞湯的特徵是簡單歸因,缺乏縝密的邏輯,只能成為弱者的安慰劑,不符合事實真相。如果相信心靈雞湯,就會陷入思維的誤區,導致邏輯能力的缺乏。

既然倖存者偏差存在於很多方面,應該如何應對?

最好的應對方法是避免數據的偏差。讓沉默的數據或者說是「死人」的數據也被收集到,並參與到統計和分析中,就可以得到更全面的結論。

此外,雙盲對照實驗也可以有效避免倖存者偏差。

有些情況下,無法避免數據的偏差,只能收集到片面的數據,這時候就需要逆向思考。逆向思考可以有效避免以偏概全、簡單歸因等造成倖存者偏差的因素,跳出思維慣性,可能會看到更多的因素。

相關焦點

  • 91思維模型:倖存者偏差一你看到的可能都是假的
    通過只統計來自倖存者的數據,只能看到經過特定的篩選而產生的結果,而沒有意識到篩選的過程,因此忽略了被篩選掉的關鍵信息(沉默的數據)。倖存者偏差一詞的出現,要從第二次世界大戰中的一則故事說起。二戰後期,美國B17轟炸機經常成百上千的空襲德國,由於德國防空力量非常強大,所以飛機的返航率很低,而返航的飛機往往都會帶著不少彈孔回來。
  • 91思維模型:倖存者偏差
    一、什麼是倖存者偏差倖存者偏差是一種常見的邏輯謬誤。通過只統計來自倖存者的數據,只能看到經過特定的篩選而產生的結果,而沒有意識到篩選的過程,因此忽略了被篩選掉的關鍵信息(沉默的數據)。倖存者偏差一詞的出現,要從第二次世界大戰中的一則故事說起。
  • 倖存者偏差:正確數據前的盲目,思考問題不要以偏概全!
    今天我們來聊一聊倖存者偏差。(這篇文章例子比較多,我就不總結了,想快速瀏覽的可以跳一下。)大家是否經常聽到這樣的說法,「讀書沒用的,沒有讀書也可以賺到錢,現在很多有錢人和名人的學歷並不高」、「抽菸喝酒沒事,某某百歲老人的長壽秘訣就是這些」等等類似這樣的話。
  • 騙子密碼:倖存者偏差
    01你越認真,離真相越遠倖存者偏差又叫「倖存者謬誤」,反駁的是一種常見邏輯謬誤,即只看到經過某種篩選之後的結果,忽略關鍵信息。這涉及到數學的一個分支,也是統計學中的概念:越是認真觀察眼前的真相,你離真相越遠。
  • 心理學:警惕倖存者偏差,你看到的並不一定是真相
    為了加強對戰機的防護,軍方決定按照專家組根據研究數據對戰機進行改造。其他專家認為返航回來的飛機機翼受損嚴重,提出加裝機翼護甲。沃德教授力排眾議,指出「我們應該強化機尾的防護」,因為這些部位受到重創的戰機,很難有機會返航,而這部分數據被忽略了。事實證明,沃德是正確的。
  • 倖存者偏差,看不到的真相最致命
    這說明偏信「倖存者偏差」只會導致更多的不幸,只有看到「倖存者偏差」背後的邏輯錯誤,才有可能阻止更多不幸的發生。這本質上也是一種「倖存者偏差」的體現,因為缺少另一雙觀察的眼睛,得出的結果自然也是不真實的。只有看懂「倖存者偏差」,才有可能看清事情的真相。
  • 什麼叫「倖存者偏差」?你看到的,只代表你能夠看到的
    什麼叫「倖存者偏差」?你看到的,只能代表你能夠看到的「倖存者偏差」是一個非常經典的邏輯謬誤,也是生活中非常常見的一種現象。如果直接解釋這個詞的含義,可能大家會覺得比較抽象,無法很好地去理解。可是卻有另一位科學家提出了疑問:彈痕比較少的機身部分,會不會是因為……大多數機身中彈的飛機,都已經在戰鬥中墜毀了,所以我們無法看到呢?這就是倖存者偏差的一個典型的故事。換句話說,人們看到的,可能代表的只是人們能夠看到的,同樣還有更多人們看不到的東西。
  • 投資應警惕倖存者偏差
    來源:中歐基金倖存者偏差是指僅看到篩選後的結果,以偏概全,從有偏向的子集中得出面向全集的結論。比如,人們看到很多藝人收入豐厚,得出演藝圈收入很高的結論,卻忽略了大部分演員可能就是跑跑龍套、賺個辛苦錢;看到許多沒考上大學的人當了老闆,就認為學歷不重要,卻不知道高學歷人群中的成功比例遠高於低學歷人群。
  • 什麼是倖存者偏差?你是沉默的大多數嗎?
    我們經常會聽到身邊有人說起這樣的言論:「你做那些事不會成功的,你看我做這些事多成功。」又或是:「做人做事全靠運氣,你看隔壁家老李一無是處不照樣富貴雙全,努力是沒用的。」乍一聽這些言論很有道理,甚至有些人也因此暗下眸光,一蹶不振。但其實這其中是有一些邏輯謬誤的。
  • 統計學中的「倖存者偏差」,如何影響著你和我?
    不同的環境、才識造就不同的眼界,看到不同的人群。如果類比運用「倖存者偏差」原理,我們或許應該這樣反駁:「因為你的眼光只能看到那些少數成功的低學歷者,社會中所存在的是更多的低學歷廉價勞動力,更存在很多高學歷成功企業家,讀書必定是有益於個人成長的」。
  • 倖存者偏差:一個與每個人密切相關卻被忽視的事實,必須了解
    倖存者偏差:是一種我們生活中常見的邏輯謬誤 直到我了解了倖存者偏差,才知道現實大部分退學者都是以失敗告終,大部分沒有學歷的人都生活在人生的底層,沒有翻身之日,沒日沒夜工作,寄希望於下一代。這才是殘酷的現實。好好學習吧,不要白日做夢,想要不努力就登天。
  • 股市中的倖存者偏差
    來源:雪球倖存者偏差,指的是當取得資訊的渠道,僅來自於倖存者時(因為死人不會說話),此資訊可能會存在與實際情況不同的偏差。倖存者偏差,是由優勝劣汰之後自然選擇出的一個道理:死人不會說話。人們只看到經過某種篩選而產生的結果,而沒有意識到篩選的過程,因此忽略了被篩選掉的關鍵信息。
  • 開車的「倖存者偏差」
    【 倖存者偏差 】「倖存者偏差」的其實是在統計概率分布時一個典型的錯誤。錯誤在於對統計過程中對於基數的錯誤估計。如果上面這兩句話你看起來很難理解,那我就舉個簡單的例子:A吃了一個偏方治好了某種病,於是說這個偏方可以治好這種病。
  • 倖存者偏差你真的理解了嗎?
    什麼是倖存者偏差?倖存者偏差,指的是在做統計分析時,我們只專注於那些成功的例子,從而得出以偏概全的錯誤結論。簡單來講,成功的例子往往只屬於少數,如果我們只看成功的倖存者,而忽略那些大部分的「失敗者」,那麼就會得出很多不符合常理的荒唐結論。我們先來看下倖存者偏差的故事來源。二戰期間,為了加強戰鬥機的防護,英美軍方調查了作戰後倖存飛機上彈痕的分布,決定哪裡彈痕多就加強哪裡。
  • 【隨筆】倖存者偏差的幾個例子以及我們如何應對
    倖存者偏差是一種很常見的環境偏差,具體原理這裡不再贅述,參考之前的一篇文章:倖存者偏差,這裡只是例舉最近自己遇到的幾個例子,以及提供一種可能的解決方法;例子 1:找工作的例子看到一篇文章:說下現在的職場大環境,看完之後,感覺公眾號作者還是迎合大眾的需求,面向大眾而寫作的。
  • 倖存者偏差——這個世界遠比你想像得複雜
    時刻用倖存者偏差的理論提醒自己,當理性健全的人,做行為正確的事。當你理解了倖存者偏差,你就不會成為一個「鍵盤俠」,不會因為一知半解就開罵,不會因為互不理解就掐架。當然,可能也就不會有像疑因迫於輿論、北京一家三口高速服務區自殺的悲劇發生;不會有那些毫無專業背景的人,煞有介事地對轉基因、對中醫這些原本專業的事情說三道四;當你理解了倖存者偏差,你就不會對任何一個人群和行業有偏見性的想法,你會知道哪裡都是魚龍混雜;你就不會說出「戲子誤國」、「記者去死」之類的屁話,因為你知道那都是在用道德的名義打砸;
  • 信貸風控中也有「倖存者偏差」?
    01 什麼是倖存者偏差效應?倖存者偏差(Survivorship bias),另譯為「生存者偏差」或「存活者偏差」,是一種常見的邏輯謬誤,意思是只能看到經過某種篩選而產生的結果,而沒有意識到篩選的過程,因此忽略了被篩選掉的關鍵信息。
  • 機械行業中常見的倖存者偏差問題
    這個故事被後人用一個詞語概括—倖存者偏差。倖存者偏差指的是當取得資訊的渠道,僅來自於倖存者時,此資訊可能會與實際情況存在偏差。倖存者偏差,是由優勝劣汰之後自然選擇出的一個道理:未倖存者已無法發聲。人們只看到經過某種篩選而產生的結果,而沒有意識到篩選的過程,因此忽略了被篩選掉的關鍵信息。
  • 被忽視的倖存者偏差,沉默的大多數!
    生活中是否有過這樣的錯覺,當你的一雙襪子找不著的時候,很難發現,而只丟了一隻襪子的時候,會很快發覺。著名數學家亞伯拉罕·瓦爾德二戰時一直在美軍統計部工作,有一次軍方來找他,要求他看看飛機上的彈孔統計數據,在飛機的哪個部位加裝裝甲可以減少戰損比。
  • 重大疾病保險市場規律:倖存者偏差
    統計學專家沃爾德給出了完全相反的意見,他通過嚴謹的科學論證,得出結論:應該加裝的是引擎部分,因為被擊中引擎的飛機基本都回不來了,根本就沒有進入統計樣本,這就是大家耳熟能詳的概念,倖存者偏差,學術上也叫做沉默的證據或者死人不會說話。