為什麼理想和現實總存在偏差?關鍵就是兩個字:概率

2021-02-27 羅輯思維
隨機性的規律性其實和我們直覺想像的不一樣,以至於在生活中大部分人會誤讀概率。比如說,我們知道拋硬幣正反兩面朝上的概率各50%,但你現在去拋十次硬幣,真的有5次正面朝上麼?其實這種可能性只有25%左右,顯然和大多數人的直覺完全不同了。
再比如有一個賭局,贏面是10%,你玩十次是否就能保證贏一次呢?如果不能,需要多少次才有很高的把握贏一次呢?這個結果其實是26次,這可能也顛覆了你的認知。因此,我會通過一些例子講清楚隨機性到底意味著什麼,我們該如何得到正確的統計規律,而不是主觀偏見。我們都知道,統計學的規律只有經過了大量隨機試驗才能得出,也才有意義。但是隨機試驗得到的結果,和我們用古典概率算出來的結論可能是兩回事。不僅你擲10次硬幣大部分時候不可能得到五次正面朝上的結果,你做其它隨機試驗也是如此。比如你擲12次骰子,大約只有30%的情況它正好有兩次六點朝上。這時你是否能講,有70%的可能性要否定六點朝上的概率是1/6這個結論呢?似乎也不應該這麼武斷。

這裡面到底哪裡出了問題?這其中的關鍵是,如何解釋真實情況和理想中的概率之間的偏差。


現實和理想概率有偏差

幾百年前,法國數學家伯努利等人為了回答這個問題,就開始做一些最簡單的隨機試驗,這種試驗簡單到只有兩種結果,非A即B,沒有第三種狀態,而且在同樣條件下重複這種試驗,A和B發生的概率需要一致。
比如拋硬幣,每次正面朝上的概率是1/2;擲骰子,事件A是「六點朝上」,它出現的概率每次也是1/6。當然事件B就是其它點朝上,每次的概率是5/6。在一般情況下,出現A的概率是p,B的概率是1-p。這類試驗後來被稱為伯努利試驗。好了,基本的設定講清楚了。我們來分析一下擲硬幣的問題。照理講,我們擲10次硬幣,正面朝上的次數應該是5次。但是如果你真的拿一個硬幣去試試,你會發現可能只有三次正面朝上,也可能四次正面朝上,甚至會出現沒有一次正面朝上的情況。如果我們把從0次正面朝上,也就是說全部是背面朝上,到10次全是正面朝上的可能性都算出來,畫成一個折線圖,就是一個中間鼓起的曲線:從圖中可以看出,雖然5次正面朝上的可能性最大,但是只有1/4左右。造成試驗結果和理論值不一致的原因,是試驗十次數量太少,統計的規律性被試驗的隨機性掩蓋了。如果我們做更多的隨機試驗,規律性是否會更清晰一點呢?比如我們做100次試驗,這時你會發現,80%的情況下,正面朝上出現了40-60次。如果我們繼續放大試驗次數,你會發現絕大多數情況正面朝上的次數在一半左右浮動,那種正面朝上佔比特別少或者特別多的可能性幾乎不會出現,而不是像一開始那樣,什麼情況都有可能。當然,如果你做1000次試驗,在99.9%的情況下正面朝上的次數在400-600之間。即使你把浮動的範圍縮小到450-550,99.7%的情況下正面朝上落在這個範圍內。在一般情況下,如果進行N次這種簡單的伯努利試驗,那麼事件A會發生多少次呢?雖然我們感覺應該是總次數N乘以每次發生的概率p,但是實際上事件A發生多少次都是有可能的。當然發生N*p次的可能性最大,接下來發生N*p+1或者N*p-1次的可能性次之,然後向兩頭逐漸遞減。如果我們將它畫成一條曲線,就是中間高兩頭低的曲線。順便說一下,滿足這種曲線的概率分布,被稱為伯努利分布,也稱為二項式分布,因為每一次試驗的結果有兩種。我們還看這個實驗,事實上,如果試驗次數N比較大,那中間就是一個大鼓包,然後快速下降,兩旁幾乎是零,這也就是說事件A發生的次數在N*p左右的可能性極大,其它的可能性極小。相反,如果總次數N比較小,中間的鼓包就比較平緩,兩頭的值雖然小,但不會是零,其實難以判定事件A到底發生了多少次。

於是,我們就得到這樣一個結論:有關不確定性的規律,只有在大量隨機試驗時才顯現出來,當試驗的次數不足,它則顯現出偶然性和隨意性。


找出這個偏差的本質

當然,在數學上我們不能用「曲線比較鼓」,或者「比較平」之類不嚴格的語言來描述一種規律。我們需要用兩個非常準確的概念來定量描述「鼓」和「平」的差別。第一個概念就是平均值或者叫做數學期望值,也就是N*p,因為概率是p的事件進行N次試驗後,平均發生的次數,也是最可能發生的次數,好,這是N*p。接下來我們再用平方差(簡稱方差)這個概念來描述曲線的「鼓」與「平」。「方差」這個詞你可能並不陌生,那麼什麼是方差,它是如何計算的呢?我們下面就簡單地說一說。方差其實是對誤差的一種度量,既然是誤差,就要有可對比的基點,在概率中,這個基準點就是數學期望值(簡稱期望值),也就是我們通常說的平均值。比如說,做10次拋硬幣的試驗,平均值就是5次正面朝上,5就是基點。如果我們做10次試驗只出現4次正面朝上的情況,就有了誤差,誤差是1。如果9次正面朝上,那麼誤差就大了,就是4。好了,接下來我們就把各種誤差,和產生那些誤差的可能性一起考慮,做一個加權平均,算出來的「誤差」就是平方差。之所以使用「平方」這個詞,是因為計算方差這種誤差時用到了平方,為了進一步方便誤差和平均值的比較,我們通常會對方差開根號一次,這樣得到的結果被稱為標準差(嚴格來講,方差開根號後和標準差還是略有差別,但是這個差別很小,為了便於理解,我們就假定標準差是方差開根號的結果)。關於方差和標準差的公式我們就省略了,大家只要記住下面這個結論就可以了:伯努利試驗或者其它類似的試驗,試驗的次數越多,方差和標準差越小,概率的分布越往平均值N*p的位置集中。顯然,在這種情況下,你用A發生的次數,除以試驗次數N,當作A發生的概率,就比較準確。反之,試驗的次數越少,概率分布的曲線就越平,也就是說A發生多少次的可能性都存在,這時你用A發生的次數,除以試驗次數N,當作A發生的概率,誤差可能會很大。

具體到拋硬幣的試驗,進行100次試驗,標準差大約是5次,也就是誤差相比平均值50,大約是10%。但是如果我們做10000次試驗,標準差大約只有50,因此和平均值相比,降到了1%左右。

有了方差的概念,我們就能定量分析「理想」和現實的差距了。什麼是理想呢?我們進行N次伯努利試驗,每一次事件A發生的概率為p,N次下來發生了N*p次,這就是理想。那麼什麼是現實呢?由於標準差的影響,使得實際發生的次數嚴重偏離N*p,這就是現實。

比如,在生活中,很多人覺得某件事有1/N發生的概率,只要他做N次,就會有一次發生,這只是理想。比如說一件事發生的概率為1%,雖然進行100次試驗後它的數學期望值達到了1,但是這時它的標準差大約也是1,也就是說誤差大約是100%,因此試了100次下來,可能一次也沒有成功。如果你想確保獲得一次成功怎麼辦呢?你大約要做260次左右的試驗,而不是100次。這裡面的數學細節我們就不講了,大家記住這個結論就好,就是越是小概率事件,你如果想確保它發生,需要試驗的次數比理想的次數越要多得多。比如買彩票這種事情。你中獎的概率是一百萬分之一,你如果要想確保成功一次,恐怕要買260萬次彩票。你即使中一回大獎,花的錢要遠比獲得的多得多。因此,了解了標準差,就該懂得人為什麼不要去賭。這算是我們今天在認知方面要了解的第一個知識點。我們要了解的第二個知識點是,提高單次成功率要遠比多做試驗更重要。假如你有50%的成功可能性,你基本上嘗試4次,就能確保成功一次,當然理想狀態是嘗試兩次。為了保險起見,要多做100%的工作。但是如果你只有5%的成功可能性,大約需要50次才能確保成功一次,而不是理想狀態中的20次。為了保險起見,要多做150%的工作。很多人喜歡賭小概率事件,覺得它成本低,大不了多來幾次,其實由於誤差的作用,要確保小概率事件發生,成本要比確保大概率事件的發生高得多。關於概率論和統計學的規律,還有很多和大家直覺不相符的地方。比如我們前面所說的各種大量的隨機試驗,需要在相同條件下進行,而且前後各次試驗是彼此不會相互影響的。這兩件事在現實中,還真不容易滿足。

就拿擲骰子來說吧,看似擲N次不過是擲一次的多次重複,但實際上擲的次數多了骰子會磨損,桌面也會砸出坑,這些細微的差異累積下來就會產生不同的結果,我們原以為試幾次就能發生的事情,可能沒有發生,這就要我們事先考慮更多的餘量。


小   結

我們從概率論上證明了,凡事做好充足的準備,爭取一次性成功,這要遠比不斷嘗試小概率事件靠譜得多。同時涉及到隨機性的問題時,只有通過大量可重複性的試驗,才能看到規律性,而數量較少的試驗,更多地體現出來的是隨意性和偶然性,而非規律性。更多關於數學的奧秘,推薦你加入《吳軍·數學通識50講》。吳軍老師為你搭建起理解數學這種抽象知識體系的橋梁,重新認識數學,感受數學之美,受益於數學。

▽ 戳此入手

雙12年終盛典今日開搶,全場5折起,每滿300減30,上天貓搜「羅輯思維旗艦店」,立即搶購。

相關焦點

  • 理想和現實總存在偏差?80後法官楊倩:堅守信念
    理想和現實總存在偏差?「嬢嬢、叔叔聽我一句勸......」時刻掛嘴邊,「知心大姐姐」「婚姻調解員」「電話討債員」角色隨時變……擔任民事法官的楊倩每天都忙得雞飛狗跳、開庭開得懷疑人生,本來就是急性子的她脾氣越顯暴躁。
  • 用戶直覺中的概率偏差問題和monetisation對流失的負面效用
    (from coinpixels.com)第一篇,關於App Store要求公開籌卡概率裡存在的問題:玩家的自我直覺和冰冷的數值體系設計幹預如何博弈在遊戲裡通常會有兩種偏差:玩家的自我感覺 VS 冰冷的數值設計體系比如有個機制玩家有50%的成功機會,對數值來說這個50%是一個獨立事件(每一次執行都是50%的概率),但對玩家來說可能是另外一個感知系統
  • 倖存者偏差,在隨機性的世界中,尋找一點理性的存在
    所以,我們要做的就是尊重時間的尺度,時間能消除隨機性。 古希臘智者學派菲洛斯特拉託斯說:神看到未來的事,平凡人看到現在的事情,聰明人看到即將發生的事情。 在我們現實生活中,要注意區別噪聲和非噪聲。 什麼意思呢?任何「可檢測的」陳述都應該加以檢測。
  • 夢和現實真的不同嗎?為什麼我總覺得現實中的事情在夢中發生過
    那麼為什麼,為什麼大多數的夢不同於記憶一樣能留在腦海裡呢?那麼,我們是否可以假設其中我們只是一段數據或是我們的現實實在是夢境,所以「夢境」的抹除是為了讓我們回歸「正常」,從而更方便更合理的規劃我們每天的行程,更有利於上一層次的事物觀測呢?
  • 深度科普:倖存者偏差到底是怎樣的存在?
    「倖存者偏差」的歷史「倖存者偏差」來源於二戰中一個著名的故事:1941年,第二次世界大戰中,空軍是最重要的兵種之一,盟軍的戰機在多次空戰中損失嚴重,無數次被納粹炮火擊落,盟軍總部秘密邀請了一些物理學家、數學家以及統計學家組成了一個小組,專門研究「如何減少空軍被擊落概率」
  • 聊一聊認知偏差
    卻不知道一個五百萬大獎後面有七千萬的支出才會開獎,而且還是暗箱,我們算一下,一個人賣7塊,也就是一千萬分之一的概率,再加上暗箱的三下五除二,就算兩千萬分之一的概率,這比你喝涼水噎死的機率還低。例子2,一個地方開了一個網紅店,賺了錢,一個月之內這個地方類似的店,會如雨後春筍一般,結果都是陪跑的。
  • 深度科普:倖存者偏差到底是怎樣的存在?還記得章魚保羅嗎?
    「倖存者偏差」的歷史「倖存者偏差」來源於二戰中一個著名的故事:1941年,第二次世界大戰中,空軍是最重要的兵種之一,盟軍的戰機在多次空戰中損失嚴重,無數次被納粹炮火擊落,盟軍總部秘密邀請了一些物理學家、數學家以及統計學家組成了一個小組,專門研究「如何減少空軍被擊落概率」的問題。
  • 論啟發式和偏差-在股權投資中的影響與應用
    在這種背景下,對於創業公司的投資意味著風險,如何從風險中獲得收益 就是每一位基金管理人的無可逃避命題和使命,本文致力於像高度抽象的數學函數對生活的實有影響一樣,將決策行為心理學的一些理論與在投資領域結合,通過抽象的行為經濟學理論與投資實有結合,進而逃離人在決策時常常遭遇到啟發式與便利性的概率決策偏差,視圖使決策回到相對數學理性的領域,進而提高決策成功率。
  • 理想與現實之間的差距是真實存在的
    深夜,我成功被上面這張與現實毫無違和感的圖片搞失眠了。在失眠之餘我居然還從中悟出一個道理:理想與現實之間的差距是真實存在的,而且這個差距還可以拿來供人搞笑。
  • 正是因為「倖存者偏差」及「僥倖心理」的存在,助長了病毒的蔓延
    倖存者偏差:顧名思義這個理論是偏向於「倖存者」這一方面的,這一種非常常見的說的是往往大眾只能看到經過某種篩選而產生的結果,而沒有意識到篩選的過程,因此忽略了被篩選掉的真正的關鍵信息。日常表達為 「沉默的數據」、「死人不會說話」 等。
  • 《天下無賊》:用生命換一方淨土,理想和現實有多遠?
    理想與現實是一對矛盾體,後者永遠達不到前者的高度,《天下無賊》就是一部揭露這一奧秘的烏託邦式的影片,堪稱劃時代之作。該影片出自馮小剛大導演的手筆,雖然是15年前上映的,但在物質社會高度發達的今天依然有著強烈的現實意義。
  • 生活很平庸,理想和現實生活你是怎麼處理的?
    應該是理想和現實。 理想是浪費很多東西追求虛無縹緲的東西,現實是,執著著,一定能成功。說有時間再去做,但什麼時候有時間,任何時候都有時間,但任何時候都沒去做。建立在現實的基礎上,才可以去實現夢想。但是,沒有現實,也可以追求。因為那是最無理,最廉價,追求著就感到幸福的事。
  • 陳春花:你可能對管理存在這些認知偏差
    有15%~20%的員工,他做出的東西就是不合格;有20%的員工是蒙著做事,做得對與錯,他都不知道為什麼;只有20%的員工的工作,是高績效的。也就是說公司中有60%的員工的工作沒有正常產生績效,這是多麼大的浪費?
  • 陶淵明的理想狀態是否存在?為什麼《桃花源記》是個謎
    桃園在我心中只是一片淨土,不是現實生活的反映。每個人都有自己的愛好,但是在這裡,為什麼要用桃花作為意境呢?為什麼不叫他「菊花源記」?菊花雖然是高潔,但太冷了,尤其是在秋天,天氣太冷了,不太漂亮,桃花不一樣,他在春天綻放,華麗又俏皮,他是希望的使者春天。
  • 一文透徹抽樣sampling, 抽樣偏差, 樣本流失偏差
    一般來說,如果研究對象僅僅是個別的或少數人,通常不存在抽樣問題,因為研究對象的總體差不多就是研究的直接對象。但是絕大多數研究課題設計的對象總體比較大,有時趨於無窮。要將課題規定的所有對象都拿來進行研究往往是難以做到的,也沒有必要,因此需要選擇部分的研究對象,這樣的程序和方法,用一個專業術語表示就是「抽樣」。
  • 偏差值到底是什麼?為什麼是日本考大學的關鍵?
    偏差值究竟是什麼?▼首先,我們來舉一個例子:學生A參加了4月和6月的兩次模擬考試,每次考試滿分600分,4月的第一次模擬考他考了450分,6月的第二次模擬考他考了485分。為什麼不能判斷?因為我們不知道這兩次考試的難度是否一致。假設,4月模擬考的全年級平均分是440分,6月模擬考的全年級平均分是495分,那麼A的4月考試成績就在平均分之上,而6月的成績在平均分之下了(參考下圖)。在參加考試的全體學生中,A同學4月的成績比6月的成績好。
  • 夢和現實為什麼總是重複?科學家:或許真的存在平行宇宙!
    夢和現實為什麼總是重複?科學家:或許真的存在平行宇宙!很多的成年人都有過這樣的經歷,在做夢驚醒之後,對於這個夢回味無窮,但是在白天的時候卻發現現在經歷的事好像在夢裡出現過。並且這樣的情況不僅僅是一次夢境和現實,都是來回的重複,這個現象還是比較神奇的。還有就是平時你在做一件事情的時候,在做完之後卻發現這件事情曾經似乎經歷過,這是第2次,對於這兩個神秘的現象,科學家也做出了解釋,科學家說到可能在夢中的世界或者是平行世界是真實存在的,只不過我們沒有發現而已,也沒有找到它的入口。
  • (總結)直覺和偏差
    =概率和風險+錨+隨機性+相關、因果和控制+歸因錯誤1、概率和風險  Ⅰ 、概率         A、矛盾問題                矛盾問題用貝葉斯定律P(A|B)=P(B|A)P(A)/P(B)解決        B、複合問題                b1、高估連續事件的發生概率,且傾向於複合事件                 b2、低估非連續事件的發生概率
  • 騙子密碼:倖存者偏差
    04期望值是「倖存者偏差」的幫兇總聽說一些神奇偏方,還有什麼江湖神醫。但卻很少聽到有人說哪家醫院某某專家是華佗轉世。為何在這一點上,「倖存者偏差」表現得比較明顯?很多時候,x的數據是9,而在騙子這裡被偷換為0,10%的概率被吹噓成100%;有些時候,x的數據是99,而在「大師」這裡被取代為0,1%的概率被吹噓成100%。所有的騙子都會強化一些特殊案例,目標就是讓人忽略那些「沉默的有效數據」。
  • 從拼多多市值站上千億美金,聊聊創業過程中存在的認知偏差
    拼多多和淘寶是錯位競爭,爭奪的是同一批用戶的不同場景,錯位才會成長的更快。拼多多並不想做第二個阿里,拼多多的存在本身就是一種模式,你可以說我low,說我低級,但你無法忽視我。可見當下如果按阿里、京東的邏輯來衡量拼多多,必然對它存在認知偏差,這種偏差,我認為主要有兩點:1、對於消費人群認知的偏差,在媒體和網絡上質疑拼多多假貨橫行、身邊沒有人用過拼多多、沒有未來,很明顯是黃崢眼裡的「五環內人群」,他們同樣不能理解中國為什麼會有10億人沒做過飛機、13億人沒出過國;