開始打牌之前還有一位大神需要知道,這位兄臺生前的理論奠定了概率論的基礎,將統計學與概率論聯繫在了一起,甚至展現了人腦決策的核心邏輯鏈條,給機器決策提供了理論基石。他就是英國數學家——託馬斯·貝葉斯。可以說不管你從事什麼行業,在什麼崗位,貝葉斯都是你繞不開的一道坎,可謂人生處處貝葉斯。來見識一下這位大神——
我們回憶一下《隨機與大數定律》中寫的:「概率是規律,頻率是表現」,概率是事件發生的客觀規律,而頻率是我們可以通過試驗一遍遍得到的外在形式,也就是統計,所以概率與統計是天然共生的。
概率決定了統計,統計要服從概率,但我們看不見概率,只能觸摸統計。
當時人們已經可以解決「正向概率」的問題,即「假設袋子裡有N個白球,M個黑球,你閉眼伸手取出一個球是黑球的概率是多少」,貝葉斯寫了一篇文章闡述「逆向概率」,即「如果事先我們不知道袋子裡有幾個黑球幾個白球,而是閉著眼睛摸出一個(或幾個)球,觀察這些球的顏色,那麼我們可以對袋子裡黑白球比例做出什麼樣的推斷」。也就是從得到的部分樣例去反推整體的規律。
這其實不僅僅是概率與統計的問題,更是一切自然科學的核心,那就是通過總結歸納抽象證明去得到事物運行的邏輯,諸如萬有引力的公式、相對論、牛頓力學、化學反應等等。人類的認知是有限的,但我們仍然可以通過微不足道的認知去探索廣袤宇宙中普適的規律和法則。其實回憶起來這種訓練,我們從孩童時期就開始了——找規律。而仔細去想投資是什麼,不也是在紛繁的經濟活動金融活動中尋找一些確定性的邏輯,然後依照這個邏輯在遇到相似的條件時,按照這個邏輯去做判斷。本質上和一列數找規律填上下一個數沒有什麼不同。這也是我們談論分析框架、分析邏輯時談論的東西——找規律。回到概率與統計,投資中我們不也是試圖在已知的有限的過去中(統計)挖掘背後的規律(概率),試圖找到偏離50%的規律,然後輔以不同的回報構建長期+EV的決策嘛。
先說一下條件概率,就是事件A和事件B,事件A發生的概率是P(A),事件B發生的概率是P(B),二者都發生的概率是P(AB),在事件B發生的條件下,事件A發生的概率是P(A|B)
先舉個條件概率的例子:一天大家玩狼人殺,玩之前小明說,我今天局局預言家。假設今天玩了4局,那麼這件事發生的概率是1/12*1/12*1/12*1/12=0.005%。結果玩了3局之後,小明果然前三局都拿了預言家,現在進行第四局,小王說,這把小明再那預言家打死不信,不到萬一的概率。其實這一局小明那預言家的概率有1/12=8.33%,而不是0.005%,因為前面三局已經發生,不管多麼不可能都已經成為既定現實,那麼單次概率是回到1/12隨機的情況,因為這就是我們所說的條件概率。
當然前三局發生小明都是預言家的概率是1/12*1/12*1/12=0.058%,在前三局小明都是預言家的條件下,第四局還是預言家的概率是1/12=8.33%,二者相乘就是四局都是預言家的概率也就是0.005%。
P(AB)=P(A|B)*P(B)
接下來我們展示一下最最基本的貝葉斯公式:
P(A)是 A 的先驗概率,之所以稱為「先驗」是因為它不考慮任何 B 方面的因素。
P(A|B)是已知 B 發生後 A 的條件概率,也由於得自 B 的取值而被稱作 A 的後驗概率。
P(B|A)是已知 A 發生後 B 的條件概率,也由於得自 A 的取值而被稱作 B 的後驗概率。
P(B)是 B 的先驗概率,也作標準化常量(normalizing constant)。
後驗概率 = (相似度 * 先驗概率)/標準化常量。
P(B|A)/P(B)也被稱作標準相似度(standardised likelihood)。
後驗概率 = 標準相似度 * 先驗概率。
再舉個例子:AA,AK,KK,QQ,AQ,KQ,AJ,KJ,JQ這些超級牌出現的概率有:(16*15/2)/(52*51/2)=9.0498%,一個玩家過去1000手牌入場raise118次,打到最後開牌80次,是超級牌底牌的有55次。現在該玩家raise入場,問他拿有超級牌的可能性有多少?
事件A:該玩家入場raise;事件B:該玩家底牌是超級牌
P(A)=118/1000=11.8%
P(B)=9.05%
P(B|A)=55/80=68.75%
P(A|B)=68.75%*11.8%/9.05%=89.64%
也就是說該玩家raise的時候,有接近90%的概率是拿有了超級牌。那麼我們要相當的小心。
談到貝葉斯公式是什麼作用呢,那就是在發牌前,我們面臨的是完全隨機的事件,發牌後對手的打法包括籌碼的下注量,思考的時間,細微的反應,過往的習慣都成為了我們做決策的「條件」,我們實際上做的決策是應該依據當下「條件概率」來做出抉擇,而不再是最初的全局隨機的情況下的抉擇。好比槍口位置緊手玩家的raise和button位鬆手玩家的raise,我們顯然不能用同樣的概率分布來衡量。也就是說德州撲克是一個不斷根據輸入系統的信息進行調整的決策系統,頂級玩家或者人工智慧都是會將每個細節納入考慮,從而調整應對策略的。
再講一下歸納與演繹:
正好最近跟人講過公理系統,一個數學理論由一個公理系統和所有它導出的定理組成。一個最普及的數學理論就是歐幾裡得幾何體系,具體內容可以去讀《幾何原本》,從五條公理到各種各樣的推論定理,五花八門,我們現在日常接觸到的平面幾何題目都是歐氏幾何體系下的。但古人研究平面幾何是從基本的圖形研究的,通過歸納演繹最後才總結成了五條公理,有了這五條公理,可以有後面的一切,只要前面五條公理是不言自明的,那麼後面萬物皆可證。
另一個反直覺的就是皮亞諾公理:
1.0是自然數;
2.每一個確定的自然數a,都有一個確定的後繼數a' ,a' 也是自然數(一個數的後繼數就是緊接在這個數後面的數,例如,0的後繼數是1,1的後繼數是2等等);
3.0不是任何自然數的後繼數;
4.如果b、c的後繼數都是自然數a,那麼b=c;
5.任意關於自然數的命題,如果證明了它對自然數0是對的,又假定它對自然數n為真時,可以證明它對n' 也真,那麼,命題對所有自然數都真。(這條公理也叫歸納公理,保證了數學歸納法的正確性)
滿足這五條公理組成的就是我們常見的(一般唯一見過的)算術系統,也就是自然數的定義。
很拗口吧,人類總結歸納自然數的時候明明是數石頭,數貝殼慢慢學會的數字,怎麼回過頭來講算術系統卻要給出這些反常識的公理。
這就是數學學科的一大特點,我們認識事物來自於歸納推理induction,而一旦歸納推理到了終極形態,也就是不言自明的地步,那麼我們便可以反向演繹推理deduction,進而將同一體系下的全部內容推導出來。所以說理論數學家,理論上只需要紙筆,就可以還原古往今來全部數學理論,靠的就是演繹,前人歸納好了系統,後人可以盡情演繹。這也是為什麼數學越學到後面,越抽象,因為靠觀察只能得到有限的認知,只有歸納到源頭,才能靠著演繹擁有無限的可能。
舉個例子:你拿到一個拼好的樂高玩具,你把它拆成了一個個最小單位的積木,然後你可以組裝成任意你喜歡的樣子。這就是歸納與演繹。
最後舉個例子:一名緊手玩家,過往的數次打牌過程中,3-bet基本都是AA,KK,QQ,AK,AQ,JJ,AJ,KQ,KJ,JQ的超級牌,那麼這次小盲位的他3-bet了,你拿著55要如何行動?
行動不分對錯,我們這裡展示一下思考方式。根據過往的緊手玩家的打法(統計),3-bet是超級牌的概率極高,那麼我們除非有近似的牌力,否則用兩張8以上的牌諸如K9去打是極其不划算的,因為成牌的大量可能性會被對手的範圍block住,即使中牌也會輸。鑑於本身超級牌的勝率就高於我們,大對子對小對子勝率幾乎是八二開,我們隨便入場長期一定是-EV的。所以80%左右棄牌,20%左右入場的策略是較為合適的。
這裡我們再次提到了策略是一個概率分布,而不是單次的選擇。
舉個例子,石頭剪子布遊戲,也是有最優策略的,那就是嚴格隨機的1/3石頭、1/3剪子、1/3布,這就是一個概率分布的策略,任何策略對戰這個策略長期都是不佔優的,這就是博弈論下的最優策略也叫GTO(Game Theory Optimal),這也是德州撲克中的一個主流派別,就是儘可能得接近GTO打法,從而不露破綻。
另一個主流派系就是剝削打法,就是利用對手在平衡打法上的偏離,去有針對的自己主動偏離,進而壓制對手打法,獲取價值。其實生肖君認為GTO和剝削打法同根同源,在不了解對手信息的情況下,運用標準的策略樹,打的是P(A),在得到了額外的信息B之後,進行調整,打的是P(A|B),前者就是GTO,後者就是剝削,掌握了貝葉斯的思想,就會發現他們背後的一致性。