剪刀石頭布的獲勝秘訣來了!如何用博弈論來玩遊戲

2022-01-05 中科院物理所

作者介紹：張通，新東方智慧學堂授課老師，北京大學力學系理論與應用力學專業學士。

石頭剪刀布，這個遊戲相信大家都玩過，比賽一局肯定是運氣做主，但是多次對局，則是一個策略遊戲。那麼問題來了，兩人重複多次石頭剪刀布的對局，且兩人都絕對「聰明」，那麼是否存在一種最優策略，使得勝率最高？

遊戲，又叫博弈。研究遊戲的學科，在數學中叫博弈論Game Theory。本文不用去管博弈論的定義，只需要知道什麼情況下的遊戲可以用博弈論來解決。

就是說，石頭剪刀布這個遊戲必須滿足以下幾個特點：

1、參與遊戲的主體完全理性。

最大化自己的收益，即能贏絕不輸，能多賺絕不少賺。若參與遊戲的主體是兩個人，各自僅代表自己為戰，這種博弈可稱為「雙人博弈」。

2、完全理性是共同認識。

即兩個人都知道對方是理性的，也知道對方知道我是理性的，也知道對方知道我知道對方是理性的……直到無窮。

3、參與者每局都有自己的策略選擇權及收益信息且能做出正確選擇。

比如能出石頭、剪刀或布中的任意一個，且知道規則：石頭戰勝剪刀戰勝布戰勝石頭，如果知道對方出布，自己一定出剪刀。

從上面三點可以看出，石頭剪刀布均滿足，所以該問題可稱石頭剪刀布博弈問題。

博弈論的種類很多。

第一，如果遊戲狀態信息（包括雙方的偏好、策略、遊戲規則、雙方的收益信息）對雙方完全可見，則稱完全信息博弈；反之，只要有任一個信息對任一方不可見，則稱不完全信息博弈。

第二，遊戲是兩個人同時（包括邏輯同時，即一方行動後另一方完全不知，等同於同時行動）決策並行動，則稱靜態博弈；反之，決策一先一後，就像下棋一樣，則稱動態博弈。

第三，遊戲中有有限個參與者且每位參與者的策略選擇只有有限種，則稱有限博弈；反之，則稱無限博弈。

本文研究的問題均為完全信息靜態有限雙人博弈，石頭剪刀布博弈正是其中的一種。但它的策略選擇較為複雜，故先看一些簡單的例子。

著名的「囚徒困境」是博弈論中最經典也是最簡單的例子。

問題描述如下：兩個罪犯，被警察分別關在兩個獨立的不能互通信息的牢房裡進行審訊。他倆都可以做出自己的選擇：供出另一個人，或保持沉默。這兩個罪犯都知道，如果他倆都能保持沉默，均會只被判一個月；但如果有一個人先供出他的同夥，那麼這個人就可以被無罪釋放，但被他供出來的那個會被判十八個月；如果他倆都招供了，則兩個人都會被判十二個月。

如果你是罪犯，你會如何行動？

本文研究的這類博弈的策略和收益信息是完全公開的，故可以用收益矩陣來表示。即：

表頭第一列是A的行動策略，第一行是B的行動策略，表中的數字分別表示在該組合行動下的A的收益和B的收益。

對A來說，若B供出同夥，則A供出同夥比沉默要少判六個月，所以A選供出同夥；若B沉默，則A供出同夥比沉默要少判一個月，所以A選供出同夥。於是儘管A不知道B做何種選擇，但他知道無論B選擇什麼，他選擇供出同夥總是最優的。顯然，根據對稱性，B也會選擇供出同夥。

於是最終的結果是兩人均供出同夥，最後均會被判十二個月。而這個結果也被稱為「均衡」，（跟物理學中的「穩定」類似）即在「均衡」時，任一方都沒有動力改變當前策略，從而都維持「均衡」的穩定性。

比如，雙沉默就不是「均衡」，因為A有動力從當前的「沉默」改為「供出同夥」，從而收益增加。

從結果來看，即使兩個人都絕對「聰明」，但並沒有選擇全局最優（總判刑時長最短）的策略——雙沉默。這個情況在當今普遍存在，個體的利益和集體的利益很多時候都是衝突的，想要解決這個矛盾，一般需要第三方來促成合作。如果不存在第三方，還有一種可能，通過重複博弈來促成合作。

假設重複n次，注意到最後一次博弈一定是雙招供，同時前n-1次博弈的結果不會對最後一次的決策產生影響，則倒數第二次博弈，同理也是雙招供，遞推回到第一次博弈，一直都是雙招供。

結論：該博弈是「非零和博弈」，有唯一的純策略均衡，但和全局最優不同。可以通過第三方介入達到「雙贏」，但重複博弈和單次博弈並沒有區別。

那就要問了，什麼情況下重複博弈能促成合作呢？接下來看一個類似的問題——無規則交通博弈。

在無任何交通規則下開車迎面遇到一輛車，你可以通過向左偏移或向右偏移來避開車，對方完全相同，此時如何選擇？

因為兩車順利通過對雙方都有利，而撞車對雙方都不利，所以收益可以定性化，即記兩車順利通過的收益為1，撞車的收益為-1。收益矩陣如下：

易知均向左偏與均向右偏都是均衡。

由於事先沒有規則和溝通，所以實際博弈時，無法得到確定性的結果。但我們又為了得到（或避免）這種均衡，有時候還需要找到一個混合策略（有別於純策略，是指每種策略選擇均賦予對應的概率，純策略也是一種特殊的混合策略，即看成是該策略賦予1的概率，而其他策略均賦予0的概率）均衡，即均以

很明顯均向左偏與均向右偏都是全局最優，但一次博弈很難實現這個局面，試想，如果兩人都要面對這種選擇很多次，則雙方均有動力在第一次行動時，試探性地選擇混合策略來促成合作，一旦出現均向左偏或均向右偏的局面，則之後永遠選擇這種局面即可，另一方面在第一次的混合策略中，有

結論：該博弈是「非零和博弈」，有多於一個純策略均衡。可以通過第三方介入，或重複博弈來達到「雙贏」。

接下來看看文初的石頭剪刀布，很明顯這是一個「零和博弈」。

同樣，因為對雙方來說，勝利收益大於平局收益大於失敗收益，所以收益同樣可以定性化，記勝利收益為1，平局收益為0，失敗收益為-1。

收益矩陣如下：

逐個檢驗所有可能知，該博弈沒有純策略。

這點是比較顯然的，任何一方要避免自己的選擇帶有規律性，因為一旦自己的選擇有某種規律性並被對手發現，則對手可以根據這種規律預先猜到你的選擇，從而針對性地選擇戰勝你。比如你出石頭的概率多於其他兩個，則對方一旦發現，就多出布；你總是石頭—剪刀—布循環出，則對方就布—石頭—剪刀；你贏了就換，輸就不換，則對手贏了和輸了都不換，等等。

因此雙方在博弈過程中，必須隨機選擇策略，或者說，最優的策略就是將自己當成一臺抽籤機器，出石頭、剪刀、布的概率均為

這個結果是符合常識的，甚至不用博弈論也能得到答案。

繼續考慮下面這個遊戲。還是石頭剪刀布，雙方在同一起跑線上開始，如果一方贏了，且贏的一方是出石頭就走10米，出剪刀就走2米，出布就走5 米。最後比誰走得更遠。問最優策略和每局的期望。

同樣先寫出收益矩陣：

注意到，以上所有收益矩陣，單獨看A和B是完全一樣的，所以不難得出雙方策略完全一致的結論。逐個檢驗所有可能知，該博弈仍沒有純策略。於是考慮混合策略，不妨設B出石頭、剪刀、布的概率分別為

跟上一個問題一樣，要保證兩個原則：

第一，不能讓對方知道自己的選擇，必須利用隨機性。

第二，每種策略的概率一定要恰好使對方無機可乘，即讓對方無法通過針對性地傾向莫一策略而有優勢。

於是得到結論，B的概率分布要使得A的三種策略收益相同（否則A就會選擇收益大的那個策略，由於這是一個零和博弈，對方收益大就意味著自己收益受損，所以B有動力重新調整自己的概率分布），均衡的策略是滿足

解得

結論：最優策略為AB均採用

通過上述博弈問題發現，找最優策略就是找均衡，因為最優策略一定是均衡的，而均衡就是雙方利益的平衡點。

那麼問題又來了，如果沒有均衡怎麼辦？

這個問題在1950年由著名數學家、經濟學家約翰·納什John Nash證明，該定理敘述如下：每一個有限博弈必存在至少一個混合策略均衡。故均衡通常也稱為納什均衡，納什也因為在均衡分析理論中的貢獻而獲得了1994年的諾貝爾經濟學獎。著名電影《美麗心靈》主角的原型就是約翰·納什。

該證明需要用到角谷靜夫不動點定理，這裡就不做詳細證明了。

總結一下，拿到這類問題，首先寫出收益矩陣，逐一檢驗所有可能找純策略均衡。在找混合策略均衡時，先賦予每種策略概率，其概率分布使得對方的所有策略收益均相同，從而解出對應的概率，同理可求出另一方的。最後，每方概率分布下的混合策略組合就是該博弈下自己的最優策略。

到此石頭剪刀布博弈問題完美解決了。這樣的問題還有很多，但只要是完全信息靜態有限雙人博弈，就都可以用收益矩陣和策略均衡分析來解決。

最後留給大家一道練習題——約會博弈。

AB兩人準備周末一起去看電影或者逛街，但事先未溝通去哪，已知A喜歡看電影，B喜歡逛街。若一起看電影A、B的收益分別為2、1；若一起逛街A、B的收益分別為1、3；若錯過，雙方收益均為0。問雙方的最優策略和期望。

想一想，這道題應該怎麼解？

同樣先寫出收益矩陣：

注意到，A和B各自的收益矩陣不再一樣了，所以雙方策略可能不一樣。易知該博弈有兩個純策略均衡：一起看電影或一起逛街。同無交通規則博弈，由於事先沒有溝通，所以無法得出確定性的結果於是考慮混合策略。不妨設A看電影的概率為

來源：新東方智慧學堂

編輯：aloysius

近期熱門文章Top10

剪刀石頭布的獲勝秘訣來了!如何用博弈論來玩遊戲

相關焦點

用科學來解釋,如何在「石頭剪刀布」這個遊戲中大概率的獲勝!

「石頭剪刀布」制勝策略引爭議專家稱屬博弈論

如何在「石頭剪刀布」遊戲中獲勝?

「剪刀石頭布」制勝原理論文作者被同事稱為嚴謹學者

剪刀石頭布是中國的!為何老外說是日本遊戲?

剪刀石頭布猜單詞懷舊遊戲熱觸動網友

幼兒遊戲:「石頭、剪刀、布」英語裡怎麼說?

從心理學角度看《王牌對王牌》中的「剪刀石頭布」遊戲

數學家也來治癌症用癌細胞「博弈論」實現最低副作用化療

衰漫畫:剪刀石頭布有哪些新玩法?仇敵發明「身體猜拳」非常有趣

「石頭,剪子,布」遊戲立於不敗之地的秘訣趣味中英文小知識

錢江晚報:剪刀石頭布,多少人在瞎比劃

千萬不要讓其他人知道:提高石頭剪刀布勝率的方法

媒體解析20萬元猜拳策略研究重要意義:是博弈論的一項人性研究

石頭剪刀布

親子英語,小時候玩的剪刀石頭布、捉迷藏、過家家用英文是這麼說

中國人發明「石頭剪刀布」卻被日本傳遍世界,歐美:這是日本遊戲

鹹扯淡：「石頭、剪刀、布」和洋人、留學生

剪刀石頭布制勝策略,不只是個玩笑

實用口語:「石頭、剪刀、布」英語裡怎麼說?

剪刀石頭布的獲勝秘訣來了!如何用博弈論來玩遊戲

相關焦點

用科學來解釋,如何在「石頭剪刀布」這個遊戲中大概率的獲勝!

「石頭剪刀布」制勝策略引爭議 專家稱屬博弈論

如何在「石頭剪刀布」遊戲中獲勝?

「剪刀石頭布」制勝原理論文作者被同事稱為嚴謹學者

剪刀石頭布是中國的!為何老外說是日本遊戲?

剪刀石頭布 猜單詞 懷舊遊戲熱觸動網友

幼兒遊戲:「石頭、剪刀、布」英語裡怎麼說?

從心理學角度看《王牌對王牌》中的「剪刀石頭布」遊戲

數學家也來治癌症 用癌細胞「博弈論」實現最低副作用化療

衰漫畫:剪刀石頭布有哪些新玩法?仇敵發明「身體猜拳」非常有趣

「石頭,剪子,布」遊戲立於不敗之地的秘訣 趣味中英文小知識

錢江晚報:剪刀石頭布,多少人在瞎比劃

千萬不要讓其他人知道:提高石頭剪刀布勝率的方法

媒體解析20萬元猜拳策略研究重要意義:是博弈論的一項人性研究

石頭 剪刀 布

親子英語,小時候玩的剪刀石頭布、捉迷藏、過家家用英文是這麼說

中國人發明「石頭剪刀布」卻被日本傳遍世界,歐美:這是日本遊戲

鹹扯淡：「石頭、剪刀、布」和洋人、留學生

剪刀石頭布制勝策略,不只是個玩笑

實用口語:「石頭、剪刀、布」英語裡怎麼說?

「石頭剪刀布」制勝策略引爭議專家稱屬博弈論

剪刀石頭布猜單詞懷舊遊戲熱觸動網友

數學家也來治癌症用癌細胞「博弈論」實現最低副作用化療

「石頭,剪子,布」遊戲立於不敗之地的秘訣趣味中英文小知識

石頭剪刀布