石頭剪刀布,這個遊戲相信大家都玩過,比賽一局肯定是運氣做主,但是多次對局,則是一個策略遊戲。那麼問題來了,兩人重複多次石頭剪刀布的對局,且兩人都絕對「聰明」,那麼是否存在一種最優策略,使得勝率最高?
遊戲,又叫博弈。研究遊戲的學科,在數學中叫博弈論Game Theory。本文不用去管博弈論的定義,只需要知道什麼情況下的遊戲可以用博弈論來解決。
就是說,石頭剪刀布這個遊戲必須滿足以下幾個特點:
1、參與遊戲的主體完全理性。
最大化自己的收益,即能贏絕不輸,能多賺絕不少賺。若參與遊戲的主體是兩個人,各自僅代表自己為戰,這種博弈可稱為「雙人博弈」。
2、完全理性是共同認識。
即兩個人都知道對方是理性的,也知道對方知道我是理性的,也知道對方知道我知道對方是理性的……直到無窮。
3、參與者每局都有自己的策略選擇權及收益信息且能做出正確選擇。
比如能出石頭、剪刀或布中的任意一個,且知道規則:石頭戰勝剪刀戰勝布戰勝石頭,如果知道對方出布,自己一定出剪刀。
從上面三點可以看出,石頭剪刀布均滿足,所以該問題可稱石頭剪刀布博弈問題。
博弈論的種類很多。
第一,如果遊戲狀態信息(包括雙方的偏好、策略、遊戲規則、雙方的收益信息)對雙方完全可見,則稱完全信息博弈;反之,只要有任一個信息對任一方不可見,則稱不完全信息博弈。
第二,遊戲是兩個人同時(包括邏輯同時,即一方行動後另一方完全不知,等同於同時行動)決策並行動,則稱靜態博弈;反之,決策一先一後,就像下棋一樣,則稱動態博弈。
第三,遊戲中有有限個參與者且每位參與者的策略選擇只有有限種,則稱有限博弈;反之,則稱無限博弈。
本文研究的問題均為完全信息靜態有限雙人博弈,石頭剪刀布博弈正是其中的一種。但它的策略選擇較為複雜,故先看一些簡單的例子。
著名的「囚徒困境」是博弈論中最經典也是最簡單的例子。
問題描述如下:兩個罪犯,被警察分別關在兩個獨立的不能互通信息的牢房裡進行審訊。他倆都可以做出自己的選擇:供出另一個人,或保持沉默。這兩個罪犯都知道,如果他倆都能保持沉默,均會只被判一個月;但如果有一個人先供出他的同夥,那麼這個人就可以被無罪釋放,但被他供出來的那個會被判十八個月;如果他倆都招供了,則兩個人都會被判十二個月。
如果你是罪犯,你會如何行動?
本文研究的這類博弈的策略和收益信息是完全公開的,故可以用收益矩陣來表示。即:
表頭第一列是A的行動策略,第一行是B的行動策略,表中的數字分別表示在該組合行動下的A的收益和B的收益。
對A來說,若B供出同夥,則A供出同夥比沉默要少判六個月,所以A選供出同夥;若B沉默,則A供出同夥比沉默要少判一個月,所以A選供出同夥。於是儘管A不知道B做何種選擇,但他知道無論B選擇什麼,他選擇供出同夥總是最優的。顯然,根據對稱性,B也會選擇供出同夥。
於是最終的結果是兩人均供出同夥,最後均會被判十二個月。而這個結果也被稱為「均衡」,(跟物理學中的「穩定」類似)即在「均衡」時,任一方都沒有動力改變當前策略,從而都維持「均衡」的穩定性。
比如,雙沉默就不是「均衡」,因為A有動力從當前的「沉默」改為「供出同夥」,從而收益增加。
從結果來看,即使兩個人都絕對「聰明」,但並沒有選擇全局最優(總判刑時長最短)的策略——雙沉默。這個情況在當今普遍存在,個體的利益和集體的利益很多時候都是衝突的,想要解決這個矛盾,一般需要第三方來促成合作。如果不存在第三方,還有一種可能,通過重複博弈來促成合作。
假設重複n次,注意到最後一次博弈一定是雙招供,同時前n-1次博弈的結果不會對最後一次的決策產生影響,則倒數第二次博弈,同理也是雙招供,遞推回到第一次博弈,一直都是雙招供。
結論:該博弈是「非零和博弈」,有唯一的純策略均衡,但和全局最優不同。可以通過第三方介入達到「雙贏」,但重複博弈和單次博弈並沒有區別。
那就要問了,什麼情況下重複博弈能促成合作呢?接下來看一個類似的問題——無規則交通博弈。
在無任何交通規則下開車迎面遇到一輛車,你可以通過向左偏移或向右偏移來避開車,對方完全相同,此時如何選擇?
因為兩車順利通過對雙方都有利,而撞車對雙方都不利,所以收益可以定性化,即記兩車順利通過的收益為1,撞車的收益為-1。收益矩陣如下:
易知均向左偏與均向右偏都是均衡。
由於事先沒有規則和溝通,所以實際博弈時,無法得到確定性的結果。但我們又為了得到(或避免)這種均衡,有時候還需要找到一個混合策略(有別於純策略,是指每種策略選擇均賦予對應的概率,純策略也是一種特殊的混合策略,即看成是該策略賦予1的概率,而其他策略均賦予0的概率)均衡,即均以
很明顯均向左偏與均向右偏都是全局最優,但一次博弈很難實現這個局面,試想,如果兩人都要面對這種選擇很多次,則雙方均有動力在第一次行動時,試探性地選擇混合策略來促成合作,一旦出現均向左偏或均向右偏的局面,則之後永遠選擇這種局面即可,另一方面在第一次的混合策略中,有
結論:該博弈是「非零和博弈」,有多於一個純策略均衡。可以通過第三方介入,或重複博弈來達到「雙贏」。
接下來看看文初的石頭剪刀布,很明顯這是一個「零和博弈」。
同樣,因為對雙方來說,勝利收益大於平局收益大於失敗收益,所以收益同樣可以定性化,記勝利收益為1,平局收益為0,失敗收益為-1。
收益矩陣如下:
逐個檢驗所有可能知,該博弈沒有純策略。
這點是比較顯然的,任何一方要避免自己的選擇帶有規律性,因為一旦自己的選擇有某種規律性並被對手發現,則對手可以根據這種規律預先猜到你的選擇,從而針對性地選擇戰勝你。比如你出石頭的概率多於其他兩個,則對方一旦發現,就多出布;你總是石頭—剪刀—布循環出,則對方就布—石頭—剪刀;你贏了就換,輸就不換,則對手贏了和輸了都不換,等等。
因此雙方在博弈過程中,必須隨機選擇策略,或者說,最優的策略就是將自己當成一臺抽籤機器,出石頭、剪刀、布的概率均為
這個結果是符合常識的,甚至不用博弈論也能得到答案。
繼續考慮下面這個遊戲。還是石頭剪刀布,雙方在同一起跑線上開始,如果一方贏了,且贏的一方是出石頭就走10米,出剪刀就走2米,出布就走5 米。最後比誰走得更遠。問最優策略和每局的期望。
同樣先寫出收益矩陣:
注意到,以上所有收益矩陣,單獨看A和B是完全一樣的,所以不難得出雙方策略完全一致的結論。逐個檢驗所有可能知,該博弈仍沒有純策略。於是考慮混合策略,不妨設B出石頭、剪刀、布的概率分別為
跟上一個問題一樣,要保證兩個原則:
第一,不能讓對方知道自己的選擇,必須利用隨機性。
第二,每種策略的概率一定要恰好使對方無機可乘,即讓對方無法通過針對性地傾向莫一策略而有優勢。
於是得到結論,B的概率分布要使得A的三種策略收益相同(否則A就會選擇收益大的那個策略,由於這是一個零和博弈,對方收益大就意味著自己收益受損,所以B有動力重新調整自己的概率分布),均衡的策略是滿足
解得
結論:最優策略為AB均採用
通過上述博弈問題發現,找最優策略就是找均衡,因為最優策略一定是均衡的,而均衡就是雙方利益的平衡點。
那麼問題又來了,如果沒有均衡怎麼辦?
這個問題在1950年由著名數學家、經濟學家約翰·納什John Nash證明,該定理敘述如下:每一個有限博弈必存在至少一個混合策略均衡。故均衡通常也稱為納什均衡,納什也因為在均衡分析理論中的貢獻而獲得了1994年的諾貝爾經濟學獎。著名電影《美麗心靈》主角的原型就是約翰·納什。
該證明需要用到角谷靜夫不動點定理,這裡就不做詳細證明了。
總結一下,拿到這類問題,首先寫出收益矩陣,逐一檢驗所有可能找純策略均衡。在找混合策略均衡時,先賦予每種策略概率,其概率分布使得對方的所有策略收益均相同,從而解出對應的概率,同理可求出另一方的。最後,每方概率分布下的混合策略組合就是該博弈下自己的最優策略。
到此石頭剪刀布博弈問題完美解決了。這樣的問題還有很多,但只要是完全信息靜態有限雙人博弈,就都可以用收益矩陣和策略均衡分析來解決。
最後留給大家一道練習題——約會博弈。
AB兩人準備周末一起去看電影或者逛街,但事先未溝通去哪,已知A喜歡看電影,B喜歡逛街。若一起看電影A、B的收益分別為2、1;若一起逛街A、B的收益分別為1、3;若錯過,雙方收益均為0。問雙方的最優策略和期望。
想一想,這道題應該怎麼解?
同樣先寫出收益矩陣:
注意到,A和B各自的收益矩陣不再一樣了,所以雙方策略可能不一樣。易知該博弈有兩個純策略均衡:一起看電影或一起逛街。同無交通規則博弈,由於事先沒有溝通,所以無法得出確定性的結果於是考慮混合策略。不妨設A看電影的概率為
來源:新東方智慧學堂
編輯:aloysius
近期熱門文章Top10