博弈論(Game Theory),亦名「對策論」、「賽局理論」,屬應用數學的一個分支, 博弈論已經成為經濟學的標準分析工具之一。目前在生物學、經濟學、國際關係、計算機科學、政治學、軍事戰略和其他很多學科都有廣泛的應用。博弈論主要研究公式化了的激勵結構間的相互作用。是研究具有鬥爭或競爭性質現象的數學理論和方法。也是運籌學的一個重要學科。博弈論考慮遊戲中的個體的預測行為和實際行為,並研究它們的優化策略。生物學家使用博弈理論來理解和預測進化論的某些結果。
幾個重要的概念
1、 策略(strategies):一局博弈中,每個局中人都有選擇實際可行的完整的行動方案,即方案不是某階段的行動方案,而是指導整個行動的一個方案,一個局中人的一個可行的自始至終全局籌劃的一個行動方案,稱為這個局中人的一個策略。如果在一個博弈中局中人都總共有有限個策略,則稱為「有限博弈」,否則稱為「無限博弈」。
2、 得失(payoffs):一局博弈結局時的結果稱為得失。每個局中人在一局博弈結束時的得失,不僅與該局中人自身所選擇的策略有關,而且與全局中人所取定的一組策略有關。所以,一局博弈結束時每個局中人的「得失」是全體局中人所取定的一組策略的函數,通常稱為支付(payoff)函數。
3、 次序(orders):各博弈方的決策有先後之分,且一個博弈方要作不止一次的決策選擇,就出現了次序問題;其他要素相同次序不同,博弈就不同。
4、 博弈涉及到均衡:均衡是平衡的意思,在經濟學中,均衡意即相關量處於穩定值。在供求關係中,某一商品市場如果在某一價格下,想以此價格買此商品的人均能買到,而想賣的人均能賣出,此時我們就說,該商品的供求達到了均衡。
5、 納什均衡(Nash Equilibrium):納什均衡是一種策略組合,使得同一時間內每個參與人的策略是對其他參與人策略的最優反應。假設有n個局中人參與博弈,如果某情況下無一參與者可以獨自行動而增加收益(即為了自身利益的最大化,沒有任何單獨的一方願意改變其策略的),則此策略組合被稱為納什均衡。納什均衡的數學定義:在博弈G=﹛S1,…,Sn:u1,…,un﹜中,如果由各個博弈方的各一個策略組成的某個策略組合(s1*,…,sn*)中,任一博弈方i的策略si*,都是對其餘博弈方策略的組合(s1*,…s*i-1,s*i+1,…,sn*)的最佳對策,也即ui(s1*,…s*i-1,si*,s*i+1,…,sn*)≥ui(s1*,…s*i-1,sij*,s*i+1,…,sn*)對任意sij∈Si都成立,則稱(s1*,…,sn*)為G的一個納什均衡。
在納什均衡點上,每一個理性的參與者都不會有單獨改變策略的衝動。納什均衡點存在性證明的前提是「博弈均衡偶」概念的提出。所謂「均衡偶」是在二人零和博弈中,當局中人A採取其最優策略a*,局中人B也採取其最優策略b*,如果局中人B仍採取b*,而局中人A卻採取另一種策略a,那麼局中人A的支付不會超過他採取原來的策略a*的支付。這一結果對局中人B亦是如此。
經典的博弈問題
1、「囚徒困境」「囚徒困境」是博弈論裡最經典的例子之一。講的是兩個嫌疑犯(A和B)作案後被警察抓住,隔離審訊;警方的政策是"坦白從寬,抗拒從嚴",如果兩人都坦白則各判8年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年;如果都不坦白則因證據不足各判1年。
在這個例子裡,博弈的參加者就是兩個嫌疑犯A和B,他們每個人都有兩個策略即坦白和不坦白,判刑的年數就是他們的支付。可能出現的四種情況:A和B均坦白或均不坦白、A坦白B不坦白或者B坦白A不坦白,是博弈的結果。A和B均坦白是這個博弈的納什均衡。這是因為,假定A選擇坦白的話,B最好是選擇坦白,因為B坦白判8年而抵賴卻要判十年;假定A選擇抵賴的話,B最好還是選擇坦白,因為B坦白判不被判刑而抵賴確要被判刑1年。即是說,不管A坦白或抵賴,B的最佳選擇都是坦白。反過來,同樣地,不管B是坦白還是抵賴,A的最佳選擇也是坦白。結果,兩個人都選擇了坦白,各判刑8年。在(坦白、坦白)這個組合中,A和B都不能通過單方面的改變行動增加自己的收益,於是誰也沒有動力游離這個組合,因此這個組合是納什均衡。<br>囚徒困境反映了個人理性和集體理性的矛盾。如果A和B都選擇抵賴,各判刑1年,顯然比都選擇坦白各判刑8年好得多。當然,A和B可以在被警察抓到之前訂立一個"攻守同盟",但是這可能不會有用,因為它不構成納什均衡,沒有人有積極性遵守這個協定。
2、海盜分金幣問題
在一座座荒島上,有5個強盜掘出了100塊非常珍貴的金幣。他們商定了一個分配金幣的規則:首先抽籤決定每個人的次序,排列成強盜一至五。然後由強盜一先提出分配方案,經5人表決,如多數人同意,方案就被通過,否則強盜一將被扔入大海餵鯊魚。如果強盜一被扔入大海,就由強盜二接著提出分配方案,如多數人同意方案就被通過,否則強盜二也要被扔入大海。以下依次類推。假定每個強盜都足夠聰明,都能做出理性的選擇,那麼,強盜一提出什麼樣的分配方案,能夠使自己得到最大的收益?
對於這個問題要採用方向推導方法:
如果1至3號強盜都餵了鯊魚,只剩4號和5號的話,5號一定投反對票讓4號餵鯊魚,以獨吞全部金幣。所以,4號惟有支持3號才能保命。
3號知道這一點,就會提出「100,0,0」的分配方案,對4號、5號一毛不拔而將全部金幣歸為已有,因為他知道4號一無所獲但還是會投贊成票,再加上自己一票,他的方案即可通過。不過,2號推知3號的方案,就會提出「98,0,1,1」的方案,即放棄3號,而給予4號和5號各一枚金幣。由於該方案對於4號和5號來說比在3號分配時更為有利,他們將支持他而不希望他出局而由3號來分配。這樣,2號將拿走98枚金幣。同樣,2號的方案也會被1號所洞悉,1號並將提出(97,0,1,2,0)或(97,0,1,0,2)的方案,即放棄2號,而給3號一枚金幣,同時給4號(或5號)2枚金幣。由於1號的這一方案對於3號和4號(或5號)來說,相比2號分配時更優,他們將投1號的贊成票,再加上1號自己的票,1號的方案可獲通過,97枚金幣可輕鬆落入囊中。這無疑是1號能夠獲取最大收益的方案了!答案是:1號強盜分給3號1枚金幣,分給4號或5號強盜2枚,自己獨得97枚。分配方案可寫成(97,0,1,2,0)或(97,0,1,0,2)。1號看起來最有可能餵鯊魚,但他牢牢地把握住先發優勢,結果不但消除了死亡威脅,還收益最大。而5號,看起來最安全,沒有死亡的威脅,甚至還能坐收漁人之利,卻因不得不看別人臉色行事而只能分得一小杯羹。在「海盜分金」中,任何「分配者」想讓自己的方案獲得通過的關鍵是,事先考慮清楚「挑戰者」的分配方案是什麼,並用最小的代價獲取最大收益,拉攏「挑戰者」分配方案中最不得意的人們。
3、旅行者困境
兩個旅行者從一個以出產細瓷花瓶著稱的地方旅行回來,他們都買了花瓶。提取行李的時候,發現花瓶被摔壞了,於是他們向航空公司索賠。航空公司知道花瓶的價格大概在八九十元的價位浮動,但是不知道兩位旅客買的時候的確切價格是多少。於是,航空公司請兩位旅客在100元以內自己寫下花瓶的價格。如果兩人寫的一樣,航空公司將認為他們講真話,就按照他們寫的數額賠償;如果兩人寫的不一樣,航空公司就認定寫得低的旅客講的是真話,並且原則上按這個低的價格賠償,同時,航空公司對講真話的旅客獎勵2元,對講假話的旅客罰款2元。為了獲取最大賠償而言,本來甲乙雙方最好的策略,就是都寫100元,這樣兩人都能夠獲賠100元。可是不,甲很聰明,他想:如果我少寫1元變成99元,而乙會寫100元,這樣我將得到101元。何樂而不為?所以他準備寫99元。可是乙更聰明,他算計到甲要算計他寫99元,於是他準備寫98元。想不到甲還要更聰明一個層次,估計到乙要寫98元來坑他,於是他準備寫97元……大家知道,下象棋的時候,不是說要多「看」幾步嗎,「看」得越遠,勝算越大。 你多看兩步,我比你更強多看三步,你多看四步,我比你更老謀深算多看五步。在花瓶索賠的例子中,如果兩個人都「徹底理性」,都能看透十幾步甚至幾十步上百步,那麼上面那樣「精明比賽」的結果,最後落到每個人都只寫一兩元的地步。事實上,在徹底理性的假設之下,這個博弈唯一的納什均衡。
4、槍手博弈
彼此痛恨的甲、乙、丙三個槍手準備決鬥。甲槍法最好,十發八中;乙槍法次之,十發六中;丙槍法最差,十發四中。如果三人同時開槍,並且每人只發一槍;第一輪槍戰後,誰活下來的機會大一些?一般人認為甲的槍法好,活下來的可能性大一些。但合乎推理的結論是,槍法最糟糕的丙活下來的機率最大。我們來分析一下各個槍手的策略。槍手甲一定要對槍手乙先開槍。因為乙對甲的威脅要比丙對甲的威脅更大,甲應該首先幹掉乙,這是甲的最佳策略。同樣的道理,槍手乙的最佳策略是第一槍瞄準甲。乙一旦將甲幹掉,乙和丙進行對決,乙勝算的概率自然大很多。槍手丙的最佳策略也是先對甲開槍。乙的槍法畢竟比甲差一些,丙先把甲幹掉再與乙進行對決,丙的存活概率還是要高一些。我們計算一下三個槍手在上述情況下第一輪槍戰中的存活機率:甲:24%(被乙丙合射40% X 60% = 24%)乙:20%(被甲射100% - 80% = 20%)丙:100%(無人射丙)第二輪槍戰中甲乙丙存活的機率粗算如下:
(1) 假設甲丙對決:甲的存活率為60%,丙的存活率為20%。
(2) 假設乙丙對決:乙的存活率為60%,丙的存活率為40%。
第一輪:甲射乙,乙射甲,丙射甲。
甲的活率為24%(40% X 60%),乙的活率為20%(100% - 80%),丙的活率為100%(無人射丙)。
第二輪:情況1:甲活乙死(24% X 80% = 19.2%)
甲射丙,丙射甲──甲的活率為60%,丙的活率為20%。
情況2:乙活甲死(20% X 76% = 15.2%)
乙射丙,丙射乙──乙的活率為60%,丙的活率為40%。
情況3:甲乙皆活(24% X 20% = 4.8%)
重複第一輪。
情況4:甲乙皆死(76% X 80% = 60.8%)
槍戰結束。甲的活率為12.672%19.2% X 60%) + (4.8% X 24%) = 12.672%,乙的活率為10.08%,(15.2% X 60%) + (4.8% X 20%) = 10.08%,丙的活率為75.52%,(19.2% X 20%) + (15.2% X 40%) + (4.8% X 100%) + (60.8% X 100%) = 75.52%,通過對兩輪槍戰的詳細概率計算,我們仍然發現槍法最差的丙存活的機率最大,槍法較好的甲和乙的存活機率仍遠低於丙的存活機率。對於這樣的例子,有人會發出「英雄創造歷史,庸人繁衍子孫」的感嘆。
5、硬幣正反
硬幣正反你正在圖書館枯坐,一位陌生美女主動過來和你搭訕,並要求和你一起玩個數學遊戲。美女提議:「讓我們各自亮出硬幣的一面,或正或反。如果我們都是正面,那麼我給你3元,如果我們都是反面,我給你1元,剩下的情況你給我2元就可以了。」那麼該不該和這位姑娘玩這個遊戲呢?這基本是廢話,當然該。問題是,這個遊戲公平嗎?每一種遊戲依具其規則的不同會存在兩種納什均衡,一種是純策略納什均衡,也就是說玩家都能夠採取固定的策略(比如一直出正面或者一直出反面),使得每人都賺得最多或虧得最少;或者是混合策略納什均衡,而在這個遊戲中,便應該採用混合策略納什均衡。假設我們出正面的概率是x,反面的概率是1-x,美女出正面的概率是y,反面的概率是1-y。為了使利益最大化,應該在對手出正面或反面的時候我們的收益都相等(不然對方可以改變正反面出現的概率讓我們的總收入減少),由此列出方程就是
3x + (-2)*(1-x)=(-2) * x + 1*( 1-x )<br>解方程得x=3/8。同樣,美女的收益,列方程<br>-3y + 2( 1-y)= 2y+ (-1) * ( 1-y),解得y也等於3/8,而美女每次的期望收益則是 2(1-y)- 3y = 1/8元。這告訴我們,在雙方都採取最優策略的情況下,平均每次美女贏1/8元。
其實只要美女採取了(3/8,5/8)這個方案,不論你再採用什麼方案,都是不能改變局面的。但是當你也採用最佳策略時,至少可以保證自己輸得最少。否則,你肯定就會被美女採用的策略針對,從而賠掉更多。