博弈論中有個非常經典的案例叫囚徒困境。在囚徒困境的遊戲中,有兩個對策者,他們可以選擇:合作或者背叛,每個人都必須在不清楚對方選擇的情況下,做出自己的選擇。不論對方選擇什麼,背叛總比合作收益要高。所謂困境是指,如果雙方都選擇背叛,其結果比雙方合作要糟,個人最優策略卻是集體最糟策略。
囚徒困境該如何破解?答案是:共謀。但仔細思考一下,即使共謀,我依然受背叛的誘惑並且輕而易舉就能背叛。問題沒有被解決,事情好像並沒有這麼簡單。
我們探討的是合作的真相,而囚徒困境似乎只有背叛。因此我們要把遊戲進行升級,看看會有什麼結果。不過遊戲不需要我們來模擬,曾經還真有人幹過這事。他們是怎麼做的?那是一次關於重複囚徒困境的電腦程式模擬。每一個參加者寫一個體現在每一步中選擇合作或不合作的規則的程序,並且為了保持公平,參加者如果熟悉囚徒困境,那麼參加者的程序必將與其他有同樣見識的人的程序相遇。比賽最後的結果是由一個大學教授提交的一報還一報策略贏得比賽。
什麼是一報還一報策略?一報還一報絕不首先背叛;然後按照對方上一步選擇去做。
為什麼這個策略可以取得成功?一報還一報是一個善良的策略,它的背叛不是為了獲取更高利益,而是為了警告對方,並且它一直在做一件事情就是引導出合作。一報還一報從自己的不可欺負性得到的好處是因為以下三個條件得到滿足:
1.遇到一報還一報可能性是顯著的。
2.一旦相遇,一報還一報很容易被識別。
3.一旦被識別,一報還一報的不可欺負性就顯示出來。
發現了這一點的科學家們非常興奮,都來研究並繼續重複囚徒困境的試驗。結果又有新的發現:如果一開始程序就設定好博弈的次數,而不是隨機停止,那麼即使是一報還一報策略最後都會演變成背叛。這是為什麼呢?其實很簡單:程序設定都是利益最大化,如果知道最後一次博弈是什麼時候,那麼最後一次博弈選擇背叛利益是最大化的,雙方會在最後一次各選擇背叛。根據這個結果科學家發現合作與否跟未來的期望值是有關係的。這意味著如果對方明顯虛弱,無法繼續合作,一報還一報的回報性也不再是穩定的。逆境中一個人的朋友也會變成敵人。
那麼現在對於在博弈過程中合作所需要的必要條件就顯現出來:
1.要選擇善良的策略,不能首先背叛
2.不可欺負性,對於背叛一定要做出反饋
3.對於對方的背叛只做出一次的反饋,不記仇
4.對於未來合作的期望值要足夠大
所謂合作不過是利益最大化的一種博弈結果,無關其他。在合作過程中,我們進行利益交換,既要防止對方背叛,又隨時覬覦對方的利益想要背叛。出於利益最大化角度考慮:善良,不軟弱並保持強大永遠是最佳策略