合作的真相(重複囚徒困境的探討)

2020-12-05 戀愛驚夢

博弈論中有個非常經典的案例叫囚徒困境。在囚徒困境的遊戲中，有兩個對策者，他們可以選擇:合作或者背叛，每個人都必須在不清楚對方選擇的情況下，做出自己的選擇。不論對方選擇什麼，背叛總比合作收益要高。所謂困境是指，如果雙方都選擇背叛，其結果比雙方合作要糟，個人最優策略卻是集體最糟策略。

囚徒困境該如何破解？答案是:共謀。但仔細思考一下，即使共謀，我依然受背叛的誘惑並且輕而易舉就能背叛。問題沒有被解決，事情好像並沒有這麼簡單。

我們探討的是合作的真相，而囚徒困境似乎只有背叛。因此我們要把遊戲進行升級，看看會有什麼結果。不過遊戲不需要我們來模擬，曾經還真有人幹過這事。他們是怎麼做的？那是一次關於重複囚徒困境的電腦程式模擬。每一個參加者寫一個體現在每一步中選擇合作或不合作的規則的程序，並且為了保持公平，參加者如果熟悉囚徒困境，那麼參加者的程序必將與其他有同樣見識的人的程序相遇。比賽最後的結果是由一個大學教授提交的一報還一報策略贏得比賽。

什麼是一報還一報策略？一報還一報絕不首先背叛；然後按照對方上一步選擇去做。

為什麼這個策略可以取得成功？一報還一報是一個善良的策略，它的背叛不是為了獲取更高利益，而是為了警告對方，並且它一直在做一件事情就是引導出合作。一報還一報從自己的不可欺負性得到的好處是因為以下三個條件得到滿足:

1.遇到一報還一報可能性是顯著的。

2.一旦相遇，一報還一報很容易被識別。

3.一旦被識別，一報還一報的不可欺負性就顯示出來。

發現了這一點的科學家們非常興奮，都來研究並繼續重複囚徒困境的試驗。結果又有新的發現:如果一開始程序就設定好博弈的次數，而不是隨機停止，那麼即使是一報還一報策略最後都會演變成背叛。這是為什麼呢？其實很簡單:程序設定都是利益最大化，如果知道最後一次博弈是什麼時候，那麼最後一次博弈選擇背叛利益是最大化的，雙方會在最後一次各選擇背叛。根據這個結果科學家發現合作與否跟未來的期望值是有關係的。這意味著如果對方明顯虛弱，無法繼續合作，一報還一報的回報性也不再是穩定的。逆境中一個人的朋友也會變成敵人。

那麼現在對於在博弈過程中合作所需要的必要條件就顯現出來:

1.要選擇善良的策略，不能首先背叛

2.不可欺負性，對於背叛一定要做出反饋

3.對於對方的背叛只做出一次的反饋，不記仇

4.對於未來合作的期望值要足夠大

所謂合作不過是利益最大化的一種博弈結果，無關其他。在合作過程中，我們進行利益交換，既要防止對方背叛，又隨時覬覦對方的利益想要背叛。出於利益最大化角度考慮:善良，不軟弱並保持強大永遠是最佳策略

相關焦點

從「囚徒困境」現象談企業競爭情報及價格戰中的合作雙贏

【摘要】本文從博奕論的經典命題「囚徒困境」現象出發，論述了「囚徒困境」現象及其普遍意義，「囚徒困境」現象與企業競爭情報以及價格戰中的合作雙贏；運用「囚徒困境」博奕對兩個勢均力敵的競爭對手之間的價格進行了分析，認為價格戰是可以避免的，合作可以帶來雙贏。
有了黑幫大哥,還有什麼「囚徒困境」

比如羅伯特·薩格登的《權利、合作與福利的經濟學》，便是用博弈論分析道德觀念與社會慣例的形成；羅伯特·阿克塞爾羅德的《合作的進化》，講的是多次重複囚徒博弈的最優策略求解；奧斯特羅姆更是因為將博弈論引入公共資源分配及公共政策制定領域而成為唯一一位榮獲諾貝爾經濟學獎的女性。在這股潮流中，既有經濟學家、社會學家甚至社會生物學家向傳統政治領域的主動跨界，也有政治學專業人士對博弈論的主動運用。
技術湃︱中美貿易爭端屬於囚徒困境嗎

上述模型在博弈論中叫做「囚徒困境」。在囚徒困境模型裡，雙方的出發點不是傷害對方，而是自利，由於自利而可能導致對方受傷害。如果一方舉報對方，而對方不報復，那是最賺的，可以當場釋放；如果雙方合作，結果次之，拘個一周就回家了；如果雙方對抗，結果再次之，坐一年牢；如果被對方舉報而不報復，結果最慘：坐兩年牢。
囚徒困境與溢出效應是怎麼回事?

第一個是「囚徒困境」，這是博弈論中一個非常著名的案例。我們姑且把它當一個故事來看，故事中有兩個囚徒。他們犯事被捕，被分別關押在兩個不能互通信息的房間，接受嚴厲的審問。警方暫時沒有證據給他們定罪，提出他們誰先主動交代就能得到釋放，同時還會有舉報獎勵。兩人都知道彼此抵死不認最後都能得到釋放，那麼他們會選擇一起合作對抗警方嗎？
假如是個囚徒困境,奧迪怎麼破?

奧迪經銷商聲明的第一條就指出：「一汽-大眾奧迪經銷商深切理解奧迪公司希望在中國豪華車市場保持第一位勢的戰略目標，經銷商願意與奧迪攜手共同實現2020戰略100萬輛銷售目標，在目標達成之後，不反對奧迪評估和探討在中國選擇新的合作夥伴及建立新的銷售網絡
囚徒困境模型

本文分成二部分，第一部分是介紹囚徒困境，第二部分是參考該模型做的三個練習囚徒困境指兩個囚徒被抓後，選擇相互背叛還是忠誠的博弈問題囚徒困境的實驗：囚徒AB被抓後，信息不相通，警察告知對方，互相指控，雙方都判5年；互相沉默，雙方都判2年；一個指控一個沉默，
一文讀懂囚徒困境

比如，宣布對拒供者判處死刑，就會使得上述合作機制失去效力。因為，對方拒供而自己供認，實際上對方已經被置於死地，有誰會擔心一個死人的報復呢？由囚徒當事人的報復機制形成的合作雖然脆弱，但是提供了一條走出囚徒困境的可行思路：只要對囚徒不合作行為的懲罰是足夠的並且是可信的，那麼就可以使囚徒的行動轉到合作的軌道上來。
背叛還是合作?中日能否走出「囚徒困境」

由於「雙方合作」的結果優於「雙方背叛」，從邏輯上講在雙方知道對方的策略行為的情況下，雙方是有可能走出「囚徒困境」的。中日本輪改善的外部動力來自川普政府在國際事務中的強勢和霸道，內生動力來自兩國自身發展的客觀需求。如此境界，日本若戴著民族主義的有色眼鏡是無論如何也打不開的。
博弈論之囚徒困境

因為每個囚徒都會發現，如果對方拒供，則自己供認便可立即獲得釋放，而自己拒供則會被判0.5年，因此供認是比較好的選擇；如果對方供認，則自己供認將被判2年，而自己拒供則會被判5年，因此供認是比較好的選擇。無論對方拒供或供認，自己選擇供認始終是更好的，這就是囚徒困境。
囚徒困境——這才是人性!

今天分享心理學裡經典的：「囚徒困境」遊戲，也被稱為「囚徒二難」或者「囚徒博弈」。這是一個鬥智的遊戲，往往做到最後，卻是一個兩敗俱傷；或者一方大勝，另一方全輸的結局。這就是人類內心最深處的自私。「囚徒困境」是1950年美國蘭德公司提出的理論，後來由顧問艾伯特·塔克以囚徒故事加以闡述，並命名為「囚徒困境」。
博弈心理學—「囚徒困境」,選擇合作還是選擇背叛?

在博弈論中，關於囚徒困境，有你個著名的故事：　　誰才是兇手　　這天，某富豪在家中被殺，現場一片狼藉，富翁家的財產也被盜，通過調查，警察抓到了兩名嫌疑犯。並且也在這兩名嫌疑犯的家中搜到了富翁家中丟失的財務，但是這兩名嫌疑犯都否認自己殺人，只是承認自己在發現富翁被殺後順手牽羊。到底誰是兇手？
當AI面臨囚徒困境,是互相攻詰還是相互合作?

（原標題：谷歌的「邪惡」實驗：當AI面臨囚徒困境，是互相攻詰還是相互合作？）
囚徒困境的困境究竟在哪?

不知道手機前面的各位有沒有聽說過囚徒困境，這是一個很經典很有代表性的博弈論模型，甚至由此能產生很多關於生活中事例的思考，下面先簡單介紹一下什麼是囚徒困境。如果兩個人都不揭發對方，則由於證據不確定，每個人都坐牢一年；若一人揭發，而另一人沉默，則揭發者因為立功而立即獲釋，沉默者因不合作而入獄十年；若互相揭發，則因證據確實，二者都判刑八年。
囚徒困境

囚徒困境 2016年03月16日 15:27 來源：中國社會科學網綜合作者：字號內容摘要：「囚徒困境」的基本模型如下：有兩個共同犯罪的囚徒被警察抓住了，但是警察卻缺乏足夠的證據指控他們所犯的罪行
寡頭壟斷下的重複博弈囚徒困境

在今天分享的兩個章節中，我們會看到最優的產業格局: 一個只有少數玩家的基礎產業，理性的管理層、進入壁壘、沒有退出限制和不複雜的參與條件是公司間產生合作行為的完美的配置環境。相對容易判斷出現在這些條件存在的產業（就看現在的資本回報率），然後發現進化出這種合作狀態的產業的資本回報是多麼的豐厚啊。
著名的「囚徒困境」:為什麼越聰明的囚犯,無法得到最好的結果

從此以後，類似的博弈問題便有了一個專門的名稱——「囚徒困境」。「因徒困境」在經濟學，倫理學、社會學，政治學，哲學乃至生物學等學科中，獲得了極為廣泛的應用。由於應用廣泛，「囚徒困境」的版本很多，不斷完善，現在普遍使用的「囚徒困境」大致是這樣的：甲，乙兩個人一起持槍準備作案，被警察發現抓了起來。警方懷疑，這兩個人可能還犯有其他重的罪，但沒有證據。於是分別進行審訊，為了分化瓦解對方，警方告訴他們，如果主動坦白，可以減輕處罰；頑抗到底，一旦同夥招供，就要受到嚴懲。
一報還一報——如何正確破解夫妻情侶之間的「囚徒困境」?

我們先給「囚徒困境」下一個準確地定義，所謂「囚徒困境」即滿足兩個條件的博弈：1、背叛的誘惑 > 合作的報酬。在囚徒困境的案例當中，合作報酬是判刑1年，背叛誘惑卻是立即釋放。在夫妻囚徒困境中，彼此坦誠的報酬是重塑遙遙難期的婚姻，觀望審視卻可以保護自我並佔據道德優越感（雖然對錯一點意義都沒有，但我們人就吃這一套）。這將導致「彼此合作」，不構成穩定的博弈平衡策略。
囚徒困境與社會心理學

此題的最優解是合作，但二人間無法相互信任，囚徒會選擇相互揭發認罪，而非共同沉默合作。也就是說，納什均衡往往會落在非合作點之上。這一特殊「博弈」，被廣泛用來說明，為什麼合作在對雙方均有利時，仍然常常顯得尤為困難。囚徒困境，在我們生活的方方面面中均頻繁出現。
小米和華為的囚徒困境

小米和華為在價格上的死拼讓我想起了囚徒困境的博弈問題，描述如下：警方逮捕甲、乙兩名嫌疑犯，但沒有足夠證據指控二人有罪。於是警方分開囚禁嫌疑犯，分別和二人見面，並向雙方提供以下選擇：認罪並作證檢控對方或是保持沉默。若一人選擇背叛，而對方選合作，則此人將即時獲釋，合作者將判監10年。若二人都選合作，則二人同樣判監半年。
如何利用囚徒困境,讓選擇的利益最大化?

唐寂看了一眼電視，答道：「是囚徒困境。」2. 囚徒困境2.1「囚徒困境」理論簡介囚徒困境（Prisoner’s Dilemma），是博弈論的非零和博弈中極具代表性的例子。非零和博弈是指博弈中各方的收益或者損失的總和不是零，區別於零和博弈（例如「你」贏就一定「我」輸的對賭），是一種合作下的博弈。

合作的真相(重複囚徒困境的探討)

相關焦點

從「囚徒困境」現象談企業競爭情報及價格戰中的合作雙贏

有了黑幫大哥,還有什麼「囚徒困境」

技術湃︱中美貿易爭端屬於囚徒困境嗎

囚徒困境與溢出效應是怎麼回事?

假如是個囚徒困境,奧迪怎麼破?

囚徒困境模型

一文讀懂囚徒困境

背叛還是合作?中日能否走出「囚徒困境」

博弈論之囚徒困境

囚徒困境——這才是人性!

博弈心理學—「囚徒困境」,選擇合作還是選擇背叛?

當AI面臨囚徒困境,是互相攻詰還是相互合作?

囚徒困境的困境究竟在哪?

囚徒困境

寡頭壟斷下的重複博弈囚徒困境

著名的「囚徒困境」:為什麼越聰明的囚犯,無法得到最好的結果

一報還一報——如何正確破解夫妻情侶之間的「囚徒困境」?

囚徒困境與社會心理學

小米和華為的囚徒困境

如何利用囚徒困境,讓選擇的利益最大化?