博弈論思想,科學家模擬上萬次「囚徒困境」,找到了最成功的決策

2020-11-27 鍾銘聊科學

我們都知道1914年爆發了第一次世界大戰,但是這場大戰,越是臨近聖誕節,就越發詭異。原本殺紅眼的交戰雙方:英國和德國。不但停了火,還開始嘮嗑,甚至還踢了一場球賽。戰場上的這種默契是比比皆是,並不少見。

在韓國電影《高地戰》當中,南朝鮮和北朝鮮的軍隊爭奪高地,進攻方總是象徵性地攻打高地,然後防守方也象徵性地防守,之後高地就易主了,。這時候攻取高地的一方常常可以挖到防守方留給他們的禮物和拜託他們寄送的書信。

這樣的「合作」十分默契,在戰火紛飛的那些歲月裡,已經成為了一種雙方士兵的共同認知。

《高地戰》劇照,使用漢字其實是歷史原

在《自私的基因裡》,理察道金斯成就指出,進化論對於一些現象無力解釋,比如說:全世界一共有8000~9000種鳥類,其中有300多種能夠幫助其他動物餵食,築巢,清理身體。要知道它們在幫助其他動物時,也會存在危險,可它們為什麼會選擇這樣做呢?

再然後,我們平時旅遊時,在景點常常會被宰,景點的東西貴到爆炸,但是同樣的東西在你家小區的雜貨鋪就十分便宜,這究竟又是什麼呢?

其實,上述的四個例子,其實都可以用一種數學模型來解釋。今天,我們就來聊一聊:如何做出合理的決策。

囚徒困境

在聊這個問題前,我們先來講一個博弈論的經典案例。

假說警方抓住了兩名罪犯,姑且就分成甲嫌疑犯和乙嫌疑犯。但是警方並沒有證據可以指控這兩個嫌疑犯。於是,他們就把他們兩個人你分別關在兩個房間,然後分別對他們進行盤問。

接下來,就有三種情況會發生,對應三種結果:

如果,兩個人都保持沉默(也就是合作),那兩個人會背叛半年的監禁。

如果,一個人檢舉對方(也就是背叛),另一個人保持沉默(合作),那檢舉的人立即釋放,被檢舉的人則要被判10年監禁。

如果,兩個人都互相檢舉(互相「背叛」),那麼這兩個人都會被判刑5年。

那這個時候,甲和乙是該合作還是該被判呢?

其實,單次的囚徒困境,選擇被判是最利於自己的選擇。

重複囚徒困境

但是,我們要知道的是,在日常生活中,其實都不是單次的囚徒困境,而是多次的。還是說到上面的例子,一戰時的英德士兵,其實理論上應該把對方消滅。但是是個人都想活下來,如果你把對方殺了,對方的戰友也不會坐視不管,他們也會對你下狠手。所以,這一來一往,循環往復,也就成了多次的囚徒困境。

那如果是多次的囚徒困境,到底是什麼樣的決策才最有利於個體的發展呢?

美國科學院院士阿克塞爾·羅德教授,曾做過相關的研究和實驗,模擬真實情況下的決策以及結果。

具體來說,是這樣的,第一輪,他讓他的學生和一些心理學家,科學家設計了14種策略,然後做成電腦程式,讓每個策略對應的程序都相互對戰200回合,然後取平均成績。最後選出了最優的策略。

這個策略大概的描述是這樣的:

第一局選擇與對方合作,然後之後的每一回合都選擇對手上一會和的策略。

這種策略被阿克塞爾·羅德稱為一報還一報。

但是他覺得,僅憑14種策略就斷言「一報還一報」是最優策略有點太隨意了。於是,他決定找到更多的策略來試驗。他向全世界的科學家,心理學家以及高校的老師徵集策略,前前後後找到了幾十個策略。然後,進行了第二輪和第三輪的對決。

上萬回合廝殺下來,最終「一報還一報」依舊是最終的贏家。在阿克塞爾·羅德寫的《合作的進化》當中,有非常詳細的實驗數據,感興趣的可以去查閱一下,這裡就不羅列。

一報還一報的智慧

在《論語·憲問》中,曾經記載著孔子這樣的一句話:

子曰:「何以報德?以直報怨,以德報德。」

翻譯過來就是:用什麼來報答恩德呢?用正直報答怨恨,用恩德報答恩德。

其實這當中就有「一報還一報」的智慧。「一報還一報」之所以可以戰勝這麼多的策略,就在於它有四個有點:善良性、報復性、寬容性和清晰性。

首先,它的出發點是選擇合作,而不是選擇背叛。這就是善良性。在實驗中,那種一味選擇寬容的策略,常常都會輸的非常慘。

但同時,它不是軟蛋,只要對方敢背叛,它就會立刻讓對方嘗到背叛的代價。這就是報復性。

但它也不會一心就知道報復,而是只要對方選了合作,它就會立馬寬容對方,選擇合作。這就是寬容性。

最後,也是最重要的,他的規則很清晰,不帶任何的貓膩。對方很容易把握到它的規律,這其實是一種正值的體現,不耍任何的小聰明。這就是清晰性。那些狐狸型的策略在模擬中也常常是慘敗收場,這足以說明,小聰明和耍陰謀並不能長久。

一報還一報是人類的天性

而「一報還一報」也是人類的天性,甚至是生物的天性,開頭我們說到的案例。

一戰的英德兩軍的士兵,之所以最後會一起踢球,是因為人性中「一報還一報」特質。起初一方陣營一有炊煙,對面就往有炊煙的地方開炮,一下可以炸死人,因為這時候的人都在排隊打飯。但是你會在對方吃飯開炮,對方也可以。這樣一來二去,雙方都吃不上飯。於是,就很容易形成一個約定,吃飯的時候別開炮。接下來這種默契慢慢擴散開來,就出現了節假日不要開炮等等現象,以至於出現了聖誕節一起踢球的場景。

而高地戰的南朝鮮和北朝鮮的軍隊也是這樣,無休止地來回爭奪高地,士兵們為了保命,從真打慢慢演化成了假打,打成了默契仗,這樣大家都保住了命,也完成了任務。

而景區的商家是之所以宰你,是因為他們認定是不會再來的,這是單次的囚徒困境,不宰白不宰。而你小區的商鋪之所以便宜,就是因為你們是多次的囚徒困境,如果他要宰你,你就會理課報復他。

至於,大自然的共生關係也是可以通過「一報還一報」來解釋的。

因此,「一報還一報」不僅僅是一個最好的生存策略,而且也是刻錄在我們基因裡的一種天性。

參考書目:《合作的進化》,作者:阿克塞爾·羅德。

相關焦點

  • 博弈論之囚徒困境
    今天我們來講博弈論中一個非常經典的模型,叫做囚徒困境。兩個人因盜竊被捕,警方懷疑其有搶劫行為,但未獲得確鑿證據可以判他們犯了搶劫罪,除非有一個人供認或兩個人都供認。即使兩個人都不供認,也可判他們犯盜竊物品的輕罪。
  • 博弈論中的「囚徒困境」是什麼意思?
    生活中,人們常常會陷入「囚徒困境」的兩難境地,不知該做出何種抉擇,但不管遇見怎樣的難題,總能找到解決問題的辦法。而且,倘若採用巧妙的方法來解除困境,不僅能夠將難題化解,還可能為自己帶來更多的利益。那麼,博弈論中的「囚徒困境」到底是什麼意思呢?且聽小編為大家解惑。
  • 囚徒的困境-博弈論
    那些把遊戲看作模擬戰爭的人,也可以把戰爭看作一種遊戲。這方面的一個經典的例子是普魯士人在長達一個世紀的時期內都迷戀一種名叫Kriegspiel的遊戲,也就是戰爭遊戲在18世紀,Kriegspiel被軍事學校當作教育科目之一。這個遊戲的遊戲板上有一張地圖,包括法國—比利時邊界,地圖被縱橫分成3 600個小方格。棋子可以跨過邊界前進或後退,就像軍隊一樣。
  • 《博弈與社會》:人類如何走出「囚徒困境」
    《博弈與社會》:人類如何走出「囚徒困境」   ◆  內容簡介  追求幸福是人的天性,但基於個體理性的決策常常與集體理性相衝突,導致所謂「囚徒困境」的出現,不利於所有人的幸福。人類如何走出「囚徒困境」,走向合作共贏?本書用博弈論的視角給出了答案。
  • 博弈論:為何人善總是被人欺?從囚徒困境看人性邏輯怪圈
    為了解決這一問題,我們依然舉例博弈論中的經典悖論——囚徒困境來說明這個問題。至於為何要用囚徒困境來說明這一問題,我們後續會提到這個經典悖論中的適用性和普遍性。囚徒困境告訴我們,很多時候兩方或以上的人數在選擇博弈的時候,大家遵循的是個人理性的原則,因為信息不對等,我們無法準確預估對方的選擇是如何的。但是就善良的人來說,他可能會選擇集體理性原則來做出決策,即替對方考慮並以此為決策依據。
  • 兼職收入不高,還要糾結是否交個稅,博弈論教你輕鬆脫離囚徒困境
    日本鈴木一功在《博弈論》中就提到了這種情況,他陷入了「囚徒困境」。一、選擇太難,是因為你陷入了囚徒困境囚徒困境是1950年美國蘭德公司的梅裡爾·弗勒德和梅爾文·德雷希爾擬定出相關困境的理論,後來由顧問艾伯特·塔克以囚徒方式闡述,並命名為囚徒困境。
  • 博弈心理學—「囚徒困境」,選擇合作還是選擇背叛?
    最初,博弈論主要研究的是象棋、橋牌、賭博中的勝負問題,博弈指的是兩人在對局中利用各自的策略來對抗對方的策略,以達到取勝的目的。     其實很好理解,博弈的參與者在決策前,不但要從自身考慮,還要從對方的角度考慮,考慮自己的行為對他人產生的影響,以此來選擇最優的策略。
  • 合作的真相(重複囚徒困境的探討)
    博弈論中有個非常經典的案例叫囚徒困境。在囚徒困境的遊戲中,有兩個對策者,他們可以選擇:合作或者背叛,每個人都必須在不清楚對方選擇的情況下,做出自己的選擇。不論對方選擇什麼,背叛總比合作收益要高。所謂困境是指,如果雙方都選擇背叛,其結果比雙方合作要糟,個人最優策略卻是集體最糟策略。
  • 博弈論之囚徒困境,背叛也是有代價的。深度好文,值得收藏
    博弈論之囚徒困境,背叛也是有代價的。讓你人際關係更加穩固好看的皮囊千篇一律,有料的大腦萬裡挑一,歡迎來到心理經濟學課堂,今天投資自已第11天了,這周開始,我們將進入妙趣橫生的五節課,講解五個經典的博弈論。研究人們在類似像棋局一樣的複雜的環境中是如何合作與對抗的。
  • 《博弈論》告訴你,當心陷入囚徒困境
    實際上,處於這種情況的職場人,已經陷入了「囚徒困境」當中。日本顧彼思管理學院鈴木一功所著的《博弈論》一書,針對圍繞利益取捨的問題,解析了職場中的「囚徒困境」,對如何進行商業投資、職場擇業,還有發展人際關係等等,都有很強的指導意義。一、什麼是職場中的「囚徒困境」?所謂的「囚徒困境」,原型取材於一則警方審問強盜的案例。
  • 博弈論思想
    {b},我傳播知識,讓別人接受我的思想,可以理解為 我「同化」ta人,也屬於熵減行為。{c},but,難理解的是,噬菌體通過侵入細菌,噬菌體的基因熵減,讓 被感染的大腸桿菌 死亡,進而導致 大腸桿菌的基因無法遺傳 去 維持 熵減 ,要牽扯到博弈思想了。
  • 約翰·納什:均衡博弈走出「囚徒困境」
    ,著名經濟學家、博弈論創始人、電影《美麗心靈》男主角原型。前麻省理工學院助教,後任普林斯頓大學數學系教授,主要研究博弈論、微分幾何學和偏微分方程。1928年6月13日出生在美國西維吉尼亞州工業城布魯?菲爾德的一個中產階級家庭。   1950年,約翰·納什獲得美國普林斯頓高等研究院的博士學位,他的博士論文中有一個重要發現,這就是後來被稱為「納什均衡」的博弈理論。
  • 王嘚吧博弈論:《囚徒困境》與《智豬博弈》
    如果大家覺得中間過於繁瑣,可以直接跳到結論 《囚徒困境》 題設:兩個罪犯A,B分別被警察審訊,根據法律,如果兩個罪犯都招供了各判4年;兩人都不招供的話罪行減輕,但是結合警察手中已有的證據,雙方個判2年;如果一人招供,另一人不招供,那招供的罪犯由於戴罪立功,
  • 從「囚徒困境」現象談企業競爭情報及價格戰中的合作雙贏
    【關鍵詞】博弈論 囚徒困境 企業競爭情報 價格戰 合作雙贏   「生活是一個永無止息的決策過程,我們每個人都無法逃避這樣的現實:或是成為某個策略的影響者,或是被某個策略所影響。其實,我們每個人都是生活這場遊戲的策略家。既然這樣,當一個出色的策略家總比當一個蹩腳的策略家更好一點。」
  • 博弈論教你做生意(1.痛苦的囚徒博弈)
    博弈論專有名詞叫做理性人。所以最終的結果讓大家大跌眼鏡:兩人都選擇了招供。警察達到了自己的目的:在沒有證據的情況下輕鬆地使嫌疑人招了供。深入剖析事情為什麼會這樣呢?張三和李四為什麼會做出如此愚蠢的選擇呢?我們不妨列一個表來看一下:當李四得知三種方案時,首先要考慮的是如何使自己受益。如果坦白要不就是8年,運氣好可以無罪釋放,一天也不用待。
  • 寡頭壟斷下的重複博弈囚徒困境
    1.1 合作的發展(2004年2月)產業內的不穩態可能產生改善未來收益的條件在上世紀八十年代,美國的政治科學家、《合作的發展》的作者RobertAxelrod邀請了博弈論專家參加該領域最著名的囚徒困境問題的多輪辯論。Axelrod找到了在長期最成功的的策略是「以牙還牙」,或者互惠。他指的是發生在在世界一次大戰中戰壕裡的耐人尋味的例子。
  • 博弈論:房奴們的囚徒困境,炒房團屢屢得手是有原因的
    如果要羅列出最討人厭的幾類團體,那麼炒房團絕對是名列前茅的存在。炒房團每到一個地方,就仿佛蝗蟲過境,惡意抬高房價之後捲走大量的財富。而真正需要住房的人卻只能做一個接盤俠,承擔起被炒房團禍害過的高房價,成為一個光榮的房奴,從此大半輩子做牛做馬。
  • 約翰·納什:走出「囚徒困境」的指路人
    是馮·諾依曼開創了經濟博弈論,而被馮·諾依曼貶低過的納什的思路卻比馮·諾依曼的合作博弈理論更能反映現實的情況,最終,他關於「非合作博弈」的長篇博士論文一鳴驚人,並發展成了著名的非合作博弈理論(noncooperativegames)。
  • 中美關係陷入囚徒困境,一旦積怨開始,就沒完沒了了
    大有零和博弈之勢。當今,產生彼此合作的必要條件往往與國際政治的許多中心問題有關,最重要的就是安全困境:國家往往通過那些威脅到其他國家安全的首選來尋求自身的安全。這個問題除了體現在區域衝突和軍備競賽上之外,最近幾年越來越體現在金融經濟的衝突以及民族情緒或民粹主義的影響。之前典型的歷史例子就是蘇聯1979年入侵阿富汗給美國出了難題。
  • 「囚徒困境」或可解釋
    研究人員在《國家科學院學報》上發表文章說,他們憑藉演化博弈理論和行為經濟學理論,分析人幫助他人的決策過程。他們讓志願者模擬「囚徒困境」。這是一個經典的博弈論模型:兩個共謀犯罪的人被關押,不能串供。兩人可以認罪也可以保持沉默。若兩人都沉默,由於證據不確定,兩人都要坐牢一年;若一人揭發,另一人沉默,揭發者可以因立功而立即獲釋,沉默者則會因不合作入獄五年;若相互揭發,則兩人各判兩年。