納什均衡近似解

2021-02-15 靜園五院名著導讀

今天我們介紹一篇經典的近似計算納什均衡的論文「An Optimization Approach for Approximate Nash Equilibria」。該論文針對兩個收益矩陣R,C的每個元素均在[0,1]的情況下給出了一個每名玩家在不改變自己策略情況下至多比假設對面不變、自己改到最優的收益減去0.3393的算法及其證明。本篇文章將略去其使用對偶線性規劃的部分介紹其證明，同時試圖說明為何這篇文章所採用的這種方法十餘年來無法被改進。

定義與背景

首先簡單介紹一下問題定義：

然後我們來討論一下納什均衡的背景，事實上，求解納什均衡的複雜度被證明是PPAD-complete，而後者可以在某種程度上理解為對某個組合圖形，我們知道其必有一個子部分滿足某種性質，試圖尋找算法找到這個子部分。顯然PPAD這個類在P與NP之間，目前求解PPAD的在實際應用中的最好方法依然是指數級別的二分方法。

精確求解納什均衡的困難本質上源於不知道哪些策略是可以被直接扔掉的，因為一旦我們確定了行玩家和列玩家的最小的support，我們就能知道行玩家按某個比例選其support中的策略時（設有m個線性無關策略），列玩家在其support中的每個策略的收益必然是期望相同的（易知有且僅有m個線性無關策略），由此便能利用基本的線性方程組解出行玩家的比例，同理可解得列玩家的比例得到納什均衡。

之前近似納什均衡的嘗試主要集中在低秩解的求解上，想法很單純：假設每個玩家最終都會在所有可能的選項中選出k個來構造自己的策略，遍歷所有可能的k元集，找到其中性質最好的解作為近似的納什均衡。但用這種方法得到的誤差可能有0.75或0.5，即某一方可能不接受算法所給出的納什均衡而選擇自己的最優策略，最多可額外獲得0.75或0.5的收益，這對理論收益上限為1的納什均衡來說理論保障很差。

本文作者提出通過直接把目標函數用對偶線性規劃優化，並結合待定係數法得到一個接近1/3的誤差，目前0.3393的界仍然無法被改進。

主要方法

這篇文章的精華之處在於其對(\Tilde(x),\Tilde(y))的選取，事實上，在僅用其所定義的x，y以及線性規劃中所出現的w，z運用待定係數法，經過艱苦的計算可以發現這一係數已經是取得最優的了。雖然我們接下來可以看到作者們在一些核心步驟上的放縮上會把一些數直接放到0或1，但遺憾的是，如果我們通過待定係數優化其中的一部分，那麼所產生的代價因為無法用λ和μ所控制，依然只能放到1，最終導致結果不比其所選擇的係數好：

事實上，只能放到1的根本原因是由於為了使stationary point本身能夠有一個上界，λ和μ的定義中必須包含本質上和對偶線性規劃的解幾乎沒有聯繫的S_C(x)和S_R(y)，而這就導致了可供選擇的待定係數的項非常少。雖然我們直覺上會認為進行加權平均後，某些項會因為f的上界有比1更好的估計，但待定係數帶來的項幾乎總和S_C(x)和S_R(y)完全無關。

因此這一方法的核心問題是所解得的stationary point本身性質不是很好，需要通過對偶線性規劃的解作為備選方案強行說明兩個點上不會同時得到很壞的解來得到放縮。筆者認為stationary point的問題在離散的線性規劃的眼光下本質上無法再改進，而除了對偶線性規劃的解以外，也很難找到和stationary point相關的點來進行差值。因此要改進這篇論文只有兩種可能：

第一種是找到某些stationary point所滿足的特有的恆等式或不等式，直接說明stationary point在大部分情況下表現良好，即使在表現不好的點，也會因為恆等式或不等式的性質說明在隨機初始化或者加隨機擾動的情況下可以避開表現不好的位置。當然這種方法比較heuristic，關鍵是不等式或恆等式如果找不到就完全變成了模擬退火等無理論基礎的分析。

第二種方法就是整個改變算法，不能將誤差距離直接變成優化目標，可以考慮優化一個加權平均或者一個看似與目標毫無關係的函數，但最後也能通過stationary point和待定係數的方法得到一個更好的界。（例如通過簡單嘗試知道如果我們優化的是雙方誤差的平均值，容易說明有一種方法使雙方誤差平均值不超過1/3，即和不超過2/3，與本文結果相比在某些情況下強一點）但筆者傾向於認為這種方法要超越1/3十分困難，直覺上說來，在引入兩個自由變量後所能期待三項的最大值最小也只能期待到1/3.

總體來說，要找到某些刻畫「能量」之類的不變量，進而用第一種方法改進的難度在於找不到合適的量，而用第二種方法的難點在不知道優化什麼好，得到的結論也不能和問題直接相關。

相關焦點

【維言送聽】好的納什均衡和壞的納什均衡

現在我們把納什均衡理解為一種制度安排來思考一下。如果一個制度是納什均衡意味著什麼？意味著所有人都要遵守它；反過來說如果一個制度不是納什均衡，至少有一部分人不會遵守它，也可能所有人都不遵守它。這就是為什麼納什均衡對我們分析社會制度和制度演化如此重要的一個原因。我這樣講比較抽象，下面我們會用簡單的例子說明這點。
「納什均衡」與作業僵局

一、什麼是「納什均衡」？---從博弈論說起。看過電影《美麗心靈》的該知道數學家納什。納什最重要的貢獻就是提出了「納什均衡」，並由此獲得1994年諾貝爾經濟學獎。（「納什均衡」有數學定義，本文側重其在經濟學、社會學領域中的含義。）含義：所謂納什均衡，指的是博弈參與人的這樣一種策略組合，在該博弈演進中，任何參與者單獨改變博弈策略都不會得到好處。換句話說，除非所有人同時改變博弈策略，否則沒有任何人會改變策略，則該博弈組合就是一個納什均衡。
張維迎:好的納什均衡和壞的納什均衡

現在更一般的來講，在博弈當中，如果沒有這些遊戲規則的話，我們得到就是不好的納什均衡。法律是來幹什麼得呢？如圖四，假如說合作是一個合同，我們大家都要合作，如果你不合作的話，你直接得到4，但這個時候你要受到一點懲罰，就是y(或x)，從你的所得中減去，因為你違反了合同，要補償人家。我們先假定不去考慮圖中的a和b。只有這個懲罰y和x足夠大，人們才可能去合作。
張維迎:中國壞的納什均衡太多

納什為社會科學創造了全新的研究方法，那我們紀念納什最好的方式就是理解納什均衡，學會應用博弈論的方法去分析和理解我們所生活的世界。改革形成更好的納什均衡在人民公社的情況下偷懶是納什均衡，包產到戶後，好好幹活，大家都幹活，打的糧食多，這才是納什均衡。
納什北京說「博奕」闡明「納什均衡」研究過程(圖)

納什被認為是一位數學天才，他在21歲時就提出了納什均衡理論，後來成為博弈論的兩大基礎之一。新華網北京8月21日電(記者陳勇韓潔魏忠傑)「我聽懂了納什!」約翰·納什的公眾報告於今晚20點45分結束後一名聽眾興奮地告訴記者。納什僅用一個多小時，詳盡地向兩千多名聽眾闡明了為他贏得1994年度諾貝爾經濟學獎的「納什均衡」的研究過程。聽眾們說，大師並不深奧。
納什均衡給經濟學帶來革命性變化

博弈論引起大眾關注，還是因為在經濟學博弈論中享有國際聲譽的天才數學家約翰·納什，由他提出「納什均衡」理論，通過以他為原型的奧斯卡獲獎影片《美麗心靈》，讓這個數學理論和方法得以廣泛普及。　　博弈論就是利用對方的策略變換自己的對抗策略，達到取勝的目的。均衡是平衡的意思，在經濟學中，均衡意即相關量處於穩定值。
如何通俗的理解納什均衡點?

導讀：如何通俗的理解納什均衡點？1、市場上有2家企業A和B，都是賣紙的，紙的成本都是2元錢，A和B都賣5塊錢。有一天A降價到4塊錢，於是A銷量大增，B銷量大減。B看到了後，降價到3塊錢，於是B銷量大增，A銷量大減。
什麼是博弈論與納什均衡

納什均衡：又稱為非合作博弈均衡，是博弈論的一個重要術語，以約翰-納什命名。假設有n人局中人參與博弈，給定其他人策略的條件下，每個局中人選擇自己的最優策略（個人最優策略可能依賴於也可能不依賴於他人的戰略），從而使自己利益最大化。所有局中人策略構成一個策略組合。納什均衡指的是這樣一種戰略組合，這種策略組合由所有參與人最優策略組成。
用納什均衡揭秘A股漲跌的邏輯

您的朋友圈這兩天可能已經被納什均衡這四個字刷了屏。但笨虎估計，看到這篇文章的朋友還有大約50%不清楚納什均衡是什麼意思。為什麼是大約50%呢？看下去您就知道啦。簡單的說，納什均衡說的是在一場博弈中，每個人都選擇了一種策略，使得整體利益達到了一種相對的最優狀態；此時，任何一個人單獨改變策略都不會得到好處。因此，這場博弈就處於一種靜止的均衡狀態。最經典的例子就是囚徒困境。警察抓到2個共犯，隔離分別審訊。警察的策略是坦白從寬，如果2個人都坦白罪行就分別判8年監禁。
系統工程講堂第五十二講——納什均衡:博奕論的前世今生

題目：系統工程講堂第五十二講——納什均衡:博奕論的前世今生主講人：劉進副教授（系統工程學院作戰運籌與規劃系）時間：2019年4月12日(周五) 8:30-10:30地點：系統工程學院一樓110學術廳講座摘要：博弈論是研究競爭與合作的交互式決策的數學理論，納什均衡是博弈論中最重要的概念。
納什:如何科學追求對象?

這篇文章的目的是更加準確和全面地描述納什均衡提出的過程和其價值。什麼是納什均衡納什均衡是是非合作博弈的概念，涉及兩個或兩個以上的博弈者，假設其中每個博弈者都知道其他博弈者的均衡策略，單個博弈者都無法通過單方面改變自己的策略來獲取利益(Osborne et al, 1994)。
約翰·納什:天才的光輝與坎坷

天才的光芒：「納什均衡」橫空出世1928年，約翰·納什出生在西維吉尼亞。
納什:戰勝精神分裂症的重生

納什19日剛從挪威國王那裡接過阿貝爾獎（挪威設立的數學界大獎）。對大部分人來說，認識納什恐怕源於2001年上映的電影《美麗心靈》。雖然納什多次表示電影沒有真實反映他30歲之前的生活，但依舊被人們認定是納什精神狀態的寫照。納什的人生可以說是一部三幕劇，經歷了青年時的天才，中年時的抗爭，還有老年時的平靜。
納什紀念與博弈論視野下的國際關係

天才留下的理論對於博弈論來說，這位天才最廣為人知的貢獻是，在他年僅22歲時，就提出了後來被稱為「納什均衡」的博弈理論。納什均衡是一種策略組合，在這一組合中，每個參與人的策略是對其他參與人策略的最優反應。由此，從自身利益出發，沒有任何單獨的一方願意改變其策略。不少學者認為，「納什均衡」使亞當·斯密的「看不見的手」陷入尷尬。
納什的少年天才成長之路，值得很多家庭學習

數學家納什為人所津津樂道的除了他的「納什均衡」、博弈理論外，還有他的精神疾病，天才在左瘋子在右在他身上得到了完美詮釋。實際上約翰·納什很符合人們認知中的「固定天才」，因為從小他就開始表現的異於常人，投身不同於同齡人的學術世界。
博弈論大師約翰·納什領獎返家途中遇車禍身亡

納什生於1928年6月13日，22歲就以一篇僅27頁、以非合作博弈（Non-cooperative Games）為題的博士論文畢業，該論文提出了奠定納什學術生涯基礎的博弈理論，被稱為「納什均衡」的理論廣泛運用在經濟學，計算機學，進化生物學，人工智慧，會計學，政治學和軍事理論上。
柏文喜:地方政府在復工決策這一囚徒困境中的納什均衡分析

是否復工，且看地方政府在復工決策行為選擇中的納什均衡分析。至於結果嘛，各位看官還是自己去判斷吧！
精神分裂到諾貝爾獎,「博弈之父」納什的傳奇人生

這本書從三個部分講述了納什的傳奇人生。第一部分，納什患病之前早期的人生經歷。1928年，納什出生在美國一個普通家庭裡，爸爸是電力公司的工程師，媽媽是個中小學老師。這是一個充滿親情溫暖的家庭，但納什從小就顯得內向孤僻。
《美麗心靈》原型約翰·納什車禍去世傳奇一生回顧

》主人公的原型、美國數學家約翰·納什遭遇車禍去世，終年８６歲。美國警方２４日說，納什與８２歲的妻子艾麗西亞２３日在美國新澤西州乘坐計程車時，因車輛失控遇難。　　1950年，年僅22歲的納什憑藉題為「非合作博弈（Non-cooperative Games）」的論文取得了博士學位，在這篇僅有27頁的著作中，他提出了一個重要的博弈理論，後來被稱為「納什均衡」。這與馮·諾依曼在1928年提出的極小極大定理一起奠定了博弈論的整個大廈，也奠定了他1994年獲得諾貝爾經濟學獎的基礎。
科學網—隨機微分方程近似解的弱連續迭代

《計算與應用數學雜誌》2008年214卷1期隨機微分方程近似解的弱連續迭代

納什均衡近似解

相關焦點

【維言送聽】好的納什均衡和壞的納什均衡

「納什均衡」與作業僵局

張維迎:好的納什均衡和壞的納什均衡

張維迎:中國壞的納什均衡太多

納什北京說「博奕」 闡明「納什均衡」研究過程(圖)

納什均衡給經濟學帶來革命性變化

如何通俗的理解納什均衡點?

什麼是博弈論與納什均衡

用納什均衡揭秘A股漲跌的邏輯

系統工程講堂第五十二講——納什均衡:博奕論的前世今生

納什:如何科學追求對象?

約翰·納什:天才的光輝與坎坷

納什:戰勝精神分裂症的重生

納什紀念與博弈論視野下的國際關係

納什的少年天才成長之路，值得很多家庭學習

博弈論大師約翰·納什領獎返家途中遇車禍身亡

柏文喜:地方政府在復工決策這一囚徒困境中的納什均衡分析

精神分裂到諾貝爾獎,「博弈之父」納什的傳奇人生

《美麗心靈》原型約翰·納什車禍去世 傳奇一生回顧

科學網—隨機微分方程近似解的弱連續迭代

納什北京說「博奕」闡明「納什均衡」研究過程(圖)

《美麗心靈》原型約翰·納什車禍去世傳奇一生回顧