博弈論速成指南:那些融入深度學習的經典想法和新思路

2020-12-17 機器之心Pro

選自TowardsDataScience

作者:Jesus Rodriguez

機器之心編譯

參與:魔王、杜偉

隨著人工智慧的發展,博弈論迎來了復興。關於博弈論,數據科學家需要了解哪些經典思想和新思路呢?本文作者就這些問題一一展開了分析。通過此文,相信讀者會對博弈論的概念和分類有更清晰的理解。

博弈論是最讓人著迷的數學領域之一,它影響了多個不同領域,如經濟學、社會科學、生物學,顯然還有計算機科學。博弈論的定義有很多,但我認為以下這個定義非常有幫助,儘管它過分簡潔:

博弈論是具備激勵機制的概率。

遊戲在人工智慧發展過程中起到關鍵作用。對於初學者而言,遊戲環境在強化學習或模仿學習等領域中逐漸成為流行的訓練機制。理論上,任何多智能體 AI 系統都要經歷玩家之間的遊戲化交互。構建遊戲原則的數學分支正是博弈論。在人工智慧語境和深度學習系統語境下,要想使多智能體環境具備一些必備的重要能力,博弈論必不可少。在多智能體環境中,不同的 AI 程序需要交互或競爭才能達成目標。

博弈論的歷史與計算機科學史密不可分。目前博弈論領域中的許多研究可以追溯至阿蘭·圖靈、馮·諾伊曼這些計算機科學先驅的工作。因電影《美麗心靈》而聞名於世的納什均衡(Nash equilibrium)是現代系統中很多 AI 交互的基礎。但是,利用博弈論原則多次建模 AI 宇宙超出了納什均衡的範疇。想理解如何利用博弈論構建 AI 系統,最好先理解我們在社會或經濟互動中常遇到的博弈類型

我們每天參與數百種基於遊戲動態(game dynamics)的交互。但是,遊戲化環境的架構與此完全不同,其激勵和參與者目的也不相同。如何將這些原則應用到 AI 智能體建模中呢?這個難題推動 AI 研究某些領域的發展,如多智能體強化學習。

顯然,遊戲是博弈論最具可見性的實體,但它遠遠不是應用博弈論概念的唯一空間。也就是說,還有很多其他領域也受到博弈論和 AI 的共同影響。大多數需要多個「參與者」合作或競爭才能完成任務的場景都可以利用 AI 技術進行遊戲化和改進。儘管之前的陳述是一種泛化,但我認為它傳達出了一個信息:博弈論和 AI 是一種思考和建模軟體系統的方式,而不只是一種技術。

利用博弈論的 AI 場景應包含不止一個參與者。例如,Salesforce Einstein 這類銷售預測優化 AI 系統就不是應用博弈論原則的完美場景。但是,在多智能體環境中,博弈論又有明顯不同。

在 AI 系統中建構遊戲動態需要兩步:

參與者設計:博弈論可用來優化參與者的決策,以獲得最大效用;機制設計:逆博弈論(inverse game theory)主要為一組智能參與者設計遊戲。拍賣就是機制設計的經典案例。那麼 AI 時代的數據科學家又需要了解哪些博弈呢?這些博弈彼此之間是否存在著聯繫呢?本文作者、Invector Labs 首席科學家兼執行合伙人 Jesus Rodriguez 對此發表了自己的看法。

本文作者 Jesus Rodriguez。

數據科學家應該知道的 5 種博弈

假設我們正在構建一個需要多個智能體互相合作競爭才能完成特定目標的 AI 系統,即博弈論的經典場景。自 20 世紀 40 年代誕生以來,博弈論專注於建模最常見的交互模式,現在我們每天在多智能體 AI 系統中看到的就是它們。理解環境中不同類型的遊戲動態是設計高效遊戲化 AI 系統的關鍵元素。從較高層次來看,五元素標準有助於理解 AI 環境中的遊戲動態,即對稱 vs 非對稱、完美信息 vs 非完美信息、合作 vs 非合作、同時 vs 序列和零和 vs 非零和。下面將一一展開介紹。

作者提出的五元素標準。

對稱 vs 非對稱

最簡單的一種博弈分類方式是根據對稱性進行分類。在對稱博弈環境裡,每個玩家具備同樣的目標,結果僅取決於策略。西洋棋就是一種經典的對稱博弈。我們在現實世界中遇到的很多場景缺少對稱的數學優雅性,因為參與者通常目標不同,甚至還存在衝突。商務談判則屬於非對稱博弈,參與各方目標不同,並從不同的角度來評估結果(例如,贏得合同 vs 最小化投資)。

完美信息 vs 不完美信息

另一種重要的博弈分類方式基於可獲取信息類型。完美信息博弈指每個玩家都能夠看到其他玩家的行動,例如西洋棋。在很多現代交互的環境中,每個玩家的行動是對別人隱藏的,博弈論將這些場景歸類為不完美信息博弈。從撲克等紙牌遊戲到自動駕駛汽車,不完美遊戲博弈就在我們身邊。

合作 vs 非合作

在合作博弈環境中,不同的參與者可以通過結盟來最大化最終結果。合同談判通常被認為是合作博弈。在非合作博弈環境中,參與者禁止結盟。戰爭是非合作博弈的終極案例。

同時 vs 序列

在序列博弈環境中,每個玩家了解對手之前的動作。棋盤遊戲本質上最具序列博弈屬性。在同時博弈場景中,雙方可以同時行動,例如證券交易。

零和 vs 非零和

零和遊戲指一方有得其他方必有失,例如棋盤遊戲。非零和遊戲中,多個玩家可以從其他玩家的動作中獲益。經濟交互中多個參與者合作擴大市場規模就是非零和博弈。

納什均衡

對稱博弈統治 AI 世界,其中大多數基於 20 世紀最著名的數學理論之一:納什均衡。納什均衡以美國數學家 John Forbes Nash 命名。本質上,納什均衡描述了這樣的場景:每個玩家選擇一個策略,當一個玩家不改變策略時,沒有玩家能從改變策略中獲益。

已故美國數學家、經濟學家 John Nash。

納什均衡是一個優美且強大的數學模型,它可以解決很多博弈論問題,但在一些對稱博弈環境中捉襟見肘。對於初學者而言,納什方法假設玩家具備無限的計算能力,而現實環境中幾乎不存在這種情況。

此外,很多納什均衡模型無法解釋風險概念(常見於大多數非對稱博弈場景,如經濟市場)。因此,很多非對稱博弈場景很難利用納什均衡實現。在多智能體 AI 系統中這一點尤為重要,這需要在解決方案的數學優雅性和實現的可行性中找到合適的平衡。

博弈論中正在影響機器學習的新想法

多智能體 AI 系統是 AI 生態系統中最讓人著迷的領域之一。多智能體系統等領域的近期進展擴展了博弈論的邊界,它依賴該領域中最複雜的思想。作者在下文又列舉了出現在現代機器學習中的博弈論子領域的示例。

平均場博弈

平均場博弈(Mean Field-Games,MFG)是博弈論中比較新的領域。MFG 理論誕生於 2006 年,是 Minyi Huang、Roland Malhamé、Peter Caines、Jean-Michel Lasry 和菲爾茲獎得主 Pierre-Louis Lions 發表的一系列獨立論文中的一篇。

從概念上看,MFG 包含的方法和技術用於研究由「理性博弈方」組成的大群體下的微分博弈。這些智能體不光對自己的狀態(如財富、資產)有偏好,對群體中其他智能體的分布也存在偏好。MFG 理論為這些系統研究泛化納什均衡。

經典的案例是如何讓幾個魚群以比較協調的方式沿相同方向遊動。理論上,這種現象很難解釋,不過它基於這一事實:魚對最鄰近魚群的行為有反應。具體而言,每條魚並不關心其他魚,但是它關心附近作為一個整體統一移動的魚群。如果我們用數學術語表述的話,魚對魚群的反應是哈密頓-雅可比-貝爾曼方程(Hamilton-Jacobi-Bellman equation,簡稱 HJB 方程)。而整個魚群的行動是所有魚的動作集合,這對應了福克-普朗克方程(Fokker-Planck-Kolmogorov equation)。平均場博弈理論是這兩個公式的結合體。

平均場博弈中的魚群統一遊動經典案例。

隨機博弈

隨機博弈可以追溯至 1950 年代,由諾貝爾經濟學獎獲得者 Lloyd Shapley 提出。從概念上來看,隨機博弈由有限數量的玩家在有限狀態空間中執行,在每個狀態中,每個玩家從有限多的動作中選擇一個;最終動作組合決定了每個玩家的獎勵和下一個狀態的概率分布。

已故數學家、隨機博弈概念提出者 Lloyd Shapley。

隨機博弈的經典形式是哲學家晚餐問題:有 n + 1 位哲學家 (n ≥ 1) 坐在圓桌旁,圓桌中間有一碗米飯,任意兩位相鄰的哲學家之間有一根筷子,筷子在兩人可及範圍內。由於桌子是圓的,因此筷子的數量與哲學家人數一樣。為了吃到碗中的米飯,每位哲學家需要拿到可及範圍內的兩根筷子。如果一位科學家吃到了,那麼他的兩位鄰座就不能同時吃到。哲學家的生活很簡單,只有思考和吃飯,為了生存,哲學家必須一次次地思考和吃飯。該任務就是設計一個使所有哲學家生存下去的機制。

隨機博弈中的哲學家晚餐經典案例。

演化博弈

演化博弈論(Evolutionary Game Theory,EGT)從達爾文進化論中獲得靈感。EGT 的起源可以追溯至 1973 年的 John Maynard Smith 和 George R. Price,也可以作為策略來分析,該數學標準可用於預測競爭策略的結果。

從概念上看,EGT 是博弈論概念在如下場景中的應用:通過選擇和複製的進化過程,隨著時間的變化,智能體群體使用不同策略來創建穩定的解決方案。EGT 的主要思想是很多行為涉及群體中多個智能體的交互,任意一個智能體的成果都離不開其策略與其他智能體策略之間的交互。經典博弈論專注於靜態策略(即策略不隨時間變化),而演化博弈論專注於策略隨時間的變化,以及在進化過程中最成功的動態策略。

EGT 的經典案例是鷹鴿博弈,即讓鷹和鴿子圍繞可共用資源競賽。在該遊戲中,每位選手嚴格遵循以下策略中的一個或全部:

鷹:發起攻擊行為,在受傷或對手後退之前絕不停下。鴿:如果對手發起攻擊行為,直接撤退。如果我們假設存在如下情況:1)當兩個個體都發起攻擊行為時,戰鬥最終走向結束,二者具備同等受傷概率;2)戰鬥成本將個體的健康度降低了某個常量 C;3)當鷹鴿相遇時,鴿子直接逃跑,鷹獲取資源;4)兩隻鴿子遇到資源並平分資源,則鷹鴿博弈的健康情況如下所示:

逆博弈論

很多案例不需要優化參與者的策略,而是圍繞理智參與者的行為設計遊戲,這就是逆博弈論。拍賣被認為是逆博弈論中的主要案例。

總之,隨著人工智慧的發展,博弈論正在復興。阿蘭·圖靈或馮·諾伊曼等計算機科學界傳奇人物提出的博弈論原則現在已經是全球某些最智能系統的核心,人工智慧近期進展也有助於推動博弈論研究的發展。隨著 AI 繼續進化,我們將看到更多博弈論新想法找到融入主流深度學習系統的方式。

相關焦點

  • 送你一份機器/深度學習自學指南(附視頻&速成方案)
    怎麼入門機器/深度學習?準備用三個月入門,和想要一個月速成,肯定是截然不同的路徑。當然我建議大家穩紮穩打,至少可以拿出五個月的時間來學好機器學習的基礎知識。基礎很重要,知其所以然很重要。畢竟工具總在進步,每個月都會出現更好的深度學習技術,但基礎知識是不變的。如何用五個月時間入門?下面分三個部分,詳細指南。
  • 對抗機器學習的博弈論方法
    這篇文章,我將與你分享如何將博弈論應用於對抗式機器學習。讀完這篇文章,你會學到:博弈論如何應用於機器學習?博弈論如何幫助解決對抗性學習問題?基於博弈論方法的一個例子讓我們從一個簡單的示例開始:垃圾郵件檢測。以下部分描述了W. Liu和S. Chawal為對抗性學習而開發的博弈理論模型(ieeexplore.ieee.org/document/5360532)。
  • 漫談博弈論
    總的發現是,它的很多結果與博弈論的分析有較大的出入。能發現現實中大家決策的真實規律,這當然是非常有意義的工作;但是,並不能用這些實驗結果來簡單地否定依靠完全理性模型得出的結論。經常有科學家宣稱,他們的實驗結果推翻了經典博弈論的預測。這是非常不合適的說法。
  • 博弈論基礎Game Theory Basics
    而當我們面對群體智能決策問題、要使多智能體系統具備更強大能力時,對博弈論的學習與應用必不可少。今天,小編為你整理了中科院自動化所張海峰副研究員講授的《博弈論基礎》課程,邀你一起了解人工智慧強化學習語境中的博弈論。
  • 博弈論,誰主沉浮?
    這是一部由博弈領域的兩位領軍人物——朱·弗登博格和讓·梯若爾編著的集大成之作,囊括了迄今為止除演化博弈之外的所有博弈論的理論和方法,代表了博弈論發展的最高水平。它不僅涵蓋了博弈論的方方面面,而且幾乎對每一個論題都給出了嚴密的數學推導和證明。《博弈論》具有以下幾個特點:第一,覆蓋面廣,幾乎涵蓋了博弈論的各個領域。
  • 什麼是博弈論與納什均衡
    納什均衡,從實質上說,是一種非合作博弈狀態。近代對於博弈論的研究,開始於策墨咯,波雷爾及馮-諾伊曼。1928年,馮-諾依曼證明了博弈論的基本原理,從而宣告了博弈論的正式誕生。1944年,馮-諾依曼和摩根斯坦共著的劃時代巨著《博弈論與經濟行為》將二人博弈推廣到n人博弈結構並將博弈論系統的應用於經濟領域,從而奠定了這一學科的基礎和理論體系。
  • 重述博弈論的「道統」:簡·奧斯丁與經濟學
    所以,博弈論在普通人看來高不可攀,心生畏懼和崇敬,雖然看不懂,但是似乎很厲害的樣子。  通常對待自己不了解的事物有三種態度:好奇而去學習;完全置之不理;激烈反對和批評。博弈論在美國可能就遇到了很多第三種態度。因此,《簡·奧斯丁的謀略》第41頁開始,用一節篇幅回應了對博弈論的批評。其中有一種批評值得一提,因為它不是針對博弈論的假設或者邏輯,而是針對博弈論的起源和發展。
  • 想要精通生活的策略,一定要讀懂博弈論 | 書單
    博弈論是我們研究世界的一種有力工具。目前世界各大名校的經濟系、計算機系、電子工程系、數學系、生物學系,還有心理學系、政治科學系和社會科學系的課程中都含有博弈論的內容。世界圖書出版公司推出的「世界博弈論經典」分為「經濟與社會科學系列」和「計算與信息科學系列」兩個子系列。目前已出版了「經濟與社會科學系列(第一輯)」的6種。
  • 博弈論困境的一些解決路徑
    主要包括:(1)均衡的存在性和唯一均衡的確定(這是要求理論具有解釋力或預測力所導致的結果) 難題,以及在通過數理化的方式解決該難題時所帶來的(2) 過度形式化及其與社會現實脫節的問題。為了讓博弈論擺脫其在社會科學運用中可能會出現的此類困境, 一些社會科學研究者從不同的角度做出了嘗試, 這帶來了博弈論發展的一些不同於經典博弈論的趨勢。2.1 均衡的理解及其修正。
  • 博弈論(Game Theory)| 知識
    有時也稱為對策論,或者賽局理論,是研究具有鬥爭或競爭性質現象的理論和方法,它是應用數學的一個分支,既是現代數學的一個新分支,也是運籌學的一個重要學科。目前在生物學、經濟學、國際關係學、計算機科學、政治學、軍事戰略和其他很多學科都有廣泛的應用。主要研究公式化了的激勵結構(遊戲或者博弈(Game))間的相互作用.博弈論考慮遊戲中的個體的預測行為和實際行為,並研究它們的優化策略。
  • 博弈論中的幾個經典案例
    博弈論(Game Theory),亦名「對策論」、「賽局理論」,屬應用數學的一個分支, 博弈論已經成為經濟學的標準分析工具之一。
  • 博弈論:為什麼交智商稅的總是你
    ——《博弈論,走向成功的必修課》。舉個例子,就拿博弈論中最著名的「囚徒困境」定理來說,該模型作為博弈論的經典試驗,為我們全面揭示了什麼是博弈論以及其中的幾個重點:假設有兩個自私的小偷A和B聯合犯事、私入民宅被警察抓住。
  • 博弈論
    博弈論又被稱為對策論(Game Theory)既是現代數學的一個新分支,也是運籌學的一個重要學科。博弈論主要研究公式化了的激勵結構間的相互作用。是研究具有鬥爭或競爭性質現象的數學理論和方法。 博弈論考慮遊戲中的個體的預測行為和實際行為,並研究它們的優化策略。生物學家使用博弈理論來理解和預測進化論的某些結果。博弈論已經成為經濟學的標準分析工具之一。在生物學、經濟學、國際關係、計算機科學、政治學、軍事戰略和其他很多學科都有廣泛的應用。
  • 囚徒的困境:馮·諾伊曼、博弈論和原子彈之謎
    (馮·諾依曼博弈論和原子彈之謎)》這本書你會發現科學家的個性其實生動可愛;如果你以前沒接觸過博弈論,那麼從這本書開始你會發現它的魅力;如果你對原子彈的了解只停留在「二戰」與廣島之劫,那麼在這裡你將看到科技進步背後的權謀與大國紛爭。
  • 博弈論,又稱為對策論
    博弈論考慮遊戲中的個體的預測行為和實際行為,並研究它們的優化策略。生物學家使用博弈理論來理解和預測進化論的某些結果。博弈論已經成為經濟學的標準分析工具之一。在金融學、證券學、生物學、經濟學、國際關係、計算機科學、政治學、軍事戰略和其他很多學科都有廣泛的應用。
  • 博弈論雜談:基本假設
    今天我們來點學術的話題,博弈論的基本假設。經典博弈論研究中的一個基本假設,就是參與人是完全理性的。什麼是完全理性?實話實說,學術界對此還沒有達成共識,這就讓我們很糾結了,因為對於博弈論來說,這是一個十分核心的問題。能不能搞清楚,這是學術大佬的事兒,我估計是搞不清楚了,但其實,這並不影響我們來了解博弈論。
  • 博弈論雜談:研究範式
    同時,博弈論也有兩大研究分支,這便是「非合作博弈論」與「合作博弈論」。十分粗略地看,非合作博弈論主要採取實然性研究範式,而合作博弈論主要採取應然性研究範式,當然了這種劃分極不嚴格,但是對於我們來說,這也足夠了,沒有必要較真。好了,現在問題就來了,什麼是非合作博弈論,什麼又是合作博弈論呢?
  • 秦、戰國和博弈論
    秦國 X 博弈論 最近幾天,想必大家都在看大熱的電視劇《大秦賦》,我也再看,而且在看的過程中我一直在思考一個問題: 為什麼戰國時期這麼愛打仗?為什麼最後勝出的秦國,沒過幾年就垮掉了?
  • 漫談博弈論之一:演化博弈模型在實際運用中需要注意的關鍵性問題
    博弈論做為一個學科分支,在純學術上的成果也早已非常豐富、自成體系,其中最有代表性和最重要(至少是最重要的之一)的是納什均衡理論和極大極小原理。在納什均衡、極大極小原理、重複博弈等理論的基礎上,最近幾十年又發展出演化博弈模型等許多數學方法。
  • 可以幫我們做出正確決策的博弈論!妙趣橫生的博弈論
    各位書友大家好,歡迎繼續做客老齊的讀書圈,一直以來很多小夥伴,都希望老齊講講博弈論,什麼是博弈論呢?他是經濟學的分析工具之一,目的就是通過對結果的充分研究,找出最優的解決方案。比如歷史上我們的孫子兵法,其實就是一部博弈論著作,它裡面很多的知識,都是博弈論範疇。今天我們就找來一本書,好好聊聊博弈論,書名叫做妙趣橫生的博弈論,副標題是事業與人生的成功之道,號稱是西方世界的孫子兵法。