博弈論速成指南:那些融入深度學習的經典想法和新思路

2020-11-27 手機鳳凰網

選自TowardsDataScience

作者:Jesus Rodriguez

機器之心編譯

參與:魔王、杜偉

隨著人工智慧的發展,博弈論迎來了復興。關於博弈論,數據科學家需要了解哪些經典思想和新思路呢?本文作者就這些問題一一展開了分析。通過此文,相信讀者會對博弈論的概念和分類有更清晰的理解。

博弈論是最讓人著迷的數學領域之一,它影響了多個不同領域,如經濟學、社會科學、生物學,顯然還有計算機科學。博弈論的定義有很多,但我認為以下這個定義非常有幫助,儘管它過分簡潔:

博弈論是具備激勵機制的概率。

遊戲在人工智慧發展過程中起到關鍵作用。對於初學者而言,遊戲環境在強化學習或模仿學習等領域中逐漸成為流行的訓練機制。理論上,任何多智能體 AI 系統都要經歷玩家之間的遊戲化交互。構建遊戲原則的數學分支正是博弈論。在人工智慧語境和深度學習系統語境下,要想使多智能體環境具備一些必備的重要能力,博弈論必不可少。在多智能體環境中,不同的 AI 程序需要交互或競爭才能達成目標。

博弈論的歷史與計算機科學史密不可分。目前博弈論領域中的許多研究可以追溯至阿蘭·圖靈、馮·諾伊曼這些計算機科學先驅的工作。因電影《美麗心靈》而聞名於世的納什均衡(Nash equilibrium)是現代系統中很多 AI 交互的基礎。但是,利用博弈論原則多次建模 AI 宇宙超出了納什均衡的範疇。想理解如何利用博弈論構建 AI 系統,最好先理解我們在社會或經濟互動中常遇到的博弈類型

我們每天參與數百種基於遊戲動態(game dynamics)的交互。但是,遊戲化環境的架構與此完全不同,其激勵和參與者目的也不相同。如何將這些原則應用到 AI 智能體建模中呢?這個難題推動 AI 研究某些領域的發展,如多智能體強化學習。

顯然,遊戲是博弈論最具可見性的實體,但它遠遠不是應用博弈論概念的唯一空間。也就是說,還有很多其他領域也受到博弈論和 AI 的共同影響。大多數需要多個「參與者」合作或競爭才能完成任務的場景都可以利用 AI 技術進行遊戲化和改進。儘管之前的陳述是一種泛化,但我認為它傳達出了一個信息:博弈論和 AI 是一種思考和建模軟體系統的方式,而不只是一種技術。

利用博弈論的 AI 場景應包含不止一個參與者。例如,Salesforce Einstein 這類銷售預測優化 AI 系統就不是應用博弈論原則的完美場景。但是,在多智能體環境中,博弈論又有明顯不同。

在 AI 系統中建構遊戲動態需要兩步:

參與者設計:博弈論可用來優化參與者的決策,以獲得最大效用;

機制設計:逆博弈論(inverse game theory)主要為一組智能參與者設計遊戲。拍賣就是機制設計的經典案例。

那麼 AI 時代的數據科學家又需要了解哪些博弈呢?這些博弈彼此之間是否存在著聯繫呢?本文作者、Invector Labs 首席科學家兼執行合伙人 Jesus Rodriguez 對此發表了自己的看法。

本文作者 Jesus Rodriguez。

數據科學家應該知道的 5 種博弈

假設我們正在構建一個需要多個智能體互相合作競爭才能完成特定目標的 AI 系統,即博弈論的經典場景。自 20 世紀 40 年代誕生以來,博弈論專注於建模最常見的交互模式,現在我們每天在多智能體 AI 系統中看到的就是它們。理解環境中不同類型的遊戲動態是設計高效遊戲化 AI 系統的關鍵元素。從較高層次來看,五元素標準有助於理解 AI 環境中的遊戲動態,即對稱 vs 非對稱、完美信息 vs 非完美信息、合作 vs 非合作、同時 vs 序列和零和 vs 非零和。下面將一一展開介紹。

作者提出的五元素標準。

對稱 vs 非對稱

最簡單的一種博弈分類方式是根據對稱性進行分類。在對稱博弈環境裡,每個玩家具備同樣的目標,結果僅取決於策略。西洋棋就是一種經典的對稱博弈。我們在現實世界中遇到的很多場景缺少對稱的數學優雅性,因為參與者通常目標不同,甚至還存在衝突。商務談判則屬於非對稱博弈,參與各方目標不同,並從不同的角度來評估結果(例如,贏得合同 vs 最小化投資)。

完美信息 vs 不完美信息

另一種重要的博弈分類方式基於可獲取信息類型。完美信息博弈指每個玩家都能夠看到其他玩家的行動,例如西洋棋。在很多現代交互的環境中,每個玩家的行動是對別人隱藏的,博弈論將這些場景歸類為不完美信息博弈。從撲克等紙牌遊戲到自動駕駛汽車,不完美遊戲博弈就在我們身邊。

合作 vs 非合作

在合作博弈環境中,不同的參與者可以通過結盟來最大化最終結果。合同談判通常被認為是合作博弈。在非合作博弈環境中,參與者禁止結盟。戰爭是非合作博弈的終極案例。

同時 vs 序列

在序列博弈環境中,每個玩家了解對手之前的動作。棋盤遊戲本質上最具序列博弈屬性。在同時博弈場景中,雙方可以同時行動,例如證券交易。

零和 vs 非零和

零和遊戲指一方有得其他方必有失,例如棋盤遊戲。非零和遊戲中,多個玩家可以從其他玩家的動作中獲益。經濟交互中多個參與者合作擴大市場規模就是非零和博弈。

納什均衡

對稱博弈統治 AI 世界,其中大多數基於 20 世紀最著名的數學理論之一:納什均衡。納什均衡以美國數學家 John Forbes Nash 命名。本質上,納什均衡描述了這樣的場景:每個玩家選擇一個策略,當一個玩家不改變策略時,沒有玩家能從改變策略中獲益。

已故美國數學家、經濟學家 John Nash。

納什均衡是一個優美且強大的數學模型,它可以解決很多博弈論問題,但在一些對稱博弈環境中捉襟見肘。對於初學者而言,納什方法假設玩家具備無限的計算能力,而現實環境中幾乎不存在這種情況。

此外,很多納什均衡模型無法解釋風險概念(常見於大多數非對稱博弈場景,如經濟市場)。因此,很多非對稱博弈場景很難利用納什均衡實現。在多智能體 AI 系統中這一點尤為重要,這需要在解決方案的數學優雅性和實現的可行性中找到合適的平衡。

博弈論中正在影響機器學習的新想法

多智能體 AI 系統是 AI 生態系統中最讓人著迷的領域之一。多智能體系統等領域的近期進展擴展了博弈論的邊界,它依賴該領域中最複雜的思想。作者在下文又列舉了出現在現代機器學習中的博弈論子領域的示例。

平均場博弈

平均場博弈(Mean Field-Games,MFG)是博弈論中比較新的領域。MFG 理論誕生於 2006 年,是 Minyi Huang、Roland Malhamé、Peter Caines、Jean-Michel Lasry 和菲爾茲獎得主 Pierre-Louis Lions 發表的一系列獨立論文中的一篇。

從概念上看,MFG 包含的方法和技術用於研究由「理性博弈方」組成的大群體下的微分博弈。這些智能體不光對自己的狀態(如財富、資產)有偏好,對群體中其他智能體的分布也存在偏好。MFG 理論為這些系統研究泛化納什均衡。

經典的案例是如何讓幾個魚群以比較協調的方式沿相同方向遊動。理論上,這種現象很難解釋,不過它基於這一事實:魚對最鄰近魚群的行為有反應。具體而言,每條魚並不關心其他魚,但是它關心附近作為一個整體統一移動的魚群。如果我們用數學術語表述的話,魚對魚群的反應是哈密頓-雅可比-貝爾曼方程(Hamilton-Jacobi-Bellman equation,簡稱 HJB 方程)。而整個魚群的行動是所有魚的動作集合,這對應了福克-普朗克方程(Fokker-Planck-Kolmogorov equation)。平均場博弈理論是這兩個公式的結合體。

平均場博弈中的魚群統一遊動經典案例。

隨機博弈

隨機博弈可以追溯至 1950 年代,由諾貝爾經濟學獎獲得者 Lloyd Shapley 提出。從概念上來看,隨機博弈由有限數量的玩家在有限狀態空間中執行,在每個狀態中,每個玩家從有限多的動作中選擇一個;最終動作組合決定了每個玩家的獎勵和下一個狀態的概率分布。

已故數學家、隨機博弈概念提出者 Lloyd Shapley。

隨機博弈的經典形式是哲學家晚餐問題:有 n + 1 位哲學家 (n ≥ 1) 坐在圓桌旁,圓桌中間有一碗米飯,任意兩位相鄰的哲學家之間有一根筷子,筷子在兩人可及範圍內。由於桌子是圓的,因此筷子的數量與哲學家人數一樣。為了吃到碗中的米飯,每位哲學家需要拿到可及範圍內的兩根筷子。如果一位科學家吃到了,那麼他的兩位鄰座就不能同時吃到。哲學家的生活很簡單,只有思考和吃飯,為了生存,哲學家必須一次次地思考和吃飯。該任務就是設計一個使所有哲學家生存下去的機制。

隨機博弈中的哲學家晚餐經典案例。

演化博弈

演化博弈論(Evolutionary Game Theory,EGT)從達爾文進化論中獲得靈感。EGT 的起源可以追溯至 1973 年的 John Maynard Smith 和 George R. Price,也可以作為策略來分析,該數學標準可用於預測競爭策略的結果。

從概念上看,EGT 是博弈論概念在如下場景中的應用:通過選擇和複製的進化過程,隨著時間的變化,智能體群體使用不同策略來創建穩定的解決方案。EGT 的主要思想是很多行為涉及群體中多個智能體的交互,任意一個智能體的成果都離不開其策略與其他智能體策略之間的交互。經典博弈論專注於靜態策略(即策略不隨時間變化),而演化博弈論專注於策略隨時間的變化,以及在進化過程中最成功的動態策略。

EGT 的經典案例是鷹鴿博弈,即讓鷹和鴿子圍繞可共用資源競賽。在該遊戲中,每位選手嚴格遵循以下策略中的一個或全部:

鷹:發起攻擊行為,在受傷或對手後退之前絕不停下。

鴿:如果對手發起攻擊行為,直接撤退。

如果我們假設存在如下情況:1)當兩個個體都發起攻擊行為時,戰鬥最終走向結束,二者具備同等受傷概率;2)戰鬥成本將個體的健康度降低了某個常量 C;3)當鷹鴿相遇時,鴿子直接逃跑,鷹獲取資源;4)兩隻鴿子遇到資源並平分資源,則鷹鴿博弈的健康情況如下所示:

逆博弈論

很多案例不需要優化參與者的策略,而是圍繞理智參與者的行為設計遊戲,這就是逆博弈論。拍賣被認為是逆博弈論中的主要案例。

總之,隨著人工智慧的發展,博弈論正在復興。阿蘭·圖靈或馮·諾伊曼等計算機科學界傳奇人物提出的博弈論原則現在已經是全球某些最智能系統的核心,人工智慧近期進展也有助於推動博弈論研究的發展。隨著 AI 繼續進化,我們將看到更多博弈論新想法找到融入主流深度學習系統的方式。

相關焦點

  • AI的博弈論,一份插圖教程
    事實上,博弈論已經開始在人工智慧中確立自己的地位——你能猜到它在哪裡嗎?其中一個是生成對抗網絡(GANs)的概念。它們被引述如下:「這是過去二十年來機器學習中最酷的想法。」博弈論的核心實施在於信息不完全博弈。正如我們已經討論過的,撲克是一個經典例子,它也是AI應用在不完全信息上一個不錯的基準問題。不完全信息非常重要,因為現實世界中的問題常常屬於這一類。迄今為止,在人工智慧的歷史上,機器學習和深度學習方法在不完全信息遊戲方面還暫時未取得特別大的成功。
  • 囚徒的困境-博弈論
    中國的圍棋和印度的「恰多蘭加」遊戲,以及世界上其他地方的許多遊戲,也都是模仿戰爭的。那些把遊戲看作模擬戰爭的人,也可以把戰爭看作一種遊戲。這方面的一個經典的例子是普魯士人在長達一個世紀的時期內都迷戀一種名叫Kriegspiel的遊戲,也就是戰爭遊戲在18世紀,Kriegspiel被軍事學校當作教育科目之一。
  • 漫談博弈論
    總的發現是,它的很多結果與博弈論的分析有較大的出入。能發現現實中大家決策的真實規律,這當然是非常有意義的工作;但是,並不能用這些實驗結果來簡單地否定依靠完全理性模型得出的結論。經常有科學家宣稱,他們的實驗結果推翻了經典博弈論的預測。這是非常不合適的說法。
  • 博弈論,誰主沉浮?
    這是一部由博弈領域的兩位領軍人物——朱·弗登博格和讓·梯若爾編著的集大成之作,囊括了迄今為止除演化博弈之外的所有博弈論的理論和方法,代表了博弈論發展的最高水平。它不僅涵蓋了博弈論的方方面面,而且幾乎對每一個論題都給出了嚴密的數學推導和證明。《博弈論》具有以下幾個特點:第一,覆蓋面廣,幾乎涵蓋了博弈論的各個領域。
  • 博弈論思想
    如,定理——在平面內,三角形的內角和是180°就不是物質了。b, 熵,簡單理解為 混亂程度,我以後會深入 講講 入門的熵,今天簡單提一下。熵用S表示,△S>0,即 熵的改變量大於零,稱為熵增。 反之,熵減。
  • DeepMind將博弈論融入多智能體研究,讓納什均衡變得更簡單
    在 DeepMind 的最新論文(發表在 Scientific Reports , Nature 出版社旗下雜誌)中,研究人員用了博弈論來闡明這一問題。雷鋒網了解到,具體來說,他們研究了兩套智能系統在非對稱博弈遊戲(asymmetric game)中的反應和表現,這些遊戲包括 Leduc 撲克和一些圖版遊戲(如 Scotland Yard)。
  • 告別2019:屬於深度學習的十年,那些我們必須知道的經典
    在這十年中,伴隨著計算能力和大數據方面的發展,深度學習已經攻克了許多曾經讓我們感到棘手的問題,尤其是計算機視覺和自然語言處理方面。此外,深度學習技術也越來越多地走進我們的生活,變得無處不在。這篇文章總結了過去十年中在深度學習領域具有影響力的論文,從 ReLU、AlexNet、GAN 到 Transformer、BERT 等。
  • 博弈論雜談:基本假設
    今天我們來點學術的話題,博弈論的基本假設。經典博弈論研究中的一個基本假設,就是參與人是完全理性的。什麼是完全理性?實話實說,學術界對此還沒有達成共識,這就讓我們很糾結了,因為對於博弈論來說,這是一個十分核心的問題。能不能搞清楚,這是學術大佬的事兒,我估計是搞不清楚了,但其實,這並不影響我們來了解博弈論。
  • 美國工程院院士深度解析:博弈論與控制面臨哪些挑戰和機遇?
    ),談到了最近博弈論在控制和網絡研究中的新興角色、它如何將控制領域的邊界拓展到工程以外的學科,以及未來的機遇和挑戰。2005年,博弈論方面的第二次諾貝爾獎頒給了羅伯特•奧曼(Robert Aumann)和託馬斯•謝林(Thomas Schelling),獲獎理由是「通過博弈論分析加深了我們對衝突和合作的理解」。
  • 量子博弈論基本原理的簡單解釋
    量子博弈論,英文Quantum Game Theory,是量子理論與博弈論相結合的一門新型理論,通過對博弈現象的認知決策過程進行建模,運用量子力學理論數學方法,研究與描述博弈現象及其對策的交叉科學。量子博弈論是在經典博弈論基礎上結合量子理論而發展起來的。為解釋量子博弈論基本原理,有必要首先得從經典博弈論及其博弈的基本概念說起。
  • 從空城計到阿爾法狗,博弈論如何滲透我們的生活?
    當我們想讓計算機和機器去像人類一樣學習、思考和行為,實際上就是在讓機器對其自身、對手和環境進行認知和智慧博弈。人工智慧也就是要把博弈論機器化。 如果要把人工智慧改稱為「人工博弈論」(Artificial game theory),肯定會有人反對。「Come on, 作博弈論的一邊玩遊戲去。我們還在忙著看圖識字呢!」
  • 利用博弈論尋找地外智慧
    曼徹斯特大學的天文學家Eamonn Kerins開發了一種在其他行星上尋找智能外星生物的方法,這涉及到使用博弈論他已經寫了一篇論文,描述了他的想法,並將其上傳到arxiv預印本伺服器。目前在其他行星上尋找智能生命的方法基本上是雙管齊下的。一種方法包括掃描天空,尋找來自太空的信號,這些信號可能是由智能生物創造的。
  • 學習了!谷歌今日上線基於TensorFlow的機器學習速成課程
    隨著機器學習越來越受到公眾的關注,很多初學者希望能快速了解機器學習及前沿技術。而今天谷歌上線了基於 TensorFlow 的機器學習速成課程,它包含 40 多項練習、25 節課程以及 15 個小時的緊湊學習內容。
  • 指南針全贏博弈股票軟體2013簡介
    指南針全贏博弈股票軟體2013 炒股軟體 大小: 115.0 KB 版本
  • 李呈赫教你了解博弈論的詭計
    在博弈中,每個參與者都在特定條件下爭取其最大利益,強者未必勝券在握,弱者也未必永無出頭之日,因為在博弈中,特別是多個參與者的博弈中,結果不僅取決於參與者的實力與策略,而且還取決於其它參與者的制約和策略。 事實上,博弈過程本來就不過是一種日常現象。
  • 今日Paper|虛假新聞檢測;馬爾可夫決策過程;場景文本識別;博弈論...
    最近基於深度學習的方法在虛假新聞檢測任務中取得了令人欣喜的性能表現,但是訓練此類模型需要大量標註數據,同時由於新聞的動態性質,帶標註的樣本可能會很快過時,無法代表新出現事件的新聞報導。因此如何獲得新鮮且高質量的標註樣本是將深度學習模型用於虛假新聞檢測的主要挑戰。
  • 諾貝爾獎又雙叒叕頒給了博弈論:博弈論為何如此被偏愛?
    羅伯特·威爾遜(Robert Wilson)的主要研究領域為:經濟學一般理論、經濟學數學方法、博弈論以及交易理論。威爾遜試圖利用博弈論作為基礎來重構經濟學理論,並利用博弈論將現實中經常發生的現象引入經濟學理論。
  • 黃昱寧︱當簡·奧斯丁遇見博弈論
    對於核心術語「博弈論」,它給出的定義通俗易懂:博弈論基於理性選擇理論,考量的是兩個或兩個以上的個體之間的相互作用,是運用理論化和專業化的方式去解釋「人們為什麼要這樣做,而不是那樣做」。它是過去五十年間,尤其在政治和經濟領域中廣為接受和最為流行的人類行為動機理論。
  • 博弈論大師約翰·納什與美麗心靈
    我知道約翰·納什這個名字,是因為研讀博弈論,當時並沒有太關注納什的故事,直到自己休學後回校的幾年裡。當時,精神科的教授說我有精神分裂症,我嘲笑他的診斷有幾年時間,對於一個對自己智商餘額很自信的人不可能去相信他的結論,直到後來我發現自己的與同學們和外部世界的隔閡。
  • 諾貝爾獎得主澤爾滕眼中的納什和博弈論
    在納什意外逝世之際,我們找出這篇10年前的訪談,希望以澤爾滕之口,還原更為真實的納什和博弈論。1994 年, 澤爾滕因其在「非合作博弈理論中開創性的均衡分析」中的傑出貢獻而獲得諾貝爾經濟學獎。他是目前為止唯一一個獲得諾貝爾經濟學獎的德國人, 也是現在德國實驗經濟學的代表人物。