隨著高新技術的飛速發展和科學研究的高度交叉融合,現代智能控制理論面臨的一個挑戰性的問題就是:當控制對象具有一定智能行為時,如何設計控制器使得閉環系統穩定且動態性能優異?這也是新一代人工智慧的一個核心研究課題,引起了控制論、博弈論、人工智慧等多個領域專家學者的極大關注。傳統的控制技術,如PID控制、LQG控制很難適用於日益複雜(不確定、網絡化、智能化、多尺度、多模式、隨機性、非線性、時變性等)的控制對象,急需建立新的研究框架和範式。
北京大學工學院王龍課題組與美國哈佛大學Martin A. Nowak課題組合作,在博弈動力學(game dynamics)研究方面取得重要突破。他們探討了個體行為與環境交互作用下的博弈動力學,揭示了環境狀態反饋能夠極大地促進合作行為的演化。該成果以「Evolutionary Dynamics with Game Transitions」為題於2019年11月26日在線發表於國際頂尖學術期刊《美國科學院院刊》(Proceedings of the National Academy of Sciences)上。
從微生物群體、群居動物到人類社會,合作現象普遍存在於自然界中。各層次的生命組織,從基因、基因組、染色體、真核細胞到多細胞組織,都依賴合作維持生存和發展。合作行為通常會降低個體自身的利益,理解群體合作行為的演化是一個經典難題,已經引起演化生物學、物理學、經濟學、社會學、心理學、生態學、計算機科學等領域學者的廣泛關注。相關成果涉及到進化計算、集群智能、氣候變化、資源利用、疾病治療、智能交通系統、移動傳感器網絡、多機器人協作控制乃至商貿談判、軍備競賽、大國博弈等諸多重大問題。
傳統上,對合作演化的探討主要集中在靜態的交互環境中,即在演化過程中個體所處環境的狀態是恆定不變的。近年來,大量實證研究表明,環境的狀態通常隨著時間發生改變。因此,個體行為影響了環境的狀態,環境的狀態反過來也影響了個體的行為決策,形成一個人在迴路(human-in-the-loop)的反饋控制系統。一個自然的問題便是:個體行為和環境狀態的交互作用如何影響了合作行為的演化?
博弈切換下的演化動力學框架
北京大學系統與控制研究中心王龍課題組與美國哈佛大學Martin A. Nowak 課題組合作,借鑑混雜系統(hybrid systems)控制的思想,提出了博弈切換的演化動力學框架,即不同的博弈模式對應不同的環境狀態,個體的行為和當前時間進行的博弈共同決定下一時間進行的博弈。基於此研究框架,他們研究了網絡結構群體的合作演化,提出了邊嵌入的對估計方法(edge-embedded pair approximation), 並結合擴散近似(diffusion approximation),解析地建立了網絡上合作演化的一個基本判據:當合作行為產生的收益b與其代價c的比值超過k-h時,合作行為能夠演化,其中k是每個個體的平均鄰居數量,h刻畫了博弈切換的影響。即使合作在任何單一的博弈模式下都無法演化,這樣的博弈切換——合作導致相對高價值的博弈,而背叛導致相對低價值的博弈——能夠促進合作演化。特別地,這些博弈模式之間很小的差異也能夠顯著地促進合作演化。這項工作一方面反映了環境反饋對合作演化的促進作用,為高度連接的複雜系統中大規模合作的湧現提供了理論解釋;另一方面也表明可以通過調控環境的狀態實現群體的合作。
博弈切換促進合作行為的演化
王龍課題組成員、工學院2014級博士生蘇奇為本文第一作者,Alex McAvoy博士、王龍教授和Martin A. Nowak教授為本文共同通訊作者,北京大學為本文第一單位。本研究得到了國家自然科學基金、國家建設高水平大學公派研究生項目的支持。