如果說有一種解決問題的方法能跨域文化、種族和地域,那麼除了抽籤這種純靠運氣的方式,恐怕只剩下猜拳了。
人們普遍認可 「石頭-剪刀-布」 三者之間的克制關係。「公平+隨機」 的特性使其不僅是活躍氣氛的小遊戲,更能作為一種相對公平的解決問題的手段,廣泛應用在解決分歧,決定順序,或者確定歸屬的關鍵時刻。
更不用說,在誰洗碗、誰拖地、誰做飯之類的家務活上,猜拳自帶的 「願賭服輸」 可以有效維繫家庭和睦,堪稱隨叫隨到的家庭關係調解員。
在大多數人的認知裡,猜拳是隨機事件,玩家獲勝的概率應該是一樣的且恆定在三分之一,但事實可能並非如此。
近日,浙江大學何賽靈教授的研究團隊開發了一個基於馬爾可夫鏈的 AI 模型,專門用來玩猜拳遊戲。在和 52 名人類玩家分別大戰 300 回合之後,AI 擊敗了 95% 的玩家。
AI 模型淨勝場數變化
對於人類玩家來說,規則是贏 +2 分,平 +1 分,輸不得分。在與 AI 對戰之前,參與者知道獲勝會獲得金錢獎勵,總分越高,贏的錢越多。因此玩家故意放水或者隨便亂選的概率極低。
即便如此,AI 仍然大勝人類。在最懸殊的一場較量中,AI 獲得了 198 次勝利,55 次平手,僅輸了 47 次,勝率超過人類對手 4 倍。全部 15600 回合詳盡的原始博弈數據,在論文的補充資料中給出(詳見參考文獻)。
如果猜拳勝負真的是隨機概率,那麼從統計學的角度來講,15600 場比賽下來,AI 獲得如此大優勢的概率非常低。
擁有「智囊團」的Multi-AI模型
本質上來看,猜拳屬於博弈問題,其背後蘊藏著經典的納什均衡,而每個個體的習慣、認知、策略和策略變化都會影響實際勝率。比如你和對手很熟悉,那麼你可能知道他/她經常出布,因此可以多出剪刀來克制。
浙江大學何賽靈教授團隊提出的 AI 模型就是利用了類似的方法,證明了猜拳真的存在針對不同個體的長期制勝策略,可以有效提高勝率。
這套 AI 模型基於 n-階馬爾可夫鏈設計,擁有記憶性,能夠向前追溯最多 n 個歷史狀態並加以利用。
為了在實戰中應對人類玩家的不同性格和策略,研究團隊還發明了一套 Multi-AI 模型。
「建立對每個人都有效的單一模型很困難,因此我們決定將單個模型結合起來,使其能夠區分和適應更多不同的競爭策略。」 研究人員在論文中解釋稱。
在與人類對戰的第一套 Multi-AI 模型中,他們放入了 1-5 階馬爾可夫鏈,即 5 個獨立的 AI 模型,分別參考之前 1-5 個動作。Multi-AI 會從整體上參考 5 個 AI 模型各自的決策,至於選擇哪個,還要看它們最近 5 次的表現。
這裡的 「最近 5 次」 被定義為一個超參數,名為 Focus length,可以視情況調整大小,實現進一步優化。在與人類對戰的第二套 Multi-AI 模型中,該參數就被設為了 10。
打個比方,每一個 n 階馬爾可夫鏈模型就像是一位軍師,各自有不同的決策標準。而 Multi-AI 模型就是司令,手底下有好多名軍師組成的智囊團。做決策時,每個軍師會提交自己的出拳建議,司令會根據他們過去幾次(Focus Length)的表現,採納綜合分數最高的人的建議,以提高長期勝率。
如果人類玩家連續勝利,就會促使 Multi-AI 轉向選擇其他 AI 模型的更優解。如果人類玩家連續失敗,大概率會轉換策略,或者打破之前的出拳規律,這時 Multi-AI 也可以隨之調整。
最終的社會實驗結果反映出了這個想法的有效性。在 52 名志願者中,只有不到 5 人擊敗了 AI。很多人都在最初 20-50 個回合裡處於領先,但隨後就被 AI 捕捉到了隱藏的行為模式,飲恨敗北。
那些擊敗 AI 的人,勝率也只是稍微高出一些,並未拉開太大差距。
6 年前被質疑的研究
值得一提的是,在開發 AI 模型背後的算法時,研究團隊閱讀了 6 年前另一個浙大團隊的研究成果,但使用了另一種不同的博弈策略。
相較於之前對於所有玩家數據整體以統計學的方式進行研究,這裡的 Multi-AI 模型更強調針對不同玩家之間的個性差異、出拳策略,來及時的進行調控,選取當下最適宜的博弈策略。
2014 年 5 月,很多媒體都報導了一項以 「石頭剪刀布」 遊戲為對象的科研成果。
這項研究課題原本是 「可控實驗社會博弈系統中一些非平衡統計物理問題」,但媒體和輿論關注的重點大多是 「如何提高猜拳勝率」,因此還被質疑是浪費經費。
其實不然。這項研究還被《麻省理工科技評論》評為 2014 年最佳成果(預印本)之一。
編輯:王星
圖文來源:Deeptech深科技
聲明:轉載此文是出於傳遞更多信息之目的。若有來源標註錯誤或侵犯了您的合法權益,請作者持權屬證明與本網聯繫,我們將及時更正、刪除,謝謝。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺「網易號」用戶上傳並發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.