【導讀】「冷撲大師」是基於卡內基梅隆大學Tuomas Sandholm教授和博士生Noam Brown所開發的Libratus無限德州撲克人工智慧系統。
卡內基梅隆大學的 Libratus 採用的是一種名為 「納什均衡」的對戰策略,在這一策略裡,只要其他玩家的策略保持不變,單一玩家就無法通過變換策略獲益。

什麼是納什均衡? 納什均衡是指博弈中這樣的局面,對於每個參與者來說,只要其他人不改變策略,他就無法改善自己的狀況。納什證明了在每個參與者都只有有限種策略選擇並允許混合策略的前提下,納什均衡定存在。以兩家公司的價格大戰為例,價格大戰存在著兩敗俱傷的可能在對方不改變價格的條件下既不能提價,否則會進一步喪失市場;也不能降價,因為會出現賠本甩賣。於是兩家公司可以改變原先的利益格局,通過談判尋求新的利益評估分攤方案,也就是納什均衡。

Libratus 要做的就是識別沒有希望的策略,從而更快地找到納什均衡點。經過反覆的訓練後,Libratus 已經能夠忽略那些糟糕的路徑了。
Libratus的良好戰績 2017年1月11日至30日,Libratus與4名人類選手共玩了12萬手一對一不限注德州撲克,最終奪得勝利拿到了20萬美元獎勵。這是AI Libratus首次在無限注撲克(詳細說來,是一對一無限注德州撲克)中擊敗了頂級職業玩家。(NoamBrown表示所有的錢都付給了專業玩家(當然取決於他們玩得多好)。也很希望拿一部分獎金來做自己學生的費用開銷。) 2017年4月6日至10日,經過為期5天的角逐,Libratus對戰「龍之隊」表演賽在海南生態軟家園結束了,「冷撲大師」最終以792327總記分牌的戰績完勝並贏得200萬獎金。

研發團隊發表的論文被評為NIPS2017的最佳論文 在深度學習火的一塌糊塗的2017年,Libratus研發團隊竟然使用非深度學習方法得出的研究論文拿下了最佳論文,這讓吃瓜群眾和業內人士感動有些意外。 最佳論文:《Safe and Nested Subgame Solving for Imperfect-Information Games》 翻譯為:《在不完全信息博弈中安全、嵌套地求解子博弈》 於是很多人問了,AlphaZero能打敗Libratus嗎?Tuomas Sandholm教授表示,不會的,因為AlphaZero不玩不完備的信息博弈。(德撲屬於不完備信息博弈) 同時NoamBrown還表示Libratus沒有使用到任何深度學習技術。因為深度學習本身並不足以玩撲克這樣的遊戲。
德撲、圍棋與宇宙複雜度對比:
一個太陽大概有10的57次方個氫原子宇宙有10的23次方個類似太陽的恆星宇宙中有10的80次方個原子一對一無限注德撲有10的161次方種不同情況圍棋有10的170次方的可能性
Libratus的爆冷在人工智慧領域有著很大的意義,最起碼讓我們看到了除了深度學習,人工智慧還有很多其他的路可以走,相比於「冷撲大師」完勝人類選手,AlphaZero擊敗柯潔的震撼也變得不那麼明顯了。 【人工智慧新時代,關注你所你關注的】