CMU風頭被搶 新型DeepStack算法搶先攻克德州撲克圖靈測試

2020-12-17 網易手機

(原標題:CMU風頭被搶 新型DeepStack算法搶先攻克德州撲克圖靈測試)

在國外的學術圈裡,有一份論文火了。論文裡進行的研究表明,人類歷史上第一次,AI在德州撲克遊戲上贏得了人類職業玩家。而這份論文的突破性意義在於:AI在非完整信息的博弈遊戲中,贏得人類職業對手。這篇論文的名字是《DeepStack:無限下注撲克裡的專家級人工智慧》(DeepStack: Expert-Level Artificial Intelligence in No-Limit Poker),1月6號提交到了ArXiv上。

論文作者是來自加拿大Alberta大學、捷克Charles大學、布拉格捷克理工大學的研究人員。而論文題目裡的DeepStack,是一種新型的算法名稱,論文裡說明到「DeepStack 是一種通用算法,可用於一大類非完整信息的序列博弈」。在一項涉及到數十位參與者和4.4萬手撲克的研究中,DeepStack 成為了世界上第一個在「一對一無限注德州撲克」上擊敗了職業撲克玩家的電腦程式。

什麼是「一對一無限注德州撲克」(HUNL)

德州撲克的英文名稱是「Texas Hold'em」,而「一對一無限注德州撲克」(Heads-up no-limit,簡稱 HUNL)的意思,就是有2個玩家且不限下注籌碼。這篇論文裡的自然就是計算機和職業玩家挨個對局。

雖然是撲克,但跟鬥地主還是很不一樣的,它是「賭場」十分受歡迎的項目。這裡祭出視頻,幫大家理解一下德州撲克的規則和玩法。

從上面的視頻中,我們大致能了解一場德州撲克會有兩類信息:玩家每人手裡分到2張底牌的「私有信息」和桌子上公共牌的「公開信息」。玩家選擇5張公共牌裡的3張,與手裡的2張底牌組合,最後以期得到最好的5張牌的組合。按照「Card Ranking」決定最後的勝者。

在中國玩德州撲克的名人,一個是汪峰老師,另一個就是李開復老師。在知乎上「撲克有哪些技巧、經驗或者原則?」的提問下,排名第一的,就是李開復老師的答案,他尤其提到玩好詐唬(Bluffing,高手慣用技巧)的關鍵在於學好統計

德州撲克是新一代的圖靈測試?

德州撲克已經成為十分流行的人工智慧研究測試地,每一個撲克玩家手裡握著的底牌「私有信息」,是其它玩家看不到的,所以被稱為是「非完整信息」(Imperfect information)的博弈。這跟圍棋有很大不同,圍棋是完整信息公開的博弈,玩家們可以看到棋盤上的每個旗子,考慮所有落子的可能性。所以德州撲克對於人工智慧來說,更加具有挑戰性。

《DeepStack》這篇論文的通信作者 Michael Bowling曾經在2015年初接受《New Scientist》採訪時說道:「德州撲克最有趣的地方,就是你無法獲得完整的信息」。

而卡耐基梅隆大學(CMU)Tuomas Sandholm教授也說道:「撲克已經成為在非完整信息情況下,衡量(計算機)智能水平的標準......而它可以看做是一種超越圖靈測試的存在。

有趣的是,這兩位教授都在領導自己的團隊攻克這個新型圖靈測試,一位在加拿大Alberta大學,一位在美國CMU大學。

幾天前,CMU已經發出預告:由Tuomas Sandholm教授領導研發出的Libratus人工智慧系統,將於當地時間1月11日,在賓夕法尼亞州匹茲堡的 Rivers 賭場,與四個頂級職業玩家玩12萬手的HUNL,並角逐20萬美元的獎金。早在2015年,Libratus的前身Claudico與人類玩家首次對戰,在8萬手的對決中完敗,這次算是CMU的捲土重來。

但是我們已經知道了結果,Alberta趕在CMU之前,把就論文發出來了。學術圈人士紛紛表達讚美,稱DeepStack具有裡程碑意義(當然這份論文還未通過同行審議階段),然而跟CMU Libratus提前好幾天的預熱盛況相比,DeepStack並沒有得到等量的媒體待遇,也引發一些人的不滿。

CMU走的是當年AlphaGo的路線,在華麗的賭場搞一場秀,與人類頂尖玩家對戰,還有20萬美金的噱頭。所以這份DeepStack論文雖然比CMU更早取得突破,但陣仗不如後者大,媒體對其忽視了,也在情理。

總之一句話,Alberta搶了先,CMU搶了熱鬧(學術界的競爭也是異常激烈的)。

此份DeepStack論文的成果

DeepStack總共與33位人類選手進行了4.4萬手的較量,分別在2016年11月7日和12月12日之間於線上舉行對局。最終獲勝的前三位選手,分別有5000、2500和1250加元的獎勵。以下是對局結果。結果顯示,DeepStack的平均贏率為492 mbb/g(一般人類玩家到50 mbb/g就被認為擁有較大優勢,750mbb/g 就是對手每局都棄牌的贏率)。

前面我們提到,一場撲克的信息可以分為「私有」和「公開」,放在桌子中間的5張公開牌形成一種動態的「公開狀態」。遊戲中的公開狀態的可能序列構成一個公開樹(Public tree),其中每一個公開狀態都有一個相關的公開子樹(Public subtree)。

上圖是HUNL 中公開樹的一部分。紅色和藍色線條表示玩家動作,綠色線條表示公開的公共牌。圓形節點表示遊戲結束。

這張圖是DeepStack整體架構,分為(a)(b)(c)三個部分。在(a)中,DeepStack在每一個公開狀態裡, 都要重新計算它需要的動作,其中子樹值(Subtree value)會通過一個訓練好的深度神經網絡 Neural net(b)來計算,而訓練Neural net的樣本就是(c)。

總的來說,DeepStack結合了遞歸推理(Recursive reasoning)來處理信息不對稱性,還結合了分解(Decomposition)集中計算到相關決策上,並形成了一種關於任意牌的直覺(Intuition),這種直覺可以使用深度學習進行自我玩牌而自動學習到。

[廣告]活動入口:

買美股,上老虎 - 超低佣金,每股只需1美分

本文來源:cnbeta網站 責任編輯:王曉易_NE0011

相關焦點

  • CMU懟上了:DeepStack算法的水平,我們2年前就達到了
    昨天雷鋒網報導了一篇名為《DeepStack:無限下注撲克裡的專家級人工智慧》(DeepStack: Expert-Level Artificial Intelligence in No-Limit Poker)的論文,這篇論文提出了一種名為DeepStack的新型算法,並稱「DeepStack
  • 天天德州撲克算法 天天德州撲克算牌須知
    原標題:天天德州撲克算法 天天德州撲克算牌須知   本文將告訴你,高手是這樣煉成的,首先要學會《天天德州》撲克計算法   撲克計算法主要是學習撲克的概率,簡單說,就是等來某種獲勝牌型的可能性(成牌概率),與底池提供籌碼(底池概率)之間的比較,如果底池籌碼足夠多,高於成牌可能,就玩下去,反之就棄牌。
  • 德州撲克講堂:高級技巧 勝率之攤牌勝率的算法
    原標題:德州撲克講堂:高級技巧 勝率之攤牌勝率的算法 行動勝率的算法。行動獲勝是德州撲克中唯二的獲勝方式,掌握了對手的棄牌率的話,就算手裡完全沒牌也可以輕鬆獲勝。然而具體打出對手穩定的棄牌則是一種高級技巧。對於初學玩家,推薦掌握好攤牌勝率的算法,穩當地用攤牌來獲勝。
  • AI 首次在德州撲克戰勝人類職業玩家,新算法讓機器擁有「直覺」
    von Neumann 最痴迷的一個遊戲是撲克,在這個遊戲中,玩家在得到自己的牌後,會輪流下注,讓對手跟注,他們或跟注或棄牌。撲克是一種非完美信息遊戲,玩家只能根據自己手上的牌提供的非對稱的信息來對遊戲狀態進行評估。  在一對一對戰(也就是只有兩位玩家)的有限下注德州撲克中,AI 曾經取得了一些成功。
  • 【深度】圖靈測試已OUT,這才是測試AI的更佳方法
    一直以來,圖靈測試最大的爭議就在於,究竟怎樣才算通過了測試。圖靈曾在1950年做出預測,到了21世紀,機器將可能具備通過30%測試題的能力。有些人就自以為是地解讀為這是機器能夠愚弄評審的程度。去年也有這麼一個熱度新聞:在倫敦英國皇家學會,有人宣稱一個聊天機器人通過了圖靈測試。但另一些人則視50%的正確率為通過標準。
  • CMU 德州撲克幕後英雄 AI 將在一對多比賽完勝人類
    Brown 還表示,稍作增強的 Libratus 有望在兩年內贏得無限手德州撲克 6 人桌(Six-Max)的比賽。   上個月月末,卡耐基梅隆大學的 AI 程序在「一對一不限注」的撲克比賽中,擊敗了一組世界級的德州撲克職業選手。出乎所有人的意外,這一程序對人類專業撲克手的勝利幾乎是壓倒性的:14bb/h。
  • 「德州撲克」線上線下流行 或成新型賭博方式
    以筆者所聞,在滬上年輕人中德州撲克有快速流行的趨勢,有的人還很迷戀。最文明的玩法是光比籌碼多少,經常是輸家請大家一起吃飯,最常見的還是「小賭怡情」。   因為這個稿子,知道了兩件事:一是德州撲克成了智力運動項目,二是變成了新型的賭博方式,公安部門將查處。很多事物,都有正反兩面,控制在法律、理性的範圍內,會很美好,反之,會變成魔鬼。德州撲克同樣如此,希望同好者自律、自重。
  • 德州撲克算法幕後研發者CMU博士Brown專訪:AI如何打敗頂級人類牌手?
    Libratus由  Noam Brown和 CMU教授Tuomas Sandholm共同研發,並且是CMU這一系列撲克機器人裡面最新的一款。此前,還沒有任何機器人能在單挑無限注德州撲克中打敗世界級人類選手。
  • 德州撲克策略:勝率之攤牌勝率
    原標題:德州撲克策略:勝率之攤牌勝率   行動獲勝是德州撲克中唯二的獲勝方式,掌握了對手的棄牌率的話,就算手裡完全沒牌也可以輕鬆獲勝。然而具體打出對手穩定的棄牌則是一種高級技巧。對於初學玩家,推薦掌握好攤牌勝率的算法,穩當地用攤牌來獲勝。
  • 德州撲克:AI打牌也能完勝人類了
    筆者從完美信息博弈類遊戲的理論出發, 分析了AI打德州撲克為何能打贏人類?前段時間,受周圍朋友的影響,喜歡上了德州撲克,享受和牌友心理博弈的過程,也享受「賭博」帶來的快感。幾年前也是輝煌過的~~~德州撲克怎麼玩?
  • AI在德州撲克上打敗人類為什麼是個大事件?9個問答告訴你
    這種複雜的撲克玩法是人工智慧(AI)最新涉足的領域,目前已經被成功徵服——且成功了兩次,徵服者分別為兩個不同研究團隊所研製的對戰機器人。這兩個人工智慧挑戰的都是「無限注」雙人德州撲克,而且在過去幾個月中都取得了裡程碑式的成就——他們打敗了人類職業選手。去年12月,DeepStack率先贏得比賽。
  • 德州撲克:混金融圈的標配
    很顯然,他們都是德州撲克的玩家——raise指的是加注,miniraise是指比前者所下注碼剛好翻一倍。 只要是對金融圈有一定了解,對於德州撲克這個在美國猶如中國麻將的娛樂,應該都有所了解,德州撲克20世紀初起源於美國德州布斯鎮,每年WSOP主賽事無限注德州撲克在體育頻道ESPN
  • 德州撲克是智力運動還是賭博 中國開展需要規範
    也許是因為名人汪峰出席了德州撲克南京賽慈善賽,所以在德州撲克南京賽日前被曝出涉賭之後,這一事件立即引起了前所未有的關注,而德州撲克這項「智力運動」也成為人們關注的焦點。德州撲克是世界上最流行的公牌撲克衍生遊戲,也是國際撲克比賽的正式競賽項目之一。
  • 攜Science封面、NIPS最佳論文,CMU大神Noam博士畢業,論文已公開
    機器之心報導作者:杜偉還記得在雙人無限撲克和多人無限撲克中戰勝人類頂級玩家的遊戲 AI 系統和 嗎?近日,這兩個 AI 系統的開發者之一、CMU 大神宣布其完成博士論文,並即將從 CMU 畢業。
  • 德州撲克新手必知玩法分類介紹
    在網上的在線德州撲克室裡通常德州撲克分三大類:有限下注桌(Limit Texas) ;壓注限制桌(pot limit),無  德克薩斯撲克遊戲截圖限下注桌(No-Limit)。 有限下注德州撲克(Limit Texas) 是指每輪下注過程中,最高下注額有一定限制。
  • 國內首個聚樂版德州撲克登錄QQ遊戲大廳
    全新改版的《聚樂版德州撲克》,以簡潔的設計風格、強大的好友約戰功能,定能在玩家聚會時,帶來更出色的社交亂鬥體驗,增添無窮樂趣。此外,Android版QQ遊戲更享有專屬的「免流量遊戲分享」功能,一秒實現玩家「聯機」打牌,免流量直接安裝《聚樂版德州撲克》。據測試,傳輸速度高達2MB/s,讓玩家在聚會時隨時隨地眾樂一把。
  • 智力與運氣《德州撲克》五大特色詳解
    摘要:智力與運氣的交纏:遊藝《德州撲克》五大特色詳解正文:2010年1月19日,遊藝世界旗下第一款撲克網頁遊戲《德州撲克》首服「拉斯維加斯」盛大開啟了。德州撲克是一種技巧性非常強的遊戲。運氣、耐性、毅力和智慧一個也不能少。雖然開服以來,《德州撲克》人氣火爆。但是也有很多玩家在牌桌上惘然不知所措。
  • 德州撲克技術測驗: 底牌的範圍(Range)
    底牌範圍是整個德州撲克數學概率的基礎,了解底牌範圍可以更精準做出計算,幫助玩家做更有利的決策。本期開始為玩家提供「底牌範圍」和「底牌對抗」攻略,讓玩家們以後從翻牌前開始領先對手。請問德州撲克遊戲中,一共有多少種底牌組合?以下哪一個不是德州撲克的底牌類型?以下哪一個底牌不算「強底牌」?德州撲克遊戲中,玩家的「底牌範圍」代表什麼?
  • 合肥突查德州撲克賭博窩點 現場抓獲100餘名賭徒
    原標題:合肥突查德州撲克賭博窩點 現場抓獲100餘名賭徒 據了解,如此大規模查處德州撲克賭博窩點,在我省尚屬首次。 【現場】上百警力突查4家德州撲克俱樂部 1月3日晚,位於寧國路的金鑽俱樂部內熱鬧非凡,20多名男女圍在兩張桌子前,「荷官」正聚精會神發牌。突然,數十名便衣警察進入俱樂部,封鎖了俱樂部的出口。「警察!」警方將現場控制住後,亮明了身份。工作人員、參賭人員傻了眼。