就算是輸給AI,也不能說人類丟掉了德州撲克的陣地|德撲人機大戰Day1

2020-12-14 雷鋒網

雷鋒網4月6日消息,亞洲首度德州撲克人機大戰——「冷撲大師V.S.中國龍之隊」巔峰表演賽已經在海南生態軟體園傳奇智力運動館開始,獲勝方將獲得200萬人民幣獎勵。首日上半場,中國龍之隊順利按進度完成3600手牌,冷撲大師暫時領先中國龍之隊14145籌碼。因為每人單副手牌重置後的籌碼量就有20000,所以這個差距非常的小。

冷撲大師和中國龍之隊的介紹詳見雷鋒網報導:亞洲首度德州撲克人機對戰即將開賭!| 附李開復演講全文

比賽時間:4月6日~10日 上午8:00~13:00;下午16:00~21:00。現場畫面將滯後2小時。

直播傳送門:騰訊PC直播

騰訊app直播

看了上面的介紹我們知道,所謂的「冷撲大師」其實就是今年1月30日在匹茲堡戰勝4位頂尖人類玩家的Libratus。那麼同是人機對戰,這次的看點在哪裡呢?

看點

1、玩家

昨天的發布會上,從主辦方公開的龍之隊資料看,很多隊員都有深厚的計算機專業背景。比如:杜悅、許朝軍、張淮都曾就讀於清華的計算機系。用李開復的話說就是:

匹茲堡之戰中被擊敗的職業棋手確實都是德撲的頂尖職業牌手,但他們並不懂計算機原理,而此次龍之隊都是學霸,全部擁有計算機領域的從業經驗,會讓比賽還保留懸念。

2、名人賽與名人點評

據悉,4月6日至10日期間,表演賽將以轉播形式邀請多位愛好撲克的名人,遠程在各大直播平臺展開系列精彩點評,海泉基金創始人胡海泉、著名專欄作家王小山、360人工智慧研究院院長顏水成、樂視雲CEO吳亞洲、追夢者基金創始人朱波、英諾基金創始人李竹等將擔任專家評論員。

同時,據主辦方介紹,在4月10日賽事最後一天晚間,將有包括李開復在內的36位來自科技圈、投資圈、媒體圈的名人大咖組成六支戰隊來挑戰冷撲大師。

比賽規則

隨著比賽的開始,除了昨天雷鋒網報導的規則外,更加詳細的規則也浮出水面:

1、分組

龍之隊成員分別在兩個房間與冷撲大師進行1V1比賽。

ROOM1(A隊):杜悅、朱亞希、童舟;

ROOM2(B隊):許朝軍、張淮、王天健。

德州撲克一張臺面至少2人,最多22人,一般有2-10個玩家參與。目前冷撲大師還無法參與多人的牌局,這多少讓人感覺不那麼刺激和熱鬧。

2、發牌

每個人類玩家同時打兩手牌,比賽採用複式發牌,也就是說A隊人類拿到的手牌,是B隊電腦的手牌,A隊電腦的手牌是B隊人類的手牌。而且是隨機分配到某個牌手,並非一一對應。

據雷鋒網了解,冷撲大師採用完全數學的模型和算法,後臺的計算機群計算量很大,所以人類同時打兩手牌時間上也是來得及的。

3、籌碼

在每一局開始,牌手和AI均有20000的籌碼,小盲注100,大盲注200。一局打完之後,無論結果如何,下一局雙方的籌碼都要重置回20000。

目前冷撲大師還不能在雙方不同籌碼的情況下與人類比賽,因為這在模型的建立上要更加複雜,而這無疑是降低了人機對抗時AI的難度。

德州撲克AI Libratus與圍棋AI AlphaGo有何不同?

2016年3月,自從 AlphaGo 以4:1的成績戰勝職業九段李世乭以後,圍棋AI的厲害為大眾所熟知。不論是在專業的學術期刊還是社交網絡,人們都展開了深入和廣泛的討論。但是對於德州撲克AI,大眾還所知甚少。那麼德州撲克AI與圍棋AI有何不同?

AlphaGo是用大量的棋譜和自對弈做訓練,而Libratus則是用隨機生成的牌局(隨機產生公共牌、底池籌碼、玩家拿牌概率)和嘗試性的動作帶來的結果(在隨機生成的輸入情況下模擬玩家跟牌後的結果)作為訓練數據。

「一對一無限注德州撲克」就是兩個人玩的賭博遊戲,因為事先會給每位玩家分發 2 張底牌,所以對方的「底牌信息」你是不知道的,對於計算機來說,就是在處理一種「非完整信息博弈」。而AlphaGo 玩圍棋,對弈雙方的信息是完整的、對稱的,並沒有隱藏的信息。

Facebook 人工智慧研究院研究員田淵棟之前剖析過:

非完整信息博弈更難,體現在:

一方面是因為對於同樣的客觀狀態,各個玩家看到的信息不同,因此增加了每個玩家狀態空間的數目和決策的難度;

另一方面即使在同樣的狀態下,解非對稱信息遊戲所需要的內存也要比解對稱信息要多得多,這個主要是對於對稱信息博弈來說,只要記得當前局面並且向下推演找到比較好的策略就可以了;但對非對稱信息博弈,只記得當前(不完整的)局面是不夠的,即使盤面上的情況相同,但對手之前的各種招法會導致事實上局面不同,只有把它們全都羅列出來進行分析,才能保證想出的應對策略不被別人利用。

同時,非對稱信息博弈的實用價值更大些。因為非對稱信息博弈的應用範圍非常廣泛,涵括我們每天遇到的所有決策,上至國家戰略,下至日常瑣事,全都可以以同樣的方法建模。

所以Libratus在德州撲克上AI取得了進步,是具有重要意義的。

據田淵棟近期在AI科技評論上所做的分享,CMU 的Libratus,也就是現在的冷撲大師有三個特點:

一是沒有使用深度學習,而是用到了End-game solver。因為德撲一局時間比較短,幾個回合就結束了,所以可以從下往上構建遊戲樹。這樣的好處是,最下面節點遊戲樹的狀態是比較容易算出來的,用這個反過來指導設計上面的遊戲樹。

二是像AlphaGo一樣也採用了蒙特卡羅方法,標準的CFR(Counterfactual Regret Minimization)在每次迭代的時候,要把整個遊戲樹都搜一遍,這個對於稍微複雜一點的遊戲來說是不可接受的。因為是指數級的複雜度,所以用蒙特卡羅方法,每次選一些節點去更新它上面的策略。

第三,一般來說我們在做遊戲的時候往往會想到 怎麼去利用對方的弱點,但其實不是這樣的。更好的方法是,我儘量讓別人發現我的弱點,然後據此我可以去改進它,變得越來越強。用術語來講,就是去算一下對手的最優應對(Best response),讓對手來利用你的弱點,然後用這個反過來提高自己的水平。

德州撲克AILibratus有無弱點?

經過AlphaGo和Libratus分別在圍棋和德撲領域幾次三番對人類頂尖玩家形成碾壓,也許很多人已經對人類獲勝不報期望。本次賽前發布會上,龍之隊隊長杜悅告訴媒體,這次他們僅有10%的獲勝希望。

其實或許不必如此悲觀,Libratus在兩個月前的匹茲堡人機對抗中並非贏的一帆風順,甚至還被人類玩家發現了破綻。這點或許我們可以從近期著名撲克牌雜誌Card Player 對 Libratus 的創始成員 Brown 博士的專訪中窺見一二。此前雷鋒網已將專訪進行翻譯,詳情請戳:德州撲克算法幕後研發者CMU博士Brown專訪:AI如何打敗頂級人類牌手?

↑ 冷撲大師的創造者之一:Brown在現場(站著)

Card Player :

在人類玩家緊追比分,對戰進入白熱化的時候,你是不是在想對手可能已經找到了Libratus的弱點,還是說仍舊很有信心?

Brown:

第一周比賽快要結束時,雙方幾乎打成平局。人類選手也在第一周對Libratus會如何調整打法、它的強項在哪裡等做出了一系列推測。他們沒有和我詳談他們認為戰局將會如何發展,但從我聽到的來看,他們應該是想從數據中尋找Libratus的套路,分析它的弱點和優勢。所以,大體上我不怎麼擔心。他們認為AI在一些方面有缺陷,但實際上並沒有。

比如,在有一天的比賽中,他們80%都是再加注( three-betting ),因為從數據來看,他們認為AI 對特定的三倍打法( three-bet size)不太擅長。但我不認為那是缺陷,只是他們的數據中存在噪音。他們在比賽進程中獲得的數據導致他們得出了這樣的結論。

但他們確實看到了裡面存在的一些問題。比如Libratus對特定的開局下注的大小對應不好。比賽前我們認為這不是什麼大問題,但事實證明,這個弱點很要命。好在AI還留有一手——趁當天晚上對手睡覺的時候,AI就開始連續不斷地進行訓練,彌補自己的不足以防止對手以後再次利用這一缺陷。所以你看到,從第二周局勢就開始轉變了。

雖然Brown博士在採訪中一開始回應Libratus沒有弱點,但是後來又改口說Libratus對特定的開局下注的大小對應不好是個很要命的弱點。而就像前面介紹的,這次龍之隊的成員大多為擁有計算機專業背景的學霸,但願他們能夠及早發現「冷撲大師」的弱點並善加利用,這多少將給我們增添幾分人類獲勝的希望。

總結

從比賽規則的制定中可以看出,不管是要求1V1的單挑,還是單局手牌後的籌碼重置,人類玩家都需要對AI 「遷就」很多。所以即便是「冷撲大師」取得本次人機大賽的勝利,也不能說人工智慧在德州撲克上完全戰勝了人類。但是對於「非完整信息博弈」的人工智慧研究課題而言,冷撲大師的勝利將有重大的意義。當然,比賽才剛剛開始,大獎花落誰家尚未可知,讓我們拭目以待。

相關焦點

  • 德撲「人機大戰」始末:一場人類與 AI 的共謀
    為期5天的德撲「人機大戰」在海南36度的高溫中落下帷幕。由常春藤資本合伙人杜悅擔任隊長的人類戰隊,最終輸給了AI 79萬元籌碼,以及200萬大賽獎金。對於人類輸給AI的結局,似乎無論是對主辦方、選手還是觀眾而言,都毫無懸念。賽前媒體發布會上,杜悅坦然承認,中國選手的勝率預期不會超過10%。
  • 德州撲克人機大戰AI取勝 麻將是人類最後堡壘?
    德州撲克人機大戰人類告負 人工智慧「攻陷」德撲  ■ 廣州日報記者 施紹宗  最新一次「德州撲克人機大戰」前天在美國匹茲堡舉行,美國卡耐基梅隆大學開發的人工智慧Libratus以絕對優勢擊敗4名人類頂尖德州撲克高手,這是人工智慧在各種棋牌遊戲中對人類取得的又一個勝利
  • 德撲人機大戰落幕人類慘敗 會打撲克的AI有什麼用?
    經過五天的鏖戰,德州撲克人工智慧系統Libratus毫無懸念獲得最終勝利。在這場德州撲克人機大戰中,中國龍之隊的六位牌手共與冷撲大師打了36000手牌,共輸792327分,AI完勝人類。比賽的結局並不出乎意料,開賽之前,創新工場創始人、董事長李開復就曾表示:「對人類能贏感到悲觀,贏的概率不到10%。」
  • 人工智慧贏得德州撲克「人機大戰」
    新華社華盛頓1月30日電 美國卡耐基梅隆大學開發的人工智慧Libratus與4名人類頂尖德州撲克選手之間的「人機大戰」於當地時間30日在美國匹茲堡結束,人工智慧取得勝利。這是人工智慧在各種棋牌遊戲中對人類取得的又一個勝利。
  • 淺談AI|我覺得這麼下去德撲要涼!
    全世界都在關注的第一次德州撲克人機大戰,最終結果以人工智慧Claudico挑戰失敗而告終,人類用實際行動證明人腦的智慧不是電腦所能戰勝!第二次德州撲克人機大戰!這張圖代表了從1月11日比賽開始,到1月30日比賽落幕,人工智慧德州撲克選手Libratus的每日戰績!毫無疑問,第二次德州撲克人機大戰的結果是Libratus完勝人類玩家,挑戰成功!這個消息一出,全球整個撲克圈都震驚了!
  • 德撲AI Libratus是如何擊敗德州撲克頂級玩家的?
    Libratus,將在4月來到中國,與中國德撲玩家進行德撲界的「人機大戰」。目前該消息得到進一步證實,創新工場李開復確認:4月第二周,德撲AI人機大戰將在海南進行。今日李開復公開表示,請來母校CMU打敗人類冠軍的德撲AI,將在4月6日至4月10日對抗中國龍之隊。這場定性為「人工智慧和頂尖牌手巔峰表演賽」的活動中,CMU開發的Libratus將以中文名「冷撲大師」出戰,而人類選手方面將以「中國龍之隊」出戰。
  • 德州撲克人機大戰:人工智慧上半程領先
    (原標題:德州撲克人機大戰:人工智慧上半程領先)
  • 德撲AI 之父託馬斯·桑德霍姆:撲克 AI 如何完虐人類,和 AlphaGo...
    ,卡耐基梅隆大學計算機系教授、德撲 AI 之父託馬斯·桑德霍姆發表演講,講述了他們創造的人工智慧冷撲大師 Libratus 背後的原理究竟是什麼?那麼,我們現在要談的無限下注德州撲克的紙牌壓注成為最難的一個計算機界解決的標杆,裡面包含了 10 的 161 次方的情景。到目前為止我剛剛說的無限下注的紙牌遊戲是被 AI 攻破的,我們看一下這種單周的關於無限下注的突破,這是第二次單挑,因為之前有一次人機對抗,當時的 AI 輸給了人類選手,這次我們叫做再對抗,再挑戰。
  • AI賭神稱霸德撲的秘密,剛剛被《科學》「曝光」了
    無師自通在德撲這件事上,Libratus沒有師父。Sandholm和Brown只告訴AI基本的德州撲克規則,然後Libratus就開始通過「左右手互搏」的方式學習這個撲克遊戲。和AlphaGo不同,在人機大戰之前Libratus沒有研究過人類如何打德州撲克,也沒有和人類職業玩家有過交手。
  • 人機對戰簡史:從西洋棋到德州撲克
    2017年4月6日到10日,由卡內基梅隆大學開發的人工智慧Libratus(「冷撲大師」)將在海南與六位中國的德州撲克選手進行為期五天,累計長達45個小時的德州撲克人機對戰。這是繼AlphaGo在圍棋領域大殺四方之後,AI對人類新的挑戰。本文將為您梳理,在過去二十年的歷史中,人機對戰經歷了哪些關鍵節點,AI又發生了怎樣的進化?
  • 德撲人機終極對決今日開戰 人類勝率10%
    繼阿爾法狗一路攻城略地後,人工智慧現在又向德州撲克發起挑戰。  4月6日至10日,冷撲大師V.S.中國龍之隊將在海南展開為期五天、長達45小時的人機撲克對戰。
  • 德撲人機大戰首日:冷撲大師果然冷酷無情,擊敗AI也許只有拔線
    這肯定是人類選手發出的,德州撲克AI冷撲大師還說不出這句。這一句語氣表達,在某種程度上,也是昨日德撲人機大戰首日的縮影。德撲人機大戰第一場的解說嘉賓、2015年亞洲撲克錦標賽主賽冠軍、有著超過10年牌齡的臺灣職業牌手許立達,看到昨天上午的局面還樂觀估計人類牌手贏面有20%。
  • 重磅| 德撲人機大戰收官,Libratus 擊敗世界頂尖撲克選手
    機器之心報導作者:微胖、杜夏德、朱思穎當地時間 1 月 30 日,在賓夕法尼亞州匹茲堡的 Rivers 賭場,卡耐基梅隆大學(CMU)開發的 Libratus 人工智慧系統擊敗人類頂級職業玩家。在無限德撲比賽中(一對一、無限制投注的規則),人工智慧擊敗世界最強的人類德州撲克玩家,這是人工智慧歷史上又一裡程碑時刻。比賽過程中,人類選手整體上從未領先過。進入比賽最後一天時,Libratus贏得156萬籌碼。人類選手要挽回劣勢,只有不到 5,000 手的機會。Jason Les 說,最後的感覺就是,自己所能做的就是輸。這太打擊士氣了。
  • 重磅丨德撲人工智慧程序Libratus要在中國掀起「人機大戰」?
    Libratus,將在4月來到中國,與中國德撲玩家進行德撲界的「人機大戰」。這款CMU開發的名為Libratus的德撲程序,將以「冷撲大師」的譯名挑戰中國德撲高手,而這場挑戰賽的發起者,正是CMU校友、創新工場創始人李開復。實際上,Libratus並非初出茅廬的毛頭「程序」。在今年春節期間,Libratus就已經在賓夕法尼亞州匹茲堡的Rivers賭場,將4位人類職業玩家挑落馬下,並且奪走了共計176萬美元籌碼的獎金。
  • 德撲人機大戰差點沒搞成,這是幾個你不知道的細節……
    唐旭 發自 海南量子位 報導 | 公眾號 QbitAI「德撲人機大戰結束了,人類無懸念被AI吊打。」這兩天看了這麼多媒體的新聞稿,大家對這場比賽的印象可能也就僅此而已——但,真的是這樣嗎?跟風跟了兩天的量子位覺得事情可能沒這麼簡單,於是直接讓北京總部空投了一輛挖掘機過來。
  • 六人德州撲克也被AI攻陷?
    人工智慧德州撲克系統 Libratus戰勝人類。顯然,這是戰爭高發地區。時隔兩年,硝煙再起。回到開頭一幕,2019年,卡耐基梅隆大學團隊的人工智慧系統再次戰勝人類,而且是德州撲克六人組。研究人員布朗談到,「六人遊戲要複雜得多,遊戲結果很難預測。
  • 的德撲:精英的遊戲,賭徒的狂歡
    德州撲克何時傳入中國,已不可考究。但在創投圈和網際網路圈,德撲的傳說不少:柳傳志曾說,他曾經和馬雲通宵打德撲,輸給了後者8萬元。周鴻禕投資以德撲起家的博雅互動,後者上市後周鴻禕套現2000萬元。餓了麼創始人張旭豪曾經用打德撲招聘員工。
  • 「隱秘」的德撲:精英的遊戲,賭徒的狂歡-虎嗅網
    德州撲克何時傳入中國,已不可考究。但在創投圈和網際網路圈,德撲的傳說不少:柳傳志曾說,他曾經和馬雲通宵打德撲,輸給了後者8萬元。作為德撲的愛好者,李通很慶幸那一晚沒有在,只是因為籌碼太大了。「拿一次籌碼就5000元,如果運氣差,一晚上下來輸兩三萬不成問題。」李通說,他打過最大的也就是3000元一手。被行政拘留後,李通的同事比較幸運,沒有丟掉工作。
  • 重磅 德撲人機大戰收官,Libratus 擊敗世界頂尖撲克選手
    在無限德撲比賽中(一對一、無限制投注的規則),人工智慧擊敗世界最強的人類德州撲克玩家,這是人工智慧歷史上又一裡程碑時刻。比賽過程中,人類選手整體上從未領先過。進入比賽最後一天時,Libratus 贏得156 萬籌碼。人類選手要挽回劣勢,只有不到 5,000 手的機會。Jason Les 說,最後的感覺就是,自己所能做的就是輸。這太打擊士氣了。
  • 六人德州撲克也被AI攻陷?-虎嗅網
    人工智慧德州撲克系統 Libratus戰勝人類。顯然,這是戰爭高發地區。時隔兩年,硝煙再起。回到開頭一幕,2019年,卡耐基梅隆大學團隊的人工智慧系統再次戰勝人類,而且是德州撲克六人組。研究人員布朗談到,「六人遊戲要複雜得多,遊戲結果很難預測。