人機大戰再上演,玩德撲的「阿爾法狗」來了

2020-11-27 36kr

在Master「圍剿」圍棋頂尖高手之後,人工智慧又盯上了德州撲克。這一次出場的選手是來自卡內基梅隆大學(CMU)開發的人工智慧選手「Libratus」。

從美國時間1月11日開始,一場名為「大腦對戰人工智慧:加大賭注」(Brains vs. Artificial Intelligence: Upping the Ante)的巡迴賽,將在匹茲堡的河流(Rivers Casino)賭場進行,Libratus將和4位人類頂尖職業選手展開對決。四名職業選手分別是Jason Lee、Dong Kim、Daniel McAulay和Jimmy Chou。

賽程為期20天,總共將對戰12萬手牌,無限下注,獲勝者將獲得20萬美元的獎金。

與之前的AlphaGo戰勝李世石,Master橫掃60位頂尖選手的圍棋不同,德州撲克是一種不公開、信息不對稱的遊戲,每個選手都只能在看到自己的手牌。

此前,人工智慧程序已經在有限下注的德撲當中戰勝過人類。不過,在有限下注的德撲中,全部的決策點(decision points)只有不到10的14次方個。而一對一無限注中包含10的160次方個決策點(decision points)。

不過,在這場比賽進行之前,有一件事多少搶了Libratus的風頭。

上周,著名的論文網站 Arxiv 出現一篇題為《DeepStack:無限下注撲克裡的專家級人工智慧》(DeepStack: Expert-Level Artificial Intelligence in No-Limit Poker)的論文,作者是來自加拿大Alberta大學、捷克Charles大學、布拉格捷克理工大學的研究人員。

論文介紹,從2016年11月7日到12月12日共計4周的時間裡,來自17個國家的33名選手跟AI程序DeepStack進行了較量,比賽在線上舉行,共計進行了44000手。由於在線上進行,一個選手最多可以同時玩四局。排名前三(以AIVAT計)的選手分別獲得5000加元、2500加元和1250加元的獎勵。

研究者稱,DeepStack 成為第一個在無限注德州撲克中擊敗職業撲克玩家的電腦程式。

不過,雖然DeepStack佔據了先發優勢,可是因為是以論文的形式呈現,引發的關注度就要遜色一些。

而CMU的Libratus走的是阿爾法狗的路數,公開透明,把地點直接設在賭場當中,獎金也豐厚得多,獲勝者將摘得20萬美金。12萬手的交鋒相當於前者近三倍,從統計學上也更有說服力。而且,參與的選手也更有分量,有專家質疑DeepStack的對戰選手中沒有頂級高手,但是Libratus對戰的選手則都是世界頂級選手。

然而在決策機制上,Libratus卻又與阿爾法狗大相逕庭。據報導,由於德州撲克是信息不對稱的博弈,因此Libratus採用的是「納什均衡」策略,通過平衡風險與收益來決定自己的下一步。納什均衡追求的是最安全而不是最極致的利益。

納什均衡的經典案例就是「囚徒困境」。1950年,數學家塔克任史丹福大學客座教授時講過這個故事。

假設有兩個小偷A和B聯合犯事、私入民宅被警察抓住。警方將兩人分別置於不同的兩個房間內進行審訊,對每一個犯罪嫌疑人,警方給出的政策是:

  1. 如果你倆都坦白罪行,交出髒物,都會因盜竊罪被判8年。

  2. 如果你的同夥坦白了而是你抵賴了,你將會以妨礙公務罪加刑2年,而你的同夥因舉報有功被減刑8年,立即釋放。

  3. 如果你倆都不坦白,則警方因證據不足不能判偷竊罪,但可以私入民宅罪將兩人各判1年。

畫個表格分析一下:

從這張表裡可以看出,兩人都不坦白是最好的結果。可問題是,警方把兩人分開審訊,你無法保證你同夥的人品如何。這時如果你為了利益最大化,選擇了不坦白,而你的同夥卻把你出賣了,那你就成了最大的輸家。這個時候納什均衡的最佳選擇就是,果斷坦白。這樣至少你會得到和你同夥一樣的待遇,而如果你的同夥貪心,你就賺大了。

CMU解釋說,在這一策略當中,只要其他玩家的策略保持不變,單一玩家就無法通過變換策略獲益。

反映到德撲上,如果Libratus每次的選擇都能實現納什均衡,那麼結果很可能是:雖然在某些回合中,人類選手會佔得上風,但是在12萬手的交鋒中,機器大概率會成為贏家。

值得一提的是,早在2015年時,CMU的AI程序Claudico就在無限下注的比賽中跟德撲頂尖高手交過手,共計進行了8萬手。不過,在這一次比賽當中,AI程序被狂虐,排在倒數第二名。當時參與的選手有Bjorn Li、Doug Polk、Dong Kim、Jason Les。

需要指出的是,Dong Kim、Jason Lee在這一次比賽當中還會參加。在2015年的對戰當中,他們分別排在第三和第五的位置。

在Claudico落敗之後,它的設計者Sandholm依然相信,在未來人工智慧將很快能夠擊敗任何領域的頂尖人類玩家。經歷一年半的閉關修煉之後,不知道這一次CMU的AI選手能不能一雪前恥?對於比賽的結果,你有什麼看法,歡迎留言。

頭圖來自:Yestone 邑石網正版圖庫

相關焦點

  • 圍棋阿爾法狗和德撲冷撲大師:哪個更厲害,哪個更有用
    一邊在海南澄邁,德州撲克人工智慧「冷撲大師」(Libratus)經過5日激戰,在33000手一對一無限注德撲比賽中完勝中國「龍之隊」的6名高手,斬獲200萬人民幣獎金;另一邊在北京的中國棋院,谷歌宣布被中國網民稱為「阿爾法狗」的圍棋人工智慧AlphaGo將在5月下旬的烏鎮對陣柯潔領銜的中國頂尖棋手,上演終極一戰。
  • 德撲人機大戰差點沒搞成,這是幾個你不知道的細節……
    唐旭 發自 海南量子位 報導 | 公眾號 QbitAI「德撲人機大戰結束了,人類無懸念被AI吊打。」這兩天看了這麼多媒體的新聞稿,大家對這場比賽的印象可能也就僅此而已——但,真的是這樣嗎?跟風跟了兩天的量子位覺得事情可能沒這麼簡單,於是直接讓北京總部空投了一輛挖掘機過來。
  • 柯潔VS阿爾法狗(Alphago)人機大戰第2局直播地址
    北京時間5月25日10:30,浙江烏鎮, 圍棋人機大戰第2局將在這裡繼續進行。圍棋人機大戰2.0版的第一場,雙方交鋒至第286手棋,執黑的柯潔以約四分之一子的微弱劣勢,敗給圍棋人工智慧程序AlphaGo。
  • 圍棋人機大戰第二季4月烏鎮開打,中國柯潔將挑戰阿爾法狗
    圍棋人機大戰第二季4月烏鎮開打,中國柯潔將挑戰阿爾法狗 自去年李世石挑戰阿爾法狗失敗後,人類一直期待當今圍棋第一人柯潔與阿爾法狗進行一場終極較量。
  • 德州撲克人工智慧之父:阿爾法狗贏不贏都缺實際用處
    一邊在海南澄邁,德州撲克人工智慧「冷撲大師」(Libratus)經過5日激戰,在33000手一對一無限注德撲比賽中完勝中國「龍之隊」的6名高手,斬獲200萬人民幣獎金;另一邊在北京的中國棋院,谷歌宣布被中國網民稱為「阿爾法狗」的圍棋人工智慧AlphaGo將在5月下旬的烏鎮對陣柯潔領銜的中國頂尖棋手,上演終極一戰。
  • 李世石阿爾法狗人機大戰正式收官 勝負卻已不再重要
    57 驅動中國2016年3月15日消息,今天李世石和阿爾法狗人機大戰第五局
  • 阿爾法狗2017年復出 棋力大增欲再演人機大戰
    [摘要]AlphaGo(阿爾法狗)團隊成員、歐洲圍棋冠軍樊麾7日通過社交媒體表示,「阿爾法狗」的棋力在過去半年裡有巨大的進步,預計將在2017年初復出下棋,該團隊近期會公布更多訊息。 新華社北京11月7日體育專電(記者王恆志)AlphaGo(阿爾法狗)團隊成員、歐洲圍棋冠軍樊麾7日通過社交媒體表示,「阿爾法狗」的棋力在過去半年裡有巨大的進步,預計將在2017年初復出下棋,該團隊近期會公布更多訊息。
  • 柯潔對戰阿爾法狗人機大戰第三局棋譜圖文講解完整版
    柯潔對戰阿爾法狗人機大戰第一局雖然只輸了半目,卻全盤無勝機;第二局雖然死了大龍,但卻長時間保持僵持狀態。究其原因,是第一局柯潔過於刻意,非要走三-三、點三-三,結果點完三-三就處於劣勢了,一直到終局都沒有翻身的機會。第二局回歸自然,結果前半盤一直是「緊棋」。
  • AI賭神稱霸德撲的秘密,剛剛被《科學》「曝光」了
    無師自通在德撲這件事上,Libratus沒有師父。Sandholm和Brown只告訴AI基本的德州撲克規則,然後Libratus就開始通過「左右手互搏」的方式學習這個撲克遊戲。和AlphaGo不同,在人機大戰之前Libratus沒有研究過人類如何打德州撲克,也沒有和人類職業玩家有過交手。
  • 從「深藍」到「阿爾法狗」:人機大戰20年進化史
    3月15日,谷歌圍棋人工智慧AlphaGo(被中國棋迷戲稱為「阿爾法狗」)與韓國棋手李世石的最後一輪較量以前者獲勝結束,最終這場轟動全球的「人機大戰」的總比分定格在4:1。柯潔已經向「阿爾法狗」發出了挑戰。「阿爾法狗」贏了,但留下一連串的興奮和憂傷。  從「深藍」到「阿爾法狗」  人機大戰20年進化史  人工智慧是計算機科學的一個分支,它企圖了解人類智能的實質,並生產出一種新的、能以與人類智能相似的方式做出反應的智能機器。
  • 阿爾法狗又贏了!人機大戰第三戰,你看好誰?
    阿爾法狗又贏了!人機大戰第三戰,你看好誰? 開戰之前的叫囂那是2016年3月9日下午,AlphaGo(俗稱「阿爾法狗
  • 阿爾法狗來了,騰訊絕藝也來了,中國象棋的人機大戰還會遠嗎?
    近年人工智慧大熱,圍棋方面高潮於李世石、柯潔與阿爾法狗的對弈,由此引發大眾對人與機器相愛相殺的思考,甚至產生對棋類運動發展的質疑。而就在上個月,柯潔與騰訊AI「絕藝」取得一勝一負戰績,只不過這次,柯潔被絕藝讓了兩子。似乎絕藝的出現並沒有引起媒體方面的高度關注。
  • 德州撲克人機大戰AI取勝 麻將是人類最後堡壘?
    德州撲克人機大戰人類告負 人工智慧「攻陷」德撲  ■ 廣州日報記者 施紹宗  最新一次「德州撲克人機大戰」前天在美國匹茲堡舉行,美國卡耐基梅隆大學開發的人工智慧Libratus以絕對優勢擊敗4名人類頂尖德州撲克高手,這是人工智慧在各種棋牌遊戲中對人類取得的又一個勝利
  • 柯潔暗藏絕招應對「阿爾法狗」
    《全體育》供圖     圍棋人機大戰再度上演□本報記者 錢晞  4月10日,中國棋院舉行新聞發布會宣布:中國棋手柯潔九段將與圍棋人工智慧程序AlphaGo(直譯為阿爾法狗)於5月23日至27日在浙江烏鎮展開三番棋對決,勝者獎金高達150萬美元。
  • 當年圍棋界那場著名人機大戰,李世石的取勝究竟有多大的意義?
    他的棋風凌厲,透視一切,靠殺伐掌控全局,靠膽魄精算傲視對手,又不失靈活轉身,別人看不懂,嫉妒的人說他"殭屍流",其實他是爐火純青,遊刃有餘,玩你如股掌之中的絕世高手。而最令世人所津津樂道的就是2016年那次著名的人機大戰。
  • 第三代AI賭神誕生:可在六人桌德撲中勝過5個人類頂尖高手
    第50屆世界撲克系列賽(WSOP)的六人桌無限德撲即將在7月13日開賽,但AI偏偏選在這個節骨眼上踢館。美國卡內基梅隆大學和Facebook公司7月12日在《科學》上發表論文稱,他們聯合開發的德撲人工智慧Pluribus能在六人桌無限德撲中擊敗頂級人類玩家。
  • 人機對弈戰事再起!這次柯潔能獲勝?人工智慧還是阿爾法狗三代?
    不知道各位還記不記得在2017年的人機對決?當時的主角就是現如今的圍棋七冠王柯潔,同他對戰的就是人工智慧阿爾法狗。當時一共比賽三盤,但是柯潔沒有一局獲勝,賽後接受採訪,柯潔表示對其心服口服,但事實上真的如此嗎?如今「人狗大戰2.0」戰事或將再起,究竟是怎麼一回事?
  • 阿爾法狗 4:1大勝人類冠軍後,也重新定義了人類
    AlphaGo這場人機大戰雖然人敗給了機器,但它讓人類社會的各種信息交換正朝著更快捷、更簡單、更明確的方向,越來越快地推進。鈦媒體作者柳倉是這樣解讀的:五局戰罷阿爾法狗大勝,現在不管談論什麼,估計人們最渴望的是三件事情。
  • 重磅| 德撲人機大戰收官,Libratus 擊敗世界頂尖撲克選手
    據官網介紹,此次比賽共持續 20 天,由 4 名人類職業玩家 Jason Les、Dong Kim、Daniel McAulay 和 Jimmy Chou 對戰人工智慧程序 Libratus,在為期 20 天的賽程裡面對玩 12 萬手,爭奪 20 萬美元的獎金。如果你打算開始在網上玩撲克,可要三思了。
  • 柯潔為什麼輸給阿爾法狗?從人機大戰看人工智慧前世今生
    在這場被稱為「人類頂尖棋手與人工智慧的終極對決」的比賽中,代表人類出戰的是中國年輕人柯潔,他將迎戰谷歌公司的圍棋電腦程式「阿爾法狗」,最終柯潔0:3不敵「阿爾法狗」。在後來的採訪中,柯潔表示,當時「阿爾法狗」下了「令我感到絕望的一步棋」,「我感到渾身都在顫抖」,面對即將以0:3完敗收場的結果,柯潔難以抑制自身的絕望情緒,才會在比賽現場掩面而泣。