六人德州撲克也被AI攻陷?

2020-12-11 虎嗅APP


賭場穹頂上華麗的枝形吊燈盞盞相接、玻璃水晶反射下的燈光明亮的讓人分不清白天與黑夜。「加注。」 加注。」 「再加注。」


牌桌前很安靜,能聽見的只有這幾句話。


你凝視著手裡關鍵的AA,還沒有思路,荷官給你了KK9。一位深藏不露的玩家從pre-flop就跟住了3-bet,你不得不認真地考慮他手握的究竟是AK還是KK?你猶豫極了,不甘心fold掉手上的一對Aces,卻在此時無法跟住對方的Raise。「咬著牙上吧」你心中暗想。緊接著,轉牌竟然發出了一張A。手握AAAKK Full House,血液在暗湧。下注,對方毫不猶豫地跟注。河牌,空氣牌。意識到該你收割了。你check,可是對方竟然全推all in。對方真的是KK嗎?


你的目光落在籌碼上,幻想對手只是AK。棄牌嗎?你腦子一片混沌……


很難想像,這位招招沉穩且步步緊逼的玩家,是臉書公司與卡內基梅隆大學合作開發的一款新型人工智慧系統。


它在世界上最流行的撲克遊戲——六人德州撲克中擊敗了人類職業玩家。一場為期 12 天的比賽,打出 10000 手牌,15 名頂尖職業玩家慘澹收場。


赫赫戰績,不容小覷。


《麻省理工科技評論》稱,「一系列策略都令人驚訝:領先下注,或叫牌結束隨即押注下一場。十分到位的虛張聲勢,很像資深玩家。」 


六人德州撲克被攻陷,人工智慧新賭神的故事翻開了新的篇章。


一、人工智慧打撲克的歷史


學術界研究德州撲克遊戲中的人機對戰歷史悠久,原因是——在解非完全信息博弈的問題上,德州撲克作為其中一個測評基準,非常有代表性。所以,學術界喜歡用德州撲克中的勝負來衡量算法的進展。全球有多個研究團隊關注這個問題,另有研究小組和六人德撲賭神研發團隊是競爭關係。


他們早在十幾年前就已經在領域裡聲名鵲起。他們是2007年NIPS論文的作者團隊,來自加拿大頂尖研究型大學阿爾伯塔大學。2015年,他們也有一篇《科學》的論文,基於神經網絡打撲克的算法,也沒有用超算。


風雲詭譎,這既是科學團隊之間的競爭,也是人機兩界賭神的戰爭。


2017年卡耐基梅隆大學團隊又勝一籌。人工智慧德州撲克系統 Libratus戰勝人類。


顯然,這是戰爭高發地區。時隔兩年,硝煙再起。


回到開頭一幕,2019年,卡耐基梅隆大學團隊的人工智慧系統再次戰勝人類,而且是德州撲克六人組。


研究人員布朗談到,「六人遊戲要複雜得多,遊戲結果很難預測。儘管在任何有限制的對戰中都會存在納什均衡,多人玩家遊戲中納什均衡難以有效計算,是否存在單一最優策略,即納什均衡,還不能確定。」


研究團隊不公開算法原始碼。據推測,原因可能是,在線賭博和在線遊戲平臺的老闆會非常生氣。


不過為了科研交流,這項研究的細節以及與人類玩家的對弈的過程會在《科學》雜誌上刊登。兩個關鍵點:擊敗人類玩家、權威期刊認可。所以,不少中外科技媒體絲毫不吝嗇讚美之詞,評價為:「裡程碑式的進步」,或者「人工智慧新突破」。但是,這究竟是多大的進步,六人德州撲克淪陷了。下一站是哪?是不是中國的麻將、撲克升級、詐金花。


帶著問題,我找到了美國喬治亞理工大學計算科學與工程系終身副教授宋樂博士。他也是第35屆機器學習技術國際會議署名論文數量排名第三的作者。



宋樂博士


二、解讀「賭神」算法


理解人工智慧打撲克的原理,需要先了解一下,究竟是圍棋難,還是德州撲克難?


第一、德州撲克和圍棋的玩法不一樣,圍棋的棋子在棋盤上皆可看到,而德州撲克是一種非完全信息問題,有公有牌、有私有牌。看得到自己的私有牌,看不到對手的私有牌,可以簡單理解為信息不完全問題。所以,解決撲克牌的好方法是「非完全信息博弈下的悔恨值最小」這套方法。悔恨是一個讓人反感的結果,人生的三個好詞,久別重逢、虛驚一場與失而復得,雖然都包含過悔恨,但是最終都反轉了結局才算是好詞。八卦掌傳人宮二,也是在生命快走到盡頭的時候從 「人生如棋,落子無悔」中悟出「如果真無悔,那該多無趣。」


第二、 從「撲克牌狀態空間很大」這個問題談起。狀態空間大就是可能的出牌的組合很大。在幾輪下注的過程中,比如說打多少錢?要採取什麼動作?打牌動作在這裡的意思是,跟還是不跟?加大籌碼還是不加籌碼?籌碼是十塊錢還是二十塊錢?這些事組合在一起有很大的一個空間。「狀態空間」越大,問題越難解。以狀態空間為標準來討論難度,百歲的德州撲克超過了千年的古老遊戲圍棋。



宋樂教授繼續講解:「回到『六人德撲賭神』這個話題上,難點在於遊戲的狀態空間很大,並不是在一臺機器可以解這麼一個東西,需要用超算。


這次『賭神』的技術亮點怎麼做到大規模,算力和存儲都比較有限的情況下,解決一個大規模的非完全信息的博弈問題。」


「六人德撲賭神」和Counterfactual regret minimization這個算法有很大的關係。如前文第一部分「人工智慧打德州撲克的歷史」中提到的,這個算法在2007年人工智慧機器學習頂級會議NIPS大會的論文《Regret Minimizationin Games with Incomplete Information》中提出。


人生戲與夢,賭場風與雲。


轉眼十二年了,諸多研究者依然在解決「非完全信息博弈的問題」的道路上不斷前進。


宋樂教授一語道出了這個十二年前的算法的關鍵,「亮點就是簡單、有效,且能在理論上證明可以得到納什均衡。」


十二年前的算法為後人鋪下了道路。


《數學簡史:確定性的消失》一書曾說,數學不是天然的寶石,只是人工的。那麼我們可以理解為,每一步有價值的研究都是科研工作者用心血打磨的寶石,普通的道路石子鋪成的,而科研之路則由寶石鋪就。


該人工智慧系統的研究團隊自己也在文章中寫得很清楚,只是把這個十二年前的算法用在德州撲克上,並且在實踐中效果好,理論上沒有任何保證。也就是說Counterfactual regret minimization算法在二人德州撲克上具有理論保證,能夠達到納什均衡,但是用到六人德州撲克上不行。如果記得還不夠清楚,請回到本文開頭研究人員布朗原話——「多人玩家遊戲中納什均衡難以有效計算,是否存在單一最優策略即所謂的『納什均衡』,還不能確定。」


換句話說,這次新賭神算法雖然實現效果好,但是無理論保證。


宋樂博士解釋:「可以理解為,算法是針對於德州撲克做了一個提高版。」。他進一步強調:「算法本身就是寫在紙上的這麼一個方法。算法思想是好的,但每個不同遊戲,算法都要適配。」也就是說德州撲克賭神的算法並不是說直接就可以用到麻將、撲克升級、炸金花上去。


讀到這裡,在線賭博和在線遊戲平臺的老闆們默默地在微信裡收藏了本文,並轉發給賭場運營人員。而人工智慧的骨幹技術人員則繼續往下閱讀,找到該技術的創新亮點。


三、解讀「賭神」算力



很多人可能不清楚,舉行一次人機對戰的成本很高,其中一項就高在電費。這些機器人或者人工智慧系統都是典型的「用電大戶」。一場比賽對計算資源的消耗非常大。網友戲言李世石吃飯,人工智慧用電。舉一例來說,天河二號超級計算機,如果正常運行,每年耗電量約為2億度,電費會超過1億元。而阿爾法圍棋下一盤的電費成本是3000美元,約合人民幣20000多元。


這位「六人德撲賭神」會不會也面臨著天價電費帳單?


然而,答案是否定的。這篇《科學》在職的論文最大的亮點是它不用超算,只需要很少的計算資源就能完成,少到只需不到150美元的雲計算資源。算法好了,就不用這麼多計算資源,這確實是算法的進步。


《麻省理工科技評論》也點評了算力,「值得注意的是,以前的算法都要在超級計算機上運行,而人工智慧德州撲克選手的算法在單個伺服器上就能運行。」


問題一:真的用150美元的算力實現的?


不能用一句話簡單的概括為,150美元的算力打敗了人類選手。過程分為兩個,一個是訓練的過程,一個是實際打牌的過程。該研究團隊有一系列打撲克的文章,研究團隊算法以前的版本使用了超算。換句話說,用超算計算出一個精準、全面的模型。在實際打牌的過程中,算力少了是因為使用了近似的算法。


什麼是近似算法呢?簡單的說,就是研究人員觀察到一種現象,用近似的算法去做這個問題,換句話說,改進主要是對原來的算法做了一個近似。能達到同樣的效果,也是一種算法的改進。但是如果沒有前期超算的算力投入,沒有得出一個精準、全面的模型的情況,近似算法就是空中樓閣。沒有第一層樓,哪有第二層樓?


問題二:如何解釋近似算法呢?


宋樂教授解釋說:「有點像真實世界一個場景,讓不同的畫家儘量真實的把它畫下來。每個人的畫法不同。有的畫家畫得特別好,寥寥數筆在畫布上呈現景物動態。算法用藍圖策略模型的方法對遊戲的收益函數做了一個降維的近似表徵。這是《科學》雜誌這篇論文技術上最大的亮點。在很小的存儲和計算條件下做到了。但是這個提高,比較起二人德州撲克變化不大,算法用了在六人德撲上,並且人類德州撲克選手試了。主要出來是實際效果好。文章自己也這麼說,沒有太多新方法,更不能理解為機器學習和人工智慧的裡程碑。」


講到這裡,《人工智慧新賭神:六人德州撲克被攻陷》的故事似乎可以落幕了,這並不能認為是機器學習的巨大進步。


四、人工智慧反思:不要「裡程碑」,要日拱一卒



人工智慧機器人阿爾法擊敗韓國圍棋選手李世石已三年有餘。


對公眾來說,人機對戰實錘了人類圍棋智慧的脆弱。對科技界來說,深度學習技術的爆發與廣泛應用會載入科技史冊。技術發展往往會按月度計算進程。摩爾定律以十八個月為周期。比爾·蓋茨說微軟永遠離破產只有十八個月。在人工智慧的紀元,三年已經很久了,但是這股自信轉化為對人工智慧無所不能的樂觀情緒似乎沒有消散。把舊的生產力給幹掉,換成新的生產力。人工智慧似乎在狂歡之中開上了高速公路。


計算機科學與技術專家、中國科學院院士、清華大學博士生導師,現任清華大學人工智慧研究院院長,張鈸2019年5月在接受《經濟觀察網》專訪時公開表示:


「人工智慧奇蹟短期難再現,深度學習技術潛力已近天花板。」


很多人工智慧研究人員、從業者認可這個觀點。他們對鼓吹人工智慧大踏步前進的論調非常反感:「什麼時候有新算法,降低算力需求才是有意義的。」


人工智慧的計算非常非常耗電,對環境的負面效應顯著。而加大算力支撐這種勢頭似乎難以遏制。


有機構一出手就買60塊英偉達DGX-2超算,近兩億人民幣。



微軟亞洲研究院首席研究員劉鐵巖,曾在MSRA,AI講堂2019校園行首站活動中談到,「很多研究都在追求 『大力出奇蹟』」。


另一位重量級學者,微軟亞洲研究院副院長、國際計算語言學協會主席周明,在雷鋒網2019CCF-GAIR大會上談到, 「無休止的計算資源軍備競賽。」



看來,算法不夠,算力來湊,成了人工智慧的「新款「解決方案。


但是算力真的會一直奏效嗎?


谷歌AI在一篇新論文《The Evolved Transformer》中提出的神經網絡架構搜索技術,將用於英語到德語翻譯的雙語評估替換分數提高了0.1,為了這點提高,卻花費了3.2萬TPU小時。人工智慧發展的車速在被高昂的算力硬拽,但是加速度卻沒有相應的提升。


機器學習的學術進步,積其跬步,日拱一卒。


這篇論文並不能帶來機器學習的突破性發展。只是在大眾比較關注的話題——六人德州撲克上取得了很好的效果。《科學》雜誌一年十二期,每個月一期。一般幾篇到十篇左右,並不是每篇都值得被讚頌為裡程碑。


宋樂教授強調了科學進展的普遍規律:「前人的方法,加上後來者的努力,方法積累方法,進而帶動提高,每一點的提高都非常不容易,科學研究就是慢慢地一步一步發展過來的。」


人工智慧已經進入攻堅期,會有更多的困難等待著技術推動者。

相關焦點

  • AI在多人桌德州撲克比賽中戰勝世界頂尖選手
    美國卡內基-梅隆大學11日宣布,該校和臉書公司合作開發的人工智慧Pluribus在六人桌德州撲克比賽中擊敗多名世界頂尖選手,成為機器在多人遊戲中戰勝人類的一個裡程碑。美國《科學》雜誌11日在線發表的相關論文顯示,Pluribus與13名德州撲克高手進行了1萬手不限注對局的六人桌比賽,每次比賽中由機器對5名人類選手,結果機器取得勝利。在另外一種形式的六人桌比賽中,由5個Pluribus與1名人類選手對局,結果機器分別在5000手對局中先後擊敗了德州撲克世界冠軍達倫⋅伊萊亞斯和克裡斯⋅弗格森。
  • 撲克牌淪陷 AI完勝德州撲克頂級選手
    (原標題:撲克牌淪陷 AI完勝德州撲克頂級選手)
  • AI在六人桌德州撲克賽中戰勝人類選手
    據美國《新聞周刊》網站近日報導,美國科學家開發出一種新的人工智慧(AI)程序「合眾為一」(Pluribus),其在6人無限制德州撲克比賽中擊敗了6名全球頂尖選手。研究人員認為,這是人工智慧發展史上的一座裡程碑,未來有望應用於生物醫學、安全等領域。研究發表於12日出版的《科學》雜誌。
  • AI在六人桌德州撲克賽中戰勝人類選手
    AI在六人桌德州撲克賽中戰勝人類選手 原標題:   科技日報北京7月14日電 (記者劉霞)據美國《新聞周刊》網站近日報導,美國科學家開發出一種新的人工智慧(AI)程序「合眾為一」(Pluribus),其在6人無限制德州撲克比賽中擊敗了6名全球頂尖選手。
  • 德州撲克:靠運氣更要靠智慧 撲克中的凱迪拉克
    德克薩斯撲克全稱Texas Hold』em poker,中文簡稱德州撲克。它是一種玩家對玩家的公共牌類遊戲。一張臺面至少2人,最多22人,一般是由2-10人參加。德州撲克一共有52張牌,沒有王牌。每個玩家分兩張牌作為「底牌」,五張由荷官陸續朝上發出的公共牌。
  • 遊歷電影《撲克王》場景 感受德州撲克競技
    由香港著名演員劉青雲、古天樂主演的電影《撲克王》正在國內火紅上映,該片出品方太陽城集團的撲克業務總監餘家榮表示,要借這部電影將「德州撲克」這個風靡歐美多年的經典遊戲介紹給內地玩家。
  • 全國首檔德州撲克真人秀《達人開牌之德州撲克》強勢來襲
    原標題:全國首檔德州撲克真人秀《達人開牌之德州撲克》強勢來襲   投下中國德撲界一顆重磅炸彈!   上海影達文化傳媒有限公司全力打造的國內首檔棋牌類真人秀節目《達人開牌之德州撲克》,強勢登陸各大新媒體視頻網站。   《達人開牌之德州撲克》(以下簡稱《達人開牌》)是一檔兼具專業性和娛樂性的真人秀節目。
  • 寫給全國德州撲克愛好者的一封信
    在此時,我僅僅只是一個喜愛德州撲克這款充滿魅力遊戲的普通愛好者。我希望以這個身份,講一些我從一個普普通通的德州撲克愛好者在認識德州撲克到與它親密接觸之後的一些體會,以及我作為這個新興行業內的「圈內人」對中國德州撲克愛好者一些觀察後的感觸。 「一百個人眼中有一百個哈姆雷特,而一百個人眼中則同樣也有一百個德州撲克。」
  • 短牌德州撲克的玩法攻略
    短牌德州撲克也叫大牌德州撲克,是最近幾年在澳門比較流行的一種高額德州撲克玩法。在短牌德州撲克中,去掉所有的2到5的牌,從而導致德州撲克1326個手牌變成了630個,只有原來的47%。短牌德州撲克相比普通的德州撲克,因為去掉了2,3,4,5導致順子出現的概率大大增加,同花牌出現的難度增大,因為之前假設你有3張同一花色的牌,那麼還有其他11張同樣的花色牌,現在只有7張。對子跟兩對在短牌德州撲克中出現的概率的大大增加。整體來說,玩家更容易拿到大牌,增加了比賽的刺激性。
  • 天天德州撲克算法 天天德州撲克算牌須知
    原標題:天天德州撲克算法 天天德州撲克算牌須知   本文將告訴你,高手是這樣煉成的,首先要學會《天天德州》撲克計算法   撲克計算法主要是學習撲克的概率,簡單說,就是等來某種獲勝牌型的可能性(成牌概率),與底池提供籌碼(底池概率)之間的比較,如果底池籌碼足夠多,高於成牌可能,就玩下去,反之就棄牌。
  • 揭秘德州撲克賭局黑幕:貓膩老千樣樣全(圖)
    揭秘德州撲克賭局黑幕:貓膩老千樣樣全(圖)2015-05-12 13:40:59來源:?????責任編輯:闞金劍字號:T|T【摘要】在不少愛好者看來,這種遊戲靠的是玩家對撲克概率的計算和心理分析但民警告訴記者,在實際的辦案中,他們發現不少開設德州撲克賭局的組織者,也都和其他賭博一樣,存在「老千」的情況。
  • 揭秘德州撲克賭局黑幕:僱「鬼手」發牌洗牌
    瀋陽一家新開的德州撲克俱樂部生意火爆供圖/CFP不受場地限制,隨身攜帶就可知道對方牌點數,一款號稱「德州撲克監控」的賭博作弊器材公然在網上兜售,售價高達六千餘元。經過多日偵查,民警發現這是一個利用德州撲克組織「現金局」賭博的窩點。當日凌晨,蹲守已久的偵查員發現二層賭博窩點一出口處有人員出入。民警迅速開展抓捕行動,一舉抓獲涉賭人員18人,其中設局人員8人,參賭人員10人,當場繳獲賭資一百多萬元、大量籌碼和多本涉賭帳簿。犯罪嫌疑人吳某、翟某等18人對利用德州撲克聚眾賭博的犯罪事實供認不諱。
  • 揭秘德州撲克賭局黑幕:僱「鬼手」發牌洗牌
    原標題:揭秘德州撲克賭局黑幕:僱「鬼手」發牌洗牌 不受場地限制,隨身攜帶就可知道對方牌點數,一款號稱「德州撲克監控」的賭博作弊器材公然在網上兜售,售價高達六千餘元。魚龍混雜的德州撲克圈子裡,一邊是如雨後春筍般出現的德州撲克俱樂部,一邊是警方的十面埋伏,遊戲競技和出千賭博如何能夠分清?
  • 南京德州撲克大賽涉賭被立案 玩家對涉賭存異議
    如果說以往的比賽只是德州撲克愛好者的一次「盛會」,那麼隨著警方的介入以及歌手汪峰在比賽中出現,在圈內被人稱為「南京事件」的這次比賽迅速引起了從圈內到圈外的諸多討論。王小山說,比賽分好多種,這次的百萬賽是其中一種,這種比賽在六個或者八個級別內可以無限rebuy,但隨著比賽的持續進行,贏家手中的籌碼已經非常多,即便是有人再rebuy得到的那點籌碼也沒有多大的意義,一般rebuy兩到三次就不會再繼續了。  在他看來,德州撲克不光憑運氣,而是和西洋棋、圍棋等一樣,是需要憑藉智力因素取勝的競技遊戲。
  • 德州撲克:競技遊戲還是新型賭博?
    圖為一個被警方查獲的「德州撲克俱樂部」。資料圖片  一張張豪華牌桌,一排排碼放整齊的制式籌碼,「綠色競技」「POKERCLUB」的標籤……這就是「德州撲克」。這個始於20世紀初美國德克薩斯州洛布斯鎮、可容多人參與的撲克遊戲,由於使用有價籌碼等特點,傳入國內後,被一些不法分子演變為涉賭載體。
  • 德州撲克大賽首因涉賭被立案 玩家對涉賭存異議
    德州撲克「地下江湖」何去何從  剛剛過去的這個周末,南京警方宣布當地舉行的2015年中國(江蘇)德州撲克大賽涉嫌賭博。由於規則簡單、刺激有趣,起源於國外的德州撲克近年來風靡全國,各地的德州撲克俱樂部涉賭被查的案件時有發生,但是大型德州撲克賽事因涉賭被立案調查,這在國內尚屬首次。
  • 親臨拉斯維加斯 《匯智德州撲克》試玩
    泡泡網手機頻道3月19日 由匯智遊戲全新打造的精品手機遊戲《匯智德州撲克》是一種廣為流傳的撲克遊戲,經典的玩法,最真實的拉斯維加斯賭場氣氛的德州撲克遊戲,將帶給你不一樣的遊戲體驗!
  • 健康競技or賭博遊戲《德州撲克》體驗行
    德州撲克,20世紀初開始於德克薩斯洛布斯鎮,據傳是當地人為了消磨時光,就發明了一種可以有很多人同時參加的撲克遊戲,於是德州撲克就誕生了。1925年,德州撲克第一次傳入德克薩斯州的達拉斯市,後來又傳至拉斯維加斯,自此德州撲克就被發揚光大。
  • 全心投入《凡躍德州撲克》刺激牌局等你體驗
    小編想說,在《凡躍德州撲克》牌技高超的玩家非常多,如果你想挑戰他們,辣麼,必然也有各路大神不介意奉陪你到底!玩《凡躍德州撲克》雖然不用像線下牌局那樣需要眼觀六路,耳聽八方,但線上驚險刺激的牌局依然會調動身上所有的感官,要贏得牌局需要你全身心的投入,所以要玩好凡躍德州撲克是沒辣麼容易的哦。
  • 《凡躍德州撲克》你的賽場你做主
    郭敬明的小時代4:靈魂的盡頭隨著電影的落幕,主人公們的故事結束了,但德州撲克的時代還遠遠不會結束,作為一項風靡歐美百餘年的智力競技運動,德州撲克已然成為了一種潮流,在線德州撲克更是受到非常多的撲克迷們的青睞。