AI玩多人德撲擊敗頂級玩家!150美元,實力可掏空在線撲克公司

2020-12-15 DeepTech深科技

人工智慧終於開始掌握人性中一些獨特的能力,並且比它的老師玩得還好。

要想在撲克中獲勝,就需要利用這樣一項能力:狡猾。為了獲勝,玩家必須分析對手如何出牌,然後欺騙他們交出手中的籌碼。當然,這種狡詐對人來說很自然。現在,人工智慧程序首次表現出能夠用類似的技能來欺騙人類的職業撲克選手。

近日,Facebook 與卡內基梅隆大學合作開發的一款新型人工智慧系統 Pluribus,在世界上最流行、最廣泛的撲克遊戲:六人無限注德州撲克 (Texas Hold'em poker) 中擊敗了頂級人類職業玩家。Pluribus 在「5 個 AI + 1 個人類玩家」和「1 個 AI + 5 個人類玩家」兩種模式下都擊敗了職業玩家。這是人工智慧機器人第一次在超過兩名玩家 (或兩支隊伍) 的大型基準遊戲中擊敗頂級專業人士.

此前,人工智慧技術已經能夠在只有一個對手的情況下打敗人類撲克高手。但像 Pluribus 這樣,在多人同桌的情況下擊敗人類精英玩家,才是關鍵的裡程碑。

Pluribus 是通過基於 Libratus 的幾項創新,以及 Tuomas Sandholm 在卡內基梅隆大學研究實驗室開發的其他算法和代碼實現這一成果的。Libratus 是 2017 年在雙人無限注德州撲克中擊敗人類職業選手的 AI。特別是,Pluribus 採用了新的在線搜索算法,它可以通過之前的幾個步驟就能有效地評估其下注選項,而不用搜索到遊戲結束。Pluribus 還使用了新的更快的自玩算法來玩包含隱藏信息的遊戲。

圖丨Tuomas Sandholm (來源:Carnegie Mellon)

更讓讓人想不到的是,這些進步可以使用很少的處理能力和內存——相當於不到 150 美元的雲計算資源——就培訓出 Pluribus。這個效率與最近其他人工智慧裡程碑項目形成了鮮明對比,它們需要相當於數百萬美元的計算資源來進行培訓。

這些在撲克遊戲中的創新具有十分重要的意義,因為兩個人的零和互動 (一名玩家贏,一名玩家輸) 在休閒遊戲中很常見,但在現實生活中卻非常罕見。現實世界中,對有害內容採取行動,應對網絡安全挑戰,以及管理在線拍賣或導航流量,通常會涉及多個參與者還有多重隱藏信息。多玩家交互對過去的人工智慧技術提出了嚴峻的理論和實踐挑戰。然而,現在的結果表明,人工智慧算法可以在雙人零和遊戲之外達到超凡的表現。

圖丨Seth Davies,職業撲克選手 (來源:Facebook)

它有掏空在線撲克公司的實力

研究人員通過與一群優秀的人類專業人士比賽來評估 Pluribus。職業選手包括 2000 年世界撲克大賽主賽事冠軍 Chris "Jesus" Ferguson,2012 年世界撲克大賽主賽事冠軍 Greg Merson 等。參賽的每一個選手之前都在撲克牌桌上贏得了超過 100 萬美元,其中有些人甚至贏得了超過 1000 萬美元的獎金。

對戰有兩種形式:五個職業玩家和一個人工智慧,一個職業玩家和五個人工智慧副本。在每一種形式下,牌桌上都有六名玩家,每一手開始都有 10000 個籌碼。小盲注是 50 個籌碼,大盲注是 100 個籌碼。

雖然撲克是一種技巧遊戲,但也有很大的運氣成分。對於頂級專業人士來說,僅僅因為運氣不好,就輸掉 1 萬手籌碼是很常見的。為了減少運氣的作用,研究人員使用了 AIVAT 方差減少算法來評估結果。例如,如果機器人的某一手真的很強,AIVAT 將從它的獎金中減去一個基線值來抵消運氣成分。

在 5 個職業玩家+1 個 AI 的實驗中,10000 手遊戲玩了 12 天。每天從專業人員中挑選五名志願者參與。官方將根據選手的表現分給他們獎金 5 萬美元,以激勵他們發揮出最佳水平。在使用 AIVAT 後,Pluribus 的勝率估計為每 100 手 5 個大盲注 (5 bb/100),這是以精英人類作為對手的壓倒性勝利 (盈利,p 值為 0.021)。如果每個籌碼都值 1 美元,Pluribus 平均每手贏得 5 美元的獎金,並且每小時可以賺到 1000 美元。這一結果超過了職業玩家在與職業和業餘玩家的混合比賽中獲勝的預期。

在 5 個 AI +1 個職業玩家的模式下,由三名志願者參與,每個人類玩家和 5 個 Pluribus 副本玩 5000 手。Pluribus 並沒有根據對手的情況調整策略,因此 AI 之間不存在故意勾結問題。總的來說,人類損失了 2.3 bb/100(每 100 手 2.3 個大盲注)。

Pluribus 的算法實在太成功了。「這對撲克社區來說可能是非常危險的,」參與開發算法的 Facebook 研究員 Noam Brown 說。他今年被評為《麻省理工科技評論》的 35 歲以下科技創新者之一。

「你通常可以找出對手的弱點,但沒有找到(它的)弱點,」遊戲中的撲克職業選手 Jason Les 說,「這個 AI 非常強大,你找不到任何可以利用或佔便宜的機會。」

研究人員擔心 Pluribus 可能被用來掏空在線德州撲克公司的金庫,因此決定不發布其代碼。目前,Facebook 也沒有計劃去應用為六人撲克開發的技術。

六人德州撲克的兩大挑戰

幾十年來,撲克遊戲一直是人工智慧領域一個困難而又重要的挑戰難題。

這是因為撲克遊戲中包含隱藏信息,你不知道對手的牌,想要獲勝需要會虛張聲勢以及一些其他策略,而且,這些策略又不同於象棋、圍棋和其他遊戲。這也是人工智慧技術在其他遊戲中取得突破,卻不能突破撲克的原因,撲克遊戲對人工智慧技術有天生的抵抗力。

具體來說,六人德州撲克一直面臨著兩大挑戰。

第一大挑戰,德州撲克不只是兩玩家的零和遊戲。

之前 AI 突破的所有基準遊戲僅限於那些只有兩名或兩隊玩家的零和遊戲,例如跳棋、象棋、圍棋、雙人撲克、星際爭霸 2 和 Dota 2。在這些情況下,人工智慧取得了成功,因為它採用了一種稱為納什均衡(Nash equilibrium)的策略。在兩名或兩隊玩家的零和遊戲中,精確的納什均衡能做到無論對手做什麼都不可能輸(例如,剪刀-石頭-布的納什均衡策略是隨機選取概率相等的石頭、布或剪刀)。

雖然納什均衡在任何遊戲中都是存在的,但在三個或三個以上對戰玩家的遊戲中,通常不可能有效地計算出納什均衡。此外,在一場多人參與的遊戲中,即使採用精確的納什均衡策略,也有可能失敗。其中一個例子是 Lemonade Stand 遊戲,每個玩家同時在一個圓環上取一個點,並要儘可能地遠離其他玩家。納什均衡是讓所有玩家在環上的距離相等,但實現這一點的方法有無窮多種。如果每個玩家獨立地計算其中一個均衡,那麼最終不太可能使所有參與者在環上的距離相等。

圖丨Lemonade Stand 遊戲(來源:Facebook)

在多於兩個玩家的零和遊戲中,納什均衡存在的缺陷,引發研究人員的思考:在這樣的遊戲中,正確的目標應該是什麼?以六人德州撲克為例,研究人員認為,目標不應該是一個特定的博弈論解決方案,而是創造一個通過長期經驗戰勝人類對手甚至專業人士的人工智慧。

在多於兩玩家的零和遊戲中,研究人員用來構造 Pluribus 的算法不能保證收斂到納什均衡。儘管如此,Pluribus 的策略始終能在六人撲克遊戲中擊敗精英人類撲克專家。

第二大挑戰,信息隱藏在更複雜的環境中。

沒有任何其他遊戲能像撲克那樣體現隱藏信息的挑戰,每個玩家都有其他玩家所缺乏的信息。一個成功的撲克 AI 必須對這些隱藏的信息進行推理,並謹慎地平衡其策略,保持自身的不可預測,同時仍然選擇好下一步行動。例如,虛張聲勢有時可能是有效的,但總是虛張聲勢就會被對手預測到手牌,並可能導致損失很多錢。因此,有必要謹慎地平衡一個人虛張聲勢的概率和他下注的概率。換句話說,在不完全信息博弈遊戲中,一個行為的價值取決於選擇它的概率和選擇其他行為的概率。

相反,在完全信息遊戲中,玩家不需要擔心如何平衡每一步的概率。例如在西洋棋中,好棋就是好的,無論它被選中的概率是多少。

之前的撲克遊戲機器人 Libratus,通過將基於 Counterfactual Regret Minimization(CFR) 理論完善的自玩算法與精心構建的不完全信息遊戲搜索過程相結合,來處理像雙人德州撲克遊戲中的隱藏信息。然而,在德州撲克中添加額外的玩家會成倍地增加遊戲的複雜性。這些以前的技術不能擴展到六人德州撲克。如今,Pluribus 使用的新技術可以更好地應對這一挑戰。

Pluribus 的培訓成本不到 150 美元

Pluribus 策略的核心是通過自我遊戲來計算的,在這種策略中,人工智慧對抗自己的副本,不使用任何人類遊戲數據作為輸入。人工智慧通過隨機遊戲從零開始,並逐漸改進。它會記錄遊戲進行了哪些操作,以及這些操作上的概率分布,然後在與早期版本的策略對戰中獲得更好的輸出結果。在 Pluribus 中使用的自我遊戲版本是迭代 Monte Carlo CFR (MCCFR) 算法的改進版本。

在算法的每次迭代中,MCCFR 指定一個玩家作為「遍歷者」,其當前策略在迭代中更新。在迭代開始時,MCCFR 基於所有玩家的當前策略 (最初完全是隨機的) 模擬一手撲克牌。一旦模擬完成,算法會檢查遍歷器做出的每個決策,並研究如果選擇其他可用的操作,它會做得更好還是更差。接下來,人工智慧會評估每一個假設的決策的價值,這些決策是按照可用操作做出的,以此類推。

在 8 天時間內,研究人員在 64 核伺服器上培訓了 Pluribus 的藍圖策略,所需內存不到 512 GB,而且沒有使用 GPU。按照典型的雲計算的成本估計,培訓成本不到 150 美元。這與最近的其他人工智慧項目突破形成了鮮明對比,這些突破通常需要花費數百萬美元進行訓練。

在玩德州撲克時,Pluribus 運行在兩個 CPU 上。相比之下,2016 年,AlphaGo 在與頂級圍棋專業人士李世乭的比賽中,使用了 1,920 個 CPU 和 280 個 GPU 進行實時搜索。而且,Pluribus 使用不到 128 GB 的內存。Pluribus 搜索每手遊戲所花費的時間在 1 秒到 33 秒之間變化,具體取決於實際情況。平均而言,Pluribus 的速度是典型人類職業選手的兩倍:在六人德州撲克中與自己的副本進行比賽時,時間為每手 20 秒。

圖丨Pluribus 和專業玩家的遊戲界面(來源:Facebook)

從撲克遊戲到現實不完全信息博弈的挑戰

此前,人工智慧在完全信息的兩玩家零和遊戲中取得了一系列引人矚目的成功。但現實世界中的大多數戰略互動都涉及隱藏的信息,而不是兩方的零和博弈。Pluribus 的成功表明,在大規模、複雜的多玩家博弈中,儘管缺乏強有力的性能以及理論保證,但精心構造的自玩搜索算法仍然可以成功。

Pluribus 的不同尋常之處還在於,它的訓練和運行成本遠低於近期其他用於基準遊戲的人工智慧系統。此前,該領域的一些專家擔心,未來的人工智慧研究將由擁有數百萬美元計算資源的大型團隊主導。Pluribus 是一個強有力的證據,現在有理由相信,只需少量資源的新方法可以推動前沿人工智慧研究。

圖丨由 Tuomas Sandholm 和 Noam Brown 開發的電腦程式在2017年的比賽中擊敗了四名職業撲克玩家(來源:網際網路)

儘管 Pluribus 是為玩撲克而開發的,但其所使用的技術並不針對撲克,也不需要開發任何專業領域知識。這項研究讓我們對如何構建通用的人工智慧有了更好的基礎理解。另外,Pluribus 在牌桌上擊敗多個對手的技術可能有助於 AI 社區在多種領域開發有效的策略。

相關焦點

  • 德撲被攻陷?人工智慧擊敗頂級玩家贏20萬美元
    引言:當地時間 1 月 30 日,在賓夕法尼亞州匹茲堡的 Rivers 賭場,卡耐基梅隆大學(CMU)開發的Libratus 人工智慧系統擊敗人類頂級職業玩家。據官網介紹,此次比賽共持續 20 天,由 4 名人類職業玩家 Jason Les、Dong Kim、Daniel McAulay 和 Jimmy Chou 對戰人工智慧程序 Libratus,在為期 20 天的賽程裡面對玩 12 萬手,爭奪 20 萬美元的獎金 。如果你打算開始在網上玩撲克,可要三思了。
  • 淺談AI|我覺得這麼下去德撲要涼!
    在這長達20天的對決之中,AI一路碾壓人類高手,四位頂級人類撲克高手總共輸給人工智慧(AI)選手共計170多萬美元!怎麼描述這20天令「人」精疲力盡的比賽?胖哥我覺得,還是先看圖吧!中國龍之隊成員主要由知名頂級牌手杜悅擔任隊長,其他成員包含了各界的精英人士,並且精通德州撲克共計6名國內頂級的撲克玩家!在長達為期5天「冷撲大師」VS「龍之隊」對決表演賽中,人工智慧「冷撲大師」(Libratus撲克機器人)最終以792327總記分牌的戰績完勝並贏得200萬獎金!AI人工智慧再次證明了自己強大的實力!
  • AI賭神稱霸德撲的秘密,剛剛被《科學》「曝光」了
    2016年,Baby Tartanian8曾經贏得電腦德撲大賽冠軍,不過Libratus以63±28大盲注/千手(mbb/hand)的戰績擊敗了它。 在德撲這件事上,Libratus沒有師父。 Sandholm和Brown只告訴AI基本的德州撲克規則,然後Libratus就開始通過「左右手互搏」的方式學習這個撲克遊戲。和AlphaGo不同,在人機大戰之前Libratus沒有研究過人類如何打德州撲克,也沒有和人類職業玩家有過交手。
  • 阿爾法狗還有德撲版?「PokerLogic」從德撲教育切入博弈AI研究
    據PokerLogic創始人彭超觀察,國內德撲遊戲玩家過去幾年連續翻番,已達千萬人,玩家以30-40歲具有一定消費實力的中青年人群為主,男女比例大致為7:3。往往我們把德撲視為一個概率+欺詐+運氣的遊戲,然而,德撲本質上是一種不完全信息博弈遊戲(參與人未能完全清楚掌握博弈中的信息),技巧性非常強。
  • GG撲克名人:藝人顏值撲克女神「17妹」WSOP擊敗3萬人奪得亮眼成績
    撲克女神綽號「17妹」擊敗3萬多位選手 其中播客吧人氣主播綽號「17妹」,在這次的比賽中,擊敗3000多位選手獲得了第60名的優異成績,可說是才貌雙全新世代的撲克女神。
  • 【德撲攻略】德州撲克網遊:AK 的基本攻略
    原標題:【德撲攻略】德州撲克網遊:AK 的基本攻略   AK是所有德撲網遊中最受爭議的底牌,也是一副令人又愛又恨的底牌。德撲大師團隊根據國內德州撲克網遊特性,為大家製作了第一套AK打法攻略,希望所有玩家從今天開始能正確認識AK,發揮AK在遊戲中的真正價值。
  • 就算是輸給AI,也不能說人類丟掉了德州撲克的陣地|德撲人機大戰Day1
    用李開復的話說就是:匹茲堡之戰中被擊敗的職業棋手確實都是德撲的頂尖職業牌手,但他們並不懂計算機原理,而此次龍之隊都是學霸,全部擁有計算機領域的從業經驗,會讓比賽還保留懸念。德州撲克一張臺面至少2人,最多22人,一般有2-10個玩家參與。目前冷撲大師還無法參與多人的牌局,這多少讓人感覺不那麼刺激和熱鬧。2、發牌每個人類玩家同時打兩手牌,比賽採用複式發牌,也就是說A隊人類拿到的手牌,是B隊電腦的手牌,A隊電腦的手牌是B隊人類的手牌。而且是隨機分配到某個牌手,並非一一對應。
  • 的德撲:精英的遊戲,賭徒的狂歡
    人人公司陳一舟更是直言,「搞網際網路就是玩德州撲克」……德撲,迷一般地浮現於網際網路江湖。而相比較之下,周華從來不參與線下的德撲比賽,也不加群聚集,只參與線上的德撲比賽,五年的時間裡他在線上的足跡也從國內走到了境外。「我最早玩的是金牌德州,天天德州。」周華告訴新浪科技,自己有五年多的牌齡,可以說是見證了德撲走向灰色地帶並最終出境的過程。他原本並不知道德撲,更不知道怎麼玩。
  • 「隱秘」的德撲:精英的遊戲,賭徒的狂歡-虎嗅網
    周鴻禕投資以德撲起家的博雅互動,後者上市後周鴻禕套現2000萬元。餓了麼創始人張旭豪曾經用打德撲招聘員工。人人公司陳一舟更是直言,「搞網際網路就是玩德州撲克」……德撲,迷一般地浮現於網際網路江湖。但對於那些瘋狂的玩家來說,除沉迷於享受德撲的樂趣,還有一絲越界的刺激感,他們逐漸隨著德撲走向隱秘的角落。
  • 「隱秘」的德撲:精英的遊戲賭徒的狂歡|觀潮
    周鴻禕投資以德撲起家的博雅互動,後者上市後周鴻禕套現2000萬元。餓了麼創始人張旭豪曾經用打德撲招聘員工。人人公司陳一舟更是直言,「搞網際網路就是玩德州撲克」……德撲,迷一般地浮現於網際網路江湖。而相比較之下,周華從來不參與線下的德撲比賽,也不加群聚集,只參與線上的德撲比賽,五年的時間裡他在線上的足跡也從國內走到了境外。「我最早玩的是金牌德州,天天德州。」周華告訴新浪科技,自己有五年多的牌齡,可以說是見證了德撲走向灰色地帶並最終出境的過程。他原本並不知道德撲,更不知道怎麼玩。
  • 專訪德撲AI背後專家:德撲AI的人工智慧原理不靠深度學習 靠「談判」
    來源:新浪科技冷撲大師沒有使用深度學習,這多少有點風水輪流轉的意思。4月6日,在美國擊敗人類頂尖德州撲克選手的人工智慧Liberatus接受創新工場邀請,化名「冷撲大師」,將在海南挑戰中國職業德州撲克選手組成的「龍之隊」。
  • 金融圈德撲局:有人整夜梭哈,有人終成籌碼
    人人網應該是網際網路世界裡和德撲故事最多的公司。   至於陳一舟自己,甚至把德撲寫進了給公司的公開信:   「搞網際網路就是玩德州撲克:碰到假裝有好牌最後賭一把的人,滅了他;沒有同花順,不要輕易和比你有錢的人all-in;有,要憋著。在這個遊戲中,膽量、運氣、技術、籌碼都是制勝的幾大因素。」
  • 7 papers|多人德撲AI、手機GPU上的亞毫秒級人臉識別
    數天前 CMU、Facebook 公布 AI 玩多人德州撲克取得的新進展,該研究登上了 Science。此外,谷歌博客、arXiv 上均有較受關注的全新論文,例如行動裝置 GPU 上運行的亞毫秒級人臉檢測模型 BlazeFace。
  • 一臺筆記本打敗超算:CMU冷撲大師團隊提出全新德撲AI Modicum
    CMU 冷撲大師團隊在讀博士 Noam Brown、Tuomas Sandholm 教授和研究助理 Brandon Amos 近日提交了一個新研究:德州撲克人工智慧 Modicum,它僅用一臺筆記本電腦的算力就打敗了業內頂尖的 Baby Tartanian8(2016 計算機撲克冠軍)和 Slumbot(2018 年計算機撲克冠軍)。
  • 1小時贏1000美元的AI賭神是怎樣煉成的?幕後團隊在線答疑
    然而CMU和Facebook聯合打造的AI賭神Pluribus,訓練成本150美元、8天訓練時間即吊打職業選手,每小時贏1000美元!如此強悍的AI是如何煉成的?要研究其算法該如何入手?有請幕後研究人員為您解答。  人們發現規則明確的遊戲,即使像星際這樣戰局多變的即時戰略遊戲,人類也無法戰勝擁有碾壓性算力優勢的計算機。
  • 40張圖看懂撲克AI對抗人類30年歷史,解密冷撲大師前世今生
    本文以信息圖示的形式,為你介紹撲克AI的歷史、技術原理、對戰細節、AI 的優勢等,了解冷撲大師的前世今生。2017年是AI在撲克上取得突破的一年,在AI的發展歷史上,具有裡程碑的意義。1月,卡耐基梅隆大學的 AI 程序在「一對一不限注」的撲克比賽中,擊敗了一組世界級的德州撲克職業選手。出乎所有人的意外,這一程序對人類專業撲克手的勝利幾乎是壓倒性的:14bb/h。
  • 首屆國際分布式AI會議在京召開,姚期智、Lesser坐鎮,德撲、圍棋 AI...
    一、德撲&圍棋,全天講解會議從13日開始,上下午分別有一個tutorial。有意思的是,上午tutorial的講者是著名德撲AI研究者Noam Brown,而下午的講者是在圍棋AI領域極為著名的華人學者田淵棟。德撲AI大師:Noam Brown
  • 6000萬中國「賭神」在德州:線上德撲的灰色地帶-虎嗅網
    2010年前後進入中國的德州撲克,具體傳入途徑已不可考。許賭神案件發生前,中國創投圈熱衷德撲的現象被媒體不斷描畫。「德撲識人」從彼得林奇口中傳到中國投資圈,在創業熱和德撲熱的炙烤下,成為中國創投圈新的信仰。一位創業者憑藉在牌桌上的出色表現直接拿下融資的故事在中國網際網路圈廣為流傳。
  • 探秘:人工智慧是如何擊敗人類稱霸德州撲克的?
    【環球網智能12月20日報導 記者心月】掌握你的面部表情,選擇什麼時候虛張聲勢,什麼時候舉牌——撲克遊戲不僅僅是靠運氣,更是一種技巧和戰術的遊戲。然而在人工智慧面前,再高明的玩家也會感到自己戰術的不足。
  • 德州撲克遊戲哪裡下載?來6UP官方就行了!
    20世紀初,在德克薩斯洛布斯鎮,一款名為德州的撲克遊戲誕生了。此後,在極為快速的時間內,該遊戲迅速風靡全球,成為無數撲克迷的摯愛。而該遊戲的價值,更是完成了進階,由最初的消磨時光,到如今,不會打德州撲克好像就懂得如何走向成功。百年來,從未發生一點變化的是,德州撲克無論在哪裡,都極具人氣,這也是它為什麼在百年來能被發揚光大的原因。如今,隨著網絡愈發發達,不管是在網上還是各大APP,人們可以通過各種途徑來進行德撲遊戲。當然了,最受歡迎的,仍是各類與德撲相關的世界級的賽事。