CMU 德州撲克幕後英雄 AI 將在一對多比賽完勝人類

2021-01-17 和訊網

本文首發於微信公眾號：新智元。文章內容屬作者個人觀點，不代表和訊網立場。投資者據此操作，風險請自擔。

　　1 新智元編譯來源：cardplayer.com編譯：劉小芹、胡祥傑、文強

　　【新智元導讀】AI在人機德撲大戰中壓倒性勝利的影響還未散去，Card Player網站日前採訪了程序開發者、CMU 博士 Noam Brown，回顧比賽並評析對戰中的技術亮點。Brown 指出，Libratus 獲勝的原因是它沒有任何能被人類利用的弱點，訓練時 Libratus 從未使用過人類數據。Brown 還表示，稍作增強的 Libratus 有望在兩年內贏得無限手德州撲克 6 人桌（Six-Max）的比賽。

　　上個月月末，卡耐基梅隆大學的 AI 程序在「一對一不限注」的撲克比賽中，擊敗了一組世界級的德州撲克職業選手。出乎所有人的意外，這一程序對人類專業撲克手的勝利幾乎是壓倒性的：14bb/h。

　　（注，德州撲克中，線下按bb/h，超過15bb/h，你已經完全統治這個級別的桌子了，能打到5bb/h-10bb/h已經很不錯了。線上按bb/100手，超過5bb/100已經非常厲害了。）

　　比賽一共打了12萬手，最後 AI 程序贏得170萬籌碼，也就是約 1.7 萬大盲注，接近 90 個買入。對職業撲克玩家來說，還好這不是真正的錢，雖然他們在這場比賽中潰不成軍。團隊裡每個人都敗給了機器。

　　這個 AI 程序被稱為 Libratus，它的開發者之一，CMU 博士生 Noam Brown 稱它是「撲克AI的聖杯」。Libratus 是 Noam Brown 和 CMU 教授 Tuomas Sandholm 一起開發的，而它只是 CMU 研發的一系列撲克 AI 程序中最新的一個。此前，從來沒有機器能在一對一不限注德州撲克遊戲中擊敗世界級的人類職業玩家。

　　卡耐基梅隆大學的 AI 程序 Libratus 的開發者Tuomas Sandholm 教授（右）與 Noam Brown 博士

　　根據 Brown 的說法，後續版本的 Libratus 還能有很大的提升空間，升級後的程序理論上能贏 50bb/h。

　　Card Player 網站就這場歷史性的比賽以及今後的撲克 AI 研究專訪了 Noam Brown。

　　Libratus 獲勝原因及算法關鍵

　　Brian Pempus：你對比賽的結果有感到驚訝嗎？

　　Noam Brown：有的，實際上我對這個 AI 如此之厲害感到驚訝。在比賽前，我們用它跟此前的 AI 程序對打來做測試，然後我們就預感它能贏。Libratus 以10~12bb/h贏了 Claudico，這比人類贏得多（2015年 Claudico 輸給了人類），但差別沒有很大。所以，在比賽前，我們認為 AI 能稍微贏過人類。我們不確定能贏多少。所以 AI 的表現如此之好，令我們印象非常深刻。

　　Brian Pempus：當時你們還不認為 AI 能夠以14bb/h擊敗人類？

　　Noam Brown：是啊，鑑於人類贏過了 Claudico，我們不知道人類的潛力有多大。人類選手能夠發現 Claudico 的弱點，並且利用這些弱點。例如，提升 Claudico 的跛入（limp）是相當有效的，是他們獲勝的關鍵。Libratus 不會利用對手。事實上，Libratus 不會利用 Claudico 的弱點還能以 10~12bb/h 贏過 Claudico，說明 Libratus 如果沒有弱點的話，那麼它在一對一遊戲中比人類更厲害。

Libratus 獲勝的原因就是它沒有任何能被人類利用的弱點。

　　Brian Pempus：在人類玩家將局面帶到接近平分時，你們有沒有認為人類已經發現了 AI 的弱點，還是你們仍然有信心？

　　Noam Brown：是的，在第一周結束時，比分幾乎接近平局。在比賽的第一周，人類選手對 Libratus 會如何調整，Libratus 強項的地方在哪裡這些問題進行了很多推測。他們沒有全部告訴我，但從我所了解到的，他們在尋找數據的模式，AI 的弱點和強項。所以，大多數時候我是不擔心的。他們認為 AI 有缺陷，但其實沒有。例如，有一天的比賽中他們80%都是三倍下注（3-bet），因為根據數據，他們認為 AI 對特定的 3-bet 打法較弱。但我認為這不是真的弱，只是因為數據中存在噪音，因為迄今為止所玩的牌令他們形成了那樣的想法。但他們看到了存在一些模式。例如，他們注意到AI對特定的開局下注的大小對應不好。這些弱點在比賽前我們沒有認為是大事，但事實證明這是相當大的漏洞。幸運的是，AI 對此早有準備，並且在人們睡覺的時候，它在不斷地進行訓練以填補這些差距，防止演變成一個長期的問題。這就是為什麼第二周時局勢轉變了。

　　Brian Pempus：在一局之後進行微調對 AI 來說非常重要嗎？人類團隊之間會討論戰略，這是否將比賽難度提升了？

　　Noam Brown：這裡面存在很多誤解。AI 進行了微調不是說我們告訴它要更頻繁、更多地 4-bet。是人類在每次翻牌前和翻牌時使用不同的下注大小。我們有一堆編程好的下注大小，所以 AI 能夠知道如何應對 2 倍，2.5倍，3 倍的開局下注。但是假如說人類開局下2.75 倍，AI 就會跟到 3 倍。所以它的對應是相當好的。對 2.75 倍跟到 3 倍雖然不是不合理，但假如它不必四捨五入到接近的大小會更好。於是一夜之間，它能訓練如何回應 2.75倍，並且訓練的大小是由一個算法決定的。所以，這就是唯一進行的微調。AI 會學習如何更好地應對不同的翻牌前和翻牌時的下注大小。這是算法的關鍵部分，讓 AI 隨著時間的推移適應人類的打牌風格，而不是像人類以為的那樣在利用人類的弱點。

　　Brian Pempus：那麼，這是否表示 AI 在翻牌前和翻牌中的適應比在轉牌圈和河牌圈時更重要？

　　Noam Brown：對於轉牌圈和河牌圈，你會注意到在遇到轉牌圈時 AI 需要一些時間思考。它實際上需要一些時間思考在轉牌圈和河牌圈之後的動作。有些人沒有注意到，因為這實際上的時間非常短，它實際上是在每次人類玩家在轉牌圈和河牌圈下注時都要重新計算策略。這樣做是為了對人類在轉牌圈和河牌圈時的任何下注大小計算最佳策略。所以，這個問題是必須預先計算一系列的不同下注大小並放入到遊戲樹中，但預先計算的不能應對轉牌圈和河牌圈，因為那是實時計算的策略。

　　Brian Pempus：Libratus 中是不是有一些 Claudico 不具備的能力？或者說，它就是不完美的？

　　Noam Brown：Claudico 對於河牌圈有一個實時的解算器（solver），但是，在下面幾個方面，它表現得更弱一些。首先，沒有考慮阻斷牌（blockers）。為了能實現快速地運轉，它需要把多手牌組合起來，然後再區分對待。所以，處於這一原因，它可能會認為，手牌帶 A 和三個黑桃的牌和另一外一個手牌帶A附帶三個黑桃的牌是一樣的，即便這兩種牌應該區分對待。Claudico 的終局解算器會對大量的實時下注進行計算，但是，它不會對人類的每次下注進行再計算。我認為，這種對人類每次下注進行再計算，對於我們的AI 在本次比賽中獲得勝利是至關重要的。同樣的，這次，我們能對這種計算進行擴展，在轉牌圈開始的時候就進行，這是一種更加密集的計算，因為現在需要處理大約50種可能出現的不同河牌圈，並且在遊戲結束（每手牌）前可能出現的行動數量也在呈指數級地增長。所以，在計算成本上，要有效地擴展這種新算法，新程序的成本也比 Claudico 要貴1000倍。

　　2017 年 1月底，卡耐基梅隆大學的 AI 程序 Libratus 在「一對一不限注」的撲克比賽中與人類玩家對戰現場。最終 Libratus 以絕對的優勢戰勝了四名人類職業玩家。

　　Libratus 沒有使用人類數據，訓練時從未與人類交手

　　Brian Pempus：Libratus 距離玩一個完全的 GTO（距離博弈理論中的最優化策略）還有多遠？諸如此類的機器，你們還有多少版本？

　　Noam Brown：沒有人可以準確地知道，Libratus與博弈理論中的最優化策略相比還有多大的差距。我們知道如何計算這一數值，但是，這是極為昂貴的。現在也還沒有實現。這是我們期望在下一個十年或更長的時間內解決的問題。如果必須要推測一個準確的時間，我認為，一個博弈理論中的最優化策略可以15bb/h 的優勢戰勝Libratus。這是我的粗略估計，範圍應該是在5-50bb/h。

　　Brian Pempus：那在這一方面，AI 還有很大的提升空間？

　　Noam Brown：很難說。過去很多的 AI 程序都有一個最關鍵的弱點：它們在轉牌圈（the turn）和河牌圈（the river）不會考慮阻斷牌（blockers）。這在高級別的比賽中是至關重要的。Libratus 並沒有這一問題。它會在轉牌圈和河牌圈中，對每一手牌進行獨特的衡量。與此前的很多 AI 程序相比，這是一個關鍵的進步，帶來了表現上的巨大飛躍。現在，在這一方向上有了更多的提升空間，也就是如何更好地區分阻斷牌。但是，在如何選擇下注的多少上，也許也有一些提升的空間。對我來說，很難去推測具體會有多大的提升。但是，大約是15bb。

　　Brian Pempus：有人說，Libratus 在轉牌圈和河牌圈的超大下注（Over Bet）是非常具有侵略性的。在你看來，AI 是不是已經具備了一些可以稱之為完美的能力，或者說，如何在當下底牌的範圍（ranges）中平衡這一方向上，AI 仍有改進空間？

　　Noam Brown：在比賽中，Libratus 在超大下註上的表現真的是一個讓我們感到震驚的事。Libratus 並沒有使用人類數據進行訓練，它從未跟人類撲克手打過交道。所以，在參賽時，它帶來的是一種獨特的博弈策略，與人類認為的最優方法有很大的不一樣。超大下注是它的策略中的一個重要部分，另外還有donk bets（作為翻牌前的跟注者進入翻牌圈以後，在沒位置情況下採用向翻牌前的公開加注者反主動下注的打法）策略。對我來說，看到AI 實現了此前人類也沒有做到的一些事，這真的是讓人難以忘記，我非常滿意。

　　我認為，早在Claudico（CMU 此前的德州撲克AI 程序）身上，我們已經看到了這種侵略性。Claudico有一個被人嘲笑的經典行為：它總是在底池還很小的情況下就開始 All-in。我認為，Caudico的這種策略明顯是用錯了。它作出這些大的押注的背後，隱含了許多的不平衡。我認為，在Libratus 身上，我們看到平衡的侵略性，這也是它能贏得比賽的一個關鍵因素。

　　Brian Pempus：很多人開始擔心，Libratus 的勝利對於線上撲克的未來發展意味著什麼。你能否談談，你開發的AI程序如何才不會破壞這些遊戲的本質？至少在當前。

　　Noam Brown：至少我現在可以向人們保證，我們不會把 Libratus 放到網上，也從來沒有相關計劃。但是，顯然，我們也不阻止一些人利用我們發布的技術，把它做成 bot，然後放到網上。我不打算對bot會對線上撲克產生多大的影響進行推測。我對線上撲克知之甚少。但是，我知道目前已經有一些bot 得到了使用，並且，許多撲克網站做了很大的努力希望能抓到這些bot。我不知道，最終誰會是最大的受益者。

　　Libratus 有望在兩年內贏得無限手德撲 6 人桌

　　Brian Pempus：如果比賽中牌的數量減少或增加對比賽結果有什麼影響？機器能應付一疊有 500 到 1000 手的盲注嗎？

　　Noam Brown：我們選擇 200 手盲注的原因是年度計算機撲克競賽採用的是這個規制。每年，做撲克的 AI 研究者都會聚集起來相互對戰。200 手盲注一直被認為對 AI 特別困難，因為牌越多，AI 需要應對的選項就越多。就我的理解，200 手盲注的難度處於人類能玩的上限。我認為保持公平對等是很有必要的，但同時也應該讓 AI 玩起來有難度。要是牌的數量變少，比如 100 手，我認為 AI 玩起來結果跟現在一樣（如果不是更好的話）。要是牌的數量增多，比如 500 或 1000……坦白說，我認為 AI 玩起來結果還是跟現在一樣（如果不是更好的話）。這不是因為對 AI 來說情況變簡單了，而是因為牌數增多，對人類來說變複雜了。我不認為人類能習慣 500 手或 1000 手的盲注。到了那個數量級，Libratus 真正擅長的大規模超大投注（over-bets）的重要性就會凸顯出來。我不認為人類在［超大投注］方面能比 Libratus 強。

　　Brian Pempus：除了無限手德州撲克，還有什麼撲克是 AI 研究者可以讓 bot 再跟多一個人類玩家對戰的？

　　Noam Brown：在三人撲克方面有一些研究。總的來說，就算要對戰超過兩個人類玩家，Libratus 現在使用的技術也是很有效的。問題並不在於技術，而是在於如何評估選手的表現。因為當你有超過兩個對手時，你完全可以在使用 GTO 策略的情況下輸錢——其他選手在暗處或明處串通好了。所以，很難在一個 AI 對戰 5 個人類的情況下確認 AI 是否比人類更好，要做出這種衡量幾乎是不可能的。這也是為什麼計算機撲克競賽要採用一個AI 對戰一個人類的形式，也是為什麼研究者都十分關注 AI 和人類玩家打二人撲克的結果。我認為目前玩無限德州撲克 6 人桌（Six-Max）稍微超出了 Libratus 和其他類似 AI 程序的能力。但話雖如此，年度計算機撲克競賽現在正計劃增加 6 人桌的比賽，所以這方面的研究應該進展得非常快。我認為現在的 Libratus 再增強一些，兩年內就能在無限手德州撲克 6 人桌裡贏過人類。玩 6 人桌的時候，相比 GTO，針對比較弱的玩家進行攻擊的策略可能更有效。AI 撲克研究圈子裡有這方面的討論，目前還沒有得出答案。人類在針對弱者並且攻擊他們的弱點方面更有優勢。

　　編譯來源：http://www.cardplayer.com/poker-news/21333-poker-bot-that-dominated-humans-in-heads-up-could-soon-win-at-six-max-computer-scientist-says

　　【尋找AI獨角獸】新智元聯手10大資本

　　啟動2017創業大賽

　　AI 創業大賽由新智元與10 家主流 AI 創投機構：藍馳創投、紅杉資本中國基金、高瓴智成人工智慧基金、藍湖資本、藍象資本、IDG資本、高榕資本、中信建投證券、明勢資本、松禾遠望基金攜手發起，由新智元主辦，北京市中關村(000931,股吧)科技園區管理委員會、中關村科技園區海澱園管理委員會支持，是一場聚合了 AI 技術領袖和投資領袖的盛會。新智元向滿懷雄心的未來AI獨角獸提供強大的創投資源對接機會，頂級風投 TS 等你來拿。

　　http://form.mikecrm.com/gthejw

　　點擊文章下方，在線填寫報名申請報名表。該報名表為參與評選必填資料。

　　如有更多介紹資料（例如BP等），可發送至 xzy100@aiera.com.cn，郵件標題請註明公司名稱。如有任何諮詢問題，也歡迎向該郵箱發信聯繫。

　　大賽諮詢，請添加新智元微信號：

文章來源：微信公眾號新智元

（責任編輯：柳蘇源 HN091）

CMU 德州撲克幕後英雄 AI 將在一對多比賽完勝人類

相關焦點

不按常理出牌,AI在多人桌德州撲克比賽中戰勝世界頂尖選手

德州撲克人機大戰AI取勝麻將是人類最後堡壘?

AI又贏了!人工智慧戰勝世界頂尖德州撲克選手

德州撲克算法幕後研發者CMU博士Brown專訪:AI如何打敗頂級人類牌手?

AI 首次在德州撲克戰勝人類職業玩家,新算法讓機器擁有「直覺」

德州撲克人機大戰:人工智慧上半程領先

完勝四名專業級德州撲克玩家?AI軟體Libratus何以稱雄?

《遇悅德州撲克》新增夜場MTT比賽房

德州撲克也有「阿爾法狗」了或下月來華-產業·期貨-新聞-上海...

AI又盯上德州撲克? 人工智慧首次戰勝職業玩家

德州撲克第三眼:中西合璧的WPT中國賽

《遇悅德州撲克》MTT賀歲杯狂歡大獎賽

規則-網易德州撲克

《遇悅德州撲克》春節七天樂MTT搶先看

《遇悅德州撲克》MTT狂歡賽季隆重上線

AI在六人桌德州撲克賽中戰勝人類選手

博雅互動德州撲克大講堂——多桌錦標賽早期階段策略

《遇悅德州撲克》MTT賽場萬元CPG門票等你贏

以WSOP的名義——天天德州開啟線上撲克賽事新紀元

博弈AI大時代崛起 AI是如何戰勝人類世界冠軍的?

CMU 德州撲克幕後英雄 AI 將在一對多比賽完勝人類

相關焦點

不按常理出牌,AI在多人桌德州撲克比賽中戰勝世界頂尖選手

德州撲克人機大戰AI取勝 麻將是人類最後堡壘?

AI又贏了!人工智慧戰勝世界頂尖德州撲克選手

德州撲克算法幕後研發者CMU博士Brown專訪:AI如何打敗頂級人類牌手?

AI 首次在德州撲克戰勝人類職業玩家,新算法讓機器擁有「直覺」

德州撲克人機大戰:人工智慧上半程領先

完勝四名專業級德州撲克玩家?AI軟體Libratus何以稱雄?

《遇悅德州撲克》新增夜場MTT比賽房

德州撲克也有「阿爾法狗」了 或下月來華-產業·期貨-新聞-上海...

AI又盯上德州撲克? 人工智慧首次戰勝職業玩家

德州撲克第三眼:中西合璧的WPT中國賽

《遇悅德州撲克》MTT賀歲杯狂歡大獎賽

規則-網易德州撲克

《遇悅德州撲克》春節七天樂MTT搶先看

《遇悅德州撲克》MTT狂歡賽季隆重上線

AI在六人桌德州撲克賽中戰勝人類選手

博雅互動德州撲克大講堂——多桌錦標賽早期階段策略

《遇悅德州撲克》MTT賽場萬元CPG門票等你贏

以WSOP的名義——天天德州開啟線上撲克賽事新紀元

博弈AI大時代崛起 AI是如何戰勝人類世界冠軍的?

德州撲克人機大戰AI取勝麻將是人類最後堡壘?

德州撲克也有「阿爾法狗」了或下月來華-產業·期貨-新聞-上海...