AI賭神稱霸德撲的秘密,剛剛被《科學》「曝光」了

2021-01-17 量子位

夏乙 問耕 發自 凹非寺 量子位 出品 | 公眾號 QbitAI

稱霸德州撲克賽場的賭神Libratus,是今年最矚目的AI明星之一。

剛剛,《科學》最新發布的預印版論文,詳細解讀了AI賭神背後系統的全貌。此前的NIPS 2017大會上,最佳論文就頒給了Libratus團隊,不過那篇會議論文只是重點講述這個德撲AI中的子博弈求解算法。

在最新論文 Superhuman AI for heads-up no-limit poker: Libratus beats top professionals 中,卡內基梅隆大學(CMU)的博士生Noam Brown和教授Tuomas Sandholm,詳細介紹了德撲AI如何通過將遊戲分解為可計算、可管理的部分,來實現超越人類的表現,而且AI還能根據對手情況,修正潛在的戰略弱點。

Libratus所用到的技術既不需要領域專家知識,也沒有使用人類數據,甚至不是專門為撲克設計的。換句話說, 這些技術適用於多種不完美信息博弈。

不完美博弈正是德撲的一個主要特徵。圍棋、西洋棋、跳棋等棋類遊戲,屬於完美信息博弈,對戰的雙方,清楚每一時刻局面上的全部情況。相比之下,德州撲克存在大量的隱藏信息,包括:對手持有什麼牌,對手是否在詐唬?

詳解Libratus

據最新論文介紹,Libratus主要包括三個模塊。

第一個模塊負責對牌面進行簡化計算 ,將包含10 161 種情況的一對一無限注德撲抽象成一個比較簡單的博弈。然後,這個模塊為前兩輪制定詳細的策略,並為後兩輪制定一個粗略的策略。這個抽象簡化版博弈的解決方法稱為藍圖策略(blueprint strategy)。

這種抽象體現在兩個方面,一是下注金額上,二是牌面上。

在下注金額上,100美元和101美元其實幾乎沒有差別,因此,算法可以對不到100美元的差異進行四捨五入。同時,將類似的牌面視為同一類,也能降低計算的複雜度。

需要說明的是,Libratus在後兩輪遊戲中並不會按照抽象版的解決方法來玩,藍圖策略在這兩輪中的作用,只是用來估算玩家在子遊戲中每一首牌應該得到的獎勵,然後參考這個估算值,在真正的牌局中做出更精確的策略。

這個「更精確的策略」,也就是 第二個模塊:嵌套安全子博弈求解 (Nested safe subgame solving)。在博弈後期,這個模塊會基於當前的牌面,構建一個全新的、更精細的抽象,而且對這個子博弈的策略進行實時計算。

△ Subgame solving

上圖是Libratus的子博弈求解過程。頂部表示在對局過程中出現了一個子博弈,中間部分表示算法為這個子博弈制定了更詳細的策略,每次迭代中,對手隨機發放一手牌,可選的期望值可能來自舊的抽象(紅色),也可以來自新的、更精細的抽象(綠色)。如果期望值來自新的抽象,兩個玩家的策略都會改變。這就迫使Libratus制定更精細的策略。上圖底部表示用新的策略替代舊策略。

△ nested subgame solving圖解

Libratus的子博弈策略計算和那些完美信息博弈不太一樣,它需要確保這些子博弈的精細解決方法與整個博弈的大藍圖策略不衝突,而不能孤立地解決它。

第三個模塊的意義,是隨著比賽的進行,改進自身的藍圖策略。 Sandholm教授表示,通常AI使用機器學習來發現對手的戰略錯誤並加以利用。但這也會讓AI暴露自身的弱點,並被對手加以利用。

不同之處在於,Libratus的自我改進模塊分析對手賭注大小,以檢測自身藍圖戰略中潛在的漏洞,然後彌補自身的不足之處。

在與人類高手對戰之前,Sandholm和Brown為了測試Libratus中所用的各項技術,先用簡化版的撲克對整體流程進行了測試,然後把AI用到了完整版的一對一無限注德州撲克上,和他們自己之前開發的Baby Tartanian8進行比賽。

2016年,Baby Tartanian8曾經贏得電腦德撲大賽冠軍,不過Libratus以63±28大盲注/千手(mbb/hand)的戰績擊敗了它。

「我們研發的技術在很大程度上是獨立於領域的,因此可以應用於其他不完美信息策略應用,不僅限於遊戲領域」,Sandholm和Brown總結說:現實世界的戰略交鋒中,隱藏信息無處不在,Libratus引入的範式對AI未來的發展和引用至關重要。

目前,這項技術已經授權給Sandholm創辦的公司。

論文地址

http://science.sciencemag.org/content/early/2017/12/15/science.aao1733

獨家對話

今年3月,量子位前往CMU專程拜訪過Sandholm和Brown。當時,他們就曾談及Libratus的理念,包括三個模塊的設計思路。

這裡也把 量子位之前報導的內容 摘錄如下。

無師自通

在德撲這件事上,Libratus沒有師父。

Sandholm和Brown只告訴AI基本的德州撲克規則,然後Libratus就開始通過「左右手互搏」的方式學習這個撲克遊戲。和AlphaGo不同,在人機大戰之前Libratus沒有研究過人類如何打德州撲克,也沒有和人類職業玩家有過交手。

在投入實戰之前,Libratus自己對戰了幾百萬手牌,其中有不少是帶有特定目的的殘局,真正機器和機器之間的交手,大約是幾十萬手。

所以,AI形成了一種與人類迥然不同的牌風。

「在德撲比賽中,頂級高手會嘗試尋找對手的弱點,並展開攻擊」,創新工場AI工程院技術VP李天放說。李天放既有技術背景,也是一名德撲高手。

Dong Kim是今年1月德撲人機大戰中的一位人類選手,這位28歲的韓裔美國人回憶說,每一天Libratus都會進步,人類選手很難找到它的弱點或漏洞。即便找到一個,第二天就會消失不見。這讓他感到絕望。

但也許他根本就感覺錯了。「有人類玩家說找到了漏洞,其實不一定」,Brown對量子位說:「這可能是Libratus的一種戰術,去攪亂對手的策略」。

△ Brown身後是他的電腦

不能用人類的思維去衡量AI。讓Sandholm記憶猶新的是,1月的德撲人機大戰進行到尾聲,當時AI早已遙遙領先,所有人都認為Libratus會趨近於保守。

「但它反而越來越激進」,Sandholm說特別是最後幾局,非常出人意料。

比方,為了一個很小的底池推了All in,或者下注額只有底池的十分之一。「有時候Libratus的策略會被認為是臭手」,但事後復盤Sandholm說這個德撲AI嘗試了很多令人叫絕的方法,其中包括各種策略的詐唬。

詐唬也不是人教的,而是機器自己學會的。

怎麼學?「詐唬是特別重要的技能,系統在學習中發現,如果有一手爛牌,直接詐唬能贏更多,所以它就學會了」,Brown告訴量子位。

「這就是AI特別奇妙的地方」,Brown坐在自己CMU標配的上一代Aeron座椅上說,「很多人看到Libratus能詐唬,覺得很了不起」,但在這位博士的眼中,詐唬這種看似與心理有關的人類技能,機器是可以通過算法學會的。

三個模塊

為什麼Libratus能比前代更厲害,進步在何處?Brown舉了兩個例子。

比如,對於K-High Flush(最大牌為K的同花)和Q-High Flush(最大牌為Q的同花),這兩手牌對於Claudico來說是等值的,而Libratus則會做一個精確的區分。實際上,Libratus會對每一手牌進行單獨的處理,根據不同的牌面制訂出不同的戰略。

再比如,對於250元的下注,是當成200元還是300元來計算?那麼249或者251呢?實際上,Libratus不會嘗試聚類,而是馬上實時計算,得出勝算最大的策略。

△ Sandholm講解冷撲大師

Sandholm則從全局的角度,打開Libratus的大腦,向量子位逐一講解了構成這個撲克AI的三個主要模塊。其中一個用於賽前,兩個用於賽中。

模塊一: Nash equilibrium approximation before competition(賽前納什均衡近似)

這個模塊把最重要的博弈信息進行抽取,比如針對某一手牌對應的戰略,然後再應用強化學習等方法,繼續尋求提高和改進。這裡使用了一個新的算法:蒙特卡洛反事實遺憾最小化。在這個模型的幫助下,Libratus自己學會了德撲,而且比以前速度更快。

Libratus不再尋求發現並利用人類對手的漏洞,相反,這個AI開始觀察人類發現了它什麼弱點,然後有針對性的彌補和提升。於是Libratus的弱點越來越少,直到人類玩家沮喪的發現,想要贏下比賽變成一件幾乎不可能完成的任務。

不主動進攻就很少露出破綻,李天放說跟Libratus對戰就像打一堵牆,最好的結果可能就是打個平手,基本不可能獲勝。納什均衡本身,追求的就是一種平衡。

Libratus是一個防守大師。

深度學習不是唯一

與圍棋大師AlphaGo相比,Libratus有很多不同之處。其中就包括:Libratus並沒有使用目前相當火熱的深度學習技術。

「深度學習是個非常好的技術,但我們沒有在這個項目應用,是因為深度學習不能給出絕對的保證。比方識別貓的圖像,對於給定的圖片能得出95%是貓,但也不是絕對的保證,而我們的算法,能夠保證最優異的結果」,Sandholm說。

當然也有團隊在用深度學習來搞德撲AI。

來自加拿大阿爾伯塔大學、捷克布拉格查理大學和捷克理工大學的研究人員,基於深度學習技術開發出德州撲克人工智慧DeepStack。

對於兩個德撲AI來說,還沒有更好的比較方法,目前只能說Libratus擊敗的對手,要比DeepStack的對手水平更高。其他這裡不展開討論了,這個團隊也發表了相關的論文。

「對這一類型的任務,我們的方案比深度學習更好」,Sandholm對量子位表示,目前深度學習的方案實際上沒有解決問題,而Libratus這個系統「時間越長,越能接近完美」。

對於這個問題,我們詢問了CMU機器學習系的邢波教授,他指出還不應過早的下結論說:深度學習就是機器學習的未來。

「Sandholm教授其實不是做深度學習的,他用的方法實際上被認為是是傳統的AI,但是可以達到這麼強大的功能」,邢波對量子位表示這是一個有力的證明:人工智慧並不等於深度學習,很多新的方法需要探索和了解。

Libratus戰績回顧

今年1月,在匹茲堡河流賭場舉辦了一場為期20天的Brains vs. AI比賽,Libratus在一對一、無限注的德撲人機大戰中,擊敗四位頂級人類玩家,累計贏得176.6萬美元籌碼。按照德撲的術語,Libratus與人類高手的差距是147大盲注/千手(mbb/hand),也就是場均14.7個大盲注。

今年4月,創新工場董事長兼CEO、創新工場人工智慧工程院院長李開復,邀請Libratus和團隊來到中國,以「冷撲大師」之名與「龍之隊」展開對決。

這場為期五天的對決中,冷撲大師以領先792327記分牌、每百手領先15.8大盲注的成績擊敗人類對手。贏得200萬獎金。

當時李開復表示,AI在徵服了以不完美信息博弈為內核的德州撲克後,AI在遊戲領域比人類更強已經沒有任何懸念了。人機大戰的結果證明AI比我們想像中來的更快,接下來要關注的應該就是AI在商業、醫療等領域的應用。

論文地址

— 完 —

活動報名

加入社群

相關焦點

  • 第三代AI賭神誕生:可在六人桌德撲中勝過5個人類頂尖高手
    第50屆世界撲克系列賽(WSOP)的六人桌無限德撲即將在7月13日開賽,但AI偏偏選在這個節骨眼上踢館。美國卡內基梅隆大學和Facebook公司7月12日在《科學》上發表論文稱,他們聯合開發的德撲人工智慧Pluribus能在六人桌無限德撲中擊敗頂級人類玩家。
  • 首屆國際分布式AI會議在京召開,姚期智、Lesser坐鎮,德撲、圍棋 AI...
    一、德撲&圍棋,全天講解會議從13日開始,上下午分別有一個tutorial。有意思的是,上午tutorial的講者是著名德撲AI研究者Noam Brown,而下午的講者是在圍棋AI領域極為著名的華人學者田淵棟。
  • 圍棋阿爾法狗和德撲冷撲大師:哪個更厲害,哪個更有用
    然而,德撲中隱藏了很多信息,是一種「非完美信息遊戲」。玩家不知道對手手中是什麼牌,不知道五張公共牌會開出怎樣的結果,也不知道對手猜測自己握有怎樣的手牌。因此,雖然一盤德撲的決策點數量是10的160次方,要少於圍棋,但光靠搜索是打不了德撲的。德撲由此跳出了在搜索量上的較量,對AI提出了另一個方向上的考驗:應對隱藏的信息。
  • 德撲人機大戰差點沒搞成,這是幾個你不知道的細節……
    唐旭 發自 海南量子位 報導 | 公眾號 QbitAI「德撲人機大戰結束了,人類無懸念被AI吊打。」這兩天看了這麼多媒體的新聞稿,大家對這場比賽的印象可能也就僅此而已——但,真的是這樣嗎?跟風跟了兩天的量子位覺得事情可能沒這麼簡單,於是直接讓北京總部空投了一輛挖掘機過來。
  • 人機大戰再上演,玩德撲的「阿爾法狗」來了
    此前,人工智慧程序已經在有限下注的德撲當中戰勝過人類。不過,在有限下注的德撲中,全部的決策點(decision points)只有不到10的14次方個。而一對一無限注中包含10的160次方個決策點(decision points)。 不過,在這場比賽進行之前,有一件事多少搶了Libratus的風頭。
  • 德日稱霸 二手車誰值錢? 保值二手車TOP10
    德、日稱霸 韓、法絕緣保值率是貫穿一款車生命周期的價值曲線。曲線的走向決定了這款車在不同年限的真實價值。保值率的計算以100為基數,新車保值率為100,隨使用年限的增加而遞減。因為一款車的價值在使用3~6年區間比較穩定,因此保值率排名以車型在第四年的保值率為依據。我們簡單歸納了一下這次中國汽車流通協會的報告,梳理出最保值的幾款車型。
  • 重磅| 德撲人機大戰收官,Libratus 擊敗世界頂尖撲克選手
    機器之心報導作者:微胖、杜夏德、朱思穎當地時間 1 月 30 日,在賓夕法尼亞州匹茲堡的 Rivers 賭場,卡耐基梅隆大學(CMU)開發的 Libratus 人工智慧系統擊敗人類頂級職業玩家。在無限德撲比賽中(一對一、無限制投注的規則),人工智慧擊敗世界最強的人類德州撲克玩家,這是人工智慧歷史上又一裡程碑時刻。比賽過程中,人類選手整體上從未領先過。進入比賽最後一天時,Libratus贏得156萬籌碼。人類選手要挽回劣勢,只有不到 5,000 手的機會。Jason Les 說,最後的感覺就是,自己所能做的就是輸。這太打擊士氣了。
  • 「賭神」科學家如何改變當代金融市場?
    香農的資訊理論是一門高度抽象的通信科學,為計算機、網際網路的發展提供了依據;他也早早的預見到了人工智慧時代的許多技術難題和倫理悖論。對於其他同時代的科學家來說,與香農共事,似乎總能帶來挫敗和啟示,前者是因為困擾其他科學家的重大理論問題,香農早就已經考慮清楚,有了定見;後者指的是,香農如此聰慧,卻沒有完整去闡述自己的許多思考成果,這為其他科學家完善自己的理論發現留出了時間。
  • 德撲講堂四大定律:下注的定律
    原標題:德撲講堂四大定律:下注的定律 上期介紹了四大定律之二:進攻定律。進攻的玩家擁有三個優點,主動出擊,變相讓自己處於優勢位置;控制場面,降低被弱小牌逆襲的機會;獲取情報,判斷對手的牌力。簡而言之,能夠選擇加注的場合就不要選擇跟注。加注的效果比跟注要好很多!
  • 恐龍稱霸地球多年,最後卻停止進化了,背後隱藏了什麼秘密?
    恐龍稱霸地球多年,最後卻停止進化了,背後隱藏了什麼秘密?恐龍稱霸地球多年,最後卻停止進化了,背後隱藏了什麼秘密?在我們的印象中,恐龍擁有龐大的身軀和矯健的四肢,無論殺傷力還是威懾力,都是地球上數一數二的存在,所有生物看到它後,都會迅速的逃跑,它完全不需要受到外來因素的牽制,有條件完成自我淨化。按道理來說,這樣的生物就該成為地球上的領導者,為什麼最後它沒有進化成功呢?
  • TTIP談判秘密文件被曝光 美歐「黑箱作業」再遭炮轟
    TTIP談判秘密文件被曝光 美歐「黑箱作業」再遭炮轟 2016-05-02 20:22:00  自2014年該項協議的談判被曝光以來,TTIP在歐盟國家內部廣受質疑,多國都爆發過大規模抗議遊行。以德國為例,2015年10月10日有約10萬人從全國各地來到首都柏林,遊行反對TTIP;今年4月底,歐巴馬訪問漢諾瓦前夕,當地有超過2萬人走上街頭,抗議歐盟考慮與美國達成的這一協議。  在此之前,美歐雙方一直小心翼翼地避免具體談判細節曝光。
  • 《賭俠》三十年,港片裡的賭神宇宙到底有多大
    一個是賭神高進的愛徒,一個是賭神高進的粉絲,兩人合力擊敗了一向與高進為敵的賭王派系。至此,賭系列電影正式成型。那時候的王晶還沒有獲封」爛片之王「的稱號。而他創作了以賭神高進為核心的賭神宇宙,比今天承包暑期檔的漫威宇宙還要早上十幾年。
  • 揭秘Libratus變身德撲賭神背後:人工智慧20年的研發心血
    「無限注德州撲克是你在錦標賽中看到的那種遊戲,它甚至被稱作是更像一種藝術,而不是科學。」 《完美下注:科學和數學如何去除賭博中的運氣》的作者Adam Kucharski這樣說道,「這意味著撲克不會在短時間內被機器取代。」然而這種想法在最近幾周突然幻滅了。
  • 冷撲大師(Libratus)如何顛覆人工智慧深度學習算法
    德撲什麼是納什均衡? 納什均衡是指博弈中這樣的局面,對於每個參與者來說,只要其他人不改變策略,他就無法改善自己的狀況。納什證明了在每個參與者都只有有限種策略選擇並允許混合策略的前提下,納什均衡定存在。2017年4月6日至10日,經過為期5天的角逐,Libratus對戰「龍之隊」表演賽在海南生態軟家園結束了,「冷撲大師」最終以792327總記分牌的戰績完勝並贏得200萬獎金。
  • 賭片不僅有《賭神》,這部經典賭劇堪稱賭片版武俠|王晶|方真|賭神|...
    1989年由王晶執導的《賭神》掀起了香港賭片的熱潮。一時間關於賭博的電影層出不窮,其中王晶及劉鎮偉執導的「賭神」系列則是其中的佼佼者。該系列讓周星馳一夜間從「星仔」變成了「星爺」,而「賭神」「賭俠」「賭聖」等熒幕形象也成為一代人心中的記憶。賭片代表了香港電影的一個時代,2014年王晶再次拍攝「賭神」系列續集《澳門風雲》,依然取得不俗的票房,可見在許多人心中都有賭片情結。
  • 想玩好德撲?6UP官方星球免費賽教你8招
    當下,有不少德撲愛好者,都通過在6UP官方上遊戲,以此來提升自己的技能。6UP官方是全球最大的撲克競技平臺在亞洲唯一的合作夥伴,為亞洲全網用戶提供了一個競技平臺。
  • 香港電影第一隱形女主角張敏隱形記,和賭神周潤發最沒緣分
    【張敏的隱形女主角經歷】《賭神》1989年,《賭神2》1994年王晶為周潤發量身定做的香港賭片開山之作,兩部都是年度票房冠軍,《賭神2》甚至是香港本地票房第一部過5000萬的大片。在《賭神》中,張敏飾演賭神周潤發的老婆,但只出場了兩三次,中間周潤發失憶失蹤時,就被賭神的堂弟高義害死了。最後,讓男二號劉德華的女朋友王祖賢成為實際女主角。
  • 《賭神2》和《國產007》中都出現了達文西,難道真的是巧合嗎?
    這個是《賭神2》中的達文西的臺詞。看起來是不是在認真的搞笑。當然了,首先你得明白一點,那就是這個此到底是什麼意思。達文西這個名字首先出現在《國產007》中,在那部電影中羅家英飾演的是一個發明家。可是,仔細的看下來才發現,他發明的那些物品都是一些沒有用的東西。也正是因為他這個好發明的愛好,取名達文西也就是向達文西致敬的意思。
  • 都說王晶是「爛片之王」,但他也有好電影,除了《賭神》還有4部
    《賭神》 王晶的《賭神》在香港電影史上具有劃時代意義,它開闢了香港電影的另一個賭片領域 《賭神》是80,90後的青春記憶。
  • 模玩前線:MG德天使曝光!RG海牛高達露臉!HG克西高達公開!
    MG德天使曝光! 價格:未知 發售日期:未知 看到萬代成品部的新品展會帶來巨大反響後,拼裝部也開始不甘示弱了。今日(12號),由由日本 BANDAI SPIRITS 公司 HOBBY 事業部發行,搭配最新技術、完整分件分色及高可動的MG系列終於迎來新品。