《連線》揭秘人工智慧Libratus是如何擊敗德州撲克頂級玩家的?

2021-02-08 人工智慧學家

Libratus是個裡程碑,這意味著從華爾街的交易到網絡安全乃至於拍賣和政治談判,這種AI都可以扮演角色。

編者按: 1 月 30 日,賓夕法尼亞州匹茲堡Rivers賭場,耗時20天的德州撲克人機大戰塵埃落定。卡耐基梅隆大學(CMU)開發的AI程序Libratus 擊敗人類頂級職業玩家,贏取了20萬美元的獎金。儘管之前Google DeepMind的AlphaGo在與李世石的5番棋圍棋大戰以及在網絡上跟頂級圍棋選手的60番棋大戰中出盡了風頭。但相對而言德州撲克對於AI卻是更大的挑戰,因為AI只能看到遊戲的部分信息,遊戲並不存在單一的最優下法。那麼CMU的Libratus是如何擊敗人類頂級的職業玩家的呢?《連線》雜誌的這篇文章為我們揭秘。

在幾乎3個星期的時間裡,Dong Kim都呆在匹茲堡的一個賭場內跟一臺機器玩撲克。但Kim不是普通的撲克玩家。跟他對壘的也不是普通的機器。而這場比賽也不是普通的撲克遊戲。

28歲的Kim是全世界最好的撲克玩家之一。而那臺由卡內基梅隆大學的兩位計算機科學研究人員開發的機器,是一套運行在匹茲堡的一臺超級計算機的人工智慧系統。在整整20天的時間內,他們都在玩無限制德州撲克比賽,這是一種尤其複雜的撲克遊戲形式,其投注策略往往要經過很多手。

這場比賽剛剛結束不久。大概賽程過半的時候,Kim開始覺得Libratus好像能看到他的牌。不過他說:「我不是指責它作弊。而是說它有那麼好。」實際上好到擊敗了Kim及其他的3名全球頂級人類玩家——這是人工智慧的第一次。

在這次比賽期間,Libratus的創造者對這套系統的運作方式顯得遮遮掩掩,大家不清楚它是如何設法取得如此成功的,如何以其他機器前所未有的方式模仿了人類直覺的。但結果證明,該AI能達到如此高度是因為它不僅僅只是一個AI。

Libratus依靠了3套不同的系統的協作,這提醒我們現代AI並不是由一項而是多項技術驅動的。這段時間以來深度神經網絡抓住了大多人的眼球,當然這也有很好的理由:它們為一些全球最大型的技術公司從圖像識別到翻譯乃至於搜索的一切提供了動力。但神經網絡的成功也為大量其他幫助機器模仿甚至超越人類天才的AI技術注入了新生命。

比方說,Libratus就沒有使用神經網絡。它主要靠的是強化學習,這是人工智慧的一種,一種極其強調試錯的方法。其實質就是自己跟自己玩大量的遊戲。

Google的DeppMind實驗室利用強化學習來開發AlphaGo,這套系統攻克圍棋的時間比預期早了10年,但這兩套系統之間有一個關鍵的不同。AlphaGo是通過分析人類玩家的3000萬份棋譜來學習遊戲的,然後才通過自己跟自己下棋來改進自己的技能。相對而言,Libratus卻是從零開始學的。

通過一種名為反事實遺憾最小化(counterfactual regret minimization)的算法,它先是隨機地玩,然後最終在經過幾個月的訓練以及玩了上萬億手撲克之後,它也達到了能挑戰最好人類玩家的高度,不僅如此,它的玩法還是人類所不能的——它下注的範圍要大得多,而且會對這些賭注隨機化,這樣對手就更難猜自己手上都有什麼牌了。跟導師Tuomas Sandholm一起開發了這套系統的CMU研究生Noam Brown說:「我們只是向AI描述了這個遊戲,但沒有告訴它怎麼玩。它完全是獨立於人的玩法形成自己的策略的,而且它的玩法跟人的玩法會非常不一樣。」

但這只是第一階段。在匹茲堡的比賽期間,第二套系統會分析遊戲狀態並聚焦於第一套系統的注意力。這套系統屬於一種「殘局解算器(end-game solver)」,上周一Sandholm 和Brown發表的論文詳細描述了它的細節。在第二套系統的幫助下,第一套系統再也不需要像過去那樣跑完所有可能的場景了。它可以只試探其中的一些場景。也就是說,Libratus不僅僅是在在比賽前學習,而且還能在比賽中學到東西。

光靠這兩套系統就已經很有效率了。但Kim等其他玩家仍然能夠找出機器玩法的一些模式然後設法加以利用。為此,Brown和Sandholm開發了第三套系統。每天晚上Brown都會跑一個算法來識別出那些模式然後從策略中剔除掉。他說:「一個晚上它就能計算完然後在次日把一切準備就緒。」

如果這似乎不公平的話,好吧,AI就是這麼幹。這並不僅僅是AI跨越了許多技術。人類往往也頻繁加入進來,積極地改進AI、跑AI或者增強AI。Libratus的確是個裡程碑,展示了一種新型的AI,從華爾街的交易到網絡安全乃至於拍賣和政治談判,這種AI都可以從中扮演一定的角色。曾幫助Google設立中心AI實驗室,現為百度首席科學家的吳恩達說:「撲克曾經是AI最難攻克的遊戲之一,因為關於遊戲狀態你只能看到部分信息。撲克並沒有單一的最優下法。相反,AI玩家必須讓自己的行動隨機化,這樣它詐唬時才能讓對方無法確定真假。」

Libratus把這一點做到了極致。它的下注非常的隨機化,甚至超過了人類最好玩家的水平。而且如果這個方法不奏效的話,Brown晚上跑的算法就會彌補它的不足。金融市場交易員也可以採取相同的做法。外交官亦然。這是一個強大且相當令人不安的想法:機器可以用大賭注嚇退人類。


【重磅】未來科技學院前沿科技趨勢學習班 (2017第一期)報名

每一次人類社會的重大技術變革都會導致新的科學革命,網際網路與人工智慧對於人類的影響已經遠遠超過了大工業革命。人工智慧、網際網路、腦科學、虛擬實境、機器人、生物基因等領域正在相互融合,形成一股強大的洪流,對人類社會的各個領域產生巨大的影響。

一日千裡的科技進展,層出不窮的新概念,使企業家,投資人和社會大眾面臨巨大的科技發展壓力,前沿科技現狀和未來發展方向是什麼?社會大眾,企業家和投資家如何應對新科學技術帶來的挑戰?

在科學院大數據與知識管理重點實驗室,泰智會,人工智慧學家的支持下,未來科技學院邀請國內和國際著名科學家、科技企業家講授人工智慧、網際網路、腦科學、虛擬實境、機器人,3D列印、生物基因等領域的基本原理和未來發展趨勢。歡迎投資界、企業界,科研機構的人士參加。

未來科技學院第一期前沿科技趨勢學習班將在2017年2月下旬(2月24日-26日)在北京中關村網際網路金融中心1樓未來科技講堂舉辦。線下集中學習三天,之後學員將通過未來科技學院的線上平臺進行更多前沿科技講座學習和答疑互動。集中學習期間,將舉辦未來科技交流酒會,加強學員以及專家之間的溝通交流。

未來科技學院第一期學員將受邀加入未來科技學院的「未來科技創新促進會」,共享未來科技學院的高端科學家、企業家和投資人資源,共同解決企業和投資過程中遇到的科技問題;參與前沿科技未來發展重大課題研究;參加未來科技學院組織的講座、參觀和會議;選擇投資未來科技學院孵化的前沿科技創新創業項目。

點擊本文左下角」閱讀原文」了解詳細信息

相關焦點

  • 完勝四名專業級德州撲克玩家?AI軟體Libratus何以稱雄?
    人工智慧時代來了…你可能猜到了我要提的技術:人工智慧。在數字革命中,人工智慧也許已成為最宏大和最活躍的領域,其永無止境的創新轟動了整個行業。僅舉個例子,一個叫做Libratus的基於人工智慧的軟體,在20天的比賽中,主動出擊,全力以赴,擊敗了四名無限制德州撲克的職業玩家。
  • 人工智慧又盯上了德州撲克
    人工智慧轉戰德州撲克首次戰勝人類職業玩家  近日,加拿大和捷克幾位科學家的一篇題為《DeepStack:無限注德撲的專業級人工智慧玩家》的論文中,介紹了一種能在一對一無限注(任何人在任何時候可下任何數目籌碼)德州撲克中擊敗人類玩家的新算法DeepStack。
  • 重磅 德撲人機大戰收官,Libratus 擊敗世界頂尖撲克選手
    當地時間 1 月 30 日,在賓夕法尼亞州匹茲堡的 Rivers 賭場,卡耐基梅隆大學(CMU)開發的 Libratus 人工智慧系統擊敗人類頂級職業玩家
  • 人工智慧又盯上了德州撲克 它真的可以讀懂人心了嗎
    而人工智慧真的來了,雖然挑戰的項目不是麻將,而是和麻將有相通之處的德州撲克。  人工智慧轉戰德州撲克  首次戰勝人類職業玩家  近日,加拿大和捷克幾位科學家的一篇題為《DeepStack:無限注德撲的專業級人工智慧玩家》的論文中,介紹了一種能在一對一無限注(任何人在任何時候可下任何數目籌碼)德州撲克中擊敗人類玩家的新算法DeepStack。
  • 人工智慧將會摧毀線上撲克,現時危機還是危言聳聽?
    不少人都認為,人工智慧終會摧毀線上撲克。這一說法是否會變成現實呢?自從人工智慧被應用到德州撲克以來,主要被用於兩個方向:以戰勝人類為最終目的,也就依靠AI撲克程序在牌桌上盈利。以教學為目的,通過AI自身的深度學習與對抗,形成一套最優策略,然後傳授給人類。也就是GTO。
  • 德州撲克如何回歸娛樂競技本源
    ,會以何種方式回歸就成為了德州撲克愛好者們最經常討論的話題。 這項遊戲傳入中國以來,也頗受海龜一派和中青年玩家的歡迎,但是由於部分電子棋牌遊戲企業過分追求經濟效益,出現了觸碰法律紅線、商業模式涉賭等問題,並因此受到國家有關部門的集中整治。 但是德州撲克這項遊戲作為一個綜合了數學,統計學,心理學的一項智力競技遊戲,本身並沒有錯,而且也是備受廣大玩家肯定和認可的一款好遊戲。
  • 撲克機器人Libratus碾壓人類牌手
    在人機大戰開局,撲克機器人Libratus就以壓倒性的勢頭領先人類。雖然人類曾經也取得過優勢,但根據目前的賽況人類很難再取得優勢。本次人機對局120,000手,獲勝方獎金$200,000,對陣的四名玩家分別為 Dong Kim, Jimmy Chou, Jason Les和Daniel McAulay。
  • Libratus具有超人的深度學習和賭技,奠定了AI新裡程碑
    註定比谷歌AlphaGo更出名的人工智慧賭神——Libratus在歷時20天德州撲克豪賭中毫無懸念地完勝了四位撲克賭王,共贏得一百七十六萬美元籌碼。在20天賭局中交手12萬次,賭神Libratus天天淨賺不賠!
  • 豐厚獎品迎德州撲克玩家 豪膽平臺激情公測
    國內賽事系統最專業的德州撲克平臺——豪膽平臺已於日前公測。從7月6日開始,每天都會有十餘場大型比賽,送出包括iphone4、IPAD、筆記本電腦、shuffle和移動充值卡等獎品。中國玩家將迎來有史以來最密集,獎品最豐盛的德州撲克線上賽。
  • 德州撲克講堂:如何將概率運用在行動下註上
    原標題:德州撲克講堂:如何將概率運用在行動下註上   概率,第五期內容介紹了德州撲克的經典速算法則——42法則,及玩家在翻牌圈將抽牌X4、在轉牌圈將抽牌X2便可大略算出勝率。本期將會結合前五期介紹的概率相關內容講解如何將概率運用在行動下註上面。
  • 德州撲克大賽首因涉賭被立案 玩家對涉賭存異議
    網絡上的德州撲克被稱為「吸金工具」,傳統的線下德州撲克活動是否也賺得盆滿缽滿呢?在王小山看來,全國各地的德州撲克比賽一般都是由各類棋牌文化公司舉辦,大多數公司的負責人都是喜歡德州撲克的人士,但他們從事這項活動並不是特別賺錢。「大夥繳納的報名費都要投入獎池,由最終的獲勝者獲取,主辦方一般只抽取5%到10%的費用,作為用人成本、場地費和組織費。」
  • 人機對戰簡史:從西洋棋到德州撲克
    2017年4月6日到10日,由卡內基梅隆大學開發的人工智慧Libratus(「冷撲大師」)將在海南與六位中國的德州撲克選手進行為期五天,累計長達45個小時的德州撲克人機對戰。這是繼AlphaGo在圍棋領域大殺四方之後,AI對人類新的挑戰。本文將為您梳理,在過去二十年的歷史中,人機對戰經歷了哪些關鍵節點,AI又發生了怎樣的進化?
  • 德州撲克的玩法及規則
    它的最大特點就是易學難精,被稱為是「學一時,精一世」的經典撲克遊戲。2004年秋美國ESPN體育頻道首次在黃金時段播出「世界撲克錦標賽」以後,這款經典的紙牌遊戲就被推上了沸點,一發不可收拾,成為風靡歐美的體育項目(無限注形式的德州撲克,是世界撲克大賽(World Series of Poker,WSOP)和世界撲克巡迴賽(World Poker Tour)的主要比賽項目)。
  • 一個德州撲克牌手如何在德州撲克錦標賽上運用GTO?
    問題:想像一下,一個非常棒的不可壓榨型牌手(人或是機器),在德州撲克錦標賽(例如WSOP或WPT),從不壓榨其他人(
  • 德州撲克:玩法規則
    "德州撲克是全球最受歡迎的撲克遊戲,幾乎所有大型撲克錦標賽的比賽項目都是德州撲克。
  • 撲克雜談:聊聊你在德州撲克圈內遇到過的奇怪事件
    德州撲克,20世紀初開始於德克薩斯洛布斯鎮,據傳是當地人為了消磨時光,就發明了一種可以有很多人同時參加的撲克遊戲,於是德州撲克就誕生了。1925年,德州撲克第一次傳入德克薩斯州的達拉斯市,後來又傳至拉斯維加斯,自此德州撲克就被民間發揚光大。
  • 德州撲克面臨天花板 博雅互動謀局地方性遊戲
    這些玩家一般擁有穩定的職業和收入,購買支付能力較強,情感思想相對成熟,但其「遊戲產品的消費意識不強,市場開發難度較大」。  中投顧問文化行業研究員蔡靈稱,棋牌類遊戲整體在手遊端的增長空間較小,因為棋牌類遊戲在手遊的發展初期早已幾近飽和。目前德州撲克在整個棋牌類遊戲中佔比較低,在國內普及率尚不足5%,但是其趣味性較強,發展潛力巨大,如果加強宣傳力度有望獲得較大突破。
  • 德州撲克玩法及規則
    德州撲克來源於美國德克薩斯州,是在歐美有著上百年歷史的最流行的公共牌撲克遊戲。
  • 德州撲克遊戲【德州撲克】SAWD54578
    德州撲克-德州撲克遊戲小程序-德州撲克遊戲-德州撲克小程序-德州撲克棋牌-德州撲克教學-德州撲克玩法  德州撲克比賽-德州撲克遊戲大廳-德州撲克遊戲小程序
  • 解密德州撲克「入會」四宗「最」 風險大過機遇
    結果他非常幸運,在2000多名參賽者中脫穎而出,奪得冠軍,以及250萬美元的獎金,興奮之餘,莫利馬克又在當地職業玩家的引誘下,參加了拉斯維加斯德州撲克現金桌的賭博,這回,他輸掉了125萬美金,僅僅是因為根據協議,他必須分給他父親一半獎金,莫利馬克才不至於輸得一乾二淨。  莫利馬克的幸與不幸,正好可以詮釋體育競技與賭博之間,那道不可逾越的分水嶺。