德州撲克人工智慧之父:阿爾法狗贏不贏都缺實際用處

2020-11-26 搜狐網

  人機對戰無疑是4月10日的新聞焦點之一。一邊在海南澄邁,德州撲克人工智慧「冷撲大師」(Libratus)經過5日激戰,在33000手一對一無限注德撲比賽中完勝中國「龍之隊」的6名高手,斬獲200萬人民幣獎金;另一邊在北京的中國棋院,谷歌宣布被中國網民稱為「阿爾法狗」的圍棋人工智慧AlphaGo將在5月下旬的烏鎮對陣柯潔領銜的中國頂尖棋手,上演終極一戰。

  一南一北,一牌一棋,兩則人機對戰重磅消息在同一天出爐,雖然未必是有意針鋒相對,但也足夠令無心的觀眾相互比較。有些讀者認為,連圍棋這樣高深的智力運動都早已被阿爾法狗拿下,撲克這樣門檻低、上手簡單的大眾娛樂又何足掛齒呢?但反方則指出,撲克不是單純靠計算的遊戲,牽扯到很多心理上的博弈,有時甚至需要「飆演技」,AI能掌握這類遊戲有些匪夷所思。

  那麼,德撲和圍棋這兩種智力遊戲,對AI來說到底有什麼區別?哪個難度更大一些?針對這些問題,澎湃新聞(www.thepaper.cn)就冷撲大師和阿爾法狗的相關資料進行了梳理與比較。

託馬斯· 桑德霍姆(Tuomas Sandholm) 資料圖

  不過,冷撲大師的開發者、美國卡內基梅隆大學(CMU)計算機系教授託馬斯· 桑德霍姆(Tuomas Sandholm)在聽到阿爾法狗將來華挑戰的消息後,評價非常的簡單:問題的關鍵並不在於中國頂尖棋手能不能贏,而在於生活中幾乎不存在像圍棋這樣的「完美信息遊戲」,因而阿爾法狗也缺乏實用場景。

  圍棋和德撲對於AI來說,性質是不是一樣的?

  自1988年CMU開發的「奧賽羅」程序擊敗世界黑白棋冠軍以來,人類就在棋類遊戲上節節敗退。1997年,IBM的計算機「深藍」擊敗了西洋棋棋壇神話卡斯帕羅夫,使人機對戰在當時達到了輿論高峰,其影響力絕不亞於去年阿爾法狗擊敗韓國棋手李世石。

  電腦程式攻克這些棋類遊戲的方法在本質上是一樣的:搜索。下每一步棋都是一個決策點,在決策點上分化出不同的可能性,而整盤棋也就形成了一棵不停分叉的決策樹。而計算機所做的,就是在每一個決策點上搜索勝率最大的那條路徑。

  因而難度主要取決於決策點的數量。決策點越多,搜索難度自然越大。黑白棋的搜索量只有10的十幾次方,西洋棋是10的四十幾次方,而圍棋的搜索量達到了驚人的10的170次方。

  不過,也正因為圍棋的搜索量太大,完全精確的結果是不可能得到的。因而,阿爾法狗在蒙特卡洛樹搜索算法(Monte Carlo Tree Search)的基礎上,結合走棋網絡(Policy Network)、快速走子(Fast rollout)和價值網絡(Value Network)進行預測和評估,得到儘可能接近最優的解。雖然阿爾法狗這個過程中做出了巨大突破,但它本質上還是在搜索。

  德州撲克與棋類完全不同。圍棋是一種「完美信息遊戲」,場面上所有的情況都黑白分明地擺在棋面上,雙方掌握對等的信息。然而,德撲中隱藏了很多信息,是一種「非完美信息遊戲」。玩家不知道對手手中是什麼牌,不知道五張公共牌會開出怎樣的結果,也不知道對手猜測自己握有怎樣的手牌。

  因此,雖然一盤德撲的決策點數量是10的160次方,要少於圍棋,但光靠搜索是打不了德撲的。德撲由此跳出了在搜索量上的較量,對AI提出了另一個方向上的考驗:應對隱藏的信息。

  阿爾法狗和冷撲大師的原理有何不同?

  谷歌曾在《自然》雜誌上發表文章,公布阿爾法狗的幾個基本原理,分別為:走棋網絡(Policy Network),給定當前局面,預測和採樣下一步的走棋;快速走子(Fast rollout),在適當犧牲走棋質量的條件下提高速度;價值網絡(Value Network),給定當前局面,估計雙方勝率;蒙特卡羅樹搜索(Monte Carlo Tree Search,MCTS),把以上三個部分串聯成一個完整的系統。

  冷撲大師的算法則主要基於以下三個模塊產生:

  首先,納什均衡是德撲算法的核心,即AI的目標是找到一個無論對方怎麼做,自己都不會產生損失的策略。根據博弈論,像一對一撲克這種零和遊戲永遠存在這樣的最優解,就像在經典的博弈論模型「囚徒困境」中,招認罪行就是一個無論對方招認不招認都最優的策略。因此,冷撲大師的開發團隊提前在龐大的決策樹上利用虛擬遺憾最小化算法(Counterfactual Regret Minimization,CFR)推算出了均衡,即通過多次迭代計算博弈樹中每個信息集的動作遺憾值和平均策略值,預測下一時刻的決策動作,使其是當前最小遺憾動作。

  此外,冷撲大師還有殘局解算器(end-game solver)和自我強化學習這兩個模塊來輔助第一個模塊。殘局解算器會在殘局時實時評估場上的情況,以判斷第一模塊中算出的納什均衡是否符合實時情況。而自我強化學習會反思AI在比賽中的表現,找出曾被人類利用過的「套路」,清除這些可循的痕跡。

  總體來說,阿爾法狗和冷撲大師的算法有三大明顯不同。

  第一,阿爾法狗的訓練過程中用到了大量數據的深度學習,即通過大量給定的輸入和輸出形成穩定的處理。但計算機的處理過程本身是一個黑匣子。而冷撲大師沒有用到時髦的深度學習,而是通過傳統的線性規劃提前算出納什均衡,是一個「老式但好用的人工智慧」(Good Old-Fashioned Artificial Intelligence)。

  第二,阿爾法狗在深度學習過程中參考了數千萬張人類棋譜,可以說是靠模仿人類高手起步的。雖然阿爾法狗也運用到了一些自我強化學習,但比重並不大。而冷撲大師完全是通過自我強化學習進行訓練的。開發者從未教給它人類打牌的方法,只是向它描述了德撲的規則,由它「左右互搏」,摸索出德撲應該怎麼玩。因而,冷撲大師的打法完全脫離了人類經驗。值得注意的是,即將與柯潔在烏鎮對戰的阿爾法狗2.0將擯棄人類棋譜,完全採用一套自我摸索出來的下法。

  第三,雖然阿爾法狗和冷撲大師都特別喜歡殘局階段下殺招,但它們的難度不一樣。圍棋下到殘局,可走的招數越來越少,計算量也越來越簡單;而德撲開到轉牌和河牌時,可能性更多,局面變得更為複雜。因此,冷撲大師經常在轉牌階段做出長時間的停頓。

  阿爾法狗和冷撲大師哪個更有用?

  在冷撲大師的開發者、美國卡內基梅隆大學(CMU)計算機系教授託馬斯· 桑德霍姆(Tuomas Sandholm)和其博士生諾姆· 布朗(Noam Brown)看來,這個問題的答案十分明顯。在現實生活中,幾乎不存在像圍棋這樣給出所有信息的完美情境,因而像阿爾法狗這樣的算法也很難直接派上用場。

  在現實生活中,我們遇到的事情會更像玩德撲:商業談判時對方未知的底牌、房屋拍賣時競爭對手難測的舉動、股票交易中一些隱藏的內部消息。桑德霍姆認為,德撲AI打開了靠人工智慧解決隨機事件和隱藏信息的大門。這樣的AI,才有望離開虛擬的棋牌世界,成為人類在現實生活中談判、博弈和投資的好幫手。

  桑德霍姆自己就成立了一家戰略計算公司,希望利用人工智慧解決金融上的一些戰略計算問題。首先,金融交易拼的是速度,AI在量化交易上具有巨大優勢。其次,像股票交易中經常會存在一些隱藏的信息,AI能在交易者較少的情況下,幫助人類在隱藏的信息面前做出決策。

  阿爾法狗和冷撲大師哪個更厲害?

  諾姆· 布朗說道,每一種遊戲從計算機科學的角度來說,都存在一些核心問題,而掌握這個遊戲的AI相當於解決了這個核心的問題。圍棋和德撲代表了兩類完全不同的遊戲,阿爾法狗和冷撲大師也在朝完全不同的兩個方向探索。

  只不過,圍棋在「完美信息遊戲」中屬於高難度水平,因而阿爾法狗也在搜索這個核心問題上取得了巔峰成就。而冷撲大師剛剛打開了「非完美信息遊戲」的大門,對於解決隱藏信息這個問題來說,德撲AI只是個開始。光就遊戲而言,與德撲類似的奧馬哈,就比德撲更為複雜一些。布朗說,他們對中國的麻將略知一二,麻將也是一種充滿了隱藏信息的遊戲。

news.sohu.com false 澎湃新聞 http://www.thepaper.cn/newsDetail_forward_1660221 report 3925 人機對戰無疑是4月10日的新聞焦點之一。一邊在海南澄邁,德州撲克人工智慧「冷撲大師」(Libratus)經過5日激戰,在33000手一對一無限注德撲比賽中完勝中

相關焦點

  • AI又盯上德州撲克? 人工智慧首次戰勝職業玩家
    在棋壇一騎絕塵之後,網友們依然不服輸:有本事就來跟我打麻將。而人工智慧真的來了,雖然挑戰的項目不是麻將,而是和麻將有相通之處的德州撲克。  該團隊邀請了來自17個國家的33名專業撲克選手挑戰DeepStack,進行了44852次較量。DeepStack成為了首個在一對一無限注德撲中戰勝人類玩家的人工智慧,並且平均勝率達到了492mbb/g(一般人類玩家到50 mbb/g就被認為擁有較大優勢,750mbb/g 就是對手每局都棄牌的贏率)。  圍棋被攻陷後,為何是德州撲克來承載人類應戰的責任?
  • 人工智慧擊敗世界頂級德州撲克玩家 贏下177萬美元
    【AI世代編者按】卡內基梅隆大學人工智慧系統Libratus在長達20天的鏖戰中,打敗4名世界頂級德州撲克玩家,這標誌著人工智慧技術又達到了一個新的高峰。在西洋棋之後,機器人相繼在Jeopardy和圍棋遊戲上打敗人類,人類唯一領先的,就是撲克了。在一次長達20天的德州撲克大賽上,卡內基梅隆大學開發的人工智慧系統打敗了4名世界頂級的專業德撲玩家,贏得1,766,250美元籌碼。這據稱是人類與機器不斷角力道路上的一個新裡程碑,人工智慧首次以大賭注策略擊敗了它的人類對手。
  • AI又贏了!人工智慧戰勝世界頂尖德州撲克選手
    新華社 Pluribus在六人桌德州撲克比賽中擊敗多名世界頂尖選手。美國卡內基·梅隆大學7月11日宣布,該校和臉書公司合作開發的人工智慧(AI)Pluribus在六人桌德州撲克比賽中擊敗多名世界頂尖選手,成為機器在多人遊戲中戰勝人類的一個裡程碑。
  • 德州撲克也有「阿爾法狗」了 或下月來華-產業·期貨-新聞-上海...
    即便在AlphaGo之後,AI擊敗人類已經不再是什麼新聞,但人工智慧在德州撲克上擊敗人類,這其中的難度和信息量不可小覷。  AI玩德撲為何難?  利用人工智慧程序玩德撲,最大的難度在於「不完整信息博弈」。因為玩德州撲克需要推理能力,而這對於機器來說很難模仿。雖然人工智慧在跳棋、象棋乃至圍棋比賽中,已經完勝人類對手,但無限注德州撲克是一個完全不同的情況。
  • 《遇悅德州撲克》MTT賽場萬元CPG門票等你贏
    《遇悅德州撲克》MTT賽場萬元CPG門票等你贏 來源:廠商投稿 作者:半藏 發表時間:2016-08-12
  • 關於機器人的猜想:打麻將,阿爾法狗也能贏嗎?
    關於機器人的猜想  新年伊始,人工智慧的快速發展引發世界一片驚嘆。從跨年擊敗眾多中日韓頂尖圍棋高手的升級版AlphaGo,到DeepStack在德州撲克中戰勝人類。前兩日,世界中醫藥學會聯合會秘書長桑濱生提出,中醫藥標準化發展與人工智慧相結合,將有可能「馴化」出另一隻「阿爾法狗」,完全可以勝任望聞問切。看來,已經沒有什麼能擋住人工智慧的腳步了。人工智慧究竟會給我們帶來美好的生活,還是可怕的明天?智慧機器人的技術倫理底線在哪裡?本期搶頭條,關注人工智慧。
  • AI在六人桌德州撲克賽中戰勝人類選手
    科技日報北京7月14日電 (記者劉霞)據美國《新聞周刊》網站近日報導,美國科學家開發出一種新的人工智慧(AI)程序「合眾為一」(Pluribus),其在6人無限制德州撲克比賽中擊敗了6名全球頂尖選手。研究人員認為,這是人工智慧發展史上的一座裡程碑,未來有望應用於生物醫學、安全等領域。
  • 贏過阿爾法狗的圍棋選手,現在已退役,表示人工智慧不可戰勝的
    唯一打敗AlphaGo(AlphaGo,谷歌計算機圍棋程序)的人決定結束他的職業生涯,因為他相信人工智慧是無敵的。據韓聯社27日報導,李世石在接受採訪時表示,即使我成為世界第一,也有我無法戰勝的東西。」隨著人工智慧在圍棋遊戲中的首次亮相,我意識到即使我通過瘋狂的努力成為第一,我也不是一流的,」李世石說。
  • 德州撲克人機大戰:人工智慧上半程領先
    (AI)又開始挑戰德州撲克。而且,根據目前的戰況,人工智慧這一次似乎又要打敗人類頂尖高手。這場德州撲克人機大戰目前正在匹茲堡賭場上演,整個賽程共持續20天,始於今年1月11日,將持續到1月30日。對陣的雙方是卡耐基梅隆大學(CMU)開發的「Libratus」人工智慧系統,以及四位德州撲克的人類頂尖高手。
  • 你知道德州撲克與天使投資之間的相似之處嗎?
    北京有一群天使投資人舉辦過德州撲克比賽,因為從德州撲克的玩法中領悟到天使投資的很多邏輯與真諦。01 德州撲克的玩法與投資的思維是一致的。籌碼就是你的資金量,你有多少錢、有多少籌碼和勝率息息相關。底牌就是你的項目,後面的跟牌就和投資的跟投一樣。
  • 德州撲克技術測驗: 底牌的範圍(Range)
    底牌範圍是整個德州撲克數學概率的基礎,了解底牌範圍可以更精準做出計算,幫助玩家做更有利的決策。本期開始為玩家提供「底牌範圍」和「底牌對抗」攻略,讓玩家們以後從翻牌前開始領先對手。請問德州撲克遊戲中,一共有多少種底牌組合?以下哪一個不是德州撲克的底牌類型?以下哪一個底牌不算「強底牌」?德州撲克遊戲中,玩家的「底牌範圍」代表什麼?
  • 柯潔vs阿爾法狗結果:2017alphago對陣柯潔誰贏了(最新)
    柯潔vs阿爾法狗結果:2017alphago對陣柯潔誰贏了(最新)  4月10日報導,Google在中國棋院召開發布會,宣布5月23日-27日在烏鎮主辦「中國烏鎮·圍棋峰會」,去年戰勝韓國職業棋手李世石的圍棋人工智慧AlphaGo將挑戰目前世界排名第一的柯潔九段。
  • 《遇悅德州撲克》MTT狂歡賽季隆重上線
    下面小編就為大家帶來《遇悅德州撲克》MTT狂歡賽季隆重上線的介紹,以下新聞是由廠商遇悅網絡提供的,希望這篇文章能夠為大家帶來幫助​。        對於喜歡德州撲克的玩家朋友們來說,能和德撲大神來一場公平公正的較量絕對是非常過癮的一件事情。
  • 德州撲克人機大戰AI取勝 麻將是人類最後堡壘?
    德州撲克人機大戰人類告負 人工智慧「攻陷」德撲  ■ 廣州日報記者 施紹宗  最新一次「德州撲克人機大戰」前天在美國匹茲堡舉行,美國卡耐基梅隆大學開發的人工智慧Libratus以絕對優勢擊敗4名人類頂尖德州撲克高手,這是人工智慧在各種棋牌遊戲中對人類取得的又一個勝利
  • AI又贏了!Facebook人工智慧擊敗全球頂尖德撲選手
    這款軟體是第一款在多人遊戲《德州撲克》中擊敗頂級專業人士的遊戲。周四發表在《科學》雜誌上的一篇論文描述了Pluribus是如何戰勝Elias和Ferguson的;在一個機器人副本與5名人類專業人士進行的10000手撲克遊戲中,Pluribus也輕鬆獲勝。
  • 《遇悅德州撲克》MTT賀歲杯狂歡大獎賽
    現在各位德撲牌友即日起報名《遇悅德州撲克》MTT賀歲杯,比賽就有機會贏取萬元大獎,賽事總獎勵價值16萬元,冠軍獎勵價值高達6.8萬元!辭舊迎新,新年新氣象,遇悅德州MTT賀歲杯狂歡大獎賽雲集各路高手,實力火拼,逆襲之戰一觸即發,巨額獎勵等你贏取!  【遇悅MTT賀歲杯 價值16萬大獎等你來戰!】
  • 柯潔輸了會哭 但AlphaGo贏了並不會笑...
    27日,中國烏鎮圍棋峰會上,人工智慧AlphaGo(即「阿爾法狗」)再次戰勝中國選手柯潔,以3:0的壓倒性優勢結束了此次的三番棋較量。  柯潔在比賽中一度流淚,但這次「人類的失敗」卻贏得了更多的掌聲。網友說:柯潔,輸了會哭,但AlphaGo贏了並不會笑。
  • CMU 德州撲克幕後英雄 AI 將在一對多比賽完勝人類
    Brown 還表示,稍作增強的 Libratus 有望在兩年內贏得無限手德州撲克 6 人桌(Six-Max)的比賽。   上個月月末,卡耐基梅隆大學的 AI 程序在「一對一不限注」的撲克比賽中,擊敗了一組世界級的德州撲克職業選手。出乎所有人的意外,這一程序對人類專業撲克手的勝利幾乎是壓倒性的:14bb/h。
  • AI 首次在德州撲克戰勝人類職業玩家,新算法讓機器擁有「直覺」
    加盟新智元,與人工智慧業界領袖攜手改變世界。  【新智元導讀】2017年剛開年,人機大戰激戰正酣:從圍棋上孤獨求敗的 Master 到人臉識別的小度,現在,國外科學家宣布,機器已經在一對一的無限注德州撲克中贏過人類。撲克是典型的不完美信息博弈遊戲,也是人工智慧面臨的長期挑戰。
  • 6UP名人堂:德州撲克偷雞王,丹尼爾
    丹尼爾天生對數字及機率特別敏感,16歲輟學後,開始進軍德州撲克界成為職業選手,於加拿大多倫多賭出名堂,信心爆棚的他,在21歲時到拉斯維加斯搵食,並參加了1996年的「世界撲克大賽」,面對如雲高手,丹尼爾輸光了他的賭本,才知天外有天,返回多倫多的故鄉後,隨即苦練賭術,學習打撲克的策略