德州撲克人工智慧之父:阿爾法狗贏不贏都缺實際用處

2020-12-05 搜狐網

  人機對戰無疑是4月10日的新聞焦點之一。一邊在海南澄邁,德州撲克人工智慧「冷撲大師」(Libratus)經過5日激戰,在33000手一對一無限注德撲比賽中完勝中國「龍之隊」的6名高手,斬獲200萬人民幣獎金;另一邊在北京的中國棋院,谷歌宣布被中國網民稱為「阿爾法狗」的圍棋人工智慧AlphaGo將在5月下旬的烏鎮對陣柯潔領銜的中國頂尖棋手,上演終極一戰。

  一南一北,一牌一棋,兩則人機對戰重磅消息在同一天出爐,雖然未必是有意針鋒相對,但也足夠令無心的觀眾相互比較。有些讀者認為,連圍棋這樣高深的智力運動都早已被阿爾法狗拿下,撲克這樣門檻低、上手簡單的大眾娛樂又何足掛齒呢?但反方則指出,撲克不是單純靠計算的遊戲,牽扯到很多心理上的博弈,有時甚至需要「飆演技」,AI能掌握這類遊戲有些匪夷所思。

  那麼,德撲和圍棋這兩種智力遊戲,對AI來說到底有什麼區別?哪個難度更大一些?針對這些問題,澎湃新聞(www.thepaper.cn)就冷撲大師和阿爾法狗的相關資料進行了梳理與比較。

託馬斯· 桑德霍姆(Tuomas Sandholm) 資料圖

  不過,冷撲大師的開發者、美國卡內基梅隆大學(CMU)計算機系教授託馬斯· 桑德霍姆(Tuomas Sandholm)在聽到阿爾法狗將來華挑戰的消息後,評價非常的簡單:問題的關鍵並不在於中國頂尖棋手能不能贏,而在於生活中幾乎不存在像圍棋這樣的「完美信息遊戲」,因而阿爾法狗也缺乏實用場景。

  圍棋和德撲對於AI來說,性質是不是一樣的?

  自1988年CMU開發的「奧賽羅」程序擊敗世界黑白棋冠軍以來,人類就在棋類遊戲上節節敗退。1997年,IBM的計算機「深藍」擊敗了西洋棋棋壇神話卡斯帕羅夫,使人機對戰在當時達到了輿論高峰,其影響力絕不亞於去年阿爾法狗擊敗韓國棋手李世石。

  電腦程式攻克這些棋類遊戲的方法在本質上是一樣的:搜索。下每一步棋都是一個決策點,在決策點上分化出不同的可能性,而整盤棋也就形成了一棵不停分叉的決策樹。而計算機所做的,就是在每一個決策點上搜索勝率最大的那條路徑。

  因而難度主要取決於決策點的數量。決策點越多,搜索難度自然越大。黑白棋的搜索量只有10的十幾次方,西洋棋是10的四十幾次方,而圍棋的搜索量達到了驚人的10的170次方。

  不過,也正因為圍棋的搜索量太大,完全精確的結果是不可能得到的。因而,阿爾法狗在蒙特卡洛樹搜索算法(Monte Carlo Tree Search)的基礎上,結合走棋網絡(Policy Network)、快速走子(Fast rollout)和價值網絡(Value Network)進行預測和評估,得到儘可能接近最優的解。雖然阿爾法狗這個過程中做出了巨大突破,但它本質上還是在搜索。

  德州撲克與棋類完全不同。圍棋是一種「完美信息遊戲」,場面上所有的情況都黑白分明地擺在棋面上,雙方掌握對等的信息。然而,德撲中隱藏了很多信息,是一種「非完美信息遊戲」。玩家不知道對手手中是什麼牌,不知道五張公共牌會開出怎樣的結果,也不知道對手猜測自己握有怎樣的手牌。

  因此,雖然一盤德撲的決策點數量是10的160次方,要少於圍棋,但光靠搜索是打不了德撲的。德撲由此跳出了在搜索量上的較量,對AI提出了另一個方向上的考驗:應對隱藏的信息。

  阿爾法狗和冷撲大師的原理有何不同?

  谷歌曾在《自然》雜誌上發表文章,公布阿爾法狗的幾個基本原理,分別為:走棋網絡(Policy Network),給定當前局面,預測和採樣下一步的走棋;快速走子(Fast rollout),在適當犧牲走棋質量的條件下提高速度;價值網絡(Value Network),給定當前局面,估計雙方勝率;蒙特卡羅樹搜索(Monte Carlo Tree Search,MCTS),把以上三個部分串聯成一個完整的系統。

  冷撲大師的算法則主要基於以下三個模塊產生:

  首先,納什均衡是德撲算法的核心,即AI的目標是找到一個無論對方怎麼做,自己都不會產生損失的策略。根據博弈論,像一對一撲克這種零和遊戲永遠存在這樣的最優解,就像在經典的博弈論模型「囚徒困境」中,招認罪行就是一個無論對方招認不招認都最優的策略。因此,冷撲大師的開發團隊提前在龐大的決策樹上利用虛擬遺憾最小化算法(Counterfactual Regret Minimization,CFR)推算出了均衡,即通過多次迭代計算博弈樹中每個信息集的動作遺憾值和平均策略值,預測下一時刻的決策動作,使其是當前最小遺憾動作。

  此外,冷撲大師還有殘局解算器(end-game solver)和自我強化學習這兩個模塊來輔助第一個模塊。殘局解算器會在殘局時實時評估場上的情況,以判斷第一模塊中算出的納什均衡是否符合實時情況。而自我強化學習會反思AI在比賽中的表現,找出曾被人類利用過的「套路」,清除這些可循的痕跡。

  總體來說,阿爾法狗和冷撲大師的算法有三大明顯不同。

  第一,阿爾法狗的訓練過程中用到了大量數據的深度學習,即通過大量給定的輸入和輸出形成穩定的處理。但計算機的處理過程本身是一個黑匣子。而冷撲大師沒有用到時髦的深度學習,而是通過傳統的線性規劃提前算出納什均衡,是一個「老式但好用的人工智慧」(Good Old-Fashioned Artificial Intelligence)。

  第二,阿爾法狗在深度學習過程中參考了數千萬張人類棋譜,可以說是靠模仿人類高手起步的。雖然阿爾法狗也運用到了一些自我強化學習,但比重並不大。而冷撲大師完全是通過自我強化學習進行訓練的。開發者從未教給它人類打牌的方法,只是向它描述了德撲的規則,由它「左右互搏」,摸索出德撲應該怎麼玩。因而,冷撲大師的打法完全脫離了人類經驗。值得注意的是,即將與柯潔在烏鎮對戰的阿爾法狗2.0將擯棄人類棋譜,完全採用一套自我摸索出來的下法。

  第三,雖然阿爾法狗和冷撲大師都特別喜歡殘局階段下殺招,但它們的難度不一樣。圍棋下到殘局,可走的招數越來越少,計算量也越來越簡單;而德撲開到轉牌和河牌時,可能性更多,局面變得更為複雜。因此,冷撲大師經常在轉牌階段做出長時間的停頓。

  阿爾法狗和冷撲大師哪個更有用?

  在冷撲大師的開發者、美國卡內基梅隆大學(CMU)計算機系教授託馬斯· 桑德霍姆(Tuomas Sandholm)和其博士生諾姆· 布朗(Noam Brown)看來,這個問題的答案十分明顯。在現實生活中,幾乎不存在像圍棋這樣給出所有信息的完美情境,因而像阿爾法狗這樣的算法也很難直接派上用場。

  在現實生活中,我們遇到的事情會更像玩德撲:商業談判時對方未知的底牌、房屋拍賣時競爭對手難測的舉動、股票交易中一些隱藏的內部消息。桑德霍姆認為,德撲AI打開了靠人工智慧解決隨機事件和隱藏信息的大門。這樣的AI,才有望離開虛擬的棋牌世界,成為人類在現實生活中談判、博弈和投資的好幫手。

  桑德霍姆自己就成立了一家戰略計算公司,希望利用人工智慧解決金融上的一些戰略計算問題。首先,金融交易拼的是速度,AI在量化交易上具有巨大優勢。其次,像股票交易中經常會存在一些隱藏的信息,AI能在交易者較少的情況下,幫助人類在隱藏的信息面前做出決策。

  阿爾法狗和冷撲大師哪個更厲害?

  諾姆· 布朗說道,每一種遊戲從計算機科學的角度來說,都存在一些核心問題,而掌握這個遊戲的AI相當於解決了這個核心的問題。圍棋和德撲代表了兩類完全不同的遊戲,阿爾法狗和冷撲大師也在朝完全不同的兩個方向探索。

  只不過,圍棋在「完美信息遊戲」中屬於高難度水平,因而阿爾法狗也在搜索這個核心問題上取得了巔峰成就。而冷撲大師剛剛打開了「非完美信息遊戲」的大門,對於解決隱藏信息這個問題來說,德撲AI只是個開始。光就遊戲而言,與德撲類似的奧馬哈,就比德撲更為複雜一些。布朗說,他們對中國的麻將略知一二,麻將也是一種充滿了隱藏信息的遊戲。

news.sohu.com false 澎湃新聞 http://www.thepaper.cn/newsDetail_forward_1660221 report 3925 人機對戰無疑是4月10日的新聞焦點之一。一邊在海南澄邁,德州撲克人工智慧「冷撲大師」(Libratus)經過5日激戰,在33000手一對一無限注德撲比賽中完勝中

相關焦點

  • 柯潔vs阿爾法狗結果:2017alphago對陣柯潔誰贏了(最新)
    柯潔vs阿爾法狗結果:2017alphago對陣柯潔誰贏了(最新)  4月10日報導,Google在中國棋院召開發布會,宣布5月23日-27日在烏鎮主辦「中國烏鎮·圍棋峰會」,去年戰勝韓國職業棋手李世石的圍棋人工智慧AlphaGo將挑戰目前世界排名第一的柯潔九段。
  • 李世石終於贏了阿爾法狗 瞧瞧段子手都怎麼說的?
    @Jeffery_Su:聽說李世石妻女都來了,單身狗阿爾法受到10000點傷害[笑cry]。@chenwk0814:出來吧,虛竹。@懷孕樂隊:學圍棋,要狗帶。@抓抓是兜兜爸:能不緊張嗎?100萬元美金就這麼變成狗糧了。@程式設計師Delton:把李世石拆了,發現裡面有個阿爾法狗beta版本趴在裡面。
  • JJ德州撲克變強大 重磅更新早知道
    [摘要]《JJ德州撲克》重磅更新,跟小編一起了解下這款遊戲的各種優點以及最新更新體驗。在水果機和安卓機的包圍中,有這樣一群用戶一直矢志不渝地選擇自己心中所愛,不為流言所動;在眾多手遊廠商中,有這樣一個團隊始終將用戶體驗作為至高追求,孜孜不倦地前行。當這樣的用戶和這樣的產品碰撞在一起,發生的也許是一場驚天動地的化學反應,也有可能將是細水長流的相伴。
  • 撲克教父:只要有位置,我不看底牌也能大贏特贏
    作者:千公子撲克教父Doyle Brunson(道爾·布朗森)曾經說過,只要給他位置,一晚上他都不用看底牌,照樣可以大贏特贏
  • WCAA百萬大獎賽德州撲克大師全民娛樂賽火熱來襲!每天都有獎金拿
    WCAA百萬大獎賽德州撲克大師全民娛樂賽火熱來襲!每天都有獎金拿 2020年09月16日 10:45作者:黃頁編輯:黃頁 WCAA百萬大獎賽德州撲克大師全民娛樂賽開始啦!
  • 蔡文超:德州撲克中的「保險」盈利不是賭資
    據說有一次柳傳志和馬雲玩德州撲克,馬雲贏了他8萬多塊錢。馬雲告訴柳傳志:「真正德州撲克的高手是不看牌的,只看對手的眼睛」。本文結合相關判例與不起訴決定書,談點淺見。  一、德州撲克APP中的俱樂部和保險  用手機APP玩德州撲克近來較為風靡。手機端玩德撲會碰到兩個名詞:「俱樂部」和「保險」:  1.
  • 贏不了機器人,人類和AlphaGo的差距到底在哪裡?
    答|百度派 @陳章旺贏不了機器人,是否就說明人類在圍棋方面跟阿爾法狗存在著很大的差距呢?儘管出於人類的尊嚴不想承認,但是事實是,當擁有「世界圍棋第一人」之稱的柯潔絲毫沒有反抗之力地被阿爾法狗打得毫無脾氣的時候,人類在圍棋這一方面將再也沒有打敗人工智慧的可能。說這話並不是我長他人志氣,而滅自己威風。要想知道人類跟阿爾法狗的差距到底在哪裡,首先我們就要先明白一個最基本的問題:阿爾法狗到底它是什麼?可能有人會說:「這不是顯而易見的嗎,阿爾法狗它是一個人工智慧!」。
  • 浙江大學人工智慧專家:麻將AI和阿爾法狗類似,有助於解決實際問題
    錢江晚報·小時新聞記者 張峰從最早的AI在西洋棋中戰勝人類開始,AI先後攻克了中國象棋、德州撲克、圍棋、DOTA、星際爭霸等多種遊戲,為什麼AI研究者都喜歡挑戰遊戲領域呢?在去年的世界人工智慧大會上,時任微軟全球副總裁沈向洋表示,遊戲一直是人工智慧研究的最佳試驗田,訓練遊戲AI的過程可以不斷提升人工智慧的算法和人工智慧處理複雜問題的能力。在現實世界中,金融市場預測、物流優化等很多問題與麻將遊戲有著相同的特點,包括複雜的操作/獎勵規則、信息的不完全性等等。
  • 德州撲克被認定為賭博 合法遊戲何以成"非法"?
    「『德州撲克』在歐美國家很流行,這幾年才進入我國。玩『德州撲克』的過程就像投資一樣,你要做好資金管理、風險評估後,才決定要不要去玩一手牌。」一位美國回來的海歸人士王先生說,他在美國呆過5年,對「德州撲克」相當熟悉。他告訴記者,「德州撲克」很能鍛鍊一個人的智慧和膽識。  「正是由於『德州撲克』特性、本身的趣味性及魅力,吸引參賭的人員都是一些精英人群。」
  • 海外線上德州撲克有多賺錢?
    第一階段,是從德州撲克傳入中國開始至2018年6月1日前;這是德州撲克在國內的高速發展階段。到2017年年底,國內正規德州撲克俱樂部數量超過了500家,玩家數量約6000萬人,其中有不少「職業選手」。與線下德州撲克蓬勃發展相對應的,以騰訊《天天德州》、《聯眾德州撲克》、《博雅德州撲克》等頭部產品為代表的線上德州更是這些企業的超級現金奶牛。
  • 十大最牛逼德州撲克遊戲
    十大最牛逼德州撲克遊戲德州撲克是世界上最流行的公牌撲克衍生遊戲,也是國際撲克比賽的正式競賽項目之一。它是美國多數賭場內最受歡迎的撲克牌類遊戲,在中國也有不少玩家。目前德州撲克的網絡平臺層出不窮,雖然都是德州撲克,但是平臺的風格、技術和服務質量千差萬別。如何從眾多的德州撲克平臺中選擇最適合自己的?
  • 「阿法狗」之父:關於圍棋,人類3000年來犯了一個錯
    (圖)虎嗅註:AlphaGo之父傑米斯·哈薩比斯(Demis Hassabis),2017年的時候曾在母校英國劍橋大學做了一場題為「超越人類認知的極限」的演講,解答了世人對於人工智慧、對於阿爾法狗的諸多疑問。
  • 中國人工智慧飛速發展 專家:想看騰訊「絕藝」對決谷歌「阿爾法狗」
    【環球網科技綜合報導】在2016年3月,Alphabet公司旗下Deep Mind團隊研究出的人工智慧「阿爾法狗」戰勝了當時世界排名第五的圍棋職業選手李世石,在人工智慧的發展歷史上樹立了一座裡程碑。現在,中國公司也開始對這一領域發起進攻。
  • 「阿法狗」之父:關於圍棋,人類3000年來犯了一個錯-虎嗅網
    也有很多人試著將DeepBlue的技術應用在圍棋上,但是結果並不理想,這些技術連一個專業的圍棋手都打不贏,更別說世界冠軍了。所以大家就要問了,連電腦操作起來都這麼難,人類是怎樣解決這個問題的?其實,人類是靠直覺的,而圍棋一開始就是一個靠直覺而非計算的遊戲。
  • 犯罪團夥利用騰訊德州撲克手遊詐騙 涉案逾千萬元
    (原標題:犯罪團夥利用騰訊棋牌手遊詐騙涉案逾千萬元)6人場的「德州撲克」遊戲裡,4人都是串通好的,剩下兩人只能「坐等被宰」。日前,成都市公安局雙流區分局抓獲這樣一個網絡詐騙團夥,抓獲犯罪嫌疑人12名,上網追逃9人,涉案金額逾千萬元。
  • 比不過阿爾法狗, 為什麼還要學圍棋?
    而曾經橫掃圍棋界備受矚目的阿爾法狗就得益於「深度學習」,這讓當年的人機對弈再次被提起並被熱烈討論。阿爾法狗就像一個推手,把圍棋推向了人們的關注的焦點,推向了新的歷史舞臺,圍棋競技的技法、世界理解圍棋的角度,都在這之後慢慢發生了改變。
  • 一起撲克以賽事直播+解說的形式切入德州撲克市場,接下來將通過為...
    )北京】1月6日報導(文/吳韓)近兩年,德州撲克發展迅速,連BAT等巨頭都開始布局這塊市場,購買世界撲克系列賽WSOP的賽事版權來挖掘賽事潛力,開發了《天天德州》《德州撲克》等遊戲。目前,用戶在一起撲克的官網上就能夠瀏覽到國內國外關於德州撲克的最新消息,並且還能隨時報名國內德州撲克的線上比賽。另外,一起撲克也會翻譯國外真人秀及賽事的視頻,讓用戶了解更多的德撲內容。法律方面,德撲作為一種來自國外的競技遊戲,和賭博有著很深的淵源。為了規避政策風險,「我們所有的一切都是在別人已經嘗試過的前提下做的。撲克遊戲真人秀在電視臺上早就播過了,合理合法。
  • 還記得李世石戰勝阿爾法狗的唯一一局嗎?韓專家稱是故意輸的
    2016年3月展開的人機圍棋大賽中,圍棋九段李世石1:4敗於人工智慧阿爾法狗。首爾MBA教授金珍鎬10日接受採訪時,在阿爾法狗與李世石的第四局對決中,李世石獲勝是阿爾法狗故意放水的結果。金珍鎬因在阿爾法狗與李世石開賽前預測阿爾法狗將取得完勝而受到關注。他主張李世石贏得第四局勝利是由於谷歌故意放水。其解釋道,如果按照比賽結果來看,在人機圍棋大賽中,阿爾法狗的失誤率為20%,在最尖端人工智慧中,這是完全不可能發生的。
  • 博彩性質被放大 灰色地帶德州撲克身份尷尬
    儘管汪峰聲明,其與多名奧運冠軍助陣的慈善賽與涉嫌賭博的「2015中國(江蘇)撲克錦標賽暨APPTCHINA南京站」決賽第二階段的比賽,「不在同一天,也不屬於同一賽事。」但德州撲克卻因缺乏市場規範,近年頻生亂象,而在國內遊走於灰色地帶,關於其是否屬於賭博的爭議更從未停息。
  • 德州撲克大賽首因涉賭被立案 玩家對涉賭存異議
    由於規則簡單、刺激有趣,起源於國外的德州撲克近年來風靡全國,各地的德州撲克俱樂部涉賭被查的案件時有發生,但是大型德州撲克賽事因涉賭被立案調查,這在國內尚屬首次。早在2012年公安部就曾對德州撲克是否應定性為賭博的問題專門下文,國家體育總局也從未批准過德州撲克的比賽項目。不過在各地舉辦的德州撲克比賽中,卻經常可以看到地方體育主管部門的「身影」,其中有些「比賽」也因涉案被查。