德州撲克人工智慧之父:阿爾法狗贏不贏都缺實際用處

2020-11-26 搜狐網

　　人機對戰無疑是4月10日的新聞焦點之一。一邊在海南澄邁，德州撲克人工智慧「冷撲大師」（Libratus）經過5日激戰，在33000手一對一無限注德撲比賽中完勝中國「龍之隊」的6名高手，斬獲200萬人民幣獎金；另一邊在北京的中國棋院，谷歌宣布被中國網民稱為「阿爾法狗」的圍棋人工智慧AlphaGo將在5月下旬的烏鎮對陣柯潔領銜的中國頂尖棋手，上演終極一戰。

　　一南一北，一牌一棋，兩則人機對戰重磅消息在同一天出爐，雖然未必是有意針鋒相對，但也足夠令無心的觀眾相互比較。有些讀者認為，連圍棋這樣高深的智力運動都早已被阿爾法狗拿下，撲克這樣門檻低、上手簡單的大眾娛樂又何足掛齒呢？但反方則指出，撲克不是單純靠計算的遊戲，牽扯到很多心理上的博弈，有時甚至需要「飆演技」，AI能掌握這類遊戲有些匪夷所思。

　　那麼，德撲和圍棋這兩種智力遊戲，對AI來說到底有什麼區別？哪個難度更大一些？針對這些問題，澎湃新聞（www.thepaper.cn）就冷撲大師和阿爾法狗的相關資料進行了梳理與比較。

託馬斯· 桑德霍姆（Tuomas Sandholm）資料圖

　　不過，冷撲大師的開發者、美國卡內基梅隆大學（CMU）計算機系教授託馬斯· 桑德霍姆（Tuomas Sandholm）在聽到阿爾法狗將來華挑戰的消息後，評價非常的簡單：問題的關鍵並不在於中國頂尖棋手能不能贏，而在於生活中幾乎不存在像圍棋這樣的「完美信息遊戲」，因而阿爾法狗也缺乏實用場景。

　　圍棋和德撲對於AI來說，性質是不是一樣的？

　　自1988年CMU開發的「奧賽羅」程序擊敗世界黑白棋冠軍以來，人類就在棋類遊戲上節節敗退。1997年，IBM的計算機「深藍」擊敗了西洋棋棋壇神話卡斯帕羅夫，使人機對戰在當時達到了輿論高峰，其影響力絕不亞於去年阿爾法狗擊敗韓國棋手李世石。

　　電腦程式攻克這些棋類遊戲的方法在本質上是一樣的：搜索。下每一步棋都是一個決策點，在決策點上分化出不同的可能性，而整盤棋也就形成了一棵不停分叉的決策樹。而計算機所做的，就是在每一個決策點上搜索勝率最大的那條路徑。

　　因而難度主要取決於決策點的數量。決策點越多，搜索難度自然越大。黑白棋的搜索量只有10的十幾次方，西洋棋是10的四十幾次方，而圍棋的搜索量達到了驚人的10的170次方。

　　不過，也正因為圍棋的搜索量太大，完全精確的結果是不可能得到的。因而，阿爾法狗在蒙特卡洛樹搜索算法（Monte Carlo Tree Search）的基礎上，結合走棋網絡（Policy Network）、快速走子（Fast rollout）和價值網絡（Value Network）進行預測和評估，得到儘可能接近最優的解。雖然阿爾法狗這個過程中做出了巨大突破，但它本質上還是在搜索。

　　德州撲克與棋類完全不同。圍棋是一種「完美信息遊戲」，場面上所有的情況都黑白分明地擺在棋面上，雙方掌握對等的信息。然而，德撲中隱藏了很多信息，是一種「非完美信息遊戲」。玩家不知道對手手中是什麼牌，不知道五張公共牌會開出怎樣的結果，也不知道對手猜測自己握有怎樣的手牌。

　　因此，雖然一盤德撲的決策點數量是10的160次方，要少於圍棋，但光靠搜索是打不了德撲的。德撲由此跳出了在搜索量上的較量，對AI提出了另一個方向上的考驗：應對隱藏的信息。

　　阿爾法狗和冷撲大師的原理有何不同？

　　谷歌曾在《自然》雜誌上發表文章，公布阿爾法狗的幾個基本原理，分別為：走棋網絡（Policy Network），給定當前局面，預測和採樣下一步的走棋；快速走子（Fast rollout），在適當犧牲走棋質量的條件下提高速度；價值網絡（Value Network），給定當前局面，估計雙方勝率；蒙特卡羅樹搜索（Monte Carlo Tree Search，MCTS)，把以上三個部分串聯成一個完整的系統。

　　冷撲大師的算法則主要基於以下三個模塊產生：

　　首先，納什均衡是德撲算法的核心，即AI的目標是找到一個無論對方怎麼做，自己都不會產生損失的策略。根據博弈論，像一對一撲克這種零和遊戲永遠存在這樣的最優解，就像在經典的博弈論模型「囚徒困境」中，招認罪行就是一個無論對方招認不招認都最優的策略。因此，冷撲大師的開發團隊提前在龐大的決策樹上利用虛擬遺憾最小化算法（Counterfactual Regret Minimization,CFR）推算出了均衡，即通過多次迭代計算博弈樹中每個信息集的動作遺憾值和平均策略值,預測下一時刻的決策動作,使其是當前最小遺憾動作。

　　此外，冷撲大師還有殘局解算器（end-game solver）和自我強化學習這兩個模塊來輔助第一個模塊。殘局解算器會在殘局時實時評估場上的情況，以判斷第一模塊中算出的納什均衡是否符合實時情況。而自我強化學習會反思AI在比賽中的表現，找出曾被人類利用過的「套路」，清除這些可循的痕跡。

　　總體來說，阿爾法狗和冷撲大師的算法有三大明顯不同。

　　第一，阿爾法狗的訓練過程中用到了大量數據的深度學習，即通過大量給定的輸入和輸出形成穩定的處理。但計算機的處理過程本身是一個黑匣子。而冷撲大師沒有用到時髦的深度學習，而是通過傳統的線性規劃提前算出納什均衡，是一個「老式但好用的人工智慧」（Good Old-Fashioned Artificial Intelligence）。

　　第二，阿爾法狗在深度學習過程中參考了數千萬張人類棋譜，可以說是靠模仿人類高手起步的。雖然阿爾法狗也運用到了一些自我強化學習，但比重並不大。而冷撲大師完全是通過自我強化學習進行訓練的。開發者從未教給它人類打牌的方法，只是向它描述了德撲的規則，由它「左右互搏」，摸索出德撲應該怎麼玩。因而，冷撲大師的打法完全脫離了人類經驗。值得注意的是，即將與柯潔在烏鎮對戰的阿爾法狗2.0將擯棄人類棋譜，完全採用一套自我摸索出來的下法。

　　第三，雖然阿爾法狗和冷撲大師都特別喜歡殘局階段下殺招，但它們的難度不一樣。圍棋下到殘局，可走的招數越來越少，計算量也越來越簡單；而德撲開到轉牌和河牌時，可能性更多，局面變得更為複雜。因此，冷撲大師經常在轉牌階段做出長時間的停頓。

　　阿爾法狗和冷撲大師哪個更有用？

　　在冷撲大師的開發者、美國卡內基梅隆大學（CMU）計算機系教授託馬斯· 桑德霍姆（Tuomas Sandholm）和其博士生諾姆· 布朗（Noam Brown）看來，這個問題的答案十分明顯。在現實生活中，幾乎不存在像圍棋這樣給出所有信息的完美情境，因而像阿爾法狗這樣的算法也很難直接派上用場。

　　在現實生活中，我們遇到的事情會更像玩德撲：商業談判時對方未知的底牌、房屋拍賣時競爭對手難測的舉動、股票交易中一些隱藏的內部消息。桑德霍姆認為，德撲AI打開了靠人工智慧解決隨機事件和隱藏信息的大門。這樣的AI，才有望離開虛擬的棋牌世界，成為人類在現實生活中談判、博弈和投資的好幫手。

　　桑德霍姆自己就成立了一家戰略計算公司，希望利用人工智慧解決金融上的一些戰略計算問題。首先，金融交易拼的是速度，AI在量化交易上具有巨大優勢。其次，像股票交易中經常會存在一些隱藏的信息，AI能在交易者較少的情況下，幫助人類在隱藏的信息面前做出決策。

　　阿爾法狗和冷撲大師哪個更厲害？

　　諾姆· 布朗說道，每一種遊戲從計算機科學的角度來說，都存在一些核心問題，而掌握這個遊戲的AI相當於解決了這個核心的問題。圍棋和德撲代表了兩類完全不同的遊戲，阿爾法狗和冷撲大師也在朝完全不同的兩個方向探索。

　　只不過，圍棋在「完美信息遊戲」中屬於高難度水平，因而阿爾法狗也在搜索這個核心問題上取得了巔峰成就。而冷撲大師剛剛打開了「非完美信息遊戲」的大門，對於解決隱藏信息這個問題來說，德撲AI只是個開始。光就遊戲而言，與德撲類似的奧馬哈，就比德撲更為複雜一些。布朗說，他們對中國的麻將略知一二，麻將也是一種充滿了隱藏信息的遊戲。

http://news.sohu.com/20170412/n487870067.shtml news.sohu.com false 澎湃新聞 http://www.thepaper.cn/newsDetail_forward_1660221 report 3925 人機對戰無疑是4月10日的新聞焦點之一。一邊在海南澄邁，德州撲克人工智慧「冷撲大師」（Libratus）經過5日激戰，在33000手一對一無限注德撲比賽中完勝中

相關焦點

德州撲克人工智慧之父:阿爾法狗贏不贏都缺實際用處

相關焦點

AI又盯上德州撲克? 人工智慧首次戰勝職業玩家

人工智慧擊敗世界頂級德州撲克玩家贏下177萬美元

AI又贏了!人工智慧戰勝世界頂尖德州撲克選手

德州撲克也有「阿爾法狗」了或下月來華-產業·期貨-新聞-上海...

《遇悅德州撲克》MTT賽場萬元CPG門票等你贏

關於機器人的猜想:打麻將,阿爾法狗也能贏嗎?

AI在六人桌德州撲克賽中戰勝人類選手

贏過阿爾法狗的圍棋選手,現在已退役,表示人工智慧不可戰勝的

德州撲克人機大戰:人工智慧上半程領先

你知道德州撲克與天使投資之間的相似之處嗎?

德州撲克技術測驗: 底牌的範圍(Range)

柯潔vs阿爾法狗結果:2017alphago對陣柯潔誰贏了(最新)

《遇悅德州撲克》MTT狂歡賽季隆重上線

德州撲克人機大戰AI取勝麻將是人類最後堡壘?

AI又贏了!Facebook人工智慧擊敗全球頂尖德撲選手

《遇悅德州撲克》MTT賀歲杯狂歡大獎賽

柯潔輸了會哭但AlphaGo贏了並不會笑...

CMU 德州撲克幕後英雄 AI 將在一對多比賽完勝人類

AI 首次在德州撲克戰勝人類職業玩家,新算法讓機器擁有「直覺」

6UP名人堂:德州撲克偷雞王,丹尼爾

德州撲克人工智慧之父:阿爾法狗贏不贏都缺實際用處

相關焦點

AI又盯上德州撲克? 人工智慧首次戰勝職業玩家

人工智慧擊敗世界頂級德州撲克玩家 贏下177萬美元

AI又贏了!人工智慧戰勝世界頂尖德州撲克選手

德州撲克也有「阿爾法狗」了 或下月來華-產業·期貨-新聞-上海...

《遇悅德州撲克》MTT賽場萬元CPG門票等你贏

關於機器人的猜想:打麻將,阿爾法狗也能贏嗎?

AI在六人桌德州撲克賽中戰勝人類選手

贏過阿爾法狗的圍棋選手,現在已退役,表示人工智慧不可戰勝的

德州撲克人機大戰:人工智慧上半程領先

你知道德州撲克與天使投資之間的相似之處嗎?

德州撲克技術測驗: 底牌的範圍(Range)

柯潔vs阿爾法狗結果:2017alphago對陣柯潔誰贏了(最新)

《遇悅德州撲克》MTT狂歡賽季隆重上線

德州撲克人機大戰AI取勝 麻將是人類最後堡壘?

AI又贏了!Facebook人工智慧擊敗全球頂尖德撲選手

《遇悅德州撲克》MTT賀歲杯狂歡大獎賽

柯潔輸了會哭 但AlphaGo贏了並不會笑...

CMU 德州撲克幕後英雄 AI 將在一對多比賽完勝人類

AI 首次在德州撲克戰勝人類職業玩家,新算法讓機器擁有「直覺」

6UP名人堂:德州撲克偷雞王,丹尼爾

人工智慧擊敗世界頂級德州撲克玩家贏下177萬美元

德州撲克也有「阿爾法狗」了或下月來華-產業·期貨-新聞-上海...

德州撲克人機大戰AI取勝麻將是人類最後堡壘?

柯潔輸了會哭但AlphaGo贏了並不會笑...