40張圖看懂撲克AI對抗人類30年歷史

2020-11-26 199IT
2017年是AI在撲克上取得突破的一年,冷撲大師Libratus和DeepStack 相繼完勝人類,實現對人類專業級玩家的超越,毫無疑問是裡程碑式的突破。在AlphaGo和Master與人類專業棋手的PK光環下,撲克AI的研究稍顯黯淡,但是,以解決不完美信息博弈為目標的撲克AI路徑難度和重要性並不亞於圍棋。在商業談判、醫療健康、網絡安全、拍賣等領域,這一技術有著不容忽視的應用價值。本文以信息圖示的形式,為你介紹撲克AI的歷史、技術原理、對戰細節、AI 的優勢等,了解冷撲大師的前世今生。

2017年是AI在撲克上取得突破的一年,在AI的發展歷史上,具有裡程碑的意義。

1月,卡耐基梅隆大學的 AI 程序在「一對一不限注」的撲克比賽中,擊敗了一組世界級的德州撲克職業選手。出乎所有人的意外,這一程序對人類專業撲克手的勝利幾乎是壓倒性的:14bb/h。

(注,德州撲克中,線下按bb/h,超過15bb/h,你已經完全統治這個級別的桌子了,能打到5bb/h-10bb/h已經很不錯了。線上按bb/100手,超過5bb/100已經非常厲害了。)

比賽一共打了12萬手,最後 AI 程序贏得170萬籌碼,也就是約 1.7 萬大盲注,接近 90 個買入。對職業撲克玩家來說,還好這不是真正的錢,雖然他們在這場比賽中潰不成軍。團隊裡每個人都敗給了機器。

這個 AI 程序被稱為 Libratus,它的開發者之一,CMU 博士生 Noam Brown 稱它是「撲克AI的聖杯」。Libratus 是 Noam Brown 和 CMU 教授 Tuomas Sandholm 一起開發的,而它只是 CMU 研發的一系列撲克 AI 程序中最新的一個。此前,從來沒有機器能在一對一不限注德州撲克遊戲中擊敗世界級的人類職業玩家。

卡耐基梅隆大學的 AI 程序 Libratus 的開發者Tuomas Sandholm 教授(右)與 Noam Brown 博士

根據 Brown 的說法,後續版本的 Libratus 還能有很大的提升空間,升級後的程序理論上能贏 50bb/h。

而在驚人的 Libratus 之前,來自加拿大和捷克的幾位計算機科學研究者近日在 arXiv 上貼出論文,介紹了一種用於不完美信息(例如撲克)的新算法,DeepStack 結合使用循環推理來處理信息不對稱,使用分解將計算集中在相關的決策上,並且使用一種深度學習技術從單人遊戲中自動學習的有關撲克任意狀態的直覺形式。研究者在論文中稱,在一項有數十名參賽者進行的44000手撲克的比賽中,DeepStack 成為第一個在一對一無限注德州撲克中擊敗職業撲克玩家的電腦程式。

隨後,Science以封面文章的方式,對這一AI 在不完美信息博弈中堪稱裡程碑式的突破進行了報導。

撲克網站pokersites.me.uk近日發布了一篇文章,以信息圖的方式,完整地介紹了人類開發AI程序以對抗撲克玩家的裡程,從1984年開始,我們已經在這一方向上探索了30多年,在2017年獲得最值得驕傲的成功。冷撲大師「 Libratus」 和DeepStack 不僅僅意味著在撲克上的突破,更多的是深度學習和人工智慧綜合性的成就和技術高度。

下文,我們將從歷史、技術原理、對戰細節、AI 的優勢、撲克AI的延伸應用以及未來等多個方面,介紹以撲克為攻克的目標的這一人工智慧突破路徑。不完美信息博弈上,AI技術的成熟與應用,將會進一步擴展AI的應用邊界,比如,在商業談判、醫療健康、網絡安全、拍賣等等領域得到廣泛應用。

對抗人類:機器的崛起

撲克AI標誌著AI研究歷史上的又一個裡程碑。

概述:AI擊敗人類冠軍的三件事

  • IBM的「深藍」,由卡內基梅隆大學開飯,在1997年的複賽中擊敗西洋棋世界冠軍卡斯帕羅夫。
  • 谷歌的AlphaGo AI程序擊敗圍棋手李世石。
  • 2011年,IBM的超級計算機 Watson 在Jeopardy比賽中擊敗兩位世界冠軍。

人類如何認知AI:人口統計數字

  • 超過55歲的人群,只有35%的人信任AI;
  • 17歲到24歲的人群,信任AI的人比例為62%;
  • 超過50歲的人中,71%的人認為,智能虛擬助理將會在未來簡化他們的生活。

撲克中反映的通用問題

最近10年,驅動撲克AI研究發展的力量

撲克AI背後的科學家:

  • Noam Brown,卡內基梅隆大學
  • Tuomas Sandholm,卡內基梅隆大學
  • Michael Bowling,阿爾伯塔大學

撲克AI的歷史,關鍵時刻

1. 1984年,Mike Caro 創建的基礎撲克AI軟體Orac參加了WSOP的比賽。

註:世界撲克大賽(World Series of Poker,簡稱WSOP)是世界上具有重要影響力的撲克錦標賽,每年在美國拉斯維加斯舉辦。此項賽事的起源可以追溯到1970年,當時奔尼·比尼恩(Benny Binion)邀請了六位知名撲克選手在馬蹄鐵賭場(Binion’s Horseshoe Casino)舉辦了第一屆比賽,當時的冠軍是由投票選出的。(來源:維基百科)

2. 1997年,阿爾伯塔大學(UoA)發布了撲克AI Loki,專攻有限下注的德州撲克比賽。

3. 2003年,撲克AI開發者開始從西洋棋方法論的模型中轉移,尋找新的辦法。

4. 2005年,在Golden Palace舉辦了撲克機器人世界系列賽。

5. 2006年,年度計算機撲克競賽(ACPC)開始舉辦。

6. 2008年,UoA的撲克機器人Polaris 6位人類玩家進行了一對一的無限下注競賽,成績為3勝2負一平。

7. 2009年,奧克蘭大學發布 Sartres 。

8. 2012年,拉斯維加斯Bellagio 賭場啟動了2/4美元有限下注的機器人,每個人都能嘗試與之進行對抗。

9.2015年,有限下注的比賽以及被阿爾伯塔大學的撲克機器人Cepheus攻克。

10. 2016年,在ACPC上出現了兩個頂級的AI:1)前谷歌工程師Eric Jackson 開發的Slumbot,在WSOP上大賺一筆;2)CMU 博士生開發的「Act1」數年來在線上撲克對戰中保持常勝。

11. 2017年,阿爾伯塔大學開發的DeepStack擊敗了撲克專業玩家。同時,來自CMU的神秘AI也完勝最好的人類撲克玩家。

解密冷撲大師Libratus:成功騙過最佳撲克專業玩家的撲克AI

Libratus 基於匹茲堡超級計算中心1500萬小時核心計算制定自己的撲克策略。

匹茲堡超級計算中心的超級計算機「嫁接」資源

  • 比一般的現代桌面計算機快30000倍
  • RAM達到274 TeraBytes
  • 成本:965萬美元

撲克遊戲的特徵

  • 在有限下注的對抗中,一共包含了31600萬億個不同的遊戲狀態。
  • 無限下注的對抗所包含的獨特的情景數量比宇宙中原子的數量還多。
  • 以每秒一次的頻率,一個人需要100億年的時間,才能嘗試完所有的有限下注狀態。

Libratus的策略:

  • Libratus依賴於一個算法來計算策略,而非修正已經被寫入程序的策略。
  • Libratus每天都在分析自己的下法,並修正錯誤,每天都在進行不同的對戰。
  • Libratus會將自己的行動隨機化,讓對手不能確定自己是不是在bluffing。
  • Libratus的算法不是專用於撲克的,還能夠應用到任何的不完美信息情景中。

Libratus三大模塊。Libratus有三大模塊,每一個都在執行不同的任務:

1. 學習撲克遊戲規則,嘗試找到能解決每一個場景的對應不同策略;

2. 在每一手牌中,為每一次行動進行決策;

3. 持續地更新,對進入到系統中的每一個新信息進行記錄和存檔。

冷撲與其他AI的不同之處

Libratus:沒有深度神經網絡,從頭開始學習規則,所運用的策略完全獨立於人類玩家。

其他AI:有深度神經網絡,對舊的玩法進行分享以學習規則,所運用的策略不獨立於人類玩家。

過渡時期,無限下注德州撲克的解決也不遠了

人腦 VS AI

Claudico 

2015年,Tuomas Sandholm和CMU的同事發布了一個超級智能的撲克AI Claudico,用於無限注的撲克對抗。

四名最好的玩家:Doug Polk,Bjorn Li,Dong Kim 和 Jason Les 在Rivers 賭場完成了與Claudico的對抗。

在為期13天的比賽中,一共進行了8萬手的比賽,下注的虛擬貨幣數量總額為1.7億美元。

四名玩家一起擊敗了Claudico,贏了732713美元。

2017年,UoA發布了DeepStack,專攻無限下注的德州撲克。DeepStack採用了深度神經網絡,來模仿人類在圍棋遊戲中的「直覺」和學習能力。DeepStack將遊戲的場景「壓縮」到10的14次方,由此一來,兩個玩家的對抗產生的可能的遊戲場景就是10的160次方。

結果:整個研究涉及了幾十名參與者,包含了44萬手撲克。DeepStack的平均獲勝率是450 mbb/g,在專業撲克玩家中,50 mbb/g的贏率就可以稱得上是優秀了。與DeepStack對戰的都是優秀的玩家,但是,它還沒有與頂級玩家過招。

2017年,CMU的冷撲大師 Libratus 橫空出世,創造了撲克AI與人類玩家對抗最為壓倒性的勝利。

2017年1月,四位人類最頂級的玩家與Libratus 進行對抗,一共進行了12萬手的比賽。

每一手對抗中,人類玩家和AI各自擁有2萬籌碼,盲注為50/100。

Libratus 分別擊敗了四位玩家,並且贏率為14.72美元每一手。

Libratus的贏率為14.7 bb 每一百手,這對AI來說是一個非常優秀的結果了。

所有的四名人類玩家都輸掉了自己的3萬手對抗,等於輸掉了176萬6250美元。

專業撲克手 VS AI撲克手,戰役還是戰爭?

AI 的優勢在哪?

  • AI不會疲勞,不會在累的情況下做出錯誤決策;
  • AI 能夠找到玩家的特定缺陷;
  • AI 對錢的價值沒有概念;
  • AI 沒有情感,不會被偏見影響;
  • AI對風險不會感到害怕,如果Libratus有10%的機率贏得2萬美元,同時也有90%的機率打平,或者有保證得到1999美元,它一般都會採納10%。

頂級的AI模擬和訓練軟體,能夠幫助人類

線上撲克Bot

紙牌之外的下一步,AI的未來

趨勢與可能性

  • 對於撲克AI來說,下一個挑戰是,一次對抗多個人類玩家。
  • 電子的循環比生物化學的速度要快幾百萬倍。
  • Libratus 的聯合開發者Noam Brown 預計,一個完美的GTO bot可能會以15 bb每一百手的勝率擊敗Libratus。
  • AI 每周能夠完成人類需要2萬年才完成的工作。
  • 到2021年,網絡安全中機器學習的應用,將能推動大數據、智能和分析行業超過960億美元的開支。

不完美信息的應用:商業談判、醫療健康、網絡安全、拍賣等等。

參考資料:

相關焦點

  • 40張圖徹底看懂:中東恩怨情仇 為什麼老打仗
    這裡有40幅圖,大概講述了中東歷史、現在,和當今地區最重要的一些故事。從公元前9000年開始,人們就已開始在該地帶內進行農業種植活動。在公元前2500年時,蘇美爾人在這裡建立了人類歷史上第一個複合型社會,與今天的「國家」概念十分相似,有完善的成文法典和政治系統。2.古代腓尼基人是如何從黎巴嫩穿越地中海的?
  • 8張「一絲不掛」的人性圖,最後一張只有智商180的才能看懂!
    8張「一絲不掛」的人性圖,最後一張只有智商180的才能看懂!第一張:每個人都有千百種模樣,想真正看透一個人,很難第二張:有手有腳卻在要飯!扎心了第三張:寒冬降至,八歲姑娘腳步蹣跚,背著弟弟慢慢走!第四張:「網紅臉」讓我對女性有了臉盲症!第五張:學會放手,你才會發現,其實成功不只一條路。第六張:懶惰會生根,會讓你起不來第七張:你礙著我了。
  • 6張標準色盲測試圖:一般人只能看懂3張,超過5張你是色盲絕緣體
    6張標準色盲測試圖:色弱只能看懂3張,超過5張你是色盲絕緣體,隨著時代的發展,現在人們的生活水平可以說真的是越來越好了,相信大家應該都是這麼認為的吧,尤其是現在我們大家有了錢之後,都是會買一輛屬於自己的愛車,不過我們在買車的時候是必須要有駕照才能夠上路的,如果沒有駕照的話,那也是不可以的,當然我們在考駕照前提要通過色盲測試圖才可以的
  • 18張九宮格陣營圖看懂熱門遊戲類型定義
    18張九宮格陣營圖看懂熱門遊戲類型定義 ​國內遊戲產業發展至今,也就二三十年的事,但更新迭代之快,其實已經跨越了數個時代了。
  • 世界上最「燒腦」的5張圖,反正我是一個都沒看懂,求答案?
    世界上最「燒腦」的5張圖,反正我是一個都沒看懂,求答案? 這是什麼?據說只不過是一張紙,大家看成什麼了?是不是都想歪了呢!好汙啊,哈哈……世界上最「燒腦」的5張圖:第一眼沒看到馬的,你就輸了!你看到了嗎?
  • 這張圖裡藏了4個字,意義深刻!看懂的人太少了
    下面這張圖,  是由意義深刻的四個字組成的。  你能看出來這是哪四個字嗎?  這張圖中的四個字含義深刻,看懂的一定是內心幸福快樂之人!如果你沒看出來,就發給朋友們一起猜一猜吧!
  • 4張欺騙大腦的錯覺圖,床上的黑洞,圖三你看懂了嗎?
    4張欺騙大腦的錯覺圖,床上的黑洞,圖三你看懂了嗎?其實這也是一張錯覺圖,你以為他拿著車子嗎?其實不然,只不過手正好落在了車子上面,感覺像在抓著那輛車。
  • 考駕照色盲測試圖,認出3張算合格,看懂第4張和開車無緣了!
    因此,考駕照色盲測試圖,認出3張算合格,看懂第4張和開車無緣了,看看你能認出幾張。第一張還是很簡單,只要眼睛正常,那上面的阿拉伯數字可以說清晰可見。毋庸置疑,該圖中兩個數字分別是2和6,只要不是紅綠色盲患者,那基本瞄一眼就知道了。第二張相對來說有一點難度,不過要認出也非常簡單。
  • 錯覺圖片大全(40圖)-讓你懷疑眼睛的視錯覺圖片
    第一圖:晃眼看上去,是不是懷疑這人的下半身不見了?編號17奧同學有了新玩意編號18這張圖小編有點沒看懂小編眼睛花了,沒搞明白編號30我想問下,我是看到飛馬了嗎?編號31這張圖我也沒看懂編號40好純潔的婚紗,可是我看著好像不太對啊?
  • 人類進化是個騙局?這張「人類進化圖」是錯的,誤導了無數人!
    在這張圖上有6個從左到右排列分別是森林古猿、山猿、西瓦古猿、尼安德特人、克羅馬農人、現代智人,被普遍理解為描述人類的進化過程,成為了有史以來最著名的科學插圖之一。 流傳半個多世紀的「人類進化圖」是錯的! 這幅圖的作者為美國自然歷史畫家魯道夫·扎林格(Rudolph Zallinger),為耶魯美術學院的俄羅斯出生年輕畢業生。
  • 一圖看遍火星46億年歷史
    人類對火星的認識怎樣一步步深入?火星探測經歷怎樣的歷程?一圖看懂火星46億年歷史
  • 震撼人心的20張圖片,你看懂了幾張?
    下面這20張震撼人心的攝影作品,你能看懂幾張呢?①一位身著紅色裙子的舞者在一座百年歷史的四合院裡翩翩起舞※即使沒有舞臺,你也要做你人生的主角。②清潔的工人在清掃地面繪製出一幅絕世之作※誰都可以是生活的藝術家。
  • BTC突破歷史新高后又千刀回調 9張圖看懂比特幣後市走向
    經過近三年的耐心等待,全球最大加密貨幣的投資者在價格飆升至超過19,800美元之後,在周一創下了歷史新高,超過了2017年12月創下的歷史新高 11月30日將永遠銘刻在比特幣投資者的記憶中,因為比特幣價格飆升至2017年12月下旬著名加密貨幣狂潮的高點後,當晚又回調千刀。數據顯示,比特幣價格觸及高點19,844美元,隨後在撰寫本文時回落至19,501.39美元。自10月份PayPal宣布進軍加密貨幣市場以來,比特幣一直處於穩定的上升趨勢。
  • 一圖看懂小麥品質與地理位置關係
    科技日報新鄉5月23日電 (記者瞿劍)23日在此間召開的「小麥綠色增產增效技術模式集成示範觀摩活動」上,中國農科院「非正式」發布了《基於地理統計學的小麥籽粒質量地圖》,可以一圖看懂小麥品質與地理位置之間的關係。之所以說是「非正式」發布,是因為活動議程安排中,本無此項發布。
  • 迷你世界:難度很高的4張迷宮圖,不僅要解密,還要與玩家對抗!
    迷你世界:難度很高的4張迷宮地圖,不僅要解密,還要與玩家對抗!在迷你世界、我的世界這類沙盒遊戲中,玩家可以使用遊戲中的各種道具去創造各式各樣的東西。下面就為玩家介紹一位迷宮的瘋狂愛好者:毛毛,毛毛製作的地圖大部分都是迷宮,此玩家的作品多次被鑑賞家推薦,下面就給玩家們介紹毛毛幾款經典的迷宮圖。4:國慶迷宮賽跑。這是毛毛最新的作品,為了給祖國慶生特別製作的。整個迷宮最大的特點就是大!顯示出祖國現在越來越強大了,也凸顯出祖國的國土面積大。迷宮內的地板主色調採用的是紅色,代表著中國紅。
  • 這5張圖都看懂,能考飛行員!
    看看這5張色盲圖,看懂3張勉強能開車,看出第5張你就是飛行員視力。第1張色盲檢測圖很多人都不把它放在眼裡,認為這張圖也太簡單了,圖片中全部都是綠色,有什麼難度呢?對正常人來說這張圖片中全部都是綠色的,對紅綠色盲患者來說,根本看不出圖片中到底是什麼顏色,這張圖片是最直觀的判斷學員是不是色盲的方式。
  • 基因編輯原來是這麼回事,一張圖看懂了
    基因編輯原來是這麼回事,一張圖看懂了 11月26日,來自深圳的科學家賀建奎宣布,一對名為露露和娜娜的基因編輯嬰兒於11月在中國健康誕生。由於這對雙胞胎的一個基因被編輯,她們出生後即能抵抗愛滋病。
  • 八卦人類圖(5)| 有了祂,你可以實現人生的彎道超車
    ▲ 上面一張圖,是我講《薄伽梵歌》的PPT,看懂這個,你就明白人們對命運的兩種觀點,看懂這個,你就知道人類圖,最重要的地方在哪兒了。看不懂,就來聽課吧,世面上沒有我這樣講人類圖的。我是獨一無二的。平時也看解剖醫學、量子物理學、歷史、商業等。
  • 這六張色盲圖,大部分人只能看懂三張,你能看懂多少?
    小編還為今天的每個人準備了幾份色盲測試表,該測試僅供參考,不一定是最終結果,對此有疑問的朋友可以去醫院再次測試,以確定他們在生活中是否有「潛力」,色盲與它是否會成為駕駛測試絕緣體的結果有關,測試即將開始,你可以閉上眼睛30秒,然後拿起手機準備,如果你看不清楚,你可以把手機拿走,或者或者將手機屏幕的光調亮些。
  • 北大歷史教授:心血整理38張圖,涵蓋5000年,孩子吃透中考98+!
    我們的歷史是悠久的,如何掌握好這門學科?如何更好地把這門學科學透?如何在中考考個好成績?這些都是直接關涉到我們前途的問題。對我們歷史的掌握,要有一個重點,特別是要善於抓住我們歷史的脈絡。歷史是人類書寫的,我們作為後繼者,就要不忘前面的人所創造的歷史,這對於我們的未來有很大幫助。在歷史的具體學習當中,關鍵還是要有一套方法,有一種自己學習的巧勁,也就是自己找到的一個舒適點,可以四兩拔千金,找到那個點,你就接近成功了。為什麼我們初中歷史學生感覺難學?