Libratus是個裡程碑,這意味著從華爾街的交易到網絡安全乃至於拍賣和政治談判,這種AI都可以扮演角色。
編者按: 1 月 30 日,賓夕法尼亞州匹茲堡Rivers賭場,耗時20天的德州撲克人機大戰塵埃落定。卡耐基梅隆大學(CMU)開發的AI程序Libratus 擊敗人類頂級職業玩家,贏取了20萬美元的獎金。儘管之前Google DeepMind的AlphaGo在與李世石的5番棋圍棋大戰以及在網絡上跟頂級圍棋選手的60番棋大戰中出盡了風頭。但相對而言德州撲克對於AI卻是更大的挑戰,因為AI只能看到遊戲的部分信息,遊戲並不存在單一的最優下法。那麼CMU的Libratus是如何擊敗人類頂級的職業玩家的呢?《連線》雜誌的這篇文章為我們揭秘。
在幾乎3個星期的時間裡,Dong Kim都呆在匹茲堡的一個賭場內跟一臺機器玩撲克。但Kim不是普通的撲克玩家。跟他對壘的也不是普通的機器。而這場比賽也不是普通的撲克遊戲。
28歲的Kim是全世界最好的撲克玩家之一。而那臺由卡內基梅隆大學的兩位計算機科學研究人員開發的機器,是一套運行在匹茲堡的一臺超級計算機的人工智慧系統。在整整20天的時間內,他們都在玩無限制德州撲克比賽,這是一種尤其複雜的撲克遊戲形式,其投注策略往往要經過很多手。
這場比賽剛剛結束不久。大概賽程過半的時候,Kim開始覺得Libratus好像能看到他的牌。不過他說:「我不是指責它作弊。而是說它有那麼好。」實際上好到擊敗了Kim及其他的3名全球頂級人類玩家——這是人工智慧的第一次。
在這次比賽期間,Libratus的創造者對這套系統的運作方式顯得遮遮掩掩,大家不清楚它是如何設法取得如此成功的,如何以其他機器前所未有的方式模仿了人類直覺的。但結果證明,該AI能達到如此高度是因為它不僅僅只是一個AI。
Libratus依靠了3套不同的系統的協作,這提醒我們現代AI並不是由一項而是多項技術驅動的。這段時間以來深度神經網絡抓住了大多人的眼球,當然這也有很好的理由:它們為一些全球最大型的技術公司從圖像識別到翻譯乃至於搜索的一切提供了動力。但神經網絡的成功也為大量其他幫助機器模仿甚至超越人類天才的AI技術注入了新生命。
比方說,Libratus就沒有使用神經網絡。它主要靠的是強化學習,這是人工智慧的一種,一種極其強調試錯的方法。其實質就是自己跟自己玩大量的遊戲。
Google的DeppMind實驗室利用強化學習來開發AlphaGo,這套系統攻克圍棋的時間比預期早了10年,但這兩套系統之間有一個關鍵的不同。AlphaGo是通過分析人類玩家的3000萬份棋譜來學習遊戲的,然後才通過自己跟自己下棋來改進自己的技能。相對而言,Libratus卻是從零開始學的。
通過一種名為反事實遺憾最小化(counterfactual regret minimization)的算法,它先是隨機地玩,然後最終在經過幾個月的訓練以及玩了上萬億手撲克之後,它也達到了能挑戰最好人類玩家的高度,不僅如此,它的玩法還是人類所不能的——它下注的範圍要大得多,而且會對這些賭注隨機化,這樣對手就更難猜自己手上都有什麼牌了。跟導師Tuomas Sandholm一起開發了這套系統的CMU研究生Noam Brown說:「我們只是向AI描述了這個遊戲,但沒有告訴它怎麼玩。它完全是獨立於人的玩法形成自己的策略的,而且它的玩法跟人的玩法會非常不一樣。」
但這只是第一階段。在匹茲堡的比賽期間,第二套系統會分析遊戲狀態並聚焦於第一套系統的注意力。這套系統屬於一種「殘局解算器(end-game solver)」,上周一Sandholm 和Brown發表的論文詳細描述了它的細節。在第二套系統的幫助下,第一套系統再也不需要像過去那樣跑完所有可能的場景了。它可以只試探其中的一些場景。也就是說,Libratus不僅僅是在在比賽前學習,而且還能在比賽中學到東西。
光靠這兩套系統就已經很有效率了。但Kim等其他玩家仍然能夠找出機器玩法的一些模式然後設法加以利用。為此,Brown和Sandholm開發了第三套系統。每天晚上Brown都會跑一個算法來識別出那些模式然後從策略中剔除掉。他說:「一個晚上它就能計算完然後在次日把一切準備就緒。」
如果這似乎不公平的話,好吧,AI就是這麼幹。這並不僅僅是AI跨越了許多技術。人類往往也頻繁加入進來,積極地改進AI、跑AI或者增強AI。Libratus的確是個裡程碑,展示了一種新型的AI,從華爾街的交易到網絡安全乃至於拍賣和政治談判,這種AI都可以從中扮演一定的角色。曾幫助Google設立中心AI實驗室,現為百度首席科學家的吳恩達說:「撲克曾經是AI最難攻克的遊戲之一,因為關於遊戲狀態你只能看到部分信息。撲克並沒有單一的最優下法。相反,AI玩家必須讓自己的行動隨機化,這樣它詐唬時才能讓對方無法確定真假。」
Libratus把這一點做到了極致。它的下注非常的隨機化,甚至超過了人類最好玩家的水平。而且如果這個方法不奏效的話,Brown晚上跑的算法就會彌補它的不足。金融市場交易員也可以採取相同的做法。外交官亦然。這是一個強大且相當令人不安的想法:機器可以用大賭注嚇退人類。
【重磅】未來科技學院前沿科技趨勢學習班 (2017第一期)報名
每一次人類社會的重大技術變革都會導致新的科學革命,網際網路與人工智慧對於人類的影響已經遠遠超過了大工業革命。人工智慧、網際網路、腦科學、虛擬實境、機器人、生物基因等領域正在相互融合,形成一股強大的洪流,對人類社會的各個領域產生巨大的影響。
一日千裡的科技進展,層出不窮的新概念,使企業家,投資人和社會大眾面臨巨大的科技發展壓力,前沿科技現狀和未來發展方向是什麼?社會大眾,企業家和投資家如何應對新科學技術帶來的挑戰?
在科學院大數據與知識管理重點實驗室,泰智會,人工智慧學家的支持下,未來科技學院邀請國內和國際著名科學家、科技企業家講授人工智慧、網際網路、腦科學、虛擬實境、機器人,3D列印、生物基因等領域的基本原理和未來發展趨勢。歡迎投資界、企業界,科研機構的人士參加。
未來科技學院第一期前沿科技趨勢學習班將在2017年2月下旬(2月24日-26日)在北京中關村網際網路金融中心1樓未來科技講堂舉辦。線下集中學習三天,之後學員將通過未來科技學院的線上平臺進行更多前沿科技講座學習和答疑互動。集中學習期間,將舉辦未來科技交流酒會,加強學員以及專家之間的溝通交流。
未來科技學院第一期學員將受邀加入未來科技學院的「未來科技創新促進會」,共享未來科技學院的高端科學家、企業家和投資人資源,共同解決企業和投資過程中遇到的科技問題;參與前沿科技未來發展重大課題研究;參加未來科技學院組織的講座、參觀和會議;選擇投資未來科技學院孵化的前沿科技創新創業項目。
點擊本文左下角」閱讀原文」了解詳細信息