麻將AI超越99%人類玩家:專業十段,學習能力堪比阿法狗

2020-11-24 金臺資訊

從最早的AI(人工智慧)在西洋棋中戰勝人類開始,中國象棋、德州撲克、圍棋等智力遊戲相繼淪陷,在DOTA、星際爭霸等電子遊戲中也表現亮眼,但是AI在麻將領域卻一直沒有突破。

近日,微軟發布了一份關於麻將AI「Suphx(意為Super Phoenix,超級鳳凰)」的修訂版預印本文件,介紹說Suphx是一個專業十段水平的「選手」,超越了99%人類玩家,這是電腦程式首次超過麻將中大多數頂級人類玩家。

一個高手麻將AI

擁有強大算力遠遠不夠

據這份公開資料顯示,Suphx於2019年3月登陸日本專業的麻將競技平臺Tenhou(天鳳),在短短幾個月內,Suphx在該平臺上與人類選手展開了5000餘場四人麻將對局,達到了十段,這是目前為止,世界上第一個也是唯一一個達到10段水平的人工智慧。據悉,天鳳是世界上最大的麻將社區之一,擁有超過35萬活躍用戶,其中不乏大量的專業麻將選手。天鳳平臺自2006年推出以來,四人麻將達到過十段的選手約有180位,而現役的十段人類選手也不過十幾位。

麻將被稱為不完全信息博弈,每位玩家手中最多有13張別人不可見的牌。牌牆中的14張牌對所有玩家都不可見。此外,牌桌中央還有70張牌。只有被玩家打出時,這部分牌才可見。

雖然136張麻將的排列組合結果和圍棋相比要小得多,但難點在於同一玩家兩次出牌之間,夾雜了其他3位玩家的出牌、自己的摸牌,而且還有「吃、碰、槓」都會讓牌局產生動態變化。在這種規則下,玩家每做出一個選擇,接下來的牌局就可能出現10個以上的走向。

另外,麻將遊戲的「胡牌」方式非常多。因此,想要打造一個高手麻將AI,只有強大的算力是不夠的,更需要讓AI具有直覺、預測、推理和模糊決策的能力,這也正是建立麻將人工智慧模型的難點所在。

5000餘場完勝的Suphx

十段功力究竟是怎麼修煉的

那麼,Suphx是怎麼解決這些問題,從而戰勝人類的呢?

據介紹,開始階段研究員們利用天鳳平臺的公開數據得到一個初始模型,並在模型基礎上用自我博弈的方式進行強化學習訓練。研究員開發了丟牌模型、立直模型、吃牌模型、碰牌模型以及槓牌模型等五大模型,專門訓練「超級鳳凰」的打牌策略。這五大模型都基於深度殘差卷積神經網絡,並一一應對麻將複雜的決策類型。甚至,Suphx還有一個基於規則的贏牌模型,決定在可以贏牌的時候要不要贏牌。

隨後,針對非完美信息博弈的挑戰,Suphx創新性地嘗試了先知教練技術來提升強化學習的效果。

最後,再針對麻將複雜的牌面表達和計分機制,研究團隊利用全盤預測技術搭建起每局比賽和8局終盤結果之間的橋梁。這個預測器通過精巧的設計,可以理解每局比賽對終盤的不同貢獻,從而將終盤的獎勵信號合理地分配回每一局比賽中,以便對自我博弈的過程進行更加直接有效的指導,並使得Suphx可以學會一些具有大局觀的高級技巧。

為什麼智力遊戲

是AI研究者的最佳實驗田

從最早的AI在西洋棋中戰勝人類開始,AI先後攻克了中國象棋、德州撲克、圍棋、DOTA、星際爭霸等多種遊戲,為什麼AI研究者都喜歡挑戰遊戲領域呢?

在去年的世界人工智慧大會上,時任微軟全球副總裁的沈向洋表示,遊戲一直是人工智慧研究的最佳試驗田,訓練遊戲AI的過程可以不斷提升人工智慧的算法和人工智慧處理複雜問題的能力。在現實世界中,金融市場預測、物流優化等很多問題與麻將遊戲有著相同的特點,包括複雜的操作、獎勵規則、信息的不完全性等等。

浙江大學人工智慧研究所所長吳飛也表示,很多AI的研發都是針對某個領域或某個具體任務進行的研究,這些AI誕生的目的當然不僅僅在某個遊戲勝過人類這麼簡單,都是為了應用到我們實際生活中去。

吳飛告訴記者:「微軟這款麻將AI所採取的策略其實和圍棋當中的Alphago是類似的,框架還是基於強化學習、深度學習和蒙特卡洛樹搜索。只不過它是針對麻將這個具體問題進行優化,如針對麻將中不同出牌的策略專門進行學習。

在吳飛看來,AI戰勝人類在大部分棋牌類遊戲中都可以實現,但這不代表現在的AI就比人類厲害了,因為人類行為不是單一問題的集合,實際的應用場景比遊戲要複雜得多。

「比如現在大家關注度比較高的自動駕駛、城市大腦,這些場景更加複雜,沒有足夠多的數據,也沒有足夠準確的機器語言去描述,因此目前的人工智慧在實際使用中還很局限。不過這類AI的出現對我們解決序貫決策問題還是很有幫助的,比如對經濟活動調整的預測和分析,來幫助經營者作出更好的決策;在交通、物流領域進行效率優化、降低成本提高收益等。」

相關焦點

  • 還記得那個打敗了柯潔的阿法狗嗎?新一代阿法星已全面超越人類
    原本人們以為圍棋將會是人類引以為傲的智商唯一保留地,然而阿法狗擊碎了這一切,從一開始戰勝韓國著名棋手,再到後來戰勝中國最強棋手柯潔,阿法狗已經用多次的實戰證明了自己已經是不敗之神,而都得益於它的特殊機制,跟完全的死記硬背不同的是,阿法狗是通過自己去看數萬場棋局,然後學習經驗並且優化自己。
  • 「戲裡戲外」阿法狗「後代」《星際2》超99.8%人類 成首個非人宗師
    大家應該還對之前擊敗圍棋世界觀劇柯潔的阿法狗記憶猶新,這個每天能訓練推演一萬盤圍棋比賽怪物,第一次讓英國的國旗出現在圍棋選手排行榜這個基本上只出現中日韓國旗的榜單中,還位居第二(戰勝柯潔之後退役了)。當時阿法狗的設計者們就表示,想把AI選手放在《星際爭霸2》上看看效果。
  • 比AlphaGo 更複雜,最強日本麻將 AI 是怎麼煉成的?
    「感覺 ai 的打法都不太能被推理完全,這種基於訓練的對某種特徵做出的反應對於人類來說就是迷啊…」這些評論來自於 B 站上一個系列的視頻,視頻主角是一個名為 Suphx(意為 Super Phoenix)的麻將 AI。2019 年 6 月,有創作者開始製作 Suphx 牌譜的視頻。上傳到 B 站後,引起了不少麻將愛好者的討論。
  • 新版「阿法狗」迅速成為圍棋霸主
    3天,「阿法元」的無師自通  此次在最新論文中,英國倫敦深度思維公司「阿法狗」項目的主要負責人戴維·西爾弗、戴密斯·哈薩比斯及其同事,報告了新版「阿法狗」軟體——「阿法元」。  「阿法元」最引人注目之處在於其無師自通的本領。其學習從「零」開始,單純基於與自己的對弈,不需要任何歷史棋譜的指引,也不需要任何人類經驗的點撥。
  • 人工智慧從0到1:阿法零AlphaGo Zero無師自通100-0完爆阿法狗AlphaGo
    深度神經網絡強大的特徵提取能力以及尋找更優解的能力,擺脫對人類經驗和輔助的依賴,從應用角度,以後可能不再需要耗費人工去為AI的產品做大量的前期準備工作,類似的深度強化學習算法或許能更容易地被廣泛應用到其他人類缺乏了解或是缺乏大量標註數據的領域——無監督學習未來之路,這也許是阿法零的最偉大的創新(novelty),搞不好會誕生一個圖靈獎。
  • 谷歌DeepMind團隊新AI研究:阿法元無師自通,百戰百勝阿法狗
    去年,阿法狗(AlphaGo)代表人工智慧在圍棋領域首次戰勝了人類的世界冠軍,但其棋藝的精進,是建立在計算機通過海量的歷史棋譜學習參悟人類棋藝的基礎之上,進而自我訓練,實現超越。可是今天,我們發現,人類其實把阿法狗教壞了!
  • 阿法狗算什麼?這個星球最聰明的人說:零來了 擺脫人類自學成才
    新版阿法狗來勢洶洶,據Deepmind團隊透露,新阿法狗「零」的水平已經超過之前所有版本的阿法狗。在對陣曾贏下李世石的那版阿法狗時,AlphaGo Zero取得了100:0的壓倒性戰績。而且,它是從一張白紙開始,零基礎學習,在短短3天內,成為頂級高手。
  • 騰訊人工智慧貝塔鵝欲戰阿法狗 以麻將決勝負
    騰訊公司宣布,研究長達11年之久的人工智慧系統「Betae」已結束封測,即將上線投入應用,並正式向谷歌公司的「Alphago」就麻將項目發起挑戰。研發人員稱,Betae內部開發代號為貝塔鵝,其主要工作原理為「深度學習」,通過合適的矩陣數量,多層組織連結一起,形成神經網絡「大腦」進行精準複雜的處理。
  • 阿法狗2.0版來了!這次人工智慧要正式摒棄人類棋譜
    新版「阿法狗」將正式摒棄人類棋譜,只靠計算機自身深度學習的方式成長——即探索「深度學習」方式的極限,臻至「圍棋之神」的境界。2.0版的AlphaGo,將通過數學模型下的自我對局和深度學習,下出真正屬於人工智慧(AI)的圍棋。柯潔微博。
  • 《棋魂》阿法狗和褚嬴對局誰會贏?
    那我們就看褚嬴和阿法狗對局誰會贏?(AlphaGo是第一個擊敗人類職業圍棋選手的的人工智慧機器人)阿法狗是一個具有學習技能的人工智慧,阿法狗在圍棋方面的學習和計算能力遠超人類。雖然褚嬴活了上千年,但是他的進步空間還是有限這一千多年中所下過產生的對局,褚嬴不可能都去學習看過,而對於阿法狗來說,這件事情就能簡單。所以在知識儲備上,阿爾狗具有絕對的優勢。
  • 日本人機戰人類勝 電腦CPU價格不及阿法狗電費
    信息時報記者 鄧菲菲  CPU價格還不如阿法狗電費  一個不敵英雄遲暮的趙治勳,一個戰勝了仍處於頂尖集團的李世石,看起來DeepZenGo和AlphaGo之間似乎有很大的差距,一些棋友甚至認為阿法狗能讓DeepZenGo五子,其實這是對兩臺機器的實際情況不夠了解所致。
  • 阿法狗並不是真正的人工智慧:3分鐘讓你徹底明白阿法狗如何下棋
    原標題:阿法狗並不是真正的人工智慧:3分鐘讓你徹底明白阿法狗如何下棋 阿法狗很強大,它的強大是由於它的原理和算法,這是大家都知道的,但具體咋回事,可能很多人就說不上來了。
  • 柯潔是如何被阿法狗超越的?關鍵在於這3點!
    在2017年5月23日,一場舉世矚目的「圍棋人機對抗賽」在浙江桐鄉打響,參賽雙方分別是當時等級分排名世界第一的中國棋手柯潔九段,以及谷歌公司研製的人工智慧程序AlphaGo(國內網友親切地稱之為「阿法狗」)。
  • 創造出「阿法狗」的是怎樣的人
    創造出AlphaGo的傑米斯·哈薩比斯,一個英國智力天才一月下旬,谷歌旗下的DeepMind公司公布其創造的「阿法狗」(AlphaGo)圍棋程序擊敗了人類職業選手、歐洲冠軍樊麾,這一消息震撼了主要聚集在東亞的整個圍棋圈
  • 阿法狗挑戰星際爭霸打不過簡單電腦 網友腦洞:天網的陰謀
    劃重點1:為啥狗會輸?官方:《星際爭霸》太難了官方以一篇長博客解釋阿法狗碰壁原因,認為目前核心問題在於阿法狗還無法像人類那樣,同時處理多種事物,而且像《星際爭霸》這類的遊戲的操作空間太大。,對人類來說非常簡單,但阿法狗卻需要進行長期的訓練。」
  • 柯潔對戰阿爾法狗完敗也不用怕 阿法狗只是一條"狗"而已
    柯潔對戰阿爾法狗完敗也不用怕 阿法狗只是一條"狗"而已  柯潔必然完敗,阿爾法狗才是圍棋界的"上帝"  首先來看看阿爾法狗的歷史:  阿爾法圍棋(AlphaGo)是一款圍棋人工智慧程序,由谷歌(Google)旗下DeepMind公司的戴密斯·哈薩比斯
  • 神之一手實現終極逆襲 人類首次戰勝"阿法狗"
    它捍衛了圍棋之美和人類智慧,足以讓觀者熱淚盈眶。  昨天,備受矚目的阿爾法人工智慧圍棋與韓國棋手李世石的第四番較量如期而至。經歷了前三次的失敗,李世石終於扳回一局,捍衛了人類的榮譽,而他在第78手的一招妙棋更是被看做打亂「阿法狗」節奏的神之一手。明天,在本次人機大戰的收官一局中,李世石將執黑再戰「阿法狗」。
  • 手把手教你打造自己的「阿法狗」
    可你最近還是到處跟人大談「阿法狗」,就好像那就是你姥姥家的旺財一樣。    有沒有覺得「阿法狗」萌萌噠?   一時間,「阿法狗」成為了高科技、人工智慧的代言者。你當然不可能在寵物店找到這隻「阿法狗」,這套大名叫做AlphaGo的智能設備有錢你也買不到。不過,紳寶君能保證你可以輕鬆打造出屬於自己的「阿法狗」——還能到處跑的那種。
  • 谷歌推出阿法狗圍棋工具:讓機器教人類下棋
    此時,不忘給谷歌打廣告的皮查伊先生公布,阿法狗圍棋教學工具(AlphaGo Tools)的開發已經成熟,馬上就可以推出。這套工具收集了231000套人類棋譜、75場阿法狗和人類對弈的棋譜,谷歌希望,這套工具能讓阿法狗幫助人類提高自身的圍棋水平。聶衛平在現場表示:「我認為谷歌的戰略眼光極具高度,我對谷歌非常欽佩和感謝。
  • 人機大戰落幕 阿法狗3:0全勝柯潔落淚
    阿法狗在不斷進化實際上與柯潔對戰的阿法狗並不是與李世石對戰的阿法狗,李世石也在採訪中確認了這一點,他認為下法更加直接明確,不會出現一些莫名其妙的布局,牢牢掌控了整盤。