麻將AI難在哪?微軟宣布公開麻將AI Suphx 的十段秘籍_手機網易網

2020-12-14 網易新聞

網易科技訊4月9日消息,日前,微軟亞洲研究院在arXiv平臺上正式發表了關於麻將AI系統Suphx的論文,公布了Suphx背後的包括決策流程、模型架構、訓練算法等核心技術細節。

那麼,麻將AI 到底有哪些難點?Suphx這一在遊戲AI領域具有跨越性的突破具體是如何實現的?近日,微軟亞洲研究院Suphx研發團隊在arXiv平臺上正式發表論文,公布了Suphx背後的核心技術。

麻將AI面臨的挑戰

麻將AI系統Suphx主要基於深度強化學習技術。儘管深度強化學習在一系列遊戲AI中取得了巨大的成功,但想要將其直接應用在麻將AI上殊為不易,面臨著若干挑戰。

挑戰一:麻將的計分規則通常都非常複雜,在如天鳳平臺等競技麻將中,計分規則更加複雜。

首先,一輪麻將遊戲通常有8局甚至更多,每一局結束後四位玩家都會有這一局的得分(可能為正,可能為負)。當一整輪遊戲都結束後,四位玩家按照所有局的累計得分排名,計算這一輪遊戲的點數獎勵。在天鳳平臺上,排在一二名的玩家會得到一定數目的點數,排在第三位的玩家點數不變,排在第四位的玩家會被扣去一定數目的點數 。因此玩家的點數和段位都可能會起起落落,當點數增加到一定程度時段位上升,而點數扣到0時則會被降段。因此,為了提高段位,玩家需要儘量多的排在第一位或者第二位,儘量避免被排在第四位。

有趣的是,由於一輪遊戲的最終點數是由多局的累計得分決定,所以高手可能會策略性地輸掉一些局,也就是說,某一局的輸贏並不能直接代表玩家打的好不好,所以不能直接使用每局的得分來作為強化學習的獎勵反饋信號。微軟亞洲研究院的研究員們找到了一種其他的方法,會在後文中解釋。

其次,天鳳平臺上每一局遊戲的計分規則都需要根據贏家手裡的牌型來累計計算得分,牌型有非常多的可能,例如清一色、混一色、門清等等,不同牌型的得分會相差很大。這樣的計分規則比象棋、圍棋等遊戲要複雜得多。麻將高手需要謹慎選擇牌型,以在胡牌的概率和胡牌的得分上進行平衡,從而取得第一、二位或者擺脫第四位。

挑戰二:從博弈論的角度來看,麻將是多人非完美信息博弈。麻將一共有136張牌,每一位玩家只能看到很少的牌,包括自己的13張手牌和所有人打出來的牌,更多的牌是看不到,包括另外三位玩家的手牌以及牆牌。面對如此多的隱藏未知信息,麻將玩家很難僅根據自己的手牌做出一個很好的決策。

挑戰三:麻將除了計分規則複雜之外,打法也比較複雜,需要考慮多種決策類型,例如,除了正常的摸牌、打牌之外,還要經常決定是否吃牌、碰牌、槓牌、立直以及是否胡牌。任意一位玩家的吃碰槓以及胡牌都會改變摸牌的順序,因此研究員們很難為麻將構建一棵規則的博弈樹(game tree)。即使去構建一棵博弈樹,那麼這棵博弈樹也會非常龐大,並且有不計其數的分支,導致以前一些很好的方法,如蒙特卡洛樹搜索(MCTS)、蒙特卡洛反事實遺憾最小化(MCCFR)算法等都無法直接被應用。

Suphx的決策流程及模型架構

Suphx的打牌策略包含5個需要訓練的模型,以應對麻將複雜的決策類型——丟牌模型、立直模型、吃牌模型、碰牌模型以及槓牌模型,5個模型都基於深度殘差卷積神經網絡。另外Suphx還有一個基於規則的贏牌模型決定在可以贏牌的時候要不要贏牌。

圖1:Suphx決策流程

這些模型的輸入包含了兩大類信息:

1. 當前可觀測的信息,例如玩家自己的手牌、公開牌(包括丟出來的牌、碰的牌、明槓的牌),以及每個玩家的累計得分、座位、段位等等。

2. 對將來進行預測的信息,比如打某張牌還需要拿幾張牌才能胡牌、能夠贏多少分、胡牌概率有多大,等等。

Suphx訓練算法

Suphx訓練過程分為三個主要步驟:首先使用來自天鳳平臺的高手打牌記錄,通過監督學習來訓練這5個模型,然後使用自我博弈強化學習以及由微軟亞洲研究院Suphx研發團隊設計的兩個技術解決麻將本身的獨特性所帶來的挑戰,最後在實戰時採用在線策略自適應算法來進一步提高Suphx的能力。

分布式強化學習

Suphx的整個訓練過程十分複雜,需要多GPU和多CPU協同,因此Suphx研發團隊採用了分布式架構(圖2所示)。架構包括一個參數伺服器以及多個自我博弈節點,每個節點裡包含了多個麻將的模擬器以及多個推理引擎來進行多個策略之間的博弈(即打麻將)。每個自我博弈節點定期將打牌的記錄發送給參數伺服器,參數伺服器會利用這些打牌記錄來訓練提高當前策略。每過一段時間,自我博弈節點就會從參數伺服器拿回最新的策略,用來進行下一階段的自我博弈。

圖2:分布式訓練

全局獎勵預測

麻將的計分規則很複雜——玩家每局有得分,一輪遊戲根據多局累計分數的排名計算點數。如何讓麻將AI知道自己打得好不好呢?

無論是每局得分還是一輪遊戲的最終點數,都不適合用來做強化學習訓練的反饋信號。以最終獎勵點數作為反饋信號不能區分打得好的局和打得差的局,因此研究員們需要對每局都單獨提供強化學習的訓練信號。但單獨計算每局分數也未必能反映出一局打的好壞,因為頂級玩家會策略性輸牌,比如,在一輪遊戲的最後一兩局中,累計得分排位第一的選手在累計分數領先較大的情況下,會有意識地讓排位第三或第四的選手贏下這一局,不讓排第二位的玩家贏,這樣就可以穩穩地保住總排位第一。也就是說,某一局得分為負不一定意味著策略不好。

因此,為了給強化學習訓練提供有效的信號,需要將最終的遊戲獎勵適當地歸因到每一輪的遊戲中。Suphx研發團隊引入了一個全局獎勵預測器,它可以基於本局的信息和之前的所有局信息預測出最終的遊戲獎勵。在Suphx中,獎勵預測器是一個遞歸神經網絡 (GRU),訓練數據來自於高手玩家在天鳳平臺的歷史記錄。預測器訓練好後,對於自我博弈生成的遊戲,Suphx研發團隊用當前局預測的最終獎勵和上一局預測的最終獎勵之間的差值作為該局強化學習訓練的反饋信號。

先知教練

麻將中存在著豐富的隱藏信息,如其他玩家的手牌、牆牌等,如果不能獲得這些隱藏信息,那麼就很難確保某個動作(例如丟三萬)的好壞,這也是麻將很難的一個根本原因。在這種情況下,雖然Suphx可以通過強化學習來提高策略,但學習速度會非常慢。

為了加快強化學習訓練的速度,Suphx研發團隊引入了一個「先知」,它可以看到所有的信息,包括(1)玩家自己的私有手牌,(2)所有玩家的公開牌,(3)其他公共信息, (4)其他三個玩家的私有手牌,(5)牆牌。只有(1)(2)和(3)是正常的玩家可以獲得的,而(4)和(5)是只有「先知」才能獲得的額外的"完美"信息。

圖3:左邊為正常可觀測信息,右邊為完全信息(包括對手手牌牆牌這些「完美」信息)

有了這些「不公平」的完美信息,「先知」在經過強化學習訓練後,很容易成為麻將超級高手,安定段位也很容易就可以超過20段。如何利用「先知」來引導和加速AI的訓練呢?實驗表明,簡單的知識萃取(knowledge distillation)或者模仿學習(imitation learning)並不能很好地把「先知」的「超能力」轉移到AI系統上——對於一個只能獲取有限信息的正常AI來說,它很難模仿一個訓練有素的「先知」的行為,因為「先知」的能力太強,普通AI無法理解。比如,「先知」看到了其他玩家的手牌,知道每個玩家胡什麼牌,所以它可以打出絕對安全的牌,避免點炮,然而正常的AI並沒有這些信息,它可能完全不能理解為什麼「先知」會打這張牌,所以也不能學到這種行為。 因此,研究人員需要一個更聰明的方法,用「先知」來引導正常AI的訓練。

在Suphx中,Suphx研發團隊首先使用包括完美信息在內的所有特徵來對「先知」進行強化學習訓練,在這一步中控制「先知」的學習進度,不能讓其過於強大。然後,通過對完美特徵增加mask逐漸使「先知」最終過渡到正常AI。接著,繼續訓練正常AI並進行一定數量的迭代,採用衰減學習率和拒絕採樣的技巧來調整訓練過程,讓AI的技術不斷精進。

參數化的蒙特卡洛策略自適應

對一個麻將高手來說,初始手牌不同時,打牌策略也會有很大的不同。例如,如果初始手牌好,他會積極進攻,以獲得更多的得分;如果初始手牌不好,他會傾向防守,放棄胡牌,以減少損失。這與此前的圍棋AI和星際爭霸等遊戲AI有很大的不同。所以,如果能夠在對戰過程中對線下訓練的策略進行調整,那麼就可以得到更強的麻將AI。

蒙特卡洛樹搜索(MCTS)是圍棋等遊戲AI中一種成熟的技術,以提高對戰時的勝率。然而遺憾的是,如前所述,麻將的摸牌、打牌順序並不固定,很難建立一個規則的博弈樹。因此,MCTS不能直接應用於麻將AI。在Suphx中,Suphx研發團隊設計了一種新的方法,命名為參數蒙特卡洛策略自適應(pMCPA)。

當初始的手牌發到麻將AI手中時,通過模擬來調整離線訓練好的策略,使其更適應這個給定的初始手牌。微軟亞洲研究院的實驗表明,相對麻將隱藏信息集的平均大小10的48+次方倍而言,模擬的次數不需要很大,pMCPA也並不需要為這一局手牌收集所有可能後續狀態的統計數據。由於pMCPA是一種參數化的方法,所以微調更新後的策略可以幫助研究團隊將從有限的模擬中獲得的知識推廣泛化到未見過的狀態。

天鳳平臺在線實戰

在經歷這樣的訓練後,Suphx就可以「出道」了。Suphx已在天鳳平臺特上房和其他玩家對戰了5000多場,達到了該房間目前的最高段位10段,其安定段位達到了8.7段(如圖4所示),超過了平臺上另外兩個知名AI以及頂級人類選手的平均水平。

圖4:天鳳平臺「特上房」安定段位對比

在實戰中Suphx非常擅長防守,它的4位率和點炮率(deal-in rate)都尤其低(如圖5)。此外,Suphx「牌風」比較鮮明,也另闢蹊徑地創造了許多新的策略和打法,例如它特別擅長保留安全牌,傾向於胡混一色等等。圖6展示了Suphx在天鳳平臺實戰時保留安全牌的一個例子。當前時刻Suphx(南家)需要丟牌,人類玩家在這時通常會丟北風,但是Suphx丟掉一張7條,這在人類玩家看起來會覺得很不尋常,因為7條是一張好牌,丟掉7條會使得胡牌的進度變慢。Suphx之所以丟掉7條而留住北風,是因為北風是一張安全牌,這樣在未來某一時刻,如果有人突然立直要胡牌了,Suphx可以打出北風而不點炮,這樣後面還有機會胡牌;如果它在前面已經把北風丟掉,那這個時候為了打出一張安全牌就不得不拆掉手裡的好牌,從而大大降低了胡牌的可能。

圖5:Suphx在對戰中的一些統計數據,包括1/2/3/4位率、胡牌率以及點炮率(註:上表格中的Bakuuchi即東京大學/HEROZ研發的麻將AI「爆打」)

圖6:Suphx(南邊位置)保留安全牌北風

許多觀看 Suphx比賽的玩家表示在觀戰過程中受到了啟發,甚至有麻將愛好者將Suphx稱作「麻將教科書」、「Suphx老師」,通過學習Suphx的打法來提升和豐富自己的麻將技巧。

「我已經看了300多場 Suphx的比賽,我甚至不再觀看人類玩家的比賽了。我從Suphx身上學到了很多新技術,它們對於我的三人麻將打法有著非常大的啟發,」麻將選手太くないお在社交媒體上說,他是第一位在四人麻將和三人麻將中均取得天鳳位的頂級玩家。

據介紹,Suphx在天鳳平臺上取得的成績只是一個開始,未來,微軟亞洲研究院將為Suphx引入更多新技術,繼續推動麻將AI和不完美信息遊戲研究的前沿。

相關焦點

  • 麻將AI難在哪?微軟宣布公開麻將AI Suphx 的十段秘籍
    【來源:網易科技】日前,微軟亞洲研究院在arXiv平臺上正式發表了關於麻將AI系統Suphx的論文,公布了Suphx背後的包括決策流程、模型架構、訓練算法等核心技術細節。那麼,麻將AI 到底有哪些難點?Suphx這一在遊戲AI領域具有跨越性的突破具體是如何實現的?
  • 直播丨微軟超級麻將AI Suphx 如何榮升十段?研發團隊深度揭秘技術...
    作為在中國乃至整個亞洲地區都家喻戶曉的大眾娛樂項目,麻將僅在亞洲地區就擁有上億玩家。極高的普及度使得很多人都認為麻將是一項十分容易的棋牌類遊戲。然而,雖然麻將入門容易,但要真正打好麻將、精通麻將卻十分困難。
  • 麻將AI超越99%人類玩家:專業十段,學習能力堪比阿法狗
    近日,微軟發布了一份關於麻將AI「Suphx(意為Super Phoenix,超級鳳凰)」的修訂版預印本文件,介紹說Suphx是一個專業十段水平的「選手」,超越了99%人類玩家,這是電腦程式首次超過麻將中大多數頂級人類玩家。
  • 微軟最強麻將AI首次公開技術細節!專業十段水平,或能用於金融預測
    智東西4月3日消息,微軟公司於去年8月推出了一個名為Suphx的麻將人工智慧系統,並在麻將遊戲社區Tenhou中對其進行測試。據悉,Tenhou是世界上最大的麻將社區之一,擁有超過35萬活躍用戶。根據測試結果,Suphx最高成績為10段。這是目前為止,世界上第一個也是唯一一個達到10段水平的人工智慧。
  • 微軟麻將AI超越人類後,研究團隊稱有意出教材提升人類牌技
    微軟亞洲研究院研發的麻將AI系統Suphx在國際知名專業麻將平臺「天鳳」上榮升十段,且超越99.99%的人類後,研究團隊在接受澎湃新聞(www.thepaper.cn)採訪時稱,有日本出版社有意聯繫,準備把Suphx打的牌譜出一本書,如果對麻將感興趣的,大家可以通過這本書來學怎麼打麻將。
  • 超越99.9%人類玩家,微軟專業十段麻將AI論文細節首次公布
    在去年 8 月底的世界人工智慧大會上,時任微軟全球執行副總裁的沈向洋正式對外宣布了微軟亞洲研究院研發的麻將 AI「Suphx 」。近日,關於 Suphx 的所有技術細節已經正式公布。繼圍棋、德州撲克、Dota、星際爭霸之後,微軟亞洲研究院的「Suphx」創造了 AI 在遊戲領域的另一跨越性突破——麻將。
  • 7 Papers & Radios | 微軟亞研麻將AI「Suphx」技術細節
    機器之心機器之心 & ArXiv Weekly Radiostation參與:杜偉、楚航、羅若天本周的重要論文有微軟麻將 AI 研究團隊公布 Suphx 所有技術細節,以及港中文聯合商湯科技推出的特徵級通用時序金字塔網絡
  • 新型蝙蝠病毒或致考拉滅絕;微軟麻將AI將教人類打牌;斯坦福研發...
    (快科技)微軟麻將AI超越人類,有意出教材提升人類牌技#計算機微軟亞洲研究院研發的麻將AI系統Suphx在國際知名專業麻將平臺「天鳳」上榮升十段,且超越99.99%的人類後,研究團隊在接受澎湃新聞採訪時稱,有日本出版社有意聯繫,準備把Suphx打的牌譜出一本書,如果對麻將感興趣的,大家可以通過這本書來學怎麼打麻將
  • 最強麻將AI已達10段水平,背後技術或可用於金融市場預測
    現在,繼撲克、圍棋之外,基於強化學習的遊戲 AI 又在麻將上展現了超強能力。2019 年 8 月,微軟曾宣布,由微軟亞洲研究院研發的麻將 AI 系統 Suphx ,成為首個在國際知名專業麻將平臺 「天鳳」 上榮升十段的 AI 系統。
  • 《麻將秘籍寶典》系列(預告)
    隨著時代發展與生活水平的提高,麻將逐漸普及開來,成為老少皆宜的大眾娛樂。那麼看似簡單的休閒麻將玩法,其實也擁有著不少的技巧。中順遊戲官方號已開始連載終極秘籍系列——《麻將秘籍寶典》,乾貨滿滿,只為了幫助各位基礎不牢的麻友們能夠雀力日進!
  • 手機麻將開發價格,定製麻將費用是多少?
    麻將作為一類傳統的休閒遊戲,具有很高的國民度,逢年過節,隨處可見三三兩兩的人聚集在一起玩麻將,而如今麻將遊戲開始與網際網路接軌,再一次成為新時代的寵兒,一些商人的眼光,已經把麻將和技術結合起來,製作麻將成為了商業出口,不過對於想要如何卻不了解開發的投資者來說,麻將開發價格是他們關心的話題,那麼手機麻將開發價格
  • 《天才麻將少女》迎來真人化 講熱血的麻將競技
    這一次,《天才麻將少女》將會先被改編成一部四集的深夜劇,並將於今年12月在日本正式播放。在這之後,《天才麻將少女》在2017年初還將推出一部電影,官方網站已經正式公開。麻將在日本被稱為「麻雀」,也是一種廣為流行的文化。與中國麻將相比,日本麻將的核心在於防守,而且地域差異很小,規則相對統一。在日本這個幾乎什麼都能「萌化」的國家,麻將自然也早早地與二次元聯繫起來。
  • 麻將文化漫談之麻將隨想錄
    張家祿的詩:方城酣戰多玄機,世事如牌難算計不重勝負心自怡,啟迪智慧見高低《麻將》(不知誰寫的,也沒名,這裡名之曰麻將)麻將,方正者,麻將雖然只是一副小小的遊戲娛樂工具,卻被古人概而括之了中國傳統文化的精華。可以這麼說,麻將是易經的教學模型,是教學課件,它完全可以形象地代表易經。古人把易經中的精華通過麻將形象地表達出來,說麻將文化博大精深,一點也不過啊!(專注本號,會有這方面的精彩論述)。有人戲稱麻將為國粹,現在我們可以自豪,自信,甚至非常莊重地宣布,麻將的的確確是國粹!
  • AI軟體商C3.ai掛牌首日飆120%
    Siebel本次創辦的C3.ai募集資金超過6.5億美元,IPO 8日定價在每股42美元,超越先前預估定價區間36~38美元。雖然IPO募集資金規模高達33.7億美元的美國餐飲外送服務商DoorDash Inc.,9日首度掛牌時吸引多數人目光,但C3.ai 9日仍以超過IPO定價一倍以上100美元開出,終場收在92.49美元,較IPO定價多出120.21%。
  • PSP美少女麻將《天才麻將少女 阿知賀篇》公開
    日本Alchemist公司宣布,將在PSP遊戲平臺上推出由動畫「天才麻將少女阿知賀篇」改編的美少女麻將對戰遊戲《天才麻將少女阿知賀篇episode of side-A Portable(咲-Saki-阿知賀編
  • 蜚聲海外的國粹:麻將遊戲簡史
    電子遊戲誕生後,麻將等棋牌遊戲,作為已成熟的遊戲形式,且擁有廣泛的受眾基礎,只需要稍微轉化下形式,也就能順理成章地進入市場,無論是在街機、家用機、PC、掌機,或者手機和平板電腦之類的移動平臺,都是如此。 1978年《太空入侵者》登陸街機平臺,並且取得不俗戰績,宣告日本人開始大規模進軍遊戲產業。
  • 「天才麻將少女 全國篇」TV化決定 動畫預告PV公開
    「天才麻將少女 全國篇」TV化決定 動畫預告PV公開 動漫 178動漫頻道 ▪ 2012-10-29 09:30:57
  • AI服務企業C3.ai上市:大漲120% 市值89億美元
    雷帝網 雷建平 12月10日報導AI服務企業C3.ai(股票代碼為:「AI」)昨日在美國紐交所上市,發行價為42美元,募集資金6.51億美元。C3.ai的創辦人暨執行長為Thomas Siebel,Siebel在1993年創辦的Siebel CRM Systems在2005年被甲骨文以58億美元併購。如今,Thomas Siebel已經67歲了,仍擔任C3.ai董事長、CEO職務。
  • 日本將歸還國寶麻將 系溥儀御用麻將
    那些沉睡在日本麻將博物館裡多年的、傳說中的國寶級麻將文物,即將回歸中國。據世界麻將組織日前透露,根據日本東京千葉縣麻將博物館持有者(竹書房株式會社)原董事長野口恭一郎的遺願,包括溥儀御用麻將——「五彩螺鈿牌」在內的大批藏品,將回到故土。
  • 末代皇帝也愛麻將!溥儀御用麻將流失日本,專家預估價值2億!
    麻將又稱四人骨牌博戲,它起源於中國,是中國人發明的博弈遊戲、娛樂用具,是用竹子、骨頭或塑料製成的小長方塊,上面刻有花紋或字樣。麻將可以說是古人為了增添生活樂趣設置的遊戲方式,它流行於民間,被人們所喜愛著。從古至今麻將已經流傳千年時間,在全國南北方都有不用的玩法和牌子。