微軟最強麻將AI首次公開技術細節!專業十段水平,或能用於金融預測

2020-12-14 手機鳳凰網

智東西4月3日消息,微軟公司於去年8月推出了一個名為Suphx的麻將人工智慧系統,並在麻將遊戲社區Tenhou中對其進行測試。據悉,Tenhou是世界上最大的麻將社區之一,擁有超過35萬活躍用戶。

根據測試結果,Suphx最高成績為10段。這是目前為止,世界上第一個也是唯一一個達到10段水平的人工智慧。Tenhou社區中的人類玩家也證實Suphx具有超強學習能力,99.99%的玩家認為模型經過訓練後表現有所改善。

本周,微軟團隊發布了一份修訂版預印本文件,對Suphx進行了全面介紹。目前這項研究發表在學術網站arXiv上,論文題目為《Suphx:用深度強化學習打麻將(Suphx:Mastering Mahjong with Deep Reinforcement Learning)》

一、麻將:規則複雜的不完全信息博弈

麻將是一種多玩家參與、多輪牌的不完全信息博弈遊戲。

每一局麻將又包含許多回合。一局遊戲的勝負是由累積回合分數決定的,輸掉一圈並不意味著玩家滿盤皆輸。為了保證最後勝出,玩家有可能會故意輸掉一局。

另外,麻將遊戲的「胡牌」方式非常多。不同的「胡牌」方式下,牌面也有很大不同。相應地,每回合遊戲的得分也就不同。

所謂不完全信息博弈,是指參與者並不了解博弈的全部情況。在麻將遊戲中,每位玩家手中最多有13張別人不可見的牌。牌牆中的14張牌對所有玩家都不可見。此外,牌桌中央還有70張牌。只有被玩家摸回或打出時,這部分牌的牌面才可見。

在這種規則下,玩家每做出一個選擇,接下來的牌局就可能出現10個以上的走向。玩家很難僅僅依據自己手中的牌來判斷接下來的動作,而是要經過仔細的思考與權衡。

這也正是建立麻將人工智慧模型的難點所在:人工智慧很難將獎勵信號與觀察到的信息聯繫起來。

二、Suphx:兩天訓練150次,熟練掌握5種模式

在微軟的研究中,研究人員選擇用日本4人麻將(Riichi Mahjong)規則訓練Suphx模型,訓練數據來自Tenhou社區。

培訓過程耗時兩天,研究人員在44個圖形處理單元上、用150萬個遊戲對模型進行了訓練。

1、原型:深度卷積神經網絡

深度卷積神經網絡(deep convolutional neural networks)曾在圍棋、象棋等遊戲中應用,其強大的表示能力已經得到了驗證。Suphx也選擇深度卷積神經網絡作為原型。

不同於棋類遊戲的是,麻將玩家獲得的信息並不是自然的圖像格式。為此,研究人員設計了一套特徵,將觀察到的信息編碼為深度卷積神經系統能理解的形式。

研究人員把每位玩家的私有牌編碼成4個頻道。圖示有4行34列,每一行對應一個頻道,每一列對應一種牌。第n個通道中的第m列表示玩家手中有n個m類型的牌。每種牌都可被表示為一個34維向量。

同時,研究人員還降低了計算複雜程度:規定執行深度搜索時優先找到可能的贏家;Suphx不考慮對手的行為,只專注於尋找可能獲勝的牌面。

2、訓練方式:有監督學習+分層強化學習,學會5種模式

訓練過程中,原型先利用人類職業玩家的數據進行有監督學習(supervised learning),然後再進行分層強化學習(self-play reinforcement learning)。研究人員設計應用策略梯度算法(policy gradient algorithm)來進行分層強化學習。

Suphx學習了5種模式來處理不同的情況。分別是:棄牌(discard)模式、Riichi模式、Chow模式、Pong模式和Kong模式。

所有模式都用網絡結構表示。棄牌模式對應34張牌,有34個輸出神經元。其他模式僅有兩個輸出神經元,分別對應執行或不執行操作。

3、GRU網絡+Oracle代理+pMCPA

除上述設定外,微軟團隊還引入了其他幾種技術:

全局獎勵預測器(GRU網絡)。該預測器可以提前預測遊戲的最終結局,提供有效的學習信號,從而使策略網絡可執行。

Oracle代理。一個強大的作弊軟體,可以幫助玩家看到對家的牌面。在Suphx的模型學習過程中,研究人員剔除了Oracle代理的一部分功能,使其變成一個普通代理、只能輸入可見信息。相比標準的深度學習過程,利用Oracle代理進行訓練加速了模型的學習過程。

參數化的蒙特卡羅策略自適應算法(pMCPA)。複雜的麻將規則導致了不規則的遊戲樹,阻礙了蒙特卡洛樹搜索技術的應用。為了解決這一問題,研究人員引入了參數化的蒙特卡羅策略自適應算法(pMCPA)。pMCPA會不斷調整離線學習策略,使其能適應突發的遊戲情節(比如4個玩家丟棄了公共牌)。

4、勝負評判模型

Suphx利用了一個基於規則的勝負評判模型。該模型可以檢查其他玩家打出的牌及牌強中的牌能否組成獲勝牌面。假設組成了獲勝牌面,模型就根據以下規則做出判定:

如果這不是遊戲的最後一輪,宣布這一輪當前玩家贏;

如果這是遊戲的最後一輪,但是當前玩家的累積總分在四位玩家中最少,則不宣布。反之,宣布當前玩家這一輪贏。

三、決策過程:按規則摸牌打牌,模型判定勝負

在遊戲中,需要麻將玩家採取行動的情形有兩種:從牌牆中取牌和打出牌。對於Suphx來說也一樣。

1、從牌牆中取牌

從牌牆中抽牌時,如果Suphx抽到的牌可以與其私有牌湊成獲勝牌面,則由勝負評判模型判定是否獲勝。如果獲勝,就結束一輪遊戲。

如果抽取的牌可以與私有牌湊成Kong的牌面(ClosedKong或AddKong),kong模式將決定湊成哪一種牌面。如果是ClosedKong,關閉Kong操作,退回抽牌步驟;如果是AddKong,其他玩家就可以使用。

如果湊不成Kong,就進行Riichi步驟。在私有牌可以排列出Riichi牌面的前提下,Riichi模式決定是否聲明這一結果。如果不聲明,直接轉到棄牌步驟;如果聲明,在聲明後轉到棄牌步驟。

棄牌步驟中,模型打出相應的牌。遊戲繼續進行下去,直到牌牆中的牌被打完。

2、其他玩家棄牌

另外一種情況是其他玩家棄牌。如果Suphx可以用棄牌與私有牌組成獲勝牌面,則由評判模型判定。模型判定獲勝,遊戲結束。模型判定失敗,Suphx會嘗試組成Chow、Pong或Kong牌面。如果無法組成這三種牌面,就輪到其他玩家行動。

四、評估:Suphx成最強麻將AI

在Tenhou平臺上有兩種遊戲室,分別是專家室和鳳凰室。專家室對人工智慧和4段及以上的人類玩家開放;鳳凰室只接受7段以上的人類玩家。根據這項規定,研究人員在專家室對Suphx進行了評估。

在專家室中,Suphx進行了5760次遊戲,最高記錄是10段(dan),平均成績是8.74段。而根據Tenhou平臺統計,在其35萬用戶之中,能達到10段水平的玩家僅有180人。

在論文中,研究人員稱Suphx在防禦方面「非常強大」。它開發出了自己的玩法,能夠在保證己方私有牌安全的情況下取勝。

結語:Suphx有巨大應用潛力,或可用於金融預測

經過學習,Suphx模型能夠掌握麻將遊戲的規則並在遊戲中取得較好成績,這說明了它具有超強的學習能力。

研究人員認為,這種學習能力可以在許多其他領域發揮作用。比如在企業的運營中,Suphx可以幫助處理普通但是佔用認知的任務,從而解放員工生產力。

除此以外,該模型或能用於金融預測。論文中寫道:「金融市場預測和邏輯優化等現實世界中的大多數問題都與麻將具有相同的特徵,即規則複雜、信息不完善。」因此,Suphx模型對於現實世界具有「巨大的應用潛力」。

論文中寫道:「展望未來,我們將向Suphx引進更多新技術,並繼續推進麻將人工智慧和不完全信息博弈遊戲的前沿研究。」

相關焦點

  • 直播丨微軟超級麻將AI Suphx 如何榮升十段?研發團隊深度揭秘技術...
    作為在中國乃至整個亞洲地區都家喻戶曉的大眾娛樂項目,麻將僅在亞洲地區就擁有上億玩家。極高的普及度使得很多人都認為麻將是一項十分容易的棋牌類遊戲。然而,雖然麻將入門容易,但要真正打好麻將、精通麻將卻十分困難。
  • 麻將AI超越99%人類玩家:專業十段,學習能力堪比阿法狗
    近日,微軟發布了一份關於麻將AI「Suphx(意為Super Phoenix,超級鳳凰)」的修訂版預印本文件,介紹說Suphx是一個專業十段水平的「選手」,超越了99%人類玩家,這是電腦程式首次超過麻將中大多數頂級人類玩家。
  • 超越99.9%人類玩家,微軟專業十段麻將AI論文細節首次公布
    在去年 8 月底的世界人工智慧大會上,時任微軟全球執行副總裁的沈向洋正式對外宣布了微軟亞洲研究院研發的麻將 AI「Suphx 」。近日,關於 Suphx 的所有技術細節已經正式公布。一直以來,麻將都因其複雜的出牌、得分規則和豐富的隱含信息,被視為 AI 研究中極具挑戰性的領域。微軟亞洲研究院副院長劉鐵巖曾表示:「可以說 Dota 這類遊戲更「遊戲」,而麻將這類棋牌遊戲更「AI」。」
  • 最強麻將AI已達10段水平,背後技術或可用於金融市場預測
    現在,繼撲克、圍棋之外,基於強化學習的遊戲 AI 又在麻將上展現了超強能力。2019 年 8 月,微軟曾宣布,由微軟亞洲研究院研發的麻將 AI 系統 Suphx ,成為首個在國際知名專業麻將平臺 「天鳳」 上榮升十段的 AI 系統。
  • 麻將AI難在哪?微軟宣布公開麻將AI Suphx 的十段秘籍
    【來源:網易科技】日前,微軟亞洲研究院在arXiv平臺上正式發表了關於麻將AI系統Suphx的論文,公布了Suphx背後的包括決策流程、模型架構、訓練算法等核心技術細節。那麼,麻將AI 到底有哪些難點?Suphx這一在遊戲AI領域具有跨越性的突破具體是如何實現的?
  • 麻將AI難在哪?微軟宣布公開麻將AI Suphx 的十段秘籍_手機網易網
    網易科技訊4月9日消息,日前,微軟亞洲研究院在arXiv平臺上正式發表了關於麻將AI系統Suphx的論文,公布了Suphx背後的包括決策流程、模型架構、訓練算法等核心技術細節。那麼,麻將AI 到底有哪些難點?Suphx這一在遊戲AI領域具有跨越性的突破具體是如何實現的?
  • 微軟麻將AI超越人類後,研究團隊稱有意出教材提升人類牌技
    微軟亞洲研究院研發的麻將AI系統Suphx在國際知名專業麻將平臺「天鳳」上榮升十段,且超越99.99%的人類後,研究團隊在接受澎湃新聞(www.thepaper.cn)採訪時稱,有日本出版社有意聯繫,準備把Suphx打的牌譜出一本書,如果對麻將感興趣的,大家可以通過這本書來學怎麼打麻將。
  • 7 Papers & Radios | 微軟亞研麻將AI「Suphx」技術細節
    機器之心機器之心 & ArXiv Weekly Radiostation參與:杜偉、楚航、羅若天本周的重要論文有微軟麻將 AI 研究團隊公布 Suphx 所有技術細節,以及港中文聯合商湯科技推出的特徵級通用時序金字塔網絡
  • 新型蝙蝠病毒或致考拉滅絕;微軟麻將AI將教人類打牌;斯坦福研發...
    (快科技)微軟麻將AI超越人類,有意出教材提升人類牌技#計算機微軟亞洲研究院研發的麻將AI系統Suphx在國際知名專業麻將平臺「天鳳」上榮升十段,且超越99.99%的人類後,研究團隊在接受澎湃新聞採訪時稱,有日本出版社有意聯繫,準備把Suphx打的牌譜出一本書,如果對麻將感興趣的,大家可以通過這本書來學怎麼打麻將
  • AI在這張「問卷」上首次超越人類,SuperGLUE被微軟谷歌「攻破」
    在最新的NLU測試基準SuperGLUE中,人類首次被AI超越了。SuperGLUE相比「前輩」GLUE大大提升了問題的難度,提出一年多以來,人類一直處於第一位。現如今,人類一下子被兩家AI超越。一個是來自微軟的DeBERTa,一個是來自谷歌的T5+Meena。
  • 強化學習走出研究實驗室,微軟如何落地新型AI解決方案?
    強化學習此前主要用於研究實驗室。但現在,這項技術正在進入更多微軟的產品和服務中。從開發人員可以插入應用程式和網站的Azure認知服務,到工程師可以用來完善製造流程的自主系統,等等。由於強化學習模型可以從即時反饋中學習,快速適應不斷變化或不可預測的環境。
  • CB Insight發布創業百強榜單 AI成功案例最強盤點【附下載】|智東西
    其卷積神經網絡具有自主學習空間,能夠通過化學特性預測那些藥物分子式可能是有效的,並避免毒性問題。目前,Atomwise每天都能分析數以百萬計的分子式,能比其他物理測試技術早幾個月,甚至幾年,找到治療方法。8、Automat
  • 維擇科技攜手微軟新加坡金融科技節 探究AI算法賦能金融雲風控
    ,一年一度的新加坡金融科技節於12月7日至12月11日盛大舉行。微軟攜手中國金融創新轉型領袖企業與金融科技合作夥伴在12月9日為全球金融科技同業在線上聯袂展示了金融科技的中國進行時。本次論壇探討了中國金融市場的發展趨勢、轉型路徑,以及領先技術為金融業提供數位化解決方案的創新實踐。DataVisor維擇科技首席戰略官鄭駿受邀出席本次直播論壇,並分享了《AI算法賦能雲端金融實時風控體系搭建》。
  • 全球三十大最佳 AI 創業公司公布
    10、H2O.ai H2O.ai 成立於 2011 年,為開發人員和創業公司提供預測分析的深度學習平臺。平臺可用於智能家電、自駕車、智能助手等領域的應用開發,其產品支持理賠處理、信用評分、欺詐檢測、運營智能和預測性維護。2017 年,H2O.AI 發布了 Driverless AI,這項產品可以實現機器學習流程高度自動化,對非技術型的終端用戶同樣適用。
  • 日本最快的新冠感染預測模型來了!谷歌最新AI技術日文版公開
    ,讓谷歌在新冠早期的時候就著手開發了相關的AI預測模塊技術。 近日,谷歌也公開了日文版的新冠預測模塊技術。這項技術的公開所受益的人不僅僅是日本專業的醫療機構,同時也可以供普通民眾進行參考。通過這項技術,可以幫助醫務人員快速制定醫療器材、人員整備等相關計劃,同時可以通過預測模塊走勢儘早判斷有感染擴大危險的地區在哪裡。
  • 微軟臺灣啟動區塊鏈企業合作 改善金融娛樂等行業
    【TechWeb報導】7月4日消息,據國外媒體報導,微軟臺灣已經與神州數碼和Hot Cool公司組成區塊鏈聯盟,希望能夠利用區塊鏈技術改善金融、電子商務、娛樂等行業。
  • 首個應用微軟AI的自主系統,能讓機器蛇自主爬樓、避障
    該系統建立在微軟此前收購的Bonsai公司的基礎能力上,可幫助開發人員使用微軟的AI和Azure相應工具訓練可以自主運行的系統模型。據悉,該系統主要應用了微軟的機器教學和仿真技術兩項技術,以模擬真實環境進行模型/系統訓練。
  • 馬雲馬斯克高端對話,馬化騰沈向洋論道 AI:一文覽盡 WAIC 2019
    比如,醫療領域的騰訊覓影能從單一病種發展為多病種識別,網際網路醫院和電子建檔卡建成了醫療領域小生態。其三,要強調 「科技向善」 ,讓 AI 可知、可用、可靠、可控。當前 AI 治理的緊迫性越來越強,需要探索人與AI的正確相處之道。今年,我國也首次提出人工智慧治理的原則,提出要發展負責任的人工智慧。在這一點上,企業與政府達成了共識。 沈向洋:微軟推出全球最強麻將 AI
  • 美國公開新冠數據集欲借力AI,人工智慧如何參與全球戰「疫」?
    前幾日,美國白宮與微軟、谷歌等公司合作,彙編了最大的新冠病毒學術論文庫,呼籲研究人員用AI技術分析這近3萬篇學術論文,期望發現人類可能錯過的重要問題。除此之外,預測研判、檢測診療、疫情防控,這套AI「組合拳」還亮出了不少花式操作。
  • 『AI翻車』事件已超1000+,特斯拉,微軟、谷歌、蘋果等全部...
    鋼鐵俠馬斯克(Musk)曾經不止一次在公開社交平臺表達對AI的擔憂。不過,並非所有科技大佬都對AI持悲觀態度,貝索斯(Bezos)、扎克伯格(Zuckerberg)等人都抨擊過馬斯克的AI威脅論。扎克伯格認為,AI技術的推動是為了讓世界運轉的更高效,幫助人們生活得更美好。話雖沒錯,但馬斯克的擔憂也並非空穴來風。