神秘AI橫掃日本麻將界
2019 年 3 月起,一款名叫Suphx的人工智慧,獲批進入日本專業麻將平臺「天鳳」。短短四個月內,Suphx 在該平臺瘋狂對戰 5760 次,成功達到十段,從而在日本麻將界聲名大噪。
麻將在中國群眾基礎深厚、普及率高,有「國粹」之稱,但民間流行的麻將規則不一,且競技化程度相對較低,而日本麻將擁有世界上競技化程度最高的麻將規則。
日本專業麻將對戰平臺
天鳳則是業界知名的高水平日本麻將平臺。它吸引了全球近 33 萬名麻將愛好者,其中不乏大量的專業麻將選手。
由於單局麻將存在著很大的運氣成分,所以天鳳平臺會通過「穩定段位」來衡量一位玩家的真實水平。在 5760 場比賽過後,Suphx 的穩定段位超過了8.7,不僅高於爆打和 NAGA,還超越了頂級人類選手(十段及以上)的整體穩定段位。
這些成就意味著,Suphx 在四個月內成長為了最強日麻 AI。日本麻將的愛好者和專業參賽選手,紛紛尋找著它背後的開發者,但一無所獲。
Suphx 的官方社交帳號上,只有簡單的介紹
直到 8 月 29 日世界人工智慧大會舉行,Suphx 的身世才被公諸於世。
當天上午,微軟全球執行副總裁、微軟人工智慧、微軟研究事業部負責人,沈向洋博士,對外宣布,Suphx 是微軟亞洲研究院的工作成果,由劉鐵巖博士帶隊研發。
沈向洋博士
出席了最近在上海舉行的的世界AI大會
對 AI 來說,為什麼麻將比圍棋、德州撲克更難?
「2017 年中旬,我們一個研究團隊跟我說要做麻將 AI。我也不知道能不能成,因為相比象棋、圍棋、德州撲克,麻將的難度更高。而且,他們打麻將水平都不怎麼樣。」
微軟全球資深副總裁、微軟亞太研發集團主席兼微軟亞洲研究院院長洪小文對 PingWest 品玩表示。
麻將的難,在於其屬於「不完美信息遊戲」(Imperfect-Information Games),讓計算機擅長的搜索能力無法直接發揮,且具備複雜的獎勵機制。
不完美信息遊戲,是指遊戲中信息暴露程度低。「圍棋、象棋等棋類遊戲,對局雙方可以看到局面的所有信息,屬於完美信息遊戲(Perfect-Information Games);
而撲克、橋牌、麻將等遊戲,雖然每個參與者都能看到對手打過的牌,但並不知道對手的手牌和遊戲的底牌,屬於不完美信息遊戲。」
各類遊戲的信息集數目和信息集平均大小對比
為了更好地解釋「不完美信息」遊戲,劉鐵巖打了個比方:
「如果把圍棋這樣的(完美信息)比賽比喻成一顆遊戲樹,那像麻將這樣的比賽就是很多樹組成的森林,參與者並不知道自己在哪棵樹上。」
Suphx 雖然在線上對戰了 5760 場,但在線下自我博弈將近 2000 萬場。
「雖然自我博弈學到的信號數量很多,但是學到更多的是在自己身上怎麼提高。5760 場裡面我們學到別人打法的風格、以及實戰中遇到的困難應該如何解決。」
劉鐵巖透露,研究團隊計劃過一段時間會有一篇比較深入的科學論文跟大家分享, 「在那裡面大家會看到更多的細節」。
或許可以理解為,相比於AlphaGO玩的「完美信息」遊戲——圍棋,Suphx無論是在遊戲難度還是技術角度,都要更進一大步。
Suphx 背後的技術可以用在什麼地方?
在 AI 進化的過程中,遊戲 AI 一直相伴相生。1949 年開始,就有科學家研究算法,讓計算機下西洋棋。雙陸棋、國際跳棋、西洋棋、圍棋等棋盤類遊戲,都有人機對戰的蹤影。
1997 年 5 月 11 日,西洋棋 AI 深藍在正常時限的比賽中,首次擊敗了等級分排名世界第一的棋手,這一天成為了人機對戰的裡程碑。
在洪小文看來,遊戲 AI 對解決現實問題有著重要的研究意義:「現實世界更加複雜,而遊戲均有一個清晰的規則、勝負判定條件和行動準則。
如果不定規則,大家各做各的,就無法交流。研究也是這樣的,將問題切成小問題,小問題裡面規則定清楚,再往前走。」
麻將這一類不完美的信息遊戲,正是現實生活中許多問題的映射。洪小文舉例道:「追女朋友、企業經營、投資,都有大量的你不知道的隱藏信息。」
雖然 Suphx 面世不久,背後的技術還沒有全部應用到實際問題中,但部分技術已經在做嘗試。
儘管落地是研究的最終目標,但洪小文認為,純粹的好奇心對研究人員來說更加寶貴:
「做這項研究的時候,他們有沒有想過未來可以怎麼應用?八成是沒有想,也不應該想,以好奇心驅動的研究是推動整個科研發展的基石。最明顯的例子是,基礎數學很多研究在當時都不見得有應用。」
有意思的是,天鳳平臺 CEO 角田真吾在被問到「為什麼會歡迎 AI和人類對弈」時,給出了和洪小文幾乎一樣的措辭——純粹出自於人類的好奇心。