比AlphaGo 更複雜,最強日本麻將 AI 是怎麼煉成的?

2020-11-28 PingWest

「我突然想起了一句話,神仙怎麼打都是對的。」

「這個 AI 的牌效不是一般鳳凰(有一定實力的玩家)能摸清的,人名字就是 super phoenix(超級鳳凰)。」

「感覺 ai 的打法都不太能被推理完全,這種基於訓練的對某種特徵做出的反應對於人類來說就是迷啊…」

這些評論來自於 B 站上一個系列的視頻,視頻主角是一個名為 Suphx(意為 Super Phoenix)的麻將 AI。2019 年 6 月,有創作者開始製作 Suphx 牌譜的視頻。上傳到 B 站後,引起了不少麻將愛好者的討論。

在多數評論裡,Suphx 被稱為「最強日麻人工智慧」。

事實上,不止是國內的 B 站,當時 Suphx 的聲名已經傳遍了日本麻將界。

神秘的最強日麻 AI

2019 年 3 月起,Suphx 獲批進入專業麻將平臺「天鳳」。短短四個月內,Suphx 在該平臺瘋狂對戰 5760 次,成功達到十段,從而在日本麻將界聲名大噪。

麻將在中國群眾基礎深厚、普及率高,有「國粹」之稱,但民間流行的麻將規則不一,且競技化程度相對較低,而日本麻將擁有世界上競技化程度最高的麻將規則。天鳳則是業界知名的高水平日本麻將平臺。它吸引了全球近 33 萬名麻將愛好者,其中不乏大量的專業麻將選手。

天鳳平臺規定,只有獲批准的 AI 才可以進入「特上房」參與對戰,目前在該房間可以達到的最高段位是十段。另一個房間是「鳳凰房」,最高段位是十一段,僅對七段以上的人類付費玩家開放,目前不允許 AI 參與遊戲。

除了 Suphx,還有另外兩個 AI 也獲準進入「特上房」比賽,分別是「爆打」和「NAGA25」。目前,Suphx 是唯一一個達到「特上房」最高段位的 AI。

由於單局麻將存在著很大的運氣成分,所以天鳳平臺會通過「穩定段位」來衡量一位玩家的真實水平。在 5760 場比賽過後,Suphx 的穩定段位超過了8.7,不僅高於爆打和 NAGA,還超越了頂級人類選手(十段及以上)的整體穩定段位。

這些成就意味著,Suphx 在四個月內成長為了最強日麻 AI。日本麻將的愛好者和專業參賽選手,紛紛尋找著它背後的開發者,但一無所獲。

(Suphx 的官方社交帳號上,只有簡單的介紹)

直到 8 月 29 日世界人工智慧大會舉行,Suphx 的身世才被公諸於世。當天上午,微軟全球執行副總裁、微軟人工智慧及微軟研究事業部負責人沈向洋博士對外宣布,Suphx 是微軟亞洲研究院的工作成果,由劉鐵巖博士帶隊研發。

劉鐵巖博士是微軟亞洲研究院副院長,長於深度學習、增強學習、分布式機器學習等領域。他的團隊曾發布了微軟分布式機器學習工具包(DMTK)、微軟圖引擎(Graph Engine)等開源項目。

(微軟亞洲研究院副院長劉鐵巖)

對 AI 來說,為什麼麻將比圍棋、德州撲克更難?

「2017 年中旬,我們一個研究團隊跟我說要做麻將 AI。我也不知道能不能成,因為相比象棋、圍棋、德州撲克,麻將的難度更高。而且,他們打麻將水平都不怎麼樣。」微軟全球資深副總裁、微軟亞太研發集團主席兼微軟亞洲研究院院長洪小文對 PingWest 品玩表示。

麻將的難,在於其屬於「不完美信息遊戲」(Imperfect-Information Games),讓計算機擅長的搜索能力無法直接發揮,且具備複雜的獎勵機制。

不完美信息遊戲,是指遊戲中信息暴露程度低。「圍棋、象棋等棋類遊戲,對局雙方可以看到局面的所有信息,屬於完美信息遊戲(Perfect-Information Games);而撲克、橋牌、麻將等遊戲,雖然每個參與者都能看到對手打過的牌,但並不知道對手的手牌和遊戲的底牌,屬於不完美信息遊戲」。

在日本麻將中,每個玩家有 13 張手牌,另外還有 84 張底牌。對於一個玩家而言,他只知道自己手裡的 13 張牌和之前已經打出來的牌,卻無法知道別人的手牌和沒有翻出來的底牌。所以,最多的時候一位玩家未知的牌有超過 120 張。

為了更好地解釋不完美信息遊戲,劉鐵巖打了個比方:「如果把圍棋這樣的(完美信息)比賽比喻成一顆遊戲樹,那像麻將這樣的比賽就是很多樹組成的森林,參與者並不知道自己在哪棵樹上。」

對於完美信息遊戲,通常可以用「狀態空間複雜度」和「遊戲樹複雜度」來衡量其遊戲難度。

所謂「狀態空間複雜度」,即遊戲開始後,棋局進行過程中,所有符合規則的狀態總數量。「例如棋類遊戲中,每移動一枚棋子或捕獲一個棋子,就創造了一個新的棋盤狀態,所有這些棋盤狀態構成遊戲的狀態空間」。

計算狀態空間複雜度最常用的一種方法是,包含一些不符合規則或不可能在遊戲中出現的狀態,從而計算出狀態空間的一個上界(Upper Bound)。例如在估計圍棋狀態數目上界的時候,允許出現棋面全部為白棋或者全部為黑棋的極端情況。

遊戲樹複雜度(GTC)代表了所有不同遊戲路徑的數目,是一個比狀態空間複雜得多的衡量維度,因為同一個狀態可以對應於不同的博弈順序。

微軟亞洲研究院的博客舉了一個例子:下圖中,兩邊的井字棋遊戲都有有兩個 X 和一個 O,屬於同一狀態。但這個狀態可能由兩種不同的方式形成,形成路逕取決於第一個 X 的下子位置。

(井字棋遊戲中統一狀態的不同形成過程)

在完美信息棋牌遊戲中,不管是狀態空間複雜度,還是遊戲樹複雜度,圍棋都遠遠超過其他棋牌類遊戲。

而對於不完美信息遊戲而言,衡量遊戲難度的維度更加複雜,需要在狀態空間複雜度的基礎上引入一個新概念「信息集」。

舉例而言,在撲克遊戲中,玩家 A 拿了兩張 K,玩家 B 拿了不同的牌對應不同的狀態;但是從 A 的視角看,這些狀態是不可區分的。

「我們把每組這種無法區分的遊戲狀態稱為一個信息集。」劉鐵巖介紹道。

完美信息遊戲裡所有信息都是已知的,每個信息集只包含一個遊戲狀態,因此它的信息集數目與狀態空間數目是相等的。

而不完美信息遊戲中,每個信息集包含若干個遊戲狀態,因此信息集數目通常小於狀態空間的數目。

與信息集數目匹配的,是信息集的平均大小。這個概念指的是在信息集中平均有多少不可區分的遊戲狀態。

據微軟亞洲研究院博客,信息集的數目反映了不完美信息遊戲中,所有可能的決策節點的數目,而信息集的平均大小則反映了遊戲中每個局面背後隱藏信息的數量。當對手的隱藏狀態非常多時,傳統的搜索算法基本上無從下手。

(圍棋、德州撲克、橋牌和麻將的信息集數目和信息集平均大小對比)

圍棋和德州撲克的信息集平均大小遠遠小於橋牌和麻將。AI 在圍棋和德州撲克上的成功很大程度依賴於搜索算法,因為搜索可以最大程度地發揮計算機的計算優勢。

橋牌和麻將中,由於信息集平均大小比較大,存在著較多隱藏信息,難以直接採用 AlphaGo 等棋盤遊戲 AI 常用的蒙特卡洛樹搜索算法。

此外,日本麻將有著複雜的獎勵機制。日麻一輪遊戲共包含 8 局,最後根據 8 局的得分總和進行排名,來形成最終影響段位的點數獎懲。玩家的段位越高,輸掉比賽後扣掉的點數越多,因此有時麻將高手會策略性輸牌。

劉鐵巖舉例道:「比如,A 玩家已經大比分領先第二名的情況下,在底 8 輪時就會相對保守,確保自己不會輸。」這為構建高超的麻將 AI 策略帶來了額外的挑戰,AI 需要審時度勢,把握進攻與防守的時機。

Suphx 是如何解決難題的?

項目一開始,劉鐵巖團隊用了一些「基線(Baseline)的解決辦法」——嘗試用 AlphaGo 和德州撲克上的方法解一解看看怎麼樣。

「麻將的種種特點決定了,很難直接利用 AlphaGo 等棋盤遊戲 AI 常用的蒙特卡洛樹搜索算法。」劉鐵巖強調,「這激勵我們要想出新的點子。」

在一年多的摸索期,劉鐵巖團隊基於深度強化學習技術,並且引入三項新技術來提升強化學習的效果。深度強化學習是深度學習和強化學習的結合。這項技術集合了深度學習在感知問題上強大的理解能力,以及強化學習的決策能力,通常用於解決現實場景中的複雜問題。

在深度強化學習的基礎上,針對非完美信息遊戲的特點,劉鐵巖團隊嘗試用「先知教練」技術來提升強化學習的效果。

先知教練技術的基本思想是在自我博弈的訓練階段,利用不可見的一些隱藏信息來引導 AI 模型的訓練方向,使其學習路徑更加清晰、更加接近完美信息意義下的最優路徑,從而倒逼 AI 模型更加深入地理解可見信息,從中找到有效的決策依據。

然而,在訓練模型階段採用的先知教練技術,在真正的實戰中是沒有的,這意味著訓練和實戰間存在著一個 Gap(差距)。

劉鐵巖對 PingWest 品玩表示:「我們不能夠保證一定把那個 Gap 給抹掉,比如說它在訓練階段能夠看到不該看到的東西,實戰中它是永遠看不到的。這個信息的 Gap 我們是控制不了的,但是作為先知教練可以引導麻將 AI 不會走的太偏太遠,會沿著我們想走的大方向走,。這個能保證訓練過程的平穩性,對深度強化學習是非常重要的。」

針對信息集平均大小比較大這個特點,研究團隊引入了自適應決策,對探索過程的多樣性進行動態調控,讓 Suphx 可以比傳統算法更加充分地試探牌局狀態的不同可能。

另外,對於日本麻將複雜的獎勵機制,劉鐵巖團隊加入了全盤預測技術。

「這個預測器通過精巧的設計,可以理解每輪比賽對終盤的不同貢獻,從而將終盤的獎勵信號合理地分配回每一輪比賽之中,以便對自我博弈的過程進行更加直接而有效的指導,並使得 Suphx 可以學會一些具有大局觀的高級技巧。」劉鐵巖解釋道。

總體而言,Suphx 使用的是深度強化學習這個大框架,但又加入了一些創新的技術點:先知教練、自適應決策和全盤預測。

在 2019 年 3 月上線 Suphx 平臺之前,背後這一整套技術已經有了雛形,同時進行了大量的自我博弈。

「Suphx 在線上對戰了 5760 場,但在線下自我博弈將近 2000 萬場。」劉鐵巖對 PingWest 品玩表示,「雖然自我博弈學到的信號數量很多,但是學到更多的是在自己身上怎麼提高。5760 場裡面我們學到別人打法的風格、以及實戰中遇到的困難應該如何解決。」

劉鐵巖透露,研究團隊計劃過一段時間會有一篇比較深入的科學論文跟大家分享, 「在那裡面大家會看到更多的細節」。

Suphx 背後的技術可以用在什麼地方?

在 AI 進化的過程中,遊戲 AI 一直相伴相生。1949 年開始,就有科學家研究算法,讓計算機下西洋棋。雙陸棋、國際跳棋、西洋棋、圍棋等棋盤類遊戲,都有人機對戰的蹤影。

1997 年 5 月 11 日,西洋棋 AI 深藍在正常時限的比賽中,首次擊敗了等級分排名世界第一的棋手。這一天成為了人機對戰的裡程碑。

在洪小文看來,遊戲 AI 對解決現實問題有著重要的研究意義:「現實世界更加複雜,而遊戲均有一個清晰的規則、勝負判定條件和行動準則。如果不定規則,大家各做各的,就無法交流。研究也是這樣的,將問題切成小問題,小問題裡面規則定清楚,再往前走。」

麻將這一類不完美的信息遊戲,正是現實生活中許多問題的映射。洪小文舉例道:「追女朋友、企業經營、投資,都有大量的你不知道的隱藏信息。」

雖然 Suphx 面世不久,背後的技術還沒有全部應用到實際問題中,但部分技術已經在做嘗試。

「我們和華夏基金以及太平資產合作,做了一些實盤投資的嘗試, 取得了非常好的效果。」劉鐵巖告訴 PingWest 品玩,「我們用歷史交易數據訓練的 AI 模型,到真正市場上會面臨完全不一樣的數據,所以要動態地適應實際場景並做出改變,這個和 Suphx 裡面的自適應決策是一脈相承的。」

儘管落地是研究的最終目標,但洪小文認為,純粹的好奇心對研究人員來說更加寶貴:「做這項研究的時候,他們有沒有想過未來可以怎麼應用?八成是沒有想,也不應該想,以好奇心驅動的研究是推動整個科研發展的基石。最明顯的例子是,基礎數學很多研究在當時都不見得有應用。」

有意思的是,天鳳平臺 CEO 角田真吾在被問到「為什麼會歡迎 AI和人類對弈」時,給出了和洪小文幾乎一樣的措辭——純粹出自於人類的好奇心。

相關焦點

  • AlphaGo Zero用40天成為世界最強圍棋AI
    棋士柯潔:一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了人工智慧的最大挑戰是研發一種能從零開始、以超人類的水平學習複雜概念的算法。為了打敗人類圍棋世界冠軍,科學家在訓練上一款AlphaGo時,同時用到了監督式學習(基於上百萬種人類專業選手的下棋步驟)和基於自我對弈的強化學習。那款AlphaGo的訓練過程長達幾個月,用到多臺機器和48個TPU(神經網絡訓練所需的專業晶片)。
  • 麻將AI超越99%人類玩家:專業十段,學習能力堪比阿法狗
    一個高手麻將AI擁有強大算力遠遠不夠據這份公開資料顯示,Suphx於2019年3月登陸日本專業的麻將競技平臺Tenhou(天鳳),在短短幾個月內,Suphx在該平臺上與人類選手展開了5000餘場四人麻將對局,達到了十段,這是目前為止,世界上第一個也是唯一一個達到10段水平的人工智慧
  • 柯潔回應新版本AlphaGo問世:人類太多餘了
    對此,柯潔回應稱:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」DeepMind聯合創始人兼CEO 、AlphaGo之父戴密斯·哈薩比斯(Demis Hassabis)和AlphaGo團隊負責人大衛·席爾瓦(Dave Sliver) 等人同時在官方博客上發表文章,詳解最強版本阿爾法狗是如何煉成的,與前代有何不同。
  • 最強AlphaGo怎樣煉成?DeepMind團隊進行全面解讀
    剛剛,這個史上最強圍棋AI的兩位主要開發者,David Silver和Julian Schrittwieser,做客知名網站reddit,展開一場超級問答AMA(Ask Me Anything)。他們是誰?
  • 比AlphaGo更厲害的AI在哪裡?《最強大腦》告訴你!
    這一季《最強大腦》劉指導一言不合就「送你個我籤名的球拍吧」……   劉指導,你籤名的球拍hin好,但我更想要馬龍和張繼科籤名的球拍,靴靴!   《最強大腦》的舞臺上沒有最厲害的「腦王」,只有更厲害的「腦王」,而更厲害的「腦王」永遠在「下一期節目」裡。   第四季「燒腦」回歸,來了哪些「被神選中的天才」呢?
  • 其實,ai不止是一項科技,更是一種文化,一種觀念
    其實,ai不止是一項科技,更是一種文化,一種觀念。自2016年alphago在圍棋系列賽中戰勝職業棋手以來,ai已經開始在某些領域中取得進展,並且在某些問題上實現了突破。在最近的新聞中,谷歌發布的兩張miranda照片不僅僅是事實,還再次為我們揭開了ai正在開始各領域進行科學研究的新面貌。
  • 中文版化學元素表驚呆日本網友 稱長得像麻將
    原標題:中文版化學元素表驚呆日本網友 稱長得像麻將   「氫氦鋰鈹硼,碳氮氧氟氖,鈉鎂鋁矽磷最近,中文版的化學「元素周期表」被轉發至日本的網站後,卻引發了當地網友的瘋狂「吐槽」。   原因在於有人說這些漢字太複雜了,外型長得像「將棋」或「麻將」,甚至有人直接說成是「咒語」。日本網友震驚的同時,更多是在佩服國人能夠背誦如此複雜的中文字。
  • 2018年最強颱風王是怎樣煉成的?
    颱風飛燕或已經成為今年颱風季中最強「颱風王」。,預計9月4日17時會登陸日本,風力減弱為12級,強度降為颱風級。聽說颱風飛燕過來了2018年最強颱風王是怎樣煉成的呢?下面進入到咱們的主題,請坐好小板凳,那好筆記本。
  • 世界有多少麻將玩法:華人天生賭神?日麻最色情?美國人在作弊?
    雖然大部分並沒有更實質的色情向內容(一般只有裸體),但因為天性,還是能短時間內吸引玩家大量投幣,一段時間內色情和賭博一樣成了麻將的負面代名詞,之後隨著更多大型機臺湧入街機加上社會輿論的影響,1996年之後脫衣麻雀類機臺開始迅速消失。日本麻將是從大小上還是規則上,都更偏向於中國古典麻將,在此基礎上,發展出了更多獨屬的遊戲規則。
  • 柯潔終結41連勝圍棋AI:稱其實力遠超初代AlphaGo
    消息曝光後,柯潔評價稱:「一個純淨、純粹自我學習的AlphaGo是最強的...對於alphago的自我進步來講...人類太多餘了。」今日凌晨,柯潔發微博表示,自己在網上對弈時遇到了一個名為「符合預期」的AI,對方實力十分強勁,應該已經遠超當時與李世石對弈的AlphaGo。該AI在某圍棋平臺一舉拿下41連勝,最終被自己終結。
  • 中文版化學元素表驚呆日本網友:長得像麻將(圖)
    最近,中文版的化學「元素周期表」被轉發至日本的網站後,卻引發了當地網友的瘋狂「吐槽」。原因在於有人說這些漢字太複雜了,外型長得像「將棋」或「麻將」,甚至有人直接說成是「咒語」。日本網友震驚的同時,更多是在佩服國人能夠背誦如此複雜的中文字。
  • 這不是麻將!美國麻將公司「更新」經典設計惹議,這是文化挪用!
    最近,美國麻將公司「麻將生產線」新推出了一款不一樣的麻將,意外引發大批網友的不滿。麻將生產線的新麻將去年年底,美國麻將公司「麻將生產線」(The Mahjong Line)推出一副全新的麻將牌。然而,在2021年的第一個月,這副麻將牌便在網絡上引發龐大批評聲浪,其中部分與麻將牌不同以往的設計有關;另一部分則在網頁文案上具高度爭議性的用詞。
  • 刑警陳懇:刑偵「最強大腦」是如何煉成的
    ▲陳懇(左一)辦案中從警22年,他擅長結合傳統戰法和信息化技戰法,精準打擊犯罪,破獲了諸多疑難複雜大案要案,因為辦案中頭腦靈活、心思縝密,他被譽為九龍刑偵的「最強大腦」……他,就是九龍坡區公安分局刑偵支隊副支隊長陳懇。小疑點大文章破首例套路貸「我們經常是無路中找路。」
  • 為什麼中國發明的麻將, 上面卻是刻著日本的字? 有什麼歷史故事嗎
    完全是免費訂閱,請放心關注臨近過年,久違的麻將又要回到大家的視線中了,麻將在中國算的上是一種國粹了,在中國的大媽大爺區,我們時常可以看到麻將的身影,她們只要一碰上麻將,那就是一整天,沉浸在小賭的快樂中,現在中國就連十幾歲的小孩子都會。不知道大家是否有注意到麻將中的日文,而麻將作為國粹,難道是日本人發明的嗎?
  • 谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了
    谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了(圖片來自於推特)在這款軟體發出之後,柯潔也對這款軟體發表了自己的看法,他認為:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」之所以柯潔會這樣說,主要是因為AlphaGo Zero的練習主要是通過自我對弈在三十天之內發展起來的。
  • 柯潔終結AI「符合預期」41連勝:若當初第一個與alphago對弈的是我
    【文/觀察者網 周遠方】昨夜,「半狗」柯潔贏了一隻41連勝的「小狗」,輾轉難眠…… 他在今天(18日)凌晨0時23分發微博感嘆: 一個AI滿地走的時代...除了alphago以外,這個暱稱為「符合預期」的AI尤其強,實力應該已經遠超當時與李世石對弈的alphago了吧?...
  • 能贏AlphaGo的只有它自己 柯潔回應新版問世:人類太多餘了
    對此,柯潔回應稱:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」2016 年在 AlphaGo 和李世石的對戰後,人工智慧進入大眾的視野,今年5月27日,中國棋手柯潔與人工智慧「阿爾法圍棋」(AlphaGo)展開三番棋比賽的終局對決。
  • 通用版AlphaGo登《Nature》:最強AI棋手,不懂規則也能精通遊戲
    三代AlphaZero在2018年誕生,將適應領域拓寬至西洋棋和日本將棋,而不是僅限於圍棋。第四代、也就是今天新公布MuZero最大的突破就在於可以在不知道遊戲規則的情況下自學規則,不僅在更靈活、更多變化的Atari遊戲上代表了AI的最強水平,同時在圍棋、西洋棋、日本將棋領域也保持了相應的優勢地位。
  • 通用版AlphaGo登《Nature》!最強AI棋手,不懂規則也能精通遊戲
    三代AlphaZero在2018年誕生,將適應領域拓寬至西洋棋和日本將棋,而不是僅限於圍棋。第四代、也就是今天新公布MuZero最大的突破就在於可以在不知道遊戲規則的情況下自學規則,不僅在更靈活、更多變化的Atari遊戲上代表了AI的最強水平,同時在圍棋、西洋棋、日本將棋領域也保持了相應的優勢地位。
  • 麻將到底算不算國粹?它和圍棋、象棋相比又有哪些區別呢?
    麻將除了融入在我國人民的生活中,還對日本和美國的歷史產生了很大的影響。在1923年,就有數據顯示,美國大概有一千五百萬人在玩麻將,主要都是有錢有時間的太太們貢獻力量。與許多中國貴族太太一樣,老公在外工作,她們就在家裡組建麻將局。對美國人來說,麻將等=茶文化=絲綢,都是源於東方的神秘力量。