從雀聖到股神,微軟只差「最後一英裡」

2021-01-13 極客公園

2019 年 8 月 29 日,微軟全球執行副總裁沈向洋在世界人工智慧大會的主論壇上宣布,微軟亞洲研究院(以下簡稱亞研院)創造出了世界上最強的麻將 AI,Suphx(超級鳳凰)。

今年 6 月,Suphx 成為首個在國際知名的專業麻將平臺「天鳳」上榮升十段的 AI 系統。沈向洋表示,這是目前 AI 系統在麻將領域取得的最好成績,其實力已經超過了該平臺公開房間頂級人類選手的平均水平。

沈向洋在 WAIC 主會場演講 | WAIC

「天鳳」是一家創辦於 2006 年的在線麻將對戰平臺,規則完善,且有著專業的段位升級系統。目前平臺上在全球範圍內已有近 33 萬名麻將玩家,其中有很多專業選手。「天鳳」對戰平臺分為「特上房」和「鳳凰房」兩種競技房間。前者對四段以上所有玩家免費開放,最高段位為十段,後者則僅對七段以上的人類付費玩家開放,最高段位為十一段「天鳳位」,但該房間目前暫不允許 AI 參與。自 2006 年平臺上線以來,達到十段的選手約有 180 位,現役僅有十幾位。而在「鳳凰房」,達到四人麻將「天鳳位」的高手僅有 13 人。

自從今年 3 月登陸日本「天鳳」麻將平臺以來,Suphx 已經在公開房間「特上房」與人類選手進行了超過 5000 場對戰。除此以外,據亞研院副院長劉鐵巖表示,自 2017 年年中亞研院啟動這一項目以來,Suphx 已經完成了約 2000 萬場自我博弈。

雖然目前 Suphx 還不曾與天鳳位的選手對戰過,但很多天鳳位的高手已經在關注 Suphx 在特上房的比賽,其中號稱天鳳位第一人的朝倉康心在社交媒體上表示,他認為 Suphx 可能比他還要強大。

天鳳平臺「特上房」穩定段位對比 | 亞研院博客


遊戲 AI 的下一步

自從 2016 年 AlphaGo 擊敗李世乭以來,人工智慧在遊戲領域的應用就一直飽受關注,且隨著科技巨頭們對人工智慧的不斷加碼,越來越多的棋類遊戲和電子競技遊戲成為了 AI 能力的試驗田。

根據遊戲信息暴露的程度,AI 研究者大多把遊戲分為兩大類,一是完美信息遊戲(Perfect-Information Games),即所有遊戲參與者都能隨時訪問所有關於遊戲(以及對手)的狀態和可能延續的信息;二是不完美信息遊戲(Imperfect-Information Games),即遊戲參與者不能掌握所有信息,且各個對局者所掌握的信息不對稱。

完美信息遊戲的典型代表有雙陸棋、國際跳棋、西洋棋和圍棋等,其中複雜程度最高的是圍棋。2017 年 AlphaGo 兩次迭代後的版本 AlphaZero 通過深度強化學習成功解決了包括圍棋在內的多個完美信息遊戲。在此之後學術界研究的熱點開始轉向不完美信息遊戲和多人對戰的電競遊戲。

圍棋、德州撲克、橋牌和麻將的信息集數目和信息集平均大小對比 | 亞研院博客

撲克、麻將、橋牌,還有包括星際爭霸 2 和 Dota2 等地圖不完全公開的電子遊戲,都屬於不完美信息遊戲。2017 年到 2019 年,卡內基梅隆大學(CMU)發布的 Libratus 和與 Facebook AI 合作發布的 Pluribus 分別擊敗了兩人無限注德州撲克和六人不限注撲克的人類頂級玩家,由此正式開啟了 AI 學界對不完美信息遊戲的徵程。

與此同時,包括開發了 AlphaGo 的 DeepMind,埃隆·馬斯克參與創辦的 OpenAI,Facebook 人工智慧實驗室 FAIR 以及國內的騰訊 AI Labs 都開始對星際爭霸 2、Dota2、王者榮耀等 RTS 和 MOBA 類電子遊戲進行遊戲 AI 的開發。其中 DeepMind 聯合暴雪開發的星際爭霸 2 遊戲 AI AlphaStar 在 2019 年 1 月戰勝了頂尖的人類玩家,OpenAI Five 也在 2019 年 4 月戰勝了 Dota2 剛剛蟬聯世界冠軍的戰隊 OG 俱樂部。

AlphaStar | 亞研院博客

2017 年 4 月,國際智力運動聯盟宣布,競技麻將成為繼圍棋、象棋、西洋棋、橋牌和國際跳棋之後的第六項國際正式智力運動項目。因為麻將本身對比其他棋類遊戲在隱藏信息和難度上給 AI 研究帶來的挑戰,麻將 AI 的開發也一直是遊戲 AI 領域較難攻克的一個領域。


麻將的特殊性

微軟本身是一家全球頂級的遊戲公司,旗下也有著《帝國時代》等經典即時戰略類遊戲,但這次亞研院卻選擇了更為傳統的全民類棋牌遊戲麻將。對於這次亞研院對遊戲的選擇,劉鐵巖對極客公園表示,亞研院對其他電子遊戲也有關注,但在內部,他們玩笑稱「即時戰略類遊戲更『遊戲』,而棋牌類遊戲更『AI』」,意思是即時戰略類電子遊戲對選手有著控制鍵鼠等設備的「遊戲感」要求,受到手速、反應速度等方面的影響,「當我們把一些不必要的人和機器的差別抹掉,體現出的更多是智慧、智能的作用」。因此亞研院選擇在棋牌類遊戲裡尋求 AI 上的突破。

Suphx 大三元胡牌 | 亞研院博客

而在棋牌類遊戲裡,麻將也有著一些特殊性。

首先,麻將對戰中存在著巨大的狀態空間。136 張麻將牌的排列組合可能性遠遠高於 52 張的德州撲克,且在同一個玩家兩次出牌之間,夾雜了其他 3 個玩家的出牌和自己摸的底牌,可能出現的不同局面數目非常巨大。更大的變數是,在麻將中,4 位玩家的出牌順序是不固定的,任意一位玩家的「吃碰槓」都可能使出牌順序突然改變,導致遊戲樹不規則且動態變化。這些特點使麻將很難直接利用 AlphaGo 等棋盤遊戲 AI 常用的蒙特卡洛樹搜索算法。

其次,在不完美信息的棋牌遊戲中,麻將玩家只能看到手上 13 張手牌和之前已經打出來的牌,因此最多會有超過 120 張未知牌。一方面,由於隨機性太大,玩家即便在出牌決策中能估測出對方玩家手牌、底牌等不可見的牌,也無法避免不確定性對於遊戲走向的影響。這給 AI 模型的訓練帶來很大挑戰:AI 模型很難發現已知牌面信息和最優打法之間的邏輯鏈路。另一方面,豐富的隱藏信息導致遊戲樹的寬度非常大,對樹搜索算法的可行性提出了進一步的挑戰。

最後,麻將有著複雜的獎勵機制。日本麻將的規則是「無役不能和牌」,多樣的特殊牌面構成了複雜的「役種」和番數計算規則。一輪遊戲共包含 8 局,單局得分與役種和番數相關,最後根據 8 局的得分總和進行排名,來形成最終影響段位的點數獎懲。因此有時麻將高手會策略性輸牌,例如,在第 8 輪時如果 A 玩家已經大比分領先第二名,他可能會故意放炮給排名第四的玩家,來防止總分被排名第二的玩家反超,保證自己在最終結算時獲得最大的點數獎勵。這為構建高超的麻將 AI 策略帶來了額外的挑戰,AI 需要審時度勢,把握進攻與防守的時機。

「面對麻將遊戲的巨大挑戰,AI 僅靠強大的計算力無法從根本上解決問題,而需要更強的直覺、預測、推理和模糊決策能力。」劉鐵巖說道,從棋牌類角度來說,麻將在可觀測以及不可觀測兩個方面都有著很大的難度,亞研院作為一家研究機構,攻克這一問題也便成了順理成章的選擇。


AI 的「大局意識」

針對麻將在遊戲 AI 領域的這幾個難點,亞研院針對性地在強化學習的基礎上嘗試了一些新的算法,從而保證 Suphx 在對戰中能夠對遊戲有更全面的掌握,從而在多局遊戲中做出策略性的決策。

 麻將遊戲的挑戰以及 Suphx 的核心技術 | 亞研院博客

首先,針對麻將巨大的狀態空間,亞研院的研究團隊在算法中引入了對探索過程多樣性進行動態調控的機制,這使得 Suphx 能夠比傳統算法更充分地試探牌局狀態的不同可能。另一方面,一旦某一輪的底牌給定,其狀態子空間會大幅縮小;所以研究團隊讓 Suphx 在推理階段根據本輪的牌局來動態調整策略,對縮小了的狀態子空間進行更有針對性的探索,進而更好地根據本輪牌局的演進做出自適應決策。

其次,針對不完美信息遊戲的挑戰,Suphx 提出了名為「先知教練」的技術以提升強化學習的效果。其基本思想是利用 AI 不可見的信息,對模型進行引導,不斷地訓練促使其越來越熟悉不可見的信息,從機器的角度理解已有信息,從中找到決策依據。

另外,對於麻將複雜的牌面表達和計分機制,研究團隊還利用全盤預測技術搭建起每輪比賽和 8 輪過後的終盤結果之間的橋梁。通過設計,這一預測器可以理解每輪比賽對終盤的不同貢獻,從而將終盤的獎勵信號分配回每一輪比賽之中,以便對自我對戰的過程進行更加直接而有效的指導,並使得 Suphx 可以學會一些掌控全局的高級技巧。

基於上面這三種特別的算法,Suphx 在進入「天鳳」平臺後快速地在與人類選手的對戰中掌握了獨特的策略,有不少玩家表示,「天鳳」的玩法與人類有很大的不同,甚至有天鳳位的選手表示自己看了幾百場 Suphx 的比賽,學了很多新技術,對他個人的打法有很大幫助。

不過有趣的是,據劉鐵巖介紹,Suphx 背後的研究團隊並沒有麻將高手,最擅長麻將的研究員在「天鳳」平臺上「可能都打不到一段」。


還差「最後一英裡」

可是如此投入精力做出的遊戲 AI 究竟有什麼用?麻將僅僅四人的對弈,牌數也是數量明確且有限的,在這樣的環境裡訓練出的模型和系統,是否能在複雜度遠遠高於遊戲的真實世界裡應用?

面對這一問題,劉鐵巖說道:「在做基礎科學研究的時候,首先我們希望能在一個相對可控的環境裡淬鍊技術,當我們找到最好的技術後,去落地的時候,還有所謂的『最後一英裡的創新』(last mile innovation)。」

目前,Suphx 相關研究帶來的技術創新還沒有全部應用到實際落地場景中,但已經有了部分應用。亞研院與華夏基金、太平資產等金融機構一起做了一些「很大膽」的實盤投資實驗,涉及資金上億人民幣,「取得了非常好的效果,在業界遙遙領先」,其中就使用了自適應決策的技術。劉鐵巖解釋說,通過歷史的金融交易數據離線訓練出的 AI 模型,在今天的市場上有很多變數,包括經濟走勢、 國家政策和世界範圍內互動模式的差異等等,因此動態適應今天的場景就非常重要。「這與 Suphx 裡的自適應決策是一脈相承的」。

在 Suphx 的開發和研究中,最有價值的部分就是以上介紹的,基於麻將特性,研究團隊在深度強化學習基礎上做出的改進(自適應決策、先知教練和全盤獎勵的預測機制)。現階段,深度強化學習是業界最為有效的一種機器學習方法,但它在具體解決一些複雜問題的時候還需要進一步改進,而 Suphx 就是這樣一種探索。半年來,Suphx 在與人類選手的對戰中不斷改進,背後的數據對團隊的算法研究有很大的幫助。劉鐵巖表示,不久後,亞研院會以論文的方式分享相關的技術細節。

最後,至於 Suphx 是否會在未來登陸中國麻將平臺,劉鐵巖表示,「作為一個研究單位,我們對一切都是開放的。因為我們使用的是機器學習的技術,它對遊戲的規則(中國麻將規則與日本麻將有差別)沒有那麼敏感,只要有明確的規則體系在,就會有解決辦法。」


責任編輯:克裡斯

題圖來源:視覺中國

相關焦點

  • 「愛情就像脂肪,是點點滴滴的積累」,微軟小冰造句天馬行空,三大...
    「愛情就像脂肪,是點點滴滴的積累」這是 18 歲少女微軟小冰造出來的句子,咋一聽來,倒是很能引起萬千熱戀中的少男少女的同理心:「這可不就是戀愛後的幸福肥嗎?」唱歌、寫詩、作畫...... 作為一款主業為「陪聊」的對話機器人,微軟小冰近幾年來不斷解鎖其他副業的進階之路,受到了不少關注。
  • 比爾·蓋茨為什麼說 TikTok 是「有毒的聖杯」?
    儘管微軟官方已經聲明,針對 TikTok 收購案 9 月 15 日前不會再做進一步回應,微軟創始人比爾·蓋茨還是在近期接受美國《連線》雜誌專訪時回答了和 TikTok 相關的問題。關於這場收購,比爾·蓋茨保持謹慎樂觀態度。蓋茨直言川普希望為美國財政部從中爭取抽成的行為「很奇怪」,「但無論如何,微軟不得不應對這一切」。
  • 郭晉安拍《雀聖3》慘不忍睹 剩飯倒滿身(組圖)
    郭晉安拍《雀聖3》慘不忍睹 剩飯倒滿身(組圖)   大閘蟹最後成死螃蟹,臭不可聞,郭晉安精神可嘉   墨汁淋頭   郭晉安已是第二次拍攝《雀聖》系列, 第一集無論票房及影碟都收個滿堂紅,王晶電影橋段一向都以攪笑為先, 今次《雀聖》3 自摸三百番亦不例外。
  • 微軟小冰測顏值準不準?鄭爽才得6.3分,較真你就輸了
    「帥不帥」「美不美」,微軟小冰告訴你儘管微軟早在幾年前就推出了「測顏值」的功能,但隨著AI技術的不斷進步以及與微信等其他軟體的結合使用,微軟小冰「測顏值」的小遊戲到現在仍然很受網友歡迎。最近,知乎上「微軟小冰測顏值是否比較準?」的問題又被網友們討論了起來,相關瀏覽量已經超過了450萬。
  • 矽谷奇俠傳:盤點科技精英的「特殊癖好」
    他們紛紛說道:「千萬不要嘗試,零重力飛行將威脅到霍金的生命。」在經歷了長達 6 個月的遊說工作後,聯邦航空局才批准了這次體驗飛行。如果說有誰剝奪了我進行零重力飛行的權利,我會有種被整個世界欺騙的感覺。我還收藏了格瑞絲·斯莉克(Grace Slick)創作的大白兔畫作以及柴郡貓的全息畫像,後者在感應到觀看對象移動時會自動消失,只留下一個迷之微笑。
  • 遇到「真空獨白」的男生,「已讀不回」不是很好的選擇
    沒想到A 似乎完全沒看懂暗示,持續他的「真空獨白」,這讓我想,或許遇到這種男生,已讀不回可能不是很好的選擇。因此……有機會!身邊不少女生朋友都遇過這種「真空獨白」的男生,如果是陌生人倒可以一開始就直接「拉黑」,但遇到那種要熟不熟,有共同朋友,以後還很有可能會見到面的,就比較複雜一點。
  • 微信十年,從「數位化生存」到「數位化生活」
    26 年前,計算機科學家尼葛洛龐帝在《數位化生存》一書中,作出了這樣的預測: 計算不再只與計算有關,它決定我們的生存。 當年看起來像科幻小說一般的「數位化生存」,如今已經成為了人們生活的寫照。每個人都已成為線上世界的數字公民,浸潤在數字生活中。 如同尼葛洛龐帝所言,「信息DNA」正迅速取代原子而成為人類社會的基本要素。
  • 給電動車加裝「行人提醒喇叭」這麼難?美國為這事扯皮了 7 年
    對於用戶來說,一部分人喜歡所謂的發動機和排氣的噪音,在他們心中這叫「聲浪」,而另一部分人則對此無感。如今到了電動車時代,發動機沒了,噪音也沒了,問題也來了。經常開電動車的話,你肯定遇到過這種情況:開著一輛安靜、舒適的電動車,開到一條比較窄的路上,前面有行人時,大家不會注意到你的存在。
  • 不止於「無邊框」,XPS 13 可能是最好的筆記本電腦
    你心目中的最佳筆記本電腦是哪一款?不少人認為是 MacBook Air 或者 MacBook Pro,但前者屏幕一般,後者價格昂貴,而且在這兩款電腦都不適合使用 Windows 系統;微軟說 Surface Book 是「終極筆記本」,但不是所有人都喜歡 Surface Book 的分體式設計,而且它比 MacBook Pro 還要昂貴;東芝 Satellite Radius 12 擁有可能是筆記本電腦中最出色的屏幕
  • 到「日本威尼斯」乘小舟遊河納涼!「柳川.太宰府」一日遊
    位於九州福岡縣南部的「柳川市」,市內有縱橫交錯總距離長達930公裡的人工河,因而有水鄉「日本威尼斯」的美名。除了沉浸於乘船遊河的樂趣外,建議同時前往被稱為日本學問之神的「太宰府天滿宮」參拜。小編為大家整理出暢遊太宰府、柳川的一日行程 ,盡情享受乘船擺渡的悠閒樂趣吧!
  • 王安石《泊船瓜洲》中「一水間」的「間」字怎麼讀?
    王安石的《泊船瓜洲》,歷來被作為鍊字的典型,討論多集中在「綠」字用得如何妙這一問題上。偶然在某教師群裡圍觀,有人認為「一水間」的「間」應該讀作去聲,還有很多人附和。其實只要略通詩律,就可以確認這個「間」字讀作平聲。原詩如下——京口瓜洲一水間,鐘山只隔數重山。
  • 麥當勞附近必有一個肯德基,微軟零售店揮袖而去,蘋果store會落寞嗎
    揮一揮衣袖,堅持了10年之久的微軟零售店,終於決定永久關閉了。像蘋果商店一樣,從2019年開始運營的微軟零售店,成為這個著名科技品牌的形象大使,幫助微軟宣傳、定義公司標識和公眾認知,讓微軟用戶獲得面對面的支持,就像蘋果商店設立了Genius Bar,而微軟商店一定就會有一個Answer Desk。
  • Mac 笑臉、像素字體、微軟紙牌…蘋果第一代設計師有多厲害?
    現在,我們仍然能在 macOS 系統中的「訪達」圖標上,看到雙面人笑臉的存在。隨著時間的發展,Mac 笑臉以及其衍生表情,也沿用到了其它蘋果硬體上,逐漸演變成蘋果文化的具象呈現。另外,在卡雷設計過的字體中,還誕生過一隻「吉祥物」。
  • 二十歲的 Google,在員工們的道德「審判」中走過流年不利的 2018 |...
    面對員工們關切,Google 展現出了「洗心革面」般的「求生欲」。與之形成鮮明對比的是,「最有可能奪標 JEDI」的亞馬遜和它最大的挑戰者微軟,依舊不顧自家員工在網絡上的匿名抗議,義正辭嚴地表示將繼續爭奪這份軍事大單。
  • 「阿嬌離婚」!~12年一輪迴的命理玄機
    其實,坊間關於阿嬌的吃瓜故事實在太多了,而思特只想從命理的角度去告訴大家,從08年的豔照門到魔幻的2020,這12年一輪迴的命理玄機~~「阿嬌」鍾欣桐,2013年正式公告改名為「鍾欣潼」(這在當年也是大瓜一個),生於1981年1月21日,時辰為午時,排出八字和紫微命盤如下:庚申 己丑 己亥 庚午在上一篇「鐵腎渣男」裡,思特就說過:娛樂圈的很多男女明星多數都是屬於身旺帶食傷
  • 李嘉誠御用風水師夢中離世,曾預告「已至人生尾聲」 | 他把《通勝》做成香港人手一冊的「聖經」
    人類使用曆法最早可以追溯到五千多年前,中國是世界上最早發明曆法的文明國家之一,從最早的「夏曆」開始,到之後的「殷歷」、「周曆」等上古曆法至今,中國歷史上曾多次修訂曆法,這些曆法構成了人類歷史上最為精準的曆法體系。「中華曆法講究科學與數學的結合,理論經由中華古老智慧長久的試錯驗證而得來,具備高度和深度的學識理論。
  • 「優曇婆羅花」與「曼殊沙華」
    況且號稱三千年一開的稀有花朵能搜出大把圖片,也不順帶解釋一下金輪王頻頻現世為哪般。甚至一些知名媒體也在傳播此類消息。    查詢得知,隋代智顗解說《妙法蓮華經》,弟子記錄成《法華文句》一書,其《卷四 上》云:「優曇華者,此言靈瑞。三千年一現,現則金輪王出。」實際上,「優曇婆羅」是梵文「उडुम्बर (uḍumbara)」的音譯。
  • 孟子曰「性善」,並不是「人性本善」
    一直以來,孟子在先秦的諸子百家裡被認為是「性善論」的主張者,由於《孟子》一書思想的深奧及複雜,所以長期被大眾所誤解,而本文要談的,當然是被大眾誤會最深的《孟子》學說——性善論。首先,先正名孟子的「性善論」「性善」,是《孟子》對自身思想最簡要的說明;孟子本人從未說過「人性本善」四個字,「人性向善」也從沒說過,不管是從「人性本善」或「人性向善」來理解《孟子》的性善論,都會讓我們誤入歧途。所以,在進行正式的討論前,請先尊重《孟子》一書及本人的意願,用「性善論」來概括他的思想,不要再用「人性本善」或「人性向善」。
  • 車田正美史前巨坑「男坂」復歸!「雷鳴澤基」開新坑!
    世人只看得見「聖鬥士星矢」的輝煌,但大師卻永遠會以返璞歸真的心情誠實面對自己。   「男坂」有著很強的時代印記。它講述了一個俗套的,日本不良青年打架升級,然後統一全世界黑社會的熱血故事。
  • 從「頂流」到查無此人,她到底經歷了什麼?
    她身著一襲香檳色晚禮服,整個人顯得清新溫婉,加上甜美清澈的嗓音,誰看了不說一聲「好絕」呢。央視懟臉拍也沒在怕,果然是仙女本仙啊。已經出道十幾年的張含韻,雖然容貌上沒有太大的變化,依舊頂著一張圓圓的笑臉,臉上時刻掛著甜美的微笑,但無論是氣質還是談吐,都早已發生了巨大的變化。