精通西洋棋的AI研究員:AlphaZero真的是一次突破嗎?

2020-12-04 36kr

編者按:本文來自微信公眾號「機器之心」(ID:almosthuman2014),路雪、劉曉坤編譯,36氪經授權發布。

DeepMind 最近發表了一篇關於 AlphaZero 的論文,介紹了一個通過自我學習掌握西洋棋或將棋的系統。

進入正文之前,我首先做個自我介紹。我是一名人工智慧領域研究者,方向是自然語言處理;我同樣也是一名西洋棋大師,目前是韓國的頂尖選手,但是由於我全職科研最近幾年不是很活躍。因此,我會盡力提出一個合理的、有建設性的觀點。很明顯我會著重講西洋棋,但是一些論點是通用的,可推算至將棋或圍棋。本文僅代表個人觀點,可能出現錯誤或誤解,請見諒。

西洋棋可以說是在「人機對戰」和人工智慧中研究最為廣泛的遊戲。該領域的首個突破是 1997 年 IBM 深藍(Deep Blue)擊敗世界冠軍 Garry Kasparov。在此之前,人們普遍認為在西洋棋上機器不如人,但自深藍勝利以後,人與機器的西洋棋之爭已勝負分明。

Garry Kasparov 對戰 IBM 深藍,1997。

2016 年,DeepMind 推出圍棋引擎 AlphaGo,可擊敗一些人類頂尖圍棋選手。值得注意的是圍棋的複雜性要遠高於西洋棋,正由於此,儘管計算機的算力有了很大提升,但機器依然無法在圍棋上戰勝人類。

因此,AlphaGo 被認為是一次突破。AlphaGo Zero 在 AlphaGo 的基礎上更進一步,可通過完全自我對弈掌握圍棋 。最近出現的 AlphaZero 是一個類似的模型,通過通用強化學習算法訓練神經網絡架構,並擊敗了最好的將棋和西洋棋引擎 。

AlphaZero 的壯舉已被大眾媒體和西洋棋媒體大量報導,其中不乏對其突破的過分誇大。然而,通過仔細地閱讀 AlphaZero 的論文,我認為確實存在對其重要聲明有效性的合理質疑。有些質疑本身可能並不重要,並且作者可能也做出了解釋。但即便如此,所有的疑慮聚合到一起就形成了對其主要聲明的科學有效性的合理質疑。

以下列舉了一些普遍的疑慮:

可用性/可復現性。DeepMind 開發的 AlphaZero 系統都沒有對公眾開放:代碼沒有開源,甚至都沒有一個商業版本讓用戶進行測試。這是一個很大的阻礙,因為從科學角度看,這些方法既不能被驗證也不能被其他專家利用。這種缺乏透明度的做法使他們的實驗基本不可能被復現。

4 小時訓練。AlphaZero 的訓練量成為最難理解的因素之一。根據論文,AlphaZero 在 5000 個 TPU 上訓練了 4 個小時,就達到了超越開源西洋棋引擎 Stockfish 的級別(充分訓練的 AlphaZero 需要再多幾個小時的訓練)。這意味著如果僅使用一塊 TPU,AlphaZero 需要花費大約兩年的訓練時間,這個訓練時間大大超過了使用一塊普通 CPU 的訓練時間。

因此,即使 4 小時訓練時間給我們留下深刻的印象(確實很深刻),這也主要是近幾年算力得到極大發展的功勞,特別是像 DeepMind 這樣對算力進行大量投資的公司。例如,到 2012 年,7 子以內的所有象棋局面已經可以使用數學方法和少得多的計算資源求解。計算能力的提升為新算法的開發鋪平了道路,可能幾年後西洋棋這樣的遊戲甚至可以使用暴力求解方法來解決。

AlphaZero 和 Stockfish 的比賽實驗設置。為了證明 AlphaZero 相對於以前的西洋棋引擎的優越性,DeepMind 讓 AlphaZero 和 Stockfish 進行了 100 次比賽(AlphaZero 以 64:36 的成績打敗了 Stockfish)。

選擇 Stockfish 作為對手看起來是挺合理的,Stockfish 是目前最強大的開源西洋棋引擎,且在最近的 TCEC(目前世界上水平最高的引擎競賽)中取得了第三名(排名在 Komodo 和 Houdini 之後)。

然而,AlphaZero 和 Stockfish 比賽的實驗設置看起來並不公平。他們使用的 Stockfish 版本並不是最新的,更重要的是,該版本還是在一個普通 PC 上運行的,而 AlphaZero 使用的計算能力要強大得多。

例如,在 TCEC 競賽中,所有的引擎都必須使用相同的處理器進行比賽。此外,對時間的選擇看起來也很奇怪。每一個引擎被設置成每一手一分鐘的思考時間。然而,大部分人機競賽都只為整場比賽指定固定時間,每一手的時間由選手自行管理。

正如 Stockfish 的最初開發者之一 Tord Romstad 指出的,這是影響 Stockfish 表現的另一項可疑決定,「研究者投入了大量努力使 Stockfish 能夠鑑別遊戲中的關鍵點,在走棋中決定什麼時候使用額外的時間 。」

Tord Romstad 還指出 Stockfish「執行的搜索線程遠遠多於多次測試中的線程」。此外,AlphaZero 對戰 Stockfish 的超高勝率使某些頂尖的西洋棋選手非常驚訝,它挑戰了「西洋棋引擎幾乎不可戰勝」的普遍觀念(例如,世界排名第九的西洋棋選手 Hikaru Nakamura 質疑了 AlphaZero 和 Stockfish 比賽中的低平局率 )。

和 Stockfish 的 10 局比賽。DeepMind 的論文只分享了 10 場比賽樣本,10 場全是 AlphaZero 取得勝利 。由於 AlphaZero 展示出的對象棋的「深度理解」,這些比賽獲得了象棋社區的一致讚揚:Peter-Heine Nielsen ,象棋特級大師、世界冠軍 Magnus Carlsen 的教練;Maxime Vachier Lagrave ,世界排名第五的象棋選手,二者均對 AlphaZero 在和 Stockfish 比賽中的表現做出了積極回應。

但是,在科技論文中展示提出系統出現缺點或表現不太好的樣本是一種慣例,以使大家對該系統有一個全局了解,也便於其他研究者基於此進行進一步研究。該論文另一個不明確的地方是比賽是從特定的開局開始還是從頭開始。鑑於這 10 場比賽的開局類型,似乎初始棋局是預先確定好的。

AlphaZero 和 Stockfish 的比賽。最後一手:26. Qh1!象棋特級大師 Francisco Vallejo Pons 稱這場比賽像「科幻小說」。圖片來源:chess24

自我對弈。AlphaZero 完全從自我對弈中學習的嗎?根據論文提供的細節來看是這樣的,但有兩個重要的地方需要注意:在開始自我對弈之前必須先教會系統遊戲規則和通常手數(typical number of moves)。這一點並不像看上去那麼無足輕重。要尋找可以對規則進行編碼的合適神經網絡架構必須投入大量研究,正如 AlphaZero 論文中解釋的那樣。

AlphaGo 使用的基於卷積神經網絡的架構適合圍棋,但不適合其他遊戲。例如,西洋棋、將棋就和圍棋不同,它們是不對稱的,一些棋子根據局面進行不同的操作。

最新的 AlphaZero 引入了更通用的 AlphaGo 算法版本,適用於象棋和將棋。第二點(即教會 AlphaZero 棋類遊戲的通常手數)還需要遊戲的一些先驗知識。

此外,超出最大步數的賽局被定為平局(DeepMind 未提供最大步數的信息)。現在不清楚這種啟發式方法是否也用於對抗 Stockfish 的比賽中,還是僅用於訓練。

泛化。AlphaZero 稱其使用了可在多個領域中獲勝的通用強化學習方法。但是,在前面關於自我對弈的觀點之後,也出現大量爭論關於 AlphaGo 和 AlphaZero 系統泛化至其他領域的能力。假設現實生活的很多場景可以被簡化成固定的預製規則集,像圍棋、象棋、將棋那樣,這似乎不切實際。

此外,這些遊戲不僅具備固定的規則集,而且是有限的,即可能的配置情況是有限的,儘管它們的複雜程度各有不同。這和其他也有固定規則集的遊戲不一樣。比如,網球比賽中需要考慮的變量很難量化,必須考慮速度和風向、球速、球和球面的角度、球面類型、球拍材質、場地問題等。

我們應該科學、審慎地觀察這些所謂的突破,尤其是在現在這個 AI 炒作的時代。準確地描述和推廣我們的成就是該領域研究者的責任,研究者不應助長不實信息,把該領域神秘化。事實上,在月初的 NIPS 大會上,一些研究者表達了對近年來該科學領域缺乏嚴謹性的擔憂。

在這種情況下,我希望這些擔憂能夠得到解決,準確地評估 AlphaZero 的實際科學貢獻,而這一判斷並不是現在就能做出的。或許如果有更好的實驗設計和對復現的考慮,DeepMind 的結論就沒有現在那麼讓人震驚了,不過也說不準。

但是我們很難對此做出評估,除非 DeepMind 真的在這方面做出努力。我個人非常希望 DeepMind 在 AI 領域實現更多相關發現,但是我也希望這些成績的取得是以一種同行可以輕鬆評價且對社會有所貢獻的方式進行。


相關焦點

  • AlphaZero:從小白開始制霸多個遊戲
    西洋棋大師 Matthew Sadler 和 Natasha Reg 在他們即將出版的新書《Game Changer》(關於西洋棋的新書,將於 2019 年 1 月出版)中分析了數千場 AlphaZero 的西洋棋比賽。他們認為 AlphaZero 的棋風與任何傳統的棋類程序都不相同。
  • 谷歌論文詳解AlphaZero:為西洋棋、將棋與圍棋帶來新曙光
    2017年年末,Google AI 子公司 DeepMind 的研究人員宣布他們的 AI 程序進化到了 AlphaZero,利用自對弈強化學習,在短時間內打敗了頂尖的西洋棋和將棋(日本版西洋棋)程序,也就是說,在只知道基本規則的情況下,AlphaZero 靠自對弈精通了圍棋、西洋棋和將棋。
  • Science封面:AlphaZero達成終極進化體,史上最強棋類AI降臨!
    Sadler和女子西洋棋大師Natasha Regan一起分析AlphaZero,並寫作出版了專著《Game Changer:AlphaZero的顛覆性西洋棋策略和人工智慧潛力》。這種獨特的能力,在其他傳統的西洋棋引擎中是看不到的。目前,AlphaZero已經被用來在世界西洋棋錦標賽上為棋迷們提供有關Magnus Carlsen和Fabiano Caruana(現男子西洋棋等級分前兩名)對局的新見解和評論。
  • 最強通用棋類AI,AlphaZero強化學習算法解讀
    AlphaZero通過自我博弈汲取經驗知識來不斷精通遊戲。我們會藉助於Github上由Surag Nair開發的一個「簡化後的、高度靈活的、經過注釋的且易於理解的」Python版AlphaZero來進行該項目。你大可以先去這裡玩一玩這個遊戲。
  • 下圍棋so easy,AlphaZero開始玩量子計算!
    相比之下,西洋棋只有1043種可能的走位。所以AlphaZero使用了一個深層的神經網絡,它學會了從一個特定的位置開始評估它獲勝的可能性。為了獲勝,AlphaZero有一個功能叫做蒙特卡洛樹搜索,這種方法能夠幫助它在遊戲中「預知未來」。
  • 下圍棋so easy ,AlphaZero開始玩量子計算
    相比之下,西洋棋只有種可能的走位。 所以AlphaZero使用了一個深層的神經網絡,它學會了從一個特定的位置開始評估它獲勝的可能性。為了獲勝,AlphaZero有一個功能叫做蒙特卡洛樹搜索,這種方法能夠幫助它在遊戲中「預知未來」。
  • 依據AlphaZero的混合算法,給量子核算帶來新的生機
    相比之下,西洋棋只有種或許的走位。所以AlphaZero運用了一個深層的神經網絡,它學會了從一個特定的方位初步評價它取勝的或許性。為了取勝,AlphaZero有一個功用叫做蒙特卡洛樹查找,這種方法可以協助它在遊戲中「預知未來」。
  • 通用版AlphaGo登《Nature》:最強AI棋手,不懂規則也能精通遊戲
    論文連結:https://arxiv.org/pdf/1911.08265.pdf自2016年,令柯潔流淚、讓李世石沉默的AlphaGo橫空出世,打遍棋壇無人能敵後,AI棋手的名號就此一炮打響,而其背後的發明家DeepMind卻沒有因此止步,四年之內迭代了四代AI棋手,次次都有新突破
  • 棋類大師 AlphaZero 無師自通,「通用人工智慧」加速到來?
    這種算法不僅會從零開始學會下圍棋、西洋棋和將棋等,而且只需學習不到一天的時間就能擊敗擊敗了李世石的AlphaGo,擊敗頂尖西洋棋程序Stockfish以及頂水平的級將棋程序 Elmo。西洋棋大師尼爾森說:「我一直在猜想如果一個比我們出色的物種登陸地球,然後向我們展示他們是如何下西洋棋的話會是什麼樣的。我感覺現在我知道了。」
  • 聯手世界冠軍,DeepMind用AlphaZero開發西洋棋新規則!網友:我只...
    作者 | 蔣寶尚、賽文、青暮編輯 | 青暮還記得《生活大爆炸》裡謝耳朵完虐舍友倫納德時玩的三維西洋棋嗎?三維西洋棋或者空間西洋棋指任何一種在空間中(也就是不局限於一個平面棋盤)的棋類遊戲。但要確認新規則的有效性,特別是對於西洋棋這類探索空間非常大的遊戲,需要大量的玩家玩大量的遊戲後,才能確定新規則是否公平,新遊戲是否有趣。有沒有更智能的方法呢?當然有!這一次,DeepMind創始人Demis Hassabis聯手西洋棋世界冠軍Vladimir Kramnik,用AlphaZero玩出了新花樣。
  • AlphaZero誕生一周年:登上Science封面,完整論文首次公開
    具體來說,DeepMind公開了完整評估後的AlphaZero,不僅回顧、驗證了之前的結果,還補充了新的提升:除了圍棋,AlphaZero自學了另外兩種複雜棋類遊戲——西洋棋和日本將棋。20年前與深藍對弈的加裡卡斯帕羅夫DeepMind博文連結:https://deepmind.com/blog/alphazero-shedding-new-light-grand-games-chess-shogi-and-go
  • 最強AI棋手,不懂規則也能精通遊戲
    智東西(公眾號:zhidxcom)編譯 |子佩 編輯 |Panken智東西12月24日消息,繼AlphaGo揚名海外後,DeepMind再推新模型MuZero,該模型可以在不知道遊戲規則的情況下,自學圍棋、西洋棋、日本將棋和Atari遊戲並制定最佳獲勝策略,論文今日發表至《Nature》。
  • AlphaZero降臨:8小時內拿下圍棋、西洋棋、日本將棋!
    AlphaZero 首先經過 8 個小時的對世界頂級圍棋棋譜的學習,就成功擊敗了與李世石對戰的 AlphaGo v18;又經過了 4 個小時的訓練,它又擊敗了世界頂級的西洋棋程序——Stockfish;緊接著,又是2個小時的訓練之後,世界上最強的日本將棋程序Elmo又敗在了它的手下。看出來了嗎?AlphaZero 或許已經有了些許邁向棋類通用 AI 的跡象!
  • 打敗柯潔的AlphaGo有了繼任者AlphaZero 西洋棋/圍棋/將棋通殺
    Stockfish:西洋棋 AI 世界冠軍;elmo:2017 年度世界計算機將棋錦標賽冠軍;AlphaGo:戰勝柯潔的AI高手。實測西洋棋需要 9 小時、將棋 12 小時、圍棋 13 天,涉及 5000 個張量處理單元(TPU)。  這麼說可能不太能量化理解,可以參考一下一套 TPU 每天可以處理超過 Google Photos 中的 1 億+照片,所以 AlphaZero 對硬體的性能的要求還是相當高的。
  • AlphaGo後裔AlphaZero創造奇蹟,不到24小時訓練擊敗西洋棋、圍棋...
    據稱,新的算法經過不到 24 小時的訓練後,可以在西洋棋和日本將棋上擊敗目前業內頂尖的電腦程式(這些程序早已超越人類世界冠軍水平),也可以輕鬆擊敗訓練 3 天時間的 AlphaGo Zero。經過八個小時地自我練習,擊敗最初戰勝人類圍棋冠軍的 AI 程序,再經過四個小時的訓練後,又擊敗了當前世界西洋棋冠軍程序 Stockfish。更令人驚訝的是,僅經過兩個小時的訓練後,就戰勝了世界最頂尖的日本將棋程序之一 Elmo。
  • 史上最強棋類AI!AlphaZero「通殺」三大棋類世界冠軍 朝通用AI之路...
    AlphaZero的首席研究員David Silver在2018年蒙特婁NeurIPS大會上表示「幾年前,我們的程序AlphaGo以四比一擊敗了18屆世界圍棋冠軍李世石。但對我們來說,這實際上是建立一個通用學習系統的開始,這個系統可以自己學習,玩很多不同的遊戲,達到超人類的水平。AphaZero是這段旅程的下一步。它從零開始,打敗了Gi、西洋棋和將棋的世界冠軍項目。
  • AlphaZero問世:8小時完爆圍棋、西洋棋、日本將棋
    據了解,AlphaZero算法可以在8個小時訓練擊敗李世石版本AlphaGo;再用4小時訓練擊敗世界頂級的西洋棋程序Stockfish;再用2小時訓練擊敗世界頂級將棋程序Elmo
  • 超越AlphaGo的AlphaZero出世
    特別是以圍棋為對象,與「AlphaGo」不同的是一個算法可以適用於西洋棋、昭和(日本象棋)等其他棋類遊戲,是AI廣泛應用的重要裡程碑,因此備受期待。7日,包括谷歌Deep Mind創始人兼CEO德米斯·哈比斯在內的13位研究學者在「科學」雜誌上發表了題目為「通過自我學習掌握西洋棋
  • Facebook連夜關停人工智慧系統 AI真的已經突破人類認知了嗎?
    從Facebook人工智慧研究部研究員的口中得知,此次研究的智能對話機器人完全是基於文本上的。而到目前還不清楚的是,在這個過程進行的途中,是否真的產生了一種有別於人類語言特徵的單詞,短語和句子結構的系統。然而,這並不是第一次發現AI使用了偏離訓練的英文語句。
  • DeepMind以AlphaZero擊敗全球三大棋藝AI!
    AlphaZero為一個完全未經訓練的神經網絡,經由與自己對戰數百萬回合強化學習,經過自我訓練後,4個小時後擊敗西洋棋程序Stockfish,2小時後勝過將棋程序Elmo,並於30小時之後擊敗了圍棋程序AlphaGo。