AlphaGo在圍棋界「孤獨求敗」,Deepmind再出新一代機器人 | 前沿

2021-02-07 知識分子

►圖片來自DeepMind

撰文 | 李家勁（加州大學洛杉磯分校）

責編 | 葉水送

●　●　●

AlphaGo又「進化」了！新一代機器人AlphaGo Zero誕生，在圍棋領域，它會不會感到孤獨？

本周，Nature雜誌報導了英國DeepMind團隊的最新進展：他們開發出了新一代的圍棋AI——AlphaGo Zero。AlphaGo Zero使用強化學習技術（Reinforcement Learning），大幅提升了棋力。它現在能夠以更少的計算資源，輕鬆擊敗曾經戰勝世界冠軍李世石、柯潔的AlphaGo前代版本。

► David Silver教授講述AlphaGo Zero的基本原理，視頻來自DeepMind

AlphaGo Zero與之前版本最大的區別在於，AlphaGo Zero從隨機對局開始，通過自我對弈來提升自己的棋藝，從不依靠任何人類的監督或對局數據。而在以往版本中，AlphaGo都是使用業餘和專業人類棋手的對局數據來訓練自己。雖然使用人類棋手的數據可以讓AI學習到人類的圍棋技巧，但是人類專家的數據通常難以獲得且很昂貴。此外，即使是專業棋手，也難免會有失誤，而使用錯誤的訓練數據可能會降低AlphaGo的棋力。況且，僅僅使用人類數據會讓AI局限於人類的圍棋知識。

►AlphaGo Zero的自我強化學習，圖片來自Nature

更重要的是，AlphaGo在圍棋界已是「獨孤求敗」的境界，所以，要突破自己的界限，甚至圍棋知識的界限，顯然只有AlphaGo自己才能做自己的老師。

從算法上來說，AlphaGo Zero更簡潔、漂亮，讓我想起愛因斯坦的KISS原則：simple but not simpler。這一次，AI在人類的幫助下，在一個給定的規則下，自主發現新知識，並且糾正人類的錯誤知識，而且以驚人的速度達到這一點。有趣的是，AlphaGo無法解釋，只能demo給人類。在這個特定的小領域，人類和人工智慧一起創造了新知識。

張崢（上海紐約大學終身教授、國家千人計劃特聘專家）

經過幾百萬盤的自我博弈後，AlphaGo Zero進步明顯，不僅棋力大幅增強，運算速度也提升了不少。在100盤對局中，僅使用1臺機器、4個TPU的AlphaGo Zero對使用多臺機器、48個TPU的AlphaGo Lee取得全勝，後者曾經擊敗韓國名將李世石。在同樣配置下，AlphaGo Zero對AlphaGo Master取得89勝11負的壓倒性優勢，後者就是2017年1月在頂級圍棋在線對戰平臺上取得60戰60勝的神秘選手Master。而且，AlphaGo Zero訓練了72小時就完勝AlphaGo Lee，僅用40天就超越了AlphaGo Master。這主要得益於DeepMind團隊開發的新型強化學習技術。

何為強化學習技術？簡單來講，強化學習使用一套獎勵機制，讓AI從中學習到能夠獲得最大回報的策略。AlphaGo Zero的強化學習主要包含兩個部分，蒙特卡洛樹搜索算法（Monte Carlo Tree Search，MCTS）與神經網絡算法。其中，神經網絡算法給出落子方案，以及預測當前形勢下的勝方；MCTS算法可以看成是一個弈棋策略的評價和改進工具，它能夠模擬出AlphaGo Zero落子在哪些地方可以獲得更高的勝率。如果AlphaGo Zero從神經網絡得出的下一手棋的走法越相似於MCTS算法輸出的結果，則勝率越大，即所謂回報越高。如此，在每一著棋中，AlphaGo Zero都要優化神經網絡中的參數，使其計算出的落子方案更接近MCTS算法的結果，同時儘量減少勝者預測的偏差。開始的時候，AlphaGo Zero的神經網絡完全不了解圍棋，只好盲目下棋。但經過日以繼夜的「左右互搏」般的訓練，無數盤對局後，AlphaGo Zero迅速從圍棋小白成長為傳奇棋神。

除了改進人工智慧技術外，DeepMind團隊也希望能夠通過AlphaGo項目獲得對圍棋更深的認識。他們發現，AlphaGo Zero僅僅自我對弈幾十天就掌握了人類幾百年來研究出來的圍棋技術，而且棋路獨特。例如，AlphaGo Zero很喜歡下出定石（圍棋術語）的新型變種。這是因為它沒有使用人類數據，不再囿於人類現有的圍棋理論。

「當前的最強版本，AlphaGo Zero向我們展示了即使不用人類的數據，即使使用更少的計算資源，也能夠取得長足進步。最終我們想用這些技術進展去解決現實問題，如蛋白質摺疊或者新材料設計。如果我們能夠在這些問題上取得同樣進展，這將會增進人類的認知，從而改善每個人的生活。」

DeepMind的共同創辦者兼CEO，Demis Hassabis如是說。

參考資料

Silver D. Mastering the game of Go without human knowledge. Nature. doi:10.1038/nature24270.

製版編輯：常春藤｜

▼▼▼點擊「閱讀原文」，了解課程詳情，立享限時特惠！

相關焦點

無需人類知識,DeepMind新一代圍棋程序AlphaGo Zero再次登上Nature

昨天，DeepMind 在《自然》雜誌上發表了一篇論文，正式推出 AlphaGo Zero——人工智慧圍棋程序的最新版本。據稱，這一版本的 AlphaGo 無需任何人類知識標註，在歷時三天，數百萬盤的自我對抗之後，它可以輕鬆地以 100 比 0 的成績擊敗李世乭版本的AlphaGo。
從AlphaGo到蛋白質摺疊,Deepmind在不斷捅破AI領域的天花板!

有別於功能應用越來越細分的AI，AGI可簡單理解為我們在各種大片中看到的機器人，具備與人類相近的大腦獨立思考能力的人工智慧。Deepmind最初由三名科學家聯合創辦，就像其創始人兼CEO哈薩比斯（Demis Hassabis）所說的，它的性質更像一個科技研究院而不是創業公司，因為公司一開始並沒有任何產品，而是一直在通過遊戲來研究人工智慧算法。
alphago 50盤自戰棋譜的簡單解讀

烏鎮 alphago與柯潔，及其他國手對弈結束後，deepmind官方表示要送給棋界一個禮物，也就是50盤 alphago自我對弈的棋譜。
重磅圍棋之美-DeepMind發布AlphaGo視角對弈原始棋譜[附下載]

Deepmind官網10個小時之前發布了這場棋局【AlphaGo】視角的原始棋譜重現，以AlphaGo的視角，更進一步還原了整場棋局的變化。此外，Deepmind還製作了在線互動棋譜，還原每一步行棋，並在右側配上專業解說來分析。
對話DeepMind創始人:AlphaGo 的下一步是什麼?

圍棋只不過是一個開始，AlphaGo 的開發公司 DeepMind 在遊戲、醫療、機器人以及手機方面都有規劃。The Verge 非常迅速地採訪到了 DeepMind 的創始人Demis Hassabis，他說自己也被 AlphaGo 咄咄逼人又膽大包天的下法驚呆了！在後面的採訪中，Demis Hassabis 透露了 DeepMind 的下一步。
AlphaGo教學工具上線!人人可用,柯潔稱要重新學圍棋

△ 黃士傑博士的朋友圈也就是說，曾經擊敗過世界頂級圍棋選手李世石和柯潔的AlphaGo重出江湖，化身圍棋老師，開始教人類下圍棋了。△ 原來這裡還可以飛項目地址：（樊麾溫馨提示：打開時請耐心等待幾秒）https://alphagoteach.deepmind.com
DeepMind創始人:AlphaGo破解圍棋3000年奧義,超越人類認知極限

在這裡我解釋一下增強學習，我相信很多人都了解這個算法。首先，想像一下有一個主體，在AI領域我們稱我們的人工智慧系統為主體，它需要了解自己所處的環境，並盡力找出自己要達到的目的。通過把這兩個神經網絡結合起來（決策網絡和價值網絡），我們可以大致預估出當前的情況。這兩個神經網絡樹，通過蒙特卡洛算法，把這種本來不能解決的問題，變得可以解決。我們網羅了大部分的圍棋下法，然後和歐洲的圍棋冠軍比賽，結果是阿爾法狗贏了，那是我們的第一次突破，而且相關算法還被發表在《自然》科學雜誌。
一些常用的圍棋網站/APP/公眾號

上海圍棋協會官方網站上海棋童必收藏中國圍棋協會http://cwa.imsa.cn/中國圍棋協會官網網站AlphaGO教學https://alphagoteach.deepmind.com/zh-hans阿爾法狗布局檢索工具
AlphaGo Zero用40天成為世界最強圍棋AI

ZM-GO | 周末圍棋弈路伴你點名關注
不只是AlphaGo,谷歌DeepMind到底是何方神聖?

2016年，在創造了擊敗圍棋世界冠軍李世石的AlphaGo之後，DeepMind開始被許多人認可。此外，他們還開發了另一個名為AlphaZero的程序，該程序在西洋棋、將棋和圍棋方面下的表現出色。DeepMind獲得了相當大的資金支持，斯科特·巴尼斯特和伊隆·馬斯克這樣的人也開始加入了進來。
AlphaGo後再出神作!DeepMind打造AlphaFold擊敗人類,精度碾壓人類專家!

來源：DeepMind等編輯：大明【新智元導讀】繼AlphaGo在圍棋上碾壓人類後
DeepMind第四代:不學規則就能下棋玩遊戲

谷歌稱 MuZero 可以未知環境中計劃獲勝策略，無需學習規則，便能掌握 Go（圍棋）, chess（西洋棋）, shogi（日本將棋）和 Atari（電子遊戲）。這和 MuZero 的前幾代——AlphaGo，AlphaGo Zero，AlphaZero 有很大的區別。
圍棋界如何看待AlphaGo的智慧?

每次去中國棋院採訪圍棋世界冠軍，我都會和男子圍棋隊主教練俞斌談到人機對弈的話題，每次，他都會毫不猶豫地說：計算機沒可能贏。神情裡滿是圍棋人的自負和驕傲。甚至在李世石挑戰Alphago比賽開始前兩個月，我採訪他時，問到同樣的問題，這個從上世紀八十年代就利用業餘時間學會編程，研發過圍棋遊戲軟體，甚至和微軟中國的程式設計師一起研究過圍棋培訓軟體的職業9段還表示，有生之年是看不到圍棋這個項目被機器人攻陷。俞斌不止是俞斌，幾乎所有職業圍棋手們都持有同樣的看法。
再創新高:DeepMind一年燒掉6.5億美元,谷歌卻揮手免除15億債務

機器之心報導編輯：魔王、小舟6.49 億，DeepMind 去年的虧損再創新高，甚至比當年穀歌買下它花的錢還多。但與屢被轉賣的波士頓動力命運不同，谷歌對它的態度是：要多少給多少。
DeepMind攜手暴雪發戰帖:周五直播AI打星際II,發布研究新進展

大數據文摘出品作者：魏子敏、蔣寶尚半年前，OpenAI Five在Ti8賽事中與人類職業選手大戰DOTA的盛況還歷歷在目，年前，DeepMind AI也要在遊戲界搞大事情了。Twitchhttps://www.twitch.tv/starcraftYouTube：https://www.youtube.com/c/deepmind暴雪在最近的BlizzCon上，總結了自己2018年的工作，並相當低調地發布了「與DeepMind合作正在繼續」的更新：
張曉茵:我為什麼支持AlphaGo

【我為什麼支持AlphaGo】(張曉茵除夕有感)首先，看到GoogleDeepMind的計算機圍棋人工智慧AlphaGo戰勝樊麾二段的消息，的確有些意外，當然，也有一些恐懼。再來，看了各方圍棋界大量的在討論這則新聞，非常精彩！第一時間，我腦中立刻浮現出一個人：AjaHuang黃士傑。2007年我就讀臺灣師範大學研究所期間，召集師大對圍棋有興趣的學弟妹來創辦圍棋社，當時聯繫到了就讀資訊工程研究所的Aja學長，他是業餘6段，也是唯一一位在圍棋社年紀比我大的學長，他很熱心地來指導學弟妹，有關於圍棋AI的知識都是那時聽他說的。
重磅 DeepMind官方確認Master身份:全面回顧AlphaGo的再度出山之旅

，都是『圍棋上帝』派來給人類引路的。隨後在日本棋院 Journalist Club 的頒獎儀式上，Hassabis 曾表示：「2017 年對 AlphaGo 和圍棋界都將是充滿興奮的一年。」人們沒有意識到，在新的一年還未到來時，人工智慧對於這項流傳千年的古老技藝的衝擊已經開始。
AI圍棋已經天下第一,又開始進軍麻將界,機器人能行嗎

不過在如今非常發達的21世紀裡，無論是哪一種棋都只有一個高手，那就是機器人，似乎沒有任何人能夠贏過機器人。圍棋天下第一的AI，最近又來到了麻將界在前幾年穀歌研發的aI機器人轟轟烈烈的跟人類圍棋界的高手進行了多場對戰，從西歐的圍棋第一人殺到中國的圍棋精英李世石，再從李世石殺到中國的圍棋少年天才柯潔，然而無論是哪一場對戰，圍棋AI都贏得非常輕鬆，甚至可以說是毫無懸念。
DeepMind 推出 AlphaGo 圍棋教學工具,圍棋學習新紀元來了?(附中英文版下載地址)

從官網上可以看到，該工具通過利用 231000 盤人類棋手對局、75 盤 AlphaGo 與人類棋手對局的數據，能對圍棋近代史上 6000 種比較常見的開局給出分析。通過這個工具，大家可以探索圍棋奧妙，比較 AlphaGo 的下棋路數與專業選手、業餘選手的不同點，從中學習。
AI成為圍棋霸主之後,又開始進軍麻將界,機器人能行嗎

不過在如今非常發達的21世紀裡，無論是哪一種棋都只有一個高手，那就是機器人，似乎沒有任何人能夠贏過機器人。圍棋天下第一的AI，最近又來到了麻將界在前幾年穀歌研發的aI機器人轟轟烈烈的跟人類圍棋界的高手進行了多場對戰，從西歐的圍棋第一人殺到中國的圍棋精英李世石，再從李世石殺到中國的圍棋少年天才柯潔，然而無論是哪一場對戰，圍棋AI都贏得非常輕鬆，甚至可以說是毫無懸念。

AlphaGo在圍棋界「孤獨求敗」,Deepmind再出新一代機器人 | 前沿

相關焦點

無需人類知識,DeepMind新一代圍棋程序AlphaGo Zero再次登上Nature

從AlphaGo到蛋白質摺疊,Deepmind在不斷捅破AI領域的天花板!

alphago 50盤自戰棋譜的簡單解讀

重磅 圍棋之美-DeepMind發布AlphaGo視角對弈原始棋譜[附下載]

對話DeepMind創始人:AlphaGo 的下一步是什麼?

AlphaGo教學工具上線!人人可用,柯潔稱要重新學圍棋

DeepMind創始人:AlphaGo破解圍棋3000年奧義,超越人類認知極限

一些常用的圍棋網站/APP/公眾號

AlphaGo Zero用40天成為世界最強圍棋AI

不只是AlphaGo,谷歌DeepMind到底是何方神聖?

AlphaGo後再出神作!DeepMind打造AlphaFold擊敗人類,精度碾壓人類專家!

DeepMind第四代:不學規則就能下棋玩遊戲

圍棋界如何看待AlphaGo的智慧?

再創新高:DeepMind一年燒掉6.5億美元,谷歌卻揮手免除15億債務

DeepMind攜手暴雪發戰帖:周五直播AI打星際II,發布研究新進展

張曉茵:我為什麼支持AlphaGo

重磅 DeepMind官方確認Master身份:全面回顧AlphaGo的再度出山之旅

AI圍棋已經天下第一,又開始進軍麻將界,機器人能行嗎

DeepMind 推出 AlphaGo 圍棋教學工具,圍棋學習新紀元來了?(附中英文版下載地址)

AI成為圍棋霸主之後,又開始進軍麻將界,機器人能行嗎

重磅圍棋之美-DeepMind發布AlphaGo視角對弈原始棋譜[附下載]