AlphaGo在圍棋界「孤獨求敗」,Deepmind再出新一代機器人 | 前沿

2021-02-07 知識分子

►圖片來自DeepMind

撰文 | 李家勁(加州大學洛杉磯分校)

責編 | 葉水送

● ● ●

AlphaGo又「進化」了!新一代機器人AlphaGo Zero誕生,在圍棋領域,它會不會感到孤獨?

本周,Nature雜誌報導了英國DeepMind團隊的最新進展:他們開發出了新一代的圍棋AI——AlphaGo Zero。AlphaGo Zero使用強化學習技術(Reinforcement Learning),大幅提升了棋力。它現在能夠以更少的計算資源,輕鬆擊敗曾經戰勝世界冠軍李世石、柯潔的AlphaGo前代版本。


► David Silver教授講述AlphaGo Zero的基本原理,視頻來自DeepMind

AlphaGo Zero與之前版本最大的區別在於,AlphaGo Zero從隨機對局開始,通過自我對弈來提升自己的棋藝,從不依靠任何人類的監督或對局數據。而在以往版本中,AlphaGo都是使用業餘和專業人類棋手的對局數據來訓練自己。雖然使用人類棋手的數據可以讓AI學習到人類的圍棋技巧,但是人類專家的數據通常難以獲得且很昂貴。此外,即使是專業棋手,也難免會有失誤,而使用錯誤的訓練數據可能會降低AlphaGo的棋力。況且,僅僅使用人類數據會讓AI局限於人類的圍棋知識。

►AlphaGo Zero的自我強化學習,圖片來自Nature

更重要的是,AlphaGo在圍棋界已是「獨孤求敗」的境界,所以,要突破自己的界限,甚至圍棋知識的界限,顯然只有AlphaGo自己才能做自己的老師。

從算法上來說,AlphaGo Zero更簡潔、漂亮,讓我想起愛因斯坦的KISS原則:simple but not simpler。這一次,AI在人類的幫助下,在一個給定的規則下,自主發現新知識,並且糾正人類的錯誤知識,而且以驚人的速度達到這一點。有趣的是,AlphaGo無法解釋,只能demo給人類。在這個特定的小領域,人類和人工智慧一起創造了新知識。

張崢(上海紐約大學終身教授、國家千人計劃特聘專家)

經過幾百萬盤的自我博弈後,AlphaGo Zero進步明顯,不僅棋力大幅增強,運算速度也提升了不少。在100盤對局中,僅使用1臺機器、4個TPU的AlphaGo Zero對使用多臺機器、48個TPU的AlphaGo Lee取得全勝,後者曾經擊敗韓國名將李世石。在同樣配置下,AlphaGo Zero對AlphaGo Master取得89勝11負的壓倒性優勢,後者就是2017年1月在頂級圍棋在線對戰平臺上取得60戰60勝的神秘選手Master。而且,AlphaGo Zero訓練了72小時就完勝AlphaGo Lee,僅用40天就超越了AlphaGo Master。這主要得益於DeepMind團隊開發的新型強化學習技術。

何為強化學習技術?簡單來講,強化學習使用一套獎勵機制,讓AI從中學習到能夠獲得最大回報的策略。AlphaGo Zero的強化學習主要包含兩個部分,蒙特卡洛樹搜索算法(Monte Carlo Tree Search,MCTS)與神經網絡算法。其中,神經網絡算法給出落子方案,以及預測當前形勢下的勝方;MCTS算法可以看成是一個弈棋策略的評價和改進工具,它能夠模擬出AlphaGo Zero落子在哪些地方可以獲得更高的勝率。如果AlphaGo Zero從神經網絡得出的下一手棋的走法越相似於MCTS算法輸出的結果,則勝率越大,即所謂回報越高。如此,在每一著棋中,AlphaGo Zero都要優化神經網絡中的參數,使其計算出的落子方案更接近MCTS算法的結果,同時儘量減少勝者預測的偏差。開始的時候,AlphaGo Zero的神經網絡完全不了解圍棋,只好盲目下棋。但經過日以繼夜的「左右互搏」般的訓練,無數盤對局後,AlphaGo Zero迅速從圍棋小白成長為傳奇棋神。

除了改進人工智慧技術外,DeepMind團隊也希望能夠通過AlphaGo項目獲得對圍棋更深的認識。他們發現,AlphaGo Zero僅僅自我對弈幾十天就掌握了人類幾百年來研究出來的圍棋技術,而且棋路獨特。例如,AlphaGo Zero很喜歡下出定石(圍棋術語)的新型變種。這是因為它沒有使用人類數據,不再囿於人類現有的圍棋理論。

「當前的最強版本,AlphaGo Zero向我們展示了即使不用人類的數據,即使使用更少的計算資源,也能夠取得長足進步。最終我們想用這些技術進展去解決現實問題,如蛋白質摺疊或者新材料設計。如果我們能夠在這些問題上取得同樣進展,這將會增進人類的認知,從而改善每個人的生活。」

DeepMind的共同創辦者兼CEO,Demis Hassabis如是說。

參考資料

Silver D. Mastering the game of Go without human knowledge. Nature. doi:10.1038/nature24270.

製版編輯: 常春藤|

▼▼▼點擊「閱讀原文」,了解課程詳情,立享限時特惠!

相關焦點

  • 無需人類知識,DeepMind新一代圍棋程序AlphaGo Zero再次登上Nature
    昨天,DeepMind 在《自然》雜誌上發表了一篇論文,正式推出 AlphaGo Zero——人工智慧圍棋程序的最新版本。據稱,這一版本的 AlphaGo 無需任何人類知識標註,在歷時三天,數百萬盤的自我對抗之後,它可以輕鬆地以 100 比 0 的成績擊敗李世乭版本的AlphaGo。
  • 從AlphaGo到蛋白質摺疊,Deepmind在不斷捅破AI領域的天花板!
    有別於功能應用越來越細分的AI,AGI可簡單理解為我們在各種大片中看到的機器人,具備與人類相近的大腦獨立思考能力的人工智慧。Deepmind最初由三名科學家聯合創辦,就像其創始人兼CEO哈薩比斯(Demis Hassabis)所說的,它的性質更像一個科技研究院而不是創業公司,因為公司一開始並沒有任何產品,而是一直在通過遊戲來研究人工智慧算法。
  • alphago 50盤自戰棋譜的簡單解讀
    烏鎮 alphago與柯潔,及其他國手對弈結束後,deepmind官方表示要送給棋界一個禮物,也就是50盤 alphago自我對弈的棋譜。
  • 重磅 圍棋之美-DeepMind發布AlphaGo視角對弈原始棋譜[附下載]
    Deepmind官網10個小時之前發布了這場棋局【AlphaGo】視角的原始棋譜重現,以AlphaGo的視角,更進一步還原了整場棋局的變化。此外,Deepmind還製作了在線互動棋譜,還原每一步行棋,並在右側配上專業解說來分析。
  • 對話DeepMind創始人:AlphaGo 的下一步是什麼?
    圍棋只不過是一個開始,AlphaGo 的開發公司 DeepMind 在遊戲、醫療、機器人以及手機方面都有規劃。The Verge 非常迅速地採訪到了 DeepMind 的創始人Demis Hassabis,他說自己也被 AlphaGo 咄咄逼人又膽大包天的下法驚呆了!在後面的採訪中,Demis Hassabis 透露了 DeepMind 的下一步。
  • AlphaGo教學工具上線!人人可用,柯潔稱要重新學圍棋
    △ 黃士傑博士的朋友圈也就是說,曾經擊敗過世界頂級圍棋選手李世石和柯潔的AlphaGo重出江湖,化身圍棋老師,開始教人類下圍棋了。△ 原來這裡還可以飛項目地址:(樊麾溫馨提示:打開時請耐心等待幾秒)https://alphagoteach.deepmind.com
  • DeepMind創始人:AlphaGo破解圍棋3000年奧義,超越人類認知極限
    在這裡我解釋一下增強學習,我相信很多人都了解這個算法。首先,想像一下有一個主體,在AI領域我們稱我們的人工智慧系統為主體,它需要了解自己所處的環境,並盡力找出自己要達到的目的。通過把這兩個神經網絡結合起來(決策網絡和價值網絡),我們可以大致預估出當前的情況。這兩個神經網絡樹,通過蒙特卡洛算法,把這種本來不能解決的問題,變得可以解決。我們網羅了大部分的圍棋下法,然後和歐洲的圍棋冠軍比賽,結果是阿爾法狗贏了,那是我們的第一次突破,而且相關算法還被發表在《自然》科學雜誌。
  • 一些常用的圍棋網站/APP/公眾號
    上海圍棋協會官方網站上海棋童必收藏中國圍棋協會http://cwa.imsa.cn/中國圍棋協會官網網站AlphaGO教學https://alphagoteach.deepmind.com/zh-hans阿爾法狗布局檢索工具
  • AlphaGo Zero用40天成為世界最強圍棋AI
    ZM-GO  | 周末圍棋 弈路伴你 點名關注
  • 不只是AlphaGo,谷歌DeepMind到底是何方神聖?
    2016年,在創造了擊敗圍棋世界冠軍李世石的AlphaGo之後,DeepMind開始被許多人認可。此外,他們還開發了另一個名為AlphaZero的程序,該程序在西洋棋、將棋和圍棋方面下的表現出色。DeepMind獲得了相當大的資金支持,斯科特·巴尼斯特和伊隆·馬斯克這樣的人也開始加入了進來。
  • AlphaGo後再出神作!DeepMind打造AlphaFold擊敗人類,精度碾壓人類專家!
    來源:DeepMind等編輯:大明【新智元導讀】繼AlphaGo在圍棋上碾壓人類後
  • DeepMind第四代:不學規則就能下棋玩遊戲
    谷歌稱 MuZero 可以未知環境中計劃獲勝策略,無需學習規則,便能掌握 Go(圍棋), chess(西洋棋), shogi(日本將棋)和 Atari(電子遊戲)。這和 MuZero 的前幾代——AlphaGo,AlphaGo Zero,AlphaZero 有很大的區別。
  • 圍棋界如何看待AlphaGo的智慧?
    每次去中國棋院採訪圍棋世界冠軍,我都會和男子圍棋隊主教練俞斌談到人機對弈的話題,每次,他都會毫不猶豫地說:計算機沒可能贏。神情裡滿是圍棋人的自負和驕傲。甚至在李世石挑戰Alphago比賽開始前兩個月,我採訪他時,問到同樣的問題,這個從上世紀八十年代就利用業餘時間學會編程,研發過圍棋遊戲軟體,甚至和微軟中國的程式設計師一起研究過圍棋培訓軟體的職業9段還表示,有生之年是看不到圍棋這個項目被機器人攻陷。俞斌不止是俞斌,幾乎所有職業圍棋手們都持有同樣的看法。
  • 再創新高:DeepMind一年燒掉6.5億美元,谷歌卻揮手免除15億債務
    機器之心報導編輯:魔王、小舟6.49 億,DeepMind 去年的虧損再創新高,甚至比當年穀歌買下它花的錢還多。但與屢被轉賣的波士頓動力命運不同,谷歌對它的態度是:要多少給多少。
  • DeepMind攜手暴雪發戰帖:周五直播AI打星際II,發布研究新進展
    大數據文摘出品作者:魏子敏、蔣寶尚半年前,OpenAI Five在Ti8賽事中與人類職業選手大戰DOTA的盛況還歷歷在目,年前,DeepMind AI也要在遊戲界搞大事情了。Twitchhttps://www.twitch.tv/starcraftYouTube:https://www.youtube.com/c/deepmind暴雪在最近的BlizzCon上,總結了自己2018年的工作,並相當低調地發布了「與DeepMind合作正在繼續 」的更新:
  • 張曉茵:我為什麼支持AlphaGo
    【我為什麼支持AlphaGo】(張曉茵 除夕有感)首先,看到GoogleDeepMind的計算機圍棋人工智慧AlphaGo戰勝樊麾二段的消息,的確有些意外,當然,也有一些恐懼。再來,看了各方圍棋界大量的在討論這則新聞,非常精彩!第一時間,我腦中立刻浮現出一個人:AjaHuang黃士傑。2007年我就讀臺灣師範大學研究所期間,召集師大對圍棋有興趣的學弟妹來創辦圍棋社,當時聯繫到了就讀資訊工程研究所的Aja學長,他是業餘6段,也是唯一一位在圍棋社年紀比我大的學長,他很熱心地來指導學弟妹,有關於圍棋AI的知識都是那時聽他說的。
  • 重磅 DeepMind官方確認Master身份:全面回顧AlphaGo的再度出山之旅
    ,都是『圍棋上帝』派來給人類引路的。隨後在日本棋院 Journalist Club 的頒獎儀式上,Hassabis 曾表示:「2017 年對 AlphaGo 和圍棋界都將是充滿興奮的一年。」人們沒有意識到,在新的一年還未到來時,人工智慧對於這項流傳千年的古老技藝的衝擊已經開始。
  • AI圍棋已經天下第一,又開始進軍麻將界,機器人能行嗎
    不過在如今非常發達的21世紀裡,無論是哪一種棋都只有一個高手,那就是機器人,似乎沒有任何人能夠贏過機器人。圍棋天下第一的AI,最近又來到了麻將界在前幾年穀歌研發的aI機器人轟轟烈烈的跟人類圍棋界的高手進行了多場對戰,從西歐的圍棋第一人殺到中國的圍棋精英李世石,再從李世石殺到中國的圍棋少年天才柯潔,然而無論是哪一場對戰,圍棋AI都贏得非常輕鬆,甚至可以說是毫無懸念。
  • DeepMind 推出 AlphaGo 圍棋教學工具,圍棋學習新紀元來了?(附中英文版下載地址)
    從官網上可以看到,該工具通過利用 231000 盤人類棋手對局、75 盤 AlphaGo 與人類棋手對局的數據,能對圍棋近代史上 6000 種比較常見的開局給出分析。通過這個工具,大家可以探索圍棋奧妙,比較 AlphaGo 的下棋路數與專業選手、業餘選手的不同點,從中學習。
  • AI成為圍棋霸主之後,又開始進軍麻將界,機器人能行嗎
    不過在如今非常發達的21世紀裡,無論是哪一種棋都只有一個高手,那就是機器人,似乎沒有任何人能夠贏過機器人。圍棋天下第一的AI,最近又來到了麻將界在前幾年穀歌研發的aI機器人轟轟烈烈的跟人類圍棋界的高手進行了多場對戰,從西歐的圍棋第一人殺到中國的圍棋精英李世石,再從李世石殺到中國的圍棋少年天才柯潔,然而無論是哪一場對戰,圍棋AI都贏得非常輕鬆,甚至可以說是毫無懸念。