從零開始下圍棋 AlphaGo Zero更加強大

2020-12-05 手機之家

美國時間10月18日,《自然》雜誌在官網刊登了一篇名為《Mastering the game of Go without human knowledge》的論文。該文章(點我查看PDF)詳細介紹了DeepMind公司旗下人工智慧算法AlphaGo Zero的特點。

AlphaGo Zero最厲害的地方在於,它不需要人類專家的指導,就能通過自我強化學習來進行訓練。直白一點地說,之前打敗圍棋大師李世石的AlphaGo可能需要人類給它提供各種高手棋譜來進行訓練,而Zero就是一個完全的小白,人類也不用教它什麼,只需要告訴它規則,它就能完全通過自學的方法來掌握圍棋。

和前代版本相比,Zero在效率上有著明顯的提升,現在僅需要4塊TPU(由谷歌構建的專門的AI處理器)和72個小時的訓練,就能勝過之前幾個月訓練時間的AlphaGo。

根據DeepMind聯合創始人Demis Hassabis介紹,AlphaGo Zero的出現意味著,現在他們可以向社會提供類似於科學研究的人工智慧引擎。通過擺脫對人類的依賴,這樣的算法使得人工智慧在其他科學領域上的應用成為可能。

相關焦點

  • 【話題】AlphaGo Zero!圍棋之神真來了……
    阿爾法元完全從零開始,不需要任何歷史棋譜的指引,更不需要參考人類任何的先驗知識,完全靠自己強化學習和參悟, 棋藝增長遠超阿爾法狗,百戰百勝,擊潰阿法爾狗100比0。美國的兩位棋手在《自然》雜誌對阿爾法元的棋局做了點評:它的開局和收關與職業棋手的下法並無區別,這說明,人類在圍棋上幾千年的智慧結晶,看起來並非全錯,阿爾法元的中盤看起來則非常詭異,著法比阿爾法狗左右互搏時使出的怪招更加不可思議。按照時越九段的話說就是,來自未來的著法。
  • AlphaGo Zero用40天成為世界最強圍棋AI
    棋士柯潔:一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了從亂下開始,1天達到V18(超越人類棋手水平),21天達到Master,40天碾壓Master。 less is more。 2017年起,在某些領域,AI不再需要人類知識。
  • 從零開始,AlphaGo Zero是怎樣探索圍棋極限的?其進步意義在哪?
    新版的AlphaGo計算能力空前強大,完全從零開始,不需要任何歷史棋譜的指引,3天超越AlphaGo李世石版本,21天達到Master水平。百戰百勝,棋藝增長遠超阿法狗, 擊潰阿爾法狗100-0。這是迄今最強大的圍棋程序:不需要參考人類任何的先驗知識,完全靠自己一個人強化學習(reinforcement learning)和參悟,直接採用自對弈進行訓練。
  • 棋壇至尊AlphaGo Zero,不止震驚了圍棋界
    這款新程序名叫AlphaGo Zero,以100比0的戰績打敗了它的前任AlphaGo V18(在2016年3月的錦標賽中,其前任打敗了圍棋冠軍Lee Sedol)。 人工智慧的最大挑戰是研發一種能從零開始、以超人類的水平學習複雜概念的算法。
  • DeepMind 推出 AlphaGo 圍棋教學工具,圍棋學習新紀元來啦?
    雷鋒網 AI 科技評論消息,北京時間 12 月 11 日晚,DeepMind 在 twitter 上宣布推出圍棋教學工具 AlphaGo Teach。上圖中,標有白圈的黑子表示上一手,虛線圓圈表示 AlphaGo 下一步可能的走法,實線圓圈表示人類選手下一步可能的走法,圓圈中的數字表示 AlphaGo 評估的黑子勝率。
  • AlphaGo 圍棋教學工具已發布
    在Deepmind所謂的「教學工具」發布之前,小編曾在腦海出現萬千猜想……但今天揭底才知道,原來只是一個平平淡淡的網頁……(建議複製到電腦上打開,因為據有的棋友反映手機打不開,小編這裡實測手機能打開,只是讀取了較長時間)https://alphagoteach.deepmind.com
  • AlphaGo Zero橫空出世,從零學習造恐怖記錄【附83盤棋譜】
    10月19日凌晨,在國際學術期刊Nature上發表的一篇研究論文中,谷歌下屬公司Deepmind報告新版程序AlphaGo Zero:從空白狀態學起,在無任何人類輸入的條件下,
  • 棋跡:少年AlphaGo Zero的圍棋成長之路
    令我們驚喜的是,人類終於開始擺脫對已有知識的依賴,給AI一次從新生兒逐步自我成長的機會,正如DeepMind發布的AlphaGo論文中提到的一樣:starting tabula rasa,從一張白紙開始成長。此次創造出來的,是一個從零開始訓練的神經網絡,以及簡單用MCTS算法行棋的AlphaGo Zero。
  • zero 絕藝解說alphago - CSDN
    「所以它是從最基礎的水平起步,從零開始,從隨機招式開始,但在學習過程中的每一步,它的對手都會正好被校準為匹配器當前水平,一開始,這些對手都非常弱,但是之後漸漸變得越來越強大。」  這種學習方式正是當今人工智慧最熱門的研究領域之一——強化學習(Reinforcement learning)。
  • AlphaGo Zero你也來造一隻,PyTorch實現五臟俱全| 附代碼
    而且,它不需要用人類知識來餵養,成為頂尖棋手全靠自學。在模擬器裡,模擬對方的下一手,以及再下一手,給出應對之策,所以提前的遠不止是一步。所有被禁的落子點,概率會變成零,然後重新把總概率歸為1。然後,這個葉節點就會生出枝節 (都是可以落子的位置,概率不為零的那些) 。
  • 阿爾法狗zero是否將宣告圍棋的終結
    自從2016年阿爾法狗擊敗了韓國圍棋高手李世石,繼而又在2017年擊敗了世界排名第一的柯潔,人工智慧就已經開始威脅到了圍棋的生存,以及所有人類的古老智力遊戲的生存。無論是圍棋還是象棋,現在都要面對一個根本的問題,為什麼還要下圍棋和象棋,因為最終還是要輸。
  • 新版「阿爾法圍棋」從零開始40天稱王
    圖/視覺中國不依靠人類圍棋知識;「從零開始」自學圍棋,僅3天就擊敗前輩版本據新華社電 人工智慧「阿爾法圍棋」在幾次世界矚目的人機大戰後站在圍棋之巔,又以一種新的方式超越了自己:新版本「從零開始」學習圍棋,僅用3天就擊敗前輩版本,40天成為新的王者。
  • 自學圍棋的AlphaGo Zero,你也能用PyTorch造一個 | 附代碼實現
    從一隻完全不懂圍棋的AI,到打敗Master,狗零隻用了21天。而且,它不需要用人類知識來餵養,成為頂尖棋手全靠自學。如果能培育這樣一隻AI,即便自己不會下棋,也可以很驕傲吧。特徵提取器特徵提取模型,是個殘差網絡 (ResNet) ,就是給普通CNN加上了跳層連接 (Skip Connection) , 讓梯度的傳播更加通暢。
  • 柯潔回應新版本AlphaGo問世:人類太多餘了
    對此,柯潔回應稱:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」哈薩比斯與學習大量人類棋譜起步的前代AlphaGo不同,AlphaGo Zero是從「嬰兒般的白紙」開始,通過3天數百萬盤自我對弈,走完了人類千年的圍棋歷史,並探索出了不少橫空出世的招法。
  • 谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了
    谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了(圖片來自於推特)在這款軟體發出之後,柯潔也對這款軟體發表了自己的看法,他認為:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」之所以柯潔會這樣說,主要是因為AlphaGo Zero的練習主要是通過自我對弈在三十天之內發展起來的。
  • AlphaGo Zero問世 柯潔說人類多餘了
    就在今天,谷歌旗下的創業公司DeepMind又發布了最新產品AlphaGo Zero。沒錯,就是之前接連打敗圍棋世界冠軍,李世石九段和柯潔九段的那個阿爾法狗的終極版。阿爾法狗項目首席研究員大衛·席爾瓦(不是在曼聯踢球的那位)說,AlphaGo Zero是目前世界上最強大的圍棋程序,超越以往所有阿爾法狗的舊版本。
  • 能贏AlphaGo的只有它自己 柯潔回應新版問世:人類太多餘了
    對此,柯潔回應稱:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」2016 年在 AlphaGo 和李世石的對戰後,人工智慧進入大眾的視野,今年5月27日,中國棋手柯潔與人工智慧「阿爾法圍棋」(AlphaGo)展開三番棋比賽的終局對決。
  • AlphaGo是如何學會下圍棋的
    在10月倫敦舉辦的這場人機比賽上,DeepMind的系統----一個更廣為人知的名字「AlphaGo」,在與歐洲圍棋冠軍樊麾的對弈中發揮出色,五局比賽未嘗一敗。比賽結果在《自然》雜誌的編輯和英國圍棋聯盟代表的監督和見證下產生,事後《自然》雜誌的編輯評價:這是我職業生涯中最激動人心的時刻之一,無論是作為一名學者還是作為一名編輯。
  • 微信團隊開源圍棋AI技術PhoenixGo,復現AlphaGo Zero論文
    本文介紹了騰訊微信翻譯團隊開源的人工智慧圍棋項目 PhoenixGo,該項目是對 DeepMindAlphaGo Zero論文《Mastering the game of Go without human knowledge》的實現。
  • 孫劍解讀AlphaGo Zero:圍棋有了終極的解
    因為圍棋和打麻將或者德州撲克不一樣,在圍棋規則內所有信號全部是靠觀測的,像打麻將或者博弈的遊戲,對手是不能觀測的,這也是不一樣的一點。比如說增強學習可以用來研究新藥品,新藥品很多內部的結構需要通過搜索,搜索完以後製成藥,再到真正怎麼去檢驗這個藥有效,這個閉環非常代價昂貴,非常慢,你很難像下圍棋這麼簡單做出來。