ALphaGo進化,新一代ALphaGo Zero誕生!

2020-11-28 太平洋電腦網

據外媒報導,英國DeepMind團隊的 人工智慧 研究取得了新進展:他們開發出了新一代的圍棋AI-ALphaGo Zero。使用了強化學習技術的ALphaGo Zero,棋力大幅度增長,可輕鬆擊敗曾經戰勝柯潔、李世石的ALphaGo。

戰勝柯潔之後,ALphaGo可以說在圍棋界裡已是「獨孤求敗」的境界了,幾乎沒有人類是它的對手。但是這並不代表ALphaGo就已經對圍棋領域的認知達到了頂峰。因此,ALphaGo想要再上一層樓追求圍棋知識的上限,顯然只有它自己能成為自己的老師。

而在過去,AlphaGo都是使用業餘和專業人類棋手的對局數據來進行訓練。雖然使用人類棋手的數據可以讓ALphaGo學習到人類的圍棋技巧,但是人類專家的數據通常難以獲得且很昂貴,加上人類並不是機器,難免會出現失誤情況,失誤產生的數據則可能降低ALphaGo的棋力。因此,ALphaGo Zero採用了強化學習技術,從隨即對局開始,不依靠任何人類專家的對局數據或者人工監管,而是讓其通過自我對弈來提升棋藝。

那麼到底什麼是強化學習技術呢?簡單地說,強化學習就是讓AI從中學習到能夠獲得最大回報的策略。AlphaGo Zero的強化學習主要包含兩個部分,蒙特卡洛樹搜索算法與神經網絡算法。在這兩種算法中,神經網絡算法可根據當前棋面形勢給出落子方案,以及預測當前形勢下哪一方的贏面較大;蒙特卡洛樹搜索算法則可以看成是一個對於當前落子步法的評價和改進工具,它能夠模擬出AlphaGo Zero將棋子落在哪些地方可以獲得更高的勝率。假如AlphaGoZero的神經網絡算法計算出的落子方案與蒙特卡洛樹搜索算法輸出的結果越接近,則勝率越大,即回報越高。因此,每落一顆子,AlphaGo Zero都要優化神經網絡算法中的參數,使其計算出的落子方案更接近蒙特卡洛樹搜索算法的結果,同時儘量減少勝者預測的偏差。

AlphaGo Zero的自我強化學習,圖片源自Nature

剛開始,AlphaGoZero的神經網絡完全不懂圍棋,只能盲目落子。但經歷無數盤「左右互搏」般的對局後,AlphaGo Zero終於從從圍棋菜鳥成長為了棋神般的存在。

DeepMind團隊表示,他們發現AlphaGo Zero自我對弈僅幾十天,就掌握了人類幾百年來來研究出來的圍棋技術。由於整個對弈過程沒有採用人類的數據,因此ALphaGo Zero的棋路獨特,不再拘泥於人類現有的圍棋理論,

DeepMind團隊還表示,這個項目不僅僅是為了獲得對圍棋更深的認識,AlphaGoZero向人們展示了即使不用人類的數據,人工智慧也能夠取得進步。最終這些技術進展應該被用於解決現實問題,如蛋白質摺疊或者新材料設計。這將會增進人類的認知,從而改善每個人的生活。

相關焦點

  • 谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了
    谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了(圖片來自於推特)在這款軟體發出之後,柯潔也對這款軟體發表了自己的看法,他認為:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」之所以柯潔會這樣說,主要是因為AlphaGo Zero的練習主要是通過自我對弈在三十天之內發展起來的。
  • AlphaGo Zero用40天成為世界最強圍棋AI
    棋士柯潔:一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了
  • AlphaGo 圍棋教學工具已發布
    在Deepmind所謂的「教學工具」發布之前,小編曾在腦海出現萬千猜想……但今天揭底才知道,原來只是一個平平淡淡的網頁……(建議複製到電腦上打開,因為據有的棋友反映手機打不開,小編這裡實測手機能打開,只是讀取了較長時間)https://alphagoteach.deepmind.com
  • 柯潔終結AI「符合預期」41連勝:若當初第一個與alphago對弈的是我
    【文/觀察者網 周遠方】昨夜,「半狗」柯潔贏了一隻41連勝的「小狗」,輾轉難眠…… 他在今天(18日)凌晨0時23分發微博感嘆: 一個AI滿地走的時代...除了alphago以外,這個暱稱為「符合預期」的AI尤其強,實力應該已經遠超當時與李世石對弈的alphago了吧?...
  • 新版Alphago棋風更穩健
    alphago再過一萬年也不可能窮盡所有圍棋的定式。這次比賽其實不是人機大戰,而是人類使用電腦作為工具探索新的東西,就像哈勃望遠鏡讓人類發現新的領域一樣。人工智慧可以幫助專家以更快的速度解決問題。本次比賽的目的也不是alphago還是棋手贏,最終還是人類贏。祝柯潔好運。」來源:網易科技
  • 柯潔回應新版本AlphaGo問世:人類太多餘了
    對此,柯潔回應稱:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」相關閱讀:阿爾法狗之父:AlphaGo Zero 3天走完千年棋史 澎湃新聞記者 虞涵棋 王心馨倫敦當地時間10月18日18:00(北京時間19日01:00),谷歌旗下的DeepMind團隊公布了進化後的最強版AlphaGo ,代號AlphaGo Zero。新版本的AlphaGo究竟有多厲害?
  • 【話題】AlphaGo Zero!圍棋之神真來了……
    新的人工智慧誕生了,它便是阿爾法元AlphaGo Zero。
  • 能贏AlphaGo的只有它自己 柯潔回應新版問世:人類太多餘了
    對此,柯潔回應稱:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」2016 年在 AlphaGo 和李世石的對戰後,人工智慧進入大眾的視野,今年5月27日,中國棋手柯潔與人工智慧「阿爾法圍棋」(AlphaGo)展開三番棋比賽的終局對決。
  • 柯潔感嘆AlphaGo可怕:讓三子!如先捅三刀(圖)
    柯潔寫到:「早就聽說新版alphago的強大....但...讓...讓三個?我的天,這個差距有多大呢?簡單的解釋一下就是一人一手輪流下的圍棋,對手連續讓你下三步...又像武林高手對決讓你先捅三刀一樣...我到底是在和一個怎樣可怕的對手下棋...」  2016年底,神秘的Master在網上颳起一陣圍棋旋風。以60勝0敗的戰績橫掃一眾圍棋頂尖高手,其中柯潔也3次落敗。
  • 柯潔終結41連勝圍棋AI:稱其實力遠超初代AlphaGo
    消息曝光後,柯潔評價稱:「一個純淨、純粹自我學習的AlphaGo是最強的...對於alphago的自我進步來講...人類太多餘了。」今日凌晨,柯潔發微博表示,自己在網上對弈時遇到了一個名為「符合預期」的AI,對方實力十分強勁,應該已經遠超當時與李世石對弈的AlphaGo。該AI在某圍棋平臺一舉拿下41連勝,最終被自己終結。
  • 柯潔vs阿爾法狗結果:2017alphago對陣柯潔誰贏了(最新)
    柯潔vs阿爾法狗結果:2017alphago對陣柯潔誰贏了(最新)  4月10日報導,Google在中國棋院召開發布會,宣布5月23日-27日在烏鎮主辦「中國烏鎮·圍棋峰會」,去年戰勝韓國職業棋手李世石的圍棋人工智慧AlphaGo將挑戰目前世界排名第一的柯潔九段。
  • AlphaGo Zero你也來造一隻,PyTorch實現五臟俱全| 附代碼
    pending_player2122            example = {23                'state': state,24                'winner': winner,25                'move' : move26            }27            optimizer.zero_grad
  • 再進化版本AlphaGo Zero以100:0完勝
    再進化版本AlphaGo Zero以100:0完勝 如今,說起由谷歌旗下團隊DeepMind所開發的人工智慧(AI)AlphaGo,你的頭腦當中會回想起什麼呢?是它在16年3月與圍棋高手李世石的一戰成名,還是化身「Master」在30秒快棋戰當中連克數十名世界級高手,亦或是今年5月份讓柯傑連負三局進而崩潰的強橫實力?
  • 柯潔vsAlphaGo圍棋比賽日期時間
    點擊觀看》》柯潔VS阿爾法狗圍棋比賽視頻直播地址 柯潔烏鎮對戰alphago直播
  • ...再次進化,AlphaGo Zero 這次擊敗了戰勝柯潔的 AlphaGo Master
    題圖:123RF本文 碾壓圍棋界的 AlphaGo 再次進化,AlphaGo Zero 這次擊敗了戰勝柯潔的 AlphaGo Master來自動點科技.
  • DeepMind 推出 AlphaGo 圍棋教學工具,圍棋學習新紀元來啦?
    官網英文地址如下:https://alphagoteach.deepmind.com/中文地址如下:https://alphagoteach.deepmind.com/zh-hans附 David Silver 介紹 AlphaGo Master 的研發關鍵:AlphaGo Master 為何如此厲害呢?
  • 謎之Zero自戰17-序章:AlphaGo Zero自戰上演精彩粘接收後
    眾所周知,zero的自戰譜,分為20block與40block兩塊,而當40block神功大成後,即可穩勝之前人類無法撼動的Master。因此在40block20局自戰中的第17局按此推算,應當是水準頗高。
  • 打敗李世石的AlphaGo,被弟弟AlphaGo Zero打敗了,成績是0-100
    新一代的阿法元(AlphaGo Zero), 完全從零開始,不需要任何歷史棋譜的指引,更不需要參考人類任何的先驗知識,完全靠自己一個人強化學習(reinforcement learning)和參悟, 棋藝增長遠超阿法狗,百戰百勝,擊潰阿法狗100-0。達到這樣一個水準,阿法元只需要在4個TPU上,花三天時間,自己左右互搏490萬棋局。
  • AlphaGo Zero!量化投資的未來?
    「AI的自我進化,將給金融行業發展帶來新的動力。通過自我學習,自我進化,並藉助幾百年來金融行業的知識及實證經驗,以AlphaGo為代表的AI技術在金融領域將在量化投資、智能投顧等方面尋找到更多突破口。」上海量加網絡科技有限公司首席技術官向記者表示。量加獨有的白盒量化,擁有全國智能投顧App端唯一一家提供白盒可視化的回測量化選股工具。