AlphaGo Zero:將革命進行到底!

2021-01-19 待字閨中

從早上開始,就被AlphaGo Zero的消息刷屏了,DeepMind公司最新的論文顯示,最新版本的AlphaGo,完全拋棄了人類棋譜,實現了從零開始學習。
對於棋類問題來說,在蒙特卡洛樹搜索的框架下,實現從零開始學習,我一直認為是可行的,也多次與別人討論這個問題,當今年初Master推出時,就曾預測這個新系統可能實現了從零開始學習,可惜根據DeepMind後來透露的消息,Master並沒有完全拋棄人類棋譜,而是在以前系統的基礎上,通過強化學習提高系統的水平,雖然人類棋譜的作用越來越弱,但是啟動還是學習了人類棋譜,並沒有實現「冷」啟動。
根據DeepMind透露的消息,AlphaGo Zero不但拋棄了人類棋譜,實現了從零開始學習,連以前使用的人類設計的特徵也拋棄了,直接用棋盤上的黑白棋作為輸入,可以說是把人類拋棄的徹徹底底,除了圍棋規則外,不使用人類的任何數據和知識了。僅通過3天訓練,就可以戰勝和李世石下棋時的AlphaGo,而經過40天的訓練後,則可以打敗與柯潔下棋時的AlphaGo了。
真是佩服DeepMind的這種「把革命進行到底」的作風,可以說是把計算機圍棋做到了極致。
那麼AlphaGo Zero與AlphaGo(用AlphaGo表示以前的版本)都有哪些主要的差別呢?
1,在訓練中不再依靠人類棋譜。AlphaGo在訓練中,先用人類棋譜進行訓練,然後再通過自我互博的方法自我提高。而AlphaGo Zero直接就採用自我互博的方式進行學習,在蒙特卡洛樹搜索的框架下,一點點提高自己的水平。
2,不再使用人工設計的特徵作為輸入。在AlphaGo中,輸入的是經過人工設計的特徵,每個落子位置,根據該點及其周圍的棋的類型(黑棋、白棋、空白等)組成不同的輸入模式。而AlphaGo Zero則直接把棋盤上的黑白棋作為輸入。這一點得益於後邊介紹的神經網絡結構的變化,使得神經網絡層數更深,提取特徵的能力更強。
3,將策略網絡和價值網絡合二為一。在AlphaGo中,使用的策略網絡和價值網絡是分開訓練的,但是兩個網絡的大部分結構是一樣的,只是輸出不同。在AlphaGo Zero中將這兩個網絡合併為一個,從輸入到中間幾層是共用的,只是後邊幾層到輸出層是分開的。並在損失函數中同時考慮了策略和價值兩個部分。這樣訓練起來應該 會更快吧?
4,網絡結構採用殘差網絡,網絡深度更深。AlphaGo Zero在特徵提取層採用了多個殘差模塊,每個模塊包含2個卷積層,比之前用了12個卷積層的AlphaGo深度明顯增加,從而可以實現更好的特徵提取。
5,不再使用隨機模擬。在AlphaGo中,在蒙特卡洛樹搜索的過程中,要採用隨機模擬的方法計算棋局的勝率,而在AlphaGo Zero中不再使用隨機模擬的方法,完全依靠神經網絡的結果代替隨機模擬。這應該完全得益於價值網絡估值的準確性,也有效加快了搜索速度。
6,只用了4塊TPU訓練72小時就可以戰勝與李世石交手的AlphaGo。訓練40天後可以戰勝與柯潔交手的AlphaGo。
對於計算機圍棋來說,以上改進無疑是個重要的突破,但也要正確認識這些突破。比如,之所以可以實現從零開始學習,是因為棋類問題的特點所決定的,是個水到渠成的結果。因為棋類問題一個重要的特性就是可以讓機器自動判別最終結果的勝負,這樣才可以不用人類數據,自己實現產生數據,自我訓練,自我提高下棋水平。但是這種方式很難推廣到其他領域,不能認為人工智慧的數據問題就解決了。

Long-press QR code to transfer me a reward

As required by Apple's new policy, the Reward feature has been disabled on Weixin for iOS. You can still reward an Official Account by transferring money via QR code.

相關焦點

  • 谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了
    這款軟體名為AlphaGo Zero,與之前擊敗了李世石的AlphaGo Master進行對弈,勝率高達100%。谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了(圖片來自於推特)在這款軟體發出之後,柯潔也對這款軟體發表了自己的看法,他認為:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」
  • AlphaGo 圍棋教學工具已發布
    在Deepmind所謂的「教學工具」發布之前,小編曾在腦海出現萬千猜想……但今天揭底才知道,原來只是一個平平淡淡的網頁……(建議複製到電腦上打開,因為據有的棋友反映手機打不開,小編這裡實測手機能打開,只是讀取了較長時間)https://alphagoteach.deepmind.com
  • AlphaGo Zero用40天成為世界最強圍棋AI
    棋士柯潔:一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了
  • 謎之Zero自戰17-序章:AlphaGo Zero自戰上演精彩粘接收後
    眾所周知,zero的自戰譜,分為20block與40block兩塊,而當40block神功大成後,即可穩勝之前人類無法撼動的Master。因此在40block20局自戰中的第17局按此推算,應當是水準頗高。
  • AlphaGo Zero你也來造一隻,PyTorch實現五臟俱全| 附代碼
    >13    equals = np.where(action_scores == np.max(action_scores))[0]14    if equals.shape[0] > 0:15        return np.random.choice(equals)16    return equals[0]結束 (Ending)選擇在不停地進行
  • 柯潔終結AI「符合預期」41連勝:若當初第一個與alphago對弈的是我
    【文/觀察者網 周遠方】昨夜,「半狗」柯潔贏了一隻41連勝的「小狗」,輾轉難眠…… 他在今天(18日)凌晨0時23分發微博感嘆: 一個AI滿地走的時代...除了alphago以外,這個暱稱為「符合預期」的AI尤其強,實力應該已經遠超當時與李世石對弈的alphago了吧?...
  • AlphaGo Zero橫空出世,從零學習造恐怖記錄【附83盤棋譜】
    該論文稱,在數百萬局自我對弈後,隨著程序訓練的進行,AlphaGo Zero獨立發現了人類用幾千年才總結出來的圍棋規則,還建立了新的戰略,為這個古老的遊戲帶來新見解。        AlphaGo Lee是AlphaGo Zero的「前輩」。
  • 【話題】AlphaGo Zero!圍棋之神真來了……
    在對弈過程中,神經網絡不斷調整、升級,預測每一步落子和最終的勝利者。柯潔發微博:「一個純淨、純粹自我學習的alphago是最強的……對於Alphago的自我進步來講,人類太多餘了。」Alpha Go通過數百萬次自我對弈,從零開始掌握圍棋,在短短幾天內積累人類幾千年才有的知識。
  • 微信團隊開源圍棋AI技術PhoenixGo,復現AlphaGo Zero論文
    據介紹,該項目由幾名工程師在開發機器翻譯引擎之餘,基於 AlphaGo Zero 論文實現,做了若干提高訓練效率的創新,並利用微信伺服器的閒時計算資源進行自我對弈,緩解了 Zero 版本對海量資源的苛刻需求。4 月底,在 2018 世界人工智慧圍棋大賽上,PhoenixGo 取得冠軍。
  • 城市副中心增設施 勤消毒 將廁所革命進行到底
    小廁所連著大民生,今年,城市副中心對上百所公廁進行了精細化提升改造,增加無障礙設施,並下發通知要求加大運行公廁和環衛設施病毒消殺工作,提升居民如廁環境。臨河裡輕軌站公廁外形美觀、環境乾淨,每個窗臺上都放置著新鮮的綠植盆栽。
  • ALphaGo進化,新一代ALphaGo Zero誕生!
    而在過去,AlphaGo都是使用業餘和專業人類棋手的對局數據來進行訓練。雖然使用人類棋手的數據可以讓ALphaGo學習到人類的圍棋技巧,但是人類專家的數據通常難以獲得且很昂貴,加上人類並不是機器,難免會出現失誤情況,失誤產生的數據則可能降低ALphaGo的棋力。
  • 新版Alphago棋風更穩健
    柯潔身為現圍棋世界冠軍,此次也是有備而來,並宣稱用所有的熱情與Alphago進行了對決。Deepmind創始人哈薩比斯賽前曾表示:」本次比賽的宗旨是探索新的圍棋打法。alphago再過一萬年也不可能窮盡所有圍棋的定式。這次比賽其實不是人機大戰,而是人類使用電腦作為工具探索新的東西,就像哈勃望遠鏡讓人類發現新的領域一樣。人工智慧可以幫助專家以更快的速度解決問題。
  • 將意識形態領域鬥爭 進行到底
    回顧我國革命、建設、改革的偉大曆程,正是由於有馬克思主義這個共同的思想基礎,才凝聚起全國人民的意志和力量,不斷克服前進道路上各種艱難險阻,從勝利走向新的勝利。透過歷史的長河,我們不難發現,國家動蕩、政權更迭往往始於思想領域的混亂、指導思想的迷茫。
  • 柯潔感嘆AlphaGo可怕:讓三子!如先捅三刀(圖)
    柯潔寫到:「早就聽說新版alphago的強大....但...讓...讓三個?我的天,這個差距有多大呢?簡單的解釋一下就是一人一手輪流下的圍棋,對手連續讓你下三步...又像武林高手對決讓你先捅三刀一樣...我到底是在和一個怎樣可怕的對手下棋...」  2016年底,神秘的Master在網上颳起一陣圍棋旋風。以60勝0敗的戰績橫掃一眾圍棋頂尖高手,其中柯潔也3次落敗。
  • zero 絕藝解說alphago - CSDN
    而打敗了人類的AlphaGo系統的關鍵則是,將圍棋巨大無比的搜索空間壓縮到可控的範圍之內。David Silver博士此前曾介紹,策略網絡的作用是預測下一步,並用來將搜索範圍縮小至最有可能的那些步驟。另一個神經網絡「價值網絡(valuenetwork)」則是用來減少搜索樹的深度,每走一步估算一次遊戲的贏家,而不是搜索所有結束棋局的途徑。
  • 柯潔終結41連勝圍棋AI:稱其實力遠超初代AlphaGo
    消息曝光後,柯潔評價稱:「一個純淨、純粹自我學習的AlphaGo是最強的...對於alphago的自我進步來講...人類太多餘了。」今日凌晨,柯潔發微博表示,自己在網上對弈時遇到了一個名為「符合預期」的AI,對方實力十分強勁,應該已經遠超當時與李世石對弈的AlphaGo。該AI在某圍棋平臺一舉拿下41連勝,最終被自己終結。
  • AlphaGo Lee對Zero 第6局:粗俗有力的實戰化下法
    感想:Lee在面對zero時,感覺策略有些不足,只會一味硬懟是不行的呀。弈客圍棋整理髮布!更多精彩賽事直播,棋文弈事,盡在弈客圍棋,下載弈客APP,和熱愛圍棋的棋友對弈手談!
  • 《洛克人Zero/ZX遺產合集》奧米加zero在哪 奧米加位置介紹
    洛克人Zero/ZX遺產合集奧米加zero在哪?遊戲中奧米加是一個非常強大的boss,很多小夥伴還沒找到他吧,今天小編給大家帶來洛克人Zero/ZX遺產合集奧米加位置介紹,快來看一下吧。 洛克人Zero/ZX遺產合集奧米加zero在哪?
  • 打敗李世石的AlphaGo,被弟弟AlphaGo Zero打敗了,成績是0-100
    DeepMind聯合創始人和CEO則說這一新技術能夠用於解決諸如蛋白質摺疊和新材料開發這樣的重要問題:AlphaGo Zero is now the strongest version of our program and shows how much progress we can make even with less computing power and zero
  • 能贏AlphaGo的只有它自己 柯潔回應新版問世:人類太多餘了
    對此,柯潔回應稱:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」2016 年在 AlphaGo 和李世石的對戰後,人工智慧進入大眾的視野,今年5月27日,中國棋手柯潔與人工智慧「阿爾法圍棋」(AlphaGo)展開三番棋比賽的終局對決。