AlphaZero 榮登《科學》雜誌封面

2020-12-05 雷鋒網

雷鋒網 AI 科技評論按:一年前,Alphabet 旗下人工智慧部門 DeepMind 發布 AlphaZero,稱它可以自學西洋棋、日本將棋和中國圍棋,並且項項都能擊敗世界冠軍。而今天,經過同行評議,AlphaZero 一舉登上《科學》雜誌封面。

據此前 DeepMind 在 AlphaZero 的論文中介紹,AlphaZero 使用了完全無需人工特徵、無需任何人類棋譜、甚至無需任何特定優化的通用強化學習算法。也就是說,AlphaZero 實質上就是 AlphaGo Zero 的通用化進化版本,它繼續保持了 AlphaGo Zero 中不需要人工特徵、利用深度神經網絡從零開始進行強化學習、結合蒙特卡洛樹搜索的特點,並在此基礎上,更新網絡參數,減小網絡估計的比賽結果和實際結果之間的誤差,同時最大化策略網絡輸出動作和蒙特卡洛樹搜索可能性之間的相似度。

然而,在 DeepMind 發布 AlphaZero 之際,AlphaZero 也遭到了某種程度的質疑,例如,一位 AI 研究人員就指出,DeepMind 沒有公開它的 AI 系統原始碼,因此難以檢驗和重複它公布的結果。而如今這項研究成果經過同行評議登上《科學》雜誌的首頁,算是得到了證明。有趣的是,AlphaZero 的直接對手——棋手們也紛紛表達了他們的讚許:

例如日本將棋 9 段職業選手、棋史上唯一一位獲得「永世七冠」頭銜的棋士 Yoshiharu Habu 就評價道:

它的一些移動方法,比如將 King 移到棋盤的中心,就違背了日本將棋棋法。從人類的角度來看,AlphaZero 的這種做法似乎已將其置於危險的境地,但令人難以置信的是,它仍然掌控住了棋局。它獨特的下棋風格,讓我們看到了棋法新的可能性。

而前西洋棋世界冠軍 Garry Kasparov 也止不住地稱讚道:

我無法掩飾我的讚許,因為它的下棋風格靈活多變,這跟我自己的風格很像!一個多世紀以來,象棋一直被用作人類和機器認知的羅塞塔石碑。AlphaZero 以一種獨特的方式,對古代棋盤遊戲與前沿科學之間的顯著聯繫帶來了新的東西。其影響遠遠超出了我心愛的棋盤。這些自學成才的專家機器不僅表現得無比出色,而且實際上,我們人類還可以從它們產出的新知識中學習。

正如我們在前面提到的,AlphaZero 是 AlphaGo Zero 的通用化進化版本,而 AlphaGo Zero 又源自於 AlphaGo,接下來我們不妨簡單回顧一下這幾個版本:

最初的 AlphaGo 的工作原理是:

在蒙特卡羅樹搜索(MCTS)的框架下引入兩個卷積神經網絡策略網絡和價值網絡以改進純隨機的蒙特卡羅(Monte Carlo)模擬,並藉助監督學習和強化學習訓練這兩個網絡,然後主要靠策略網絡和價值網絡分別預測下一步落子的點以及評估當前的局勢。

而從 AlphaGo 到 AlphaGo Zero,系統的思路和模型結構都得到了大幅度簡化,帶來的是更快的訓練和運行速度,以及更高的棋力。

在更早版本的 AlphaGo 中,策略網絡和價值網絡是兩個不同的深度神經網絡,Zero 版本中是同一個 ResNet 的兩組輸出;AlphaGo Zero 之前幾個版本中都需要先把局面轉換為高一層的人工特徵再作為網絡的輸入、需要先學習人類棋譜再轉變到自我對弈的強化學習、有一個單獨的快速走子網絡進行隨機模擬,而 AlphaGo Zero 則把局面落子情況直接作為網絡的輸入、由隨機的網絡權值直接開始強化學習、捨棄快速走子網絡直接用主要的神經網絡模擬走子。

接著從 AlphaGo Zero 到 AlphaZero,發生的變化主要體現在如下幾個方面:

第一,AlphaGo Zero 會預計勝率,然後優化勝率,其中只考慮勝、負兩種結果;AlphaZero 則會估計比賽結果,然後優化達到預計的結果的概率,其中包含了平局甚至別的一些可能的結果。第二,由於圍棋規則是具有旋轉和鏡像不變性的,所以專為圍棋設計的 AlphaGo Zero 和通用的 AlphaZero 就有不同的實現方法。AlphaGo Zero 訓練中會為每個棋局做 8 個對稱的增強數據;並且在蒙特卡洛樹搜索中,棋局會先經過隨機的旋轉或者鏡像變換之後再交給神經網絡評估,這樣蒙特卡洛評估就可以在不同的偏向之間得到平均。西洋棋和日本象棋都是不對稱的,以上基於對稱性的方法就不能用了。所以 AlphaZero 並不增強訓練數據,也不會在蒙特卡洛樹搜索中變換棋局。第三,在 AlphaGo Zero 中,自我對局的棋局是由所有之前的迭代過程中出現的表現最好的一個版本生成的。在每一次訓練迭代之後,新版本棋手的表現都要跟原先的表現最好的版本做對比;如果新的版本能以超過 55% 的勝率贏過原先版本,那麼這個新的版本就會成為新的「表現最好的版本」,然後用它生成新的棋局供後續的迭代優化使用。相比之下,AlphaZero 始終都只有一個持續優化的神經網絡,自我對局的棋局也就是由具有最新參數的網絡生成的,不再像原來那樣等待出現一個「表現最好的版本」之後再評估和迭代。這實際上增大了訓練出一個不好的結果的風險。第四,AlphaGo Zero 中搜索部分的超參數是通過貝葉斯優化得到的。AlphaZero 中直接對所有的棋類使用了同一套超參數,不再對每種不同的棋做單獨的調節。唯一的例外在於訓練中加在先前版本策略上的噪聲的大小,這是為了保證網絡有足夠的探索能力;噪聲的大小根據每種棋類的典型可行動作數目做了成比例的縮放。

將 AlphaGo 發展到 Alpha Zero,DeepMind 無疑是帶給了我們驚喜的。使用人工特徵的 AlphaGo Fan 在出山之戰中便全勝打敗樊麾,還發出第一篇論文;運行在 50 塊 TPU 上的 AlphaGo Lee 以 4:1 的戰績擊敗李世石,還創作了紀錄片並上映;接著只用 4 塊 TPU 的 AlphaGo Master 又在烏鎮圍棋峰會上以 3:0 擊敗柯潔,打碎了人類所有擊敗 AlphaGo 幻想;再又有拋棄人工特徵和所有人類高手棋局的 AlphaGo Zero 靠自學成功超越了「前輩」AlphaGo Master。而現在,DeepMind 帶來的這個更通用的、能下各種棋類的、而且在圍棋中的表現更上一層樓的通用強化學習模型——「AlphaZero」,則給我們帶來了更上一層的驚喜。

正如雷鋒網 AI 科技評論在此前對 AlphaZero 的報導中所總結的那樣:在 AlphaGo 的一路進化中,我們見證了 DeepMind 的工程師們對深度強化學習本質的思考和嘗試,也看到了不斷的優化中帶來的無需先驗知識、降低資源消耗、提高訓練速度等等可喜的技術進步。而本次 AlphaZero 登上《科學》雜誌封面,也算是對他們所作出的嘗試和帶來的技術進步的一種回應。接下來 DeepMind 還將讓 Alpha Zero 進化到什麼哪個版本呢?讓我們期待一下吧~雷鋒網

相關焦點

  • 寶泉榮登中國國家地理雜誌
    「中國『曲峽』看太行」,《中國國家地理》第11期封面以此為題,並選用了一張氣勢磅礴的峽谷風光作為封面圖,引起了業內人士及旅遊愛好者的廣泛關注。 width="350" />寶泉榮登《中國國家地理》封面《中國國家地理》作為國內權威地理雜誌,具有很強的可讀性和收藏價值,國內外眾多圖書館已經把該刊作為重點收藏期刊。內容以中國地理為主,兼具世界各地不同區域的自然、人文景觀和事件,並揭示其背景和奧秘,另亦涉及天文、生物、歷史和考古等領域。
  • AlphaZero誕生一周年:登上Science封面,完整論文首次公開
    大數據文摘出品作者:魏子敏、蔣寶尚阿爾法元(AlphaZero)誕生一周年之際,《自然(Science)》雜誌今天以封面文發布了阿爾法元(AlphaZero論文連結:http://science.sciencemag.org/content/362/6419/1140《Science》雜誌評價稱,能夠解決多個複雜問題的單一算法
  • 金宇彬榮登《韓 Life Style》雜誌創刊號封面
    [網絡圖片]國際在線專稿:據韓國《亞洲經濟》報導,最近,演員金宇彬為韓流雜誌《韓 LifeStyle》拍攝了創刊號封面,彰顯大中華地區超強人氣。《韓 LifeStyle》由《優酷生活》發行,雜誌中涵蓋韓國旅遊、購物、文化、流通等方方面面。另外,金宇彬主演的電影《二十》將於3月25日上映。
  • AlphaZero登上《科學》封面:一個算法通吃三大棋類
    12月7日,谷歌旗下的人工智慧實驗室DeepMind研究團隊在《科學》雜誌上發表封面論文,公布了通用算法AlphaZero和測試數據。《科學》雜誌評價稱,通過單一算法就能夠解決多個複雜問題,是創建通用的機器學習系統、解決實際問題的重要一步。
  • 濟鋼高中校長邢文明榮登《教育家》雜誌封面人物
    日前,《教育家》雜誌2021年1月第1期刊物出版,一張熟悉的面孔映入眼帘——濟鋼高中校長邢文明榮登為封面人物。  《教育家》雜誌是中共中央黨報《光明日報》主管的教育主流媒體。《教育家》雜誌依託《光明日報》在知識界、文化界、教育界、理論界的權威影響力,致力於打造深度與廣度並重、專業與內涵並包的教育人物高端期刊。
  • 《時代》雜誌:首次以一個15歲的年輕科學家作為封面人物
    最新一期的《時代》雜誌,首次以一個「孩子」作為封面人物,這個孩子是一個15歲的年輕科學家,因其對社會變革的關注而被《時代》雜誌評選為「年度最佳孩子」。這個女孩子名叫吉坦嘉莉·饒,英文名:Gitanjali Rao,她在2017年開發的行動裝置測試飲用水中的鉛含量,榮登《福布斯》雜誌30歲以下青少年科學家名單,並開發了一款可檢測網絡欺凌的應用程式。饒對科學的熱愛始於10歲,當時她發明了碳納米管傳感器技術,該技術使用分子檢測水中的化學物質,從那時起,她就對此著迷。
  • AlphaZero:從小白開始制霸多個遊戲
    近日,AlphaGo 的「完全自我博弈加強版」AlphaZero 的論文又登上另一大頂級期刊 Science 的封面。在論文中, AlphaZero 不僅徵服了圍棋,也在將棋、西洋棋等複雜遊戲中實現了超越人類的表現。
  • 四川科研團隊成果登上世界頂級科學雜誌《自然》封面
    怎麼擴大到規模化生產,還需要進一步在工藝和技術上進行研究 今年6月初,世界頂級科學雜誌《自然》封面文章,發表了電子科技大學基礎與前沿研究院教授鄧旭、王德輝團隊的最新科研成果《設計堅固的超疏水表面》。以一項基礎研究登上頂級科學雜誌封面,這在四川乃至全國都不多見。
  • 我一定是看了本假的科學雜誌
    只不過是今天的內容確實和科學有關。 提到科學雜誌的設計,你第一印象會是什麼呢?高冷、嚴謹、單調無趣,從封面開始分分鐘勸退你。性狀融合來進行創作,以藝術家理解科技的方式,呈現科學與藝術的完美統一。據說看過封面的人都表示:這是科學雜誌?明明就是一本藝術雜誌,好伐。
  • 過去一年最值得分享的30個雜誌封面
    2016年9月,由美國導演奧利弗·斯通執導的影片《斯諾登》在多倫多電影節首映,紐約時報雜誌周末版封面以此為靈感,模擬了斯諾登出現在衛星電視中的畫面。這是過去一年這份雜誌奉獻的眾多經典封面中,最受歡迎的作品之一。藉助多媒體手段,印刷媒體的設計師們正希望展現更多的創意和設計上的可能。
  • 美國雜誌歷史上最經典的12個封面
    【搜狐IT消息】北京時間8月16日消息,如果說新聞是歷史的初稿,那麼雜誌封面就是它的第一印象。  當用戶看到報攤上的雜誌封面時,會決定要不要購買。科技博客Mashable最近精選了一些經典的雜誌封面,讓我們重溫過去。
  • 明星英語詞彙:時尚雜誌的封面女郎
    新東方網>英語>英語學習>娛樂英語>影視英語>影視資訊>正文明星英語詞彙:時尚雜誌的封面女郎 2012-03-27 09:57 來源:前程網 作者:
  • LIFE雜誌最偉大的11張封面
    這個前身是在大蕭條時期就存在的幽默周刊,以攝影紀實的定位發行了其第一期雜誌。出版商亨利·盧斯(也是時代雜誌的總編輯)希望創建一本不只是談論時事新聞的雜誌,他更希望人們通過這些令人驚嘆的照片看見生活。在Life雜誌的創刊詞上,他與詩人...
  • 這些國際藝術雜誌封面,講了和COVID-19有關的那些事兒
    本文選取了其中具有代表性的6份雜誌新刊,這些新刊的封面作品,便透露著該雜誌編輯部面對疫情的態度和思考:有的呼喚快樂與希望,有的提醒我們重新審視歷史。2020年5/6月ARTFORUM雜誌封面,圖片來源:ARTFORUM官網知名當代藝術雜誌ARTFORUM的總部位於此次美國的疫情中心——紐約。
  • 當年老牌科技雜誌的封面太潮騷了
    利維坦按:其實還有一本超屌的雜誌這裡沒有介紹——《科學美國人》。這本科普雜誌創刊於1845年8月28日,起先是每周出版,後改為每月出版;它為美國歷史最長的、一直連續出版的雜誌,也是著名的《科學》(Science)的姊妹刊。我選了三張封面,你能明顯感到科技主題發生的快速變化:走馬燈的科學:1878年。
  • 王源登時尚雜誌封面 破五大刊銷量記錄
    &nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp王源單人版海報&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp王源單人版封面
  • 王一博超酷的雜誌封面合集!成為五大刊開季封面唯一男藝人
    風淡雲輕,細水長流遇見小九九點擊關注,帶你追劇聽歌追綜藝近日,王一博首登《時尚COSMO》開季封面引發了熱議。2月10日,《時尚COSMO》官宣王一博登錄三月刊正面封面,要知道,開季封面是特別重要的,王一博登上開季封面也證明了時尚界對王一博的認可。在目前官宣的五大刊開季封面的人選中,《VOGUE》是劉雯,《時尚芭莎》是劉詩詩,《嘉人》是章子怡,《ELLE》是楊冪,《時尚COSMO》是王一博,所以王一博也是五大刊開季封面的唯一男星。
  • Science封面:AlphaZero達成終極進化體,史上最強棋類AI降臨!
    新智元報導 來源:DeepMind; Science編輯:文強,三石,大明【新智元導讀】DeepMind最強棋類算法AlphaZero今天以Science封面論文形式發表今天,DeepMind的通用棋類算法,也是迄今最強的棋類AI——AlphaZero,經過同行評議,被頂級期刊 Science 以封面論文的形式,正式引入學界和公眾的視野。
  • AlphaZero登上《科學》封面:一個算法「通殺」三大棋,完整論文首次...
    》雜誌封面。《科學》雜誌評價稱,能夠解決多個複雜問題的單一算法,是創建通用機器學習系統,解決實際問題的重要一步。DeepMind說,現在AlphaZero已經學會了三種不同的複雜棋類遊戲,並且可能學會任何一種完美信息博弈的遊戲,這「讓我們對創建通用學習系統的使命充滿信心」。AlphaZero到底有多厲害?再總結一下。
  • 這期美國《動畫雜誌》的封面是一張來自四川的「面具」
    影片製作中四川在線記者 肖姍姍「四川造」動畫大片《金色面具 英雄》登上美國《動畫雜誌》封面!8月,繼《大聖歸來》之後,由四川出版集團旗下的金色映像文化傳播有限公司與加拿大金色面具英雄項目公司聯合拍攝製作的《金色面具 英雄》 登上了動畫行業權威雜誌《動畫雜誌》(Animation Magazine)封面。