AlphaGo Zero完全自學吊打老狗,人類數據沒用了?

2021-01-16 尋找中國創客

而阿爾法元與幾位哥哥的最大區別是,它不再需要人類數據作訓練。因此,我們把AlphaGo Zero稱作「阿爾法元」,天為始,元為初,寓意從零開始。

本文共計2711字,閱讀時間5分鐘 。

記者 | 蔡浩爽

編輯 | 趙力

AlphaGo家族的人工智慧圍棋手進入了華山論劍南帝北丐中神通的境界,比發明出雙手互搏術的周伯通更厲害的是,最新的AlphaGo Zero(以下簡稱「阿爾法元」)連「九陰真經」——人類棋譜,都不需要。

北京時間10月19日凌晨,時隔20餘月,AlphaGo再次登上科學雜誌《nature》。谷歌人工智慧團隊DeepMind 發布了他們的最新論文Mastering the game of Go without human knowledge,向人們介紹了阿爾法狗家族的新成員——阿爾法元。與之前幾個版本的阿爾法狗不同,阿爾法元除了解圍棋規則外,完全不依靠棋譜和人類數據,從零開始「自學成才」,成為全世界最厲害的(人工智慧)圍棋手。

1

完爆對手,阿爾法元有多厲害?

自學三天,自博490萬局棋後,阿爾法元以100:0的壓倒性優勢打敗曾戰勝韓國棋手李世石的AlphaGoLee;

訓練二十一天後,阿爾法元再次戰勝擊敗世界圍棋冠軍柯潔的AlphaGo Master;

四十多天後,經過2900多萬次自玩遊戲,阿爾法元超過此前AlphaGo的所有版本,殺到黑白世界屍橫遍野,成為世界上最厲害的圍棋程序。

對比前幾版阿爾法狗需要48塊TPU(谷歌開發的用於人工智慧的晶片)、進行幾千次博弈、耗時幾個月,阿爾法元戰勝他們只需要4塊TPU,自己左右互博490多萬次,用時三天。可謂做到了「節能減排」。

而阿爾法元與幾位哥哥的最大區別是,它不再需要人類數據作訓練。因此,我們把AlphaGo Zero稱作「阿爾法元」,天為始,元為初,寓意從零開始。

在阿爾法元之前,阿爾法狗家族幾次戰勝人類圍棋冠軍,都是從利用人類經驗開始的。他們的勝利建立在計算機海量學習人類棋譜的基礎之上,阿爾法狗再通過強化學習的監督學習進行幾個月的自我訓練。

而阿爾法元則完全擺脫人類先驗經驗,除規則外,完全不藉助人類數據,從第一場遊戲開始,自我學習。

AlphaGo團隊負責人大衛·席爾瓦介紹,阿爾法元使用新的強化學習方法,讓自己變成了老師。系統一開始甚至並不知道什麼是圍棋,只是從單一神經網絡開始,通過神經網絡強大的搜索算法,進行了自我對弈。

杜克大學博士研究生吳春鵬在接受知社採訪時表示,隨著近幾年深度學習研究和應用的深入,傳統訓練方式的一個缺點日益明顯:訓練過程需要消耗大量人類標註樣本,而這對於小樣本應用領域(比如醫療圖像處理)是不可能辦到的。阿爾法元是在雙方博弈訓練過程中嘗試解決對人類標註樣本的依賴,這是以往沒有的。

更厲害的是,隨著訓練的深入,阿爾法元不僅棋藝大漲,而且「不再受人類知識的限制。」(大衛·席爾瓦在採訪中表示)通過數百萬次的訓練,阿爾法元走出了過往棋局中從未出現的新策略,為圍棋這項古老的遊戲帶來了新玩法。

美國的兩位棋手向Nature這樣評價阿爾法元的這一創舉:它的開局和收官和專業棋手的下法並無區別,人類幾千年的智慧結晶,看起來並非全錯。但是中盤看起來則非常詭異。

2

無師自通,阿爾法元怎麼做到的?

大衛·席爾瓦認為,阿爾法元通過自我學習取得比通過學習人類數據更好的成績,是因為阿爾法元的對手總是能跟它處在同一水平。阿爾法元的第一局,從非常隨機的招式開始。但是在學習過程中的每一步,它的對手,或者說是陪練,都會被校準為匹配其當前水平。

在阿爾法元出現之前,AlphaGo基本採用了傳統增強學習技術再加上深度神經網絡DNN完成搭建。而阿爾法元在DNN網絡結構上吸收了最新進展,採用了ResNet網絡(深度殘差網絡)中的Residual結構作為基礎模塊。之前大量論文表明,ResNet使用的Residual結構比GoogLeNet使用的Inception結構在達到相同預測精度條件下的運行速度更快。

曠視Face++首席科學家孫劍是ResNet的主創人員之一。在接受尋找中國創客採訪時,孫劍表示,阿爾法元的創新性主要體現在以下兩點:

一是自學習增強能力。阿爾法元可以把學習過程極大簡化,不需要歷史對弈信息自學習,擺脫了對人類標註樣本(人類歷史棋局)的依賴,實現0先驗知識的學習;

二是應用了80層的深度殘差網絡(ResNet),極大地提高了對棋局面評估和決策能力。

「阿爾法元把AlphaGo過去的學習算法進行了大幅度改進,將價值網絡和策略網絡整合為一個統一架構,使得在機器學習時,可以同時兼顧價值和策略的最優性。」清華大學電子工程系孫甲松副教授這樣向尋找中國創客(ID:xjbmaker)記者解釋阿爾法元的技術改進。

3

人類數據將在人工智慧領域逐步喪失優勢?

DeepMind聯合創始人和CEO表示,這一新技術能夠用於解決諸如蛋白質摺疊和新材料開發這樣的重要問題。「如果我們通過AlphaGo,可以在這些問題上取得進展,那麼它就有潛力推動人們理解生命,並以積極的方式影響我們的生活。」

「人們一般認為機器學習就是關於大數據和海量運算,阿爾法元的出現表明,算法比所謂計算或數據可用性更重要。」大衛·席爾瓦在採訪中表示。

那這是否意味著,未來人類數據在人工智慧領域的優勢將會逐步喪失?

創新工場創始人兼董事長李開復對此表示了不同意見。李開復對尋找中國創客(ID:xjbmaker)記者表示,阿爾法元的自主學習帶來的技術革新並非適用於所有人工智慧領域。「圍棋是一種對弈遊戲,是適用於規則並可以窮舉的。在相對有結構的領域,比如新材料開發,過去靠的可能是靈感,未來就可以靠自主學習。阿爾法元的新技術確實可能帶來革新。但是,像語音識別,圖像識別,自然語音理解等等領域,缺乏用簡單規則就能判別的樣本,它們依然需要大量的人類數據。」

在整個人工智慧產學研屆為DeepMind19日凌晨發表的這篇論文額手相慶時,也有人當頭澆下一盆冷水。

網際網路進化論作者、計算機博士劉鋒在一篇文章中表示:「關於AlphaGo是否具備創新創造性問題,我們認為它依然是依託人工支持的大數據訓練形成的策略模型,同時在比賽中結合比賽對手的落點數據,根據其內部的運算規則,來不斷形成自己的落點數據,這些落點數據最終形成比賽數據集合。AlphaGo根據圍棋規則與對手的比賽數據集合進行計算和比較,判斷輸贏,整個過程完全在人類設定的規則下運行,無法體現其自身的創造性。」

孫甲松也同樣認為,這一成果在人工智慧角度沒有實現實質性突破,「我認為這只是把AlphaGo過去的學習算法進行了大幅度改進,將價值網絡和策略網絡整合為一個統一架構,使得在機器學習時,可以同時兼顧價值和策略的最優性。不但大幅度提高了機器學習的速度,同時學習結果也使得現在的系統遠超了原來的AlphaGo,因此有了100:0的結果。但我認為這只是對原來算法的優化,雖然使得計算機跟人下圍棋更是天下無敵,但這只能說是一個小小的進步,從人工智慧的角度還是沒有實質性的突破。」

但在李開復看來,論文的成果不可低估。「雖然有些技術並不是DeepMind開創的,比如ResNet。但能夠完美集成這些技術,本身就具有裡程碑意義。」他認為,DeepMind的這一成果具有指向標意義,證明了這個方向的可行性。「哪怕這一成果稱不上諾布爾水平或者圖靈水平,但今夜過後,我相信會有一大半以上的研究人員在這個方向開始嘗試。」

有觀點稱,阿爾法元的工程和算法確實非常厲害。但人們容易對此產生誤解,認為人工智慧是萬能的,所有人工智慧都可以無需人類經驗從零學習。每次關於人工智慧的討論,都會被引導人工智慧威脅論。

但李開復認為,人天生就具備跨領域的能力,比如人可以同時看到、聽到、感受到,但在這方面,人工智慧還差著十萬八千裡;人工智慧也並不像很多人以為的那樣具有自主思考能力。「當下的機器沒有欲望,不會設立目標,也沒有自我意識。」

「在我看來,今天的事件更應該總結為兩點:一是AI前進的速度比想像中更快,即便是我們這些所謂行業內的人士都被阿爾法元跌破眼鏡;二是要正視中美在人工智慧方面的差距。中國還從未有可以引領行業的論文出現。」李開復對尋找中國創客(ID:xjbmaker)記者說。

本文為尋找中國創客原創

未經授權不得轉載

相關焦點

  • AlphaGo Zero用40天成為世界最強圍棋AI
    棋士柯潔:一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了李喆:完全拋開人類圍棋知識,去年論文裡提到的許多特徵和rollout全部去掉,兩個神經網絡合為一個,只給定棋盤、棋子和規則。
  • 谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了
    谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了(圖片來自於推特)在這款軟體發出之後,柯潔也對這款軟體發表了自己的看法,他認為:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」之所以柯潔會這樣說,主要是因為AlphaGo Zero的練習主要是通過自我對弈在三十天之內發展起來的。
  • 谷歌發布AlphaGo Zero, 40天自學2900萬種遊戲!
    它可以通過一種「強化學習」的機器學習技術,自學多種遊戲,僅經過三天訓練便擊敗了前代的AlphaGo Lee。據悉,AlphaGo Zero能利用強化學習技術(Reinforcement Learning),大幅提高自學能力。
  • 人類知識多餘?Deepmind新一代AlphaGo Zero自學3天打敗AlphaGo
    今天凌晨,谷歌旗下Deepmind人工智慧團隊發布了一篇轟動AI界的論文,《Mastering the game of Go without human knowledge》(在沒有人類知識的情況下掌握圍棋),一句話總結這篇論文,他們研發的AlphaGo大表哥AlphaGo Zero能夠在沒有人類圍棋對弈數據的情況下
  • 自學高手AlphaGo Zero 100:0戰勝李世石
    它的獨門秘籍,是「自學成才」。AlphaGo Zero 從一張白紙開始,零基礎學習,在短短3天內,成為頂級高手。AlphaGo之父、DeepMind聯合創始人兼CEO 戴密斯·哈薩比斯(Demis Hassabis)說:「AlphaGo在兩年內達到的成績令人震驚。現在,AlphaGo Zero是我們最強版本,它提升了很多。Zero提高了計算效率,並且沒有使用到任何人類圍棋數據。」
  • 能贏AlphaGo的只有它自己 柯潔回應新版問世:人類太多餘了
    谷歌人工智慧團隊DeepMind團隊在國際學術期刊《自然》(Nature)上發表論文,宣布新版AlphaGo——AlphaGo Zero可以在沒有人類指導的情況下學習,其水平超過此前所有AlphaGo(阿爾法狗)。
  • 【話題】AlphaGo Zero!圍棋之神真來了……
    阿爾法元完全從零開始,不需要任何歷史棋譜的指引,更不需要參考人類任何的先驗知識,完全靠自己強化學習和參悟, 棋藝增長遠超阿爾法狗,百戰百勝,擊潰阿法爾狗100比0。柯潔發微博:「一個純淨、純粹自我學習的alphago是最強的……對於Alphago的自我進步來講,人類太多餘了。」Alpha Go通過數百萬次自我對弈,從零開始掌握圍棋,在短短幾天內積累人類幾千年才有的知識。
  • 打敗李世乭的AlphaGo,被弟弟AlphaGo Zero打敗了,成績是0-100-虎嗅網
    人工智慧的一項重要目標,是在沒有任何先驗知識的前提下,通過完全的自學,在極具挑戰的領域,達到超人的境地。去年,阿法狗(AlphaGo)代表人工智慧在圍棋領域首次戰勝了人類的世界冠軍,但其棋藝的精進,是建立在計算機通過海量的歷史棋譜學習參悟人類棋藝的基礎之上,進而自我訓練,實現超越。
  • AlphaGo Zero橫空出世,從零學習造恐怖記錄【附83盤棋譜】
    ,它能夠迅速自學圍棋,並以100:0的戰績擊敗「前輩」。擁有48個TPU(神經網絡訓練專用晶片),在參考大量人類棋譜,並自我對弈約3000萬盤、訓練數月後,2016年3年月,AlphaGo Lee以4:1的擊敗韓國九段棋手李世石。        AlphaGo Zero僅擁有4個TPU,零人類經驗,其自我訓練的時間僅為3天,自我對弈的棋局數量為490萬盤。
  • AlphaGo Zero你也來造一隻,PyTorch實現五臟俱全| 附代碼
    而且,它不需要用人類知識來餵養,成為頂尖棋手全靠自學。按照這些數據,算法會選擇其中一步,真要落子的地方。選擇有兩種,一就是選擇被模擬的次數最多的點。試用於測試和實戰。一是自對弈 (Self-Play) ,用來生成數據。
  • zero 絕藝解說alphago - CSDN
    這個「幼童」,叫阿爾法元(AlphaGo Zero),就是今年5月在烏鎮圍棋峰會上打敗了人類第一高手柯潔的阿爾法狗強化版AlphaGo Master的同門「師弟」。不過,這個遍讀人類幾乎所有棋譜、以3比0打敗人類第一高手的師兄,在「師弟」阿爾法元從零自學第21天後,便被其擊敗。
  • AlphaGo Zero問世 柯潔說人類多餘了
    更重要的是,AlphaGo Zero打敗AlphaGo Lee,是從零開始學圍棋,自學三天,便以百戰百勝的成績碾壓,而打敗在程序上,跟自己有很多相同之處的AlphaGo Master,只用了21天。與前幾代最主要的區別在於,以前的阿爾法狗,都是先學習人類為其高手的下法,然後在逐漸轉為自我對弈。而AlphaGo Zero沒有用任何人類的數據,從第一局開始,便是跟自己下。
  • 打敗李世石的AlphaGo,被弟弟AlphaGo Zero打敗了,成績是0-100
    人工智慧的一項重要目標,是在沒有任何先驗知識的前提下,通過完全的自學,在極具挑戰的領域,達到超人的境地。去年,阿法狗(AlphaGo)代表人工智慧在圍棋領域首次戰勝了人類的世界冠軍,但其棋藝的精進,是建立在計算機通過海量的歷史棋譜學習參悟人類棋藝的基礎之上,進而自我訓練,實現超越。
  • 阿爾法狗再進化AlphaGo Zero橫空出世 無師自學40天就可打敗柯潔
    阿爾法狗再進化AlphaGo Zero橫空出世 無師自學40天就可打敗柯潔  Evelyn Zhang • 2017-10
  • 自學圍棋的AlphaGo Zero,你也能用PyTorch造一個 | 附代碼實現
    從一隻完全不懂圍棋的AI,到打敗Master,狗零隻用了21天。而且,它不需要用人類知識來餵養,成為頂尖棋手全靠自學。如果能培育這樣一隻AI,即便自己不會下棋,也可以很驕傲吧。按照這些數據,算法會選擇其中一步,真要落子的地方。選擇有兩種,一就是選擇被模擬的次數最多的點。試用於測試和實戰。
  • 柯潔回應新版本AlphaGo問世:人類太多餘了
    對此,柯潔回應稱:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」打敗李世石的AlphaGo用了3000萬盤比賽作為訓練數據,AlphaGo Zero用了490萬盤比賽數據。經過3天的訓練,AlphaGo Zero就以100:0的比分完勝對陣李世石的那版AlphaGo。
  • 更強AlphaGo出世!自學三日就能超越人類千年
    阿爾法零(AlphaGo Zero)完全不依賴於人類數據,自學三天圍棋,對陣阿爾法李世石(AlphaGo Lee)竟然能取得100比0的戰績。圍棋世界冠軍古力也感嘆:「20年不抵3天啊,我們的傷感,人類的進步!」AlphaGo四個版本回顧AlphaGo最先出現在公眾視野,是2015年10月5-0完勝人類的歐洲冠軍樊麾二段。
  • 家中老狗遲遲不肯咽氣,原來是家中有條嗜血大蜈蚣
    周新民直了直腰板,試圖把話說得理直氣壯一些:「我們農村養狗可不是玩,是要看家護院的,老狗都快死了,沒用了,不扔掉難道還留著白費米飯啊?」母親猛地一敲拐杖,堅決道:「不行!老黑一天沒死,都不能扔!你敢對付老黑,就是要你娘的命!」「哎呀,娘,你講點道理行不行?
  • 謎之Zero自戰17-序章:AlphaGo Zero自戰上演精彩粘接收後
    眾所周知,zero的自戰譜,分為20block與40block兩塊,而當40block神功大成後,即可穩勝之前人類無法撼動的Master。因此在40block20局自戰中的第17局按此推算,應當是水準頗高。
  • AlphaGo Zero證明 機器無需幫助即可成為超人
    原來的AlphaGo需要與人類專家進行成千上萬次對弈,才能從中獲取數據,Alphabet Zero則截然不同。雖然它也是由Alphabet旗下的子公司DeepMind開發的,但它從零開始,面對的只是一張空白棋盤和遊戲規則。它無師自通,僅僅通過自學使自己的遊戲技能得以提高。