AI要完爆人類?解密AlphaGo Zero中的核心技術

2020-12-07 雷鋒網

雷鋒網AI科技評論按:2017年10月19日,DeepMind團隊重磅發布AlphaGo Zero,再次震驚世人。相比上一代AlphaGo,該版本的AlphaGo實現了在AI發展中非常有意義的一步——」無師自通「,這也讓去年敗在未升級版本AlphaGo Master下的中國棋手柯潔驚呼」人類太多餘了「。

相信看過之前的報導都知道,AlphaGo Zero的先進之處是可以完全從零開始,不需要任何歷史棋譜的指引,更不需要參考人類任何的先驗知識,完全靠自己通過強化學習(Reinforcement Learning ),左右互搏來增長棋藝,最終達到百戰百勝。

那是不是就代表AI從此將進入到無需人類知識,不受人類控制的時代 ?顯然還達不到。

要想理解為什麼,首先從圍棋這個遊戲說起。圍棋是一種對弈遊戲,具體來說就是信息透明,規則透明,結構明確,並且可用規則是可以窮舉的。而如果到了一些數據無法窮舉的領域,如語音識別,圖像識別,自動駕駛等,AlphaGo Zero中的算法很難遷移過來,也很難「無師自通」。

那AlphaGo Zero中的算法可以借鑑到哪些領域?他的核心技術是什麼?他的偉大之處又是在哪裡?這還得請AI科學家來談一談。AI科技評論得知,此版本的AlphaGo所採用的核心技術就是出自華人團隊研究的深度殘差網絡(ResNet)。就此背景,雷鋒網聯繫到了深度殘差網絡ResNet作者之一孫劍博士來對這次的技術升級做闡述。ResNet技術正是他在微軟亞洲研究院時期的發明。

曠視首席科學家,曠視研究院院長孫劍博士

在他看來,本次技術提升足夠偉大,但同樣在真實技術落地過程中有著眾多局限,並指出未來的主流深度學習技術還將會圍繞大數據訓練模式的方式。換句話說,AI想脫離人類控制還為時尚早。

孫劍博士在接受雷鋒網的採訪過程中說道:「AlphaGo Zero的偉大之處是第一次讓機器可以不通過任何棋譜,不通過任何人類的經驗,在只告訴規則的前提下就實現了成為一個圍棋高手,這種無師自通的學習模式在AI整個發展上是非常有裡程碑意義的。」孫劍博士講到AlphaGo Zero的技術意義時講到,「但是同時這種無師自通在很多AI落地上也存在一些局限,因為嚴格的講,圍棋規則和判定棋局輸贏也是一種監督信號,所以嚴格意義上來講,說人類無用,或者說機器可以自己產生認知都是對AlphaGo Zero理解的不精確。」

在很多AI行業落地中,實際上弱監督學習或無監督或者所謂的無師自通還是無法在短期成為主流。比如,就人臉識別來講,這個能力是人類後天學習的能力,是通過時間不斷演化出來的一種生存能力,人只有具備了人臉識別能力,人類社會才能正常運轉,把這種後天能力輸出給機器,其實就需要人的監督信號。除了人臉識別,還有很多人工智慧研究的方向,比如自然語言處理,都是在模擬人類的一種技能。讓機器實現這種任務就需要海量的數據與更多的信號輸入。再比如醫學領域的圖像識別—AI醫學影像讀圖主要依賴於高水平醫生對影像的數據精標,從而機器學習對疾病的識別,這關乎於人的生命問題,自然馬虎不得。所以今天,甚至今後很長一段時間內,監督學習依然是AI研究與AI商業化的主流方向。

關於AlphaGo Zero中的算法可以借鑑到哪些領域?孫劍博士沒有直接給出答案,而是總結了此算法為何能在圍棋領域表現如此出色的幾點原因。首先,圍棋它沒有噪聲,能夠完美重現算法;其次圍棋中的黑白子雙方的信息是完全可觀測的。最後,也是他認為最重要的一點,圍棋對局可以用計算機迅速模擬,很快輸出輸贏信號。看一個領域是否能借鑑此算法,基本就要看是否滿足以上三點。

 AlphaGo的秘密武器:兩大核心要素實現極簡算法 

 其實AlphaGo Zero裡面並沒有新的巨大的理論突破,它使用的白板學習,早在之前的圍棋系統Creazy Stone中就有用過。最主要還是用到了孫劍博士發明的ResNet技術, 談到該技術時,他講到: 」AlphaGo Zero的搜索過程簡化了很多,例如把以前系統中的兩個網絡合併成一個網絡、將深度殘差網絡的輸入做最簡化。談到本次AlphaGo Zero在技術特點,他認為是「把19x19棋局圖像直接送給神經網絡,讓神經網絡看著棋盤做決策,這個非常簡潔。」 

AI科技評論認為DeepMind的這一成果的啟發意義大於借鑑意義。與其想著把算法照搬過來,不如朝AlphaGo Zero啟發的方向探索。在與孫劍博士在採訪交流中,他表示本次AlphaGo Zero的提升主要有兩個核心要素,一個是啟發式搜索,一個是深度殘差神經網絡,而這兩個又非常完美的實現了結合。其中啟發式搜索的思想非常樸素,是個針對問題設計的一個高級定製版蒙特卡洛數搜索算法。另外一個核心要素是深度殘差神經網絡,讓簡單的搜索算法極大的提升了效率。

深度殘差神經網絡在2015年由孫劍在微軟領導的視覺團隊老師率先提出,並在當年在ImageNet以及COCO兩大學術競賽中包攬五項冠軍,其中最重要的部分就是實現了突破性的152層的網絡深度,從而讓一些非常複雜的函數做映射時效率與有效性得到極大的提升。強大的網絡使得AlphaGo Zero已經可以有能力學習把每一子下在那裡的概率和對整個棋局的判斷算的非常準確。

開放與互通是AI通往未來之路的不二法則

今年,中國發布了人工智慧戰略規劃,起碼從國家層面上是認可AI能給社會帶來巨大進步。在講到AI的未來發展中,孫劍博士強調了開放與互通兩個詞。他講到他現在在曠視研究院每天第一件事情就是去網上開放的論文平臺ArXiv看是否有新的、有意思的論文、思想發出來。

最後雷鋒網問道,ResNet被應用到AlphaGo Zero上,您有什麼感受?孫劍博士表示:「這次應用在AlphaGo Zero中的ResNet殘差神經網絡,曾獲得了CVPR 2016的最佳論文獎,我也非常高興這個技術可以應用在AlphaGo Zero系統中,而這個應用過程其實並不需要我們直接進行接觸而是一種研究成果的交流,人工智慧研究最前沿的開源與開放,才能讓我們在追求更優解的過程中有很多參考與理論支撐,可以極大的提升新技術產生的周期。」

孫劍博士還介紹到,曠視研究院今後還會不斷分享、開放研究成果。今年7月份,曠視研究院在ArXiv公開了一篇ShuffleNet的論文,是一種可以運行在很多移動端上非常低能耗的神經網絡算法,可以說是專為移動端而生的算法。發布至今不光有硬體產品、手機解鎖產品使用,同時也有很多同行在使用。

雷鋒網(公眾號:雷鋒網)AI科技評論小結:AlphaGo Zero雖沒有新的突破性的技術,但這絲毫不影響它的偉大,它能夠完美集成已有的技術,給研究者帶來新的啟發,本身已具有裡程碑式的意義。他的局限在於目前只能運用到特定領域,不過,換個角度來看,這對於人類來說未必不是好事兒。總之,AI 還有很長的路要走,還需要更多像孫劍博士這樣的科學家們,不斷藉助創新而實現更多的創新,不斷藉助偉大的思想創造偉大的場景。只有不斷的開放最好的認知,才能讓AI不斷成長,讓更多更強的AlphaGo Zero產生。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • AI要完爆人類?一文讀懂AlphaGo Zero的偉大與局限
    要想理解為什麼,首先從圍棋這個遊戲說起。圍棋是一種對弈遊戲,具體來說就是信息透明,規則透明,結構明確,並且可用規則是可以窮舉的。而如果到了一些數據無法窮舉的領域,如語音識別,圖像識別,自動駕駛等,AlphaGo Zero中的算法很難遷移過來,也很難「無師自通」。那AlphaGo Zero中的算法可以借鑑到哪些領域?他的核心技術是什麼?他的偉大之處又是在哪裡?
  • 谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了
    谷歌團隊發布AlphaGo Zero:柯潔稱人類太多餘了(圖片來自於推特)在這款軟體發出之後,柯潔也對這款軟體發表了自己的看法,他認為:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」之所以柯潔會這樣說,主要是因為AlphaGo Zero的練習主要是通過自我對弈在三十天之內發展起來的。
  • ResNet成為AlphaGo Zero核心技術,孫劍詳解Zero的偉大與局限
    孫劍認為,AlphaGo Zero技術提升足夠偉大,但在真實技術落地過程中還有著眾多局限,並指出未來的主流深度學習技術還將會圍繞大數據訓練模式的方式展開。在採訪中,孫劍還談了人臉識別遠遠沒有被解決,「全世界的研究人員一起來做都不夠」。
  • AlphaGo Zero用40天成為世界最強圍棋AI
    棋士柯潔:一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了從亂下開始,1天達到V18(超越人類棋手水平),21天達到Master,40天碾壓Master。 less is more。 2017年起,在某些領域,AI不再需要人類知識。
  • 其實,ai不止是一項科技,更是一種文化,一種觀念
    其實,ai不止是一項科技,更是一種文化,一種觀念。自2016年alphago在圍棋系列賽中戰勝職業棋手以來,ai已經開始在某些領域中取得進展,並且在某些問題上實現了突破。在最近的新聞中,谷歌發布的兩張miranda照片不僅僅是事實,還再次為我們揭開了ai正在開始各領域進行科學研究的新面貌。
  • 微信團隊開源圍棋AI技術PhoenixGo,復現AlphaGo Zero論文
    參賽隊伍包括絕藝,LeelaZero、TSGo、石子旋風、Golois,HEROZ Kishi、Baduki 等來自中、日、韓、歐美等國家和地區的人工智慧圍棋高手。5 月 11 日,PhoenixGo 在 Github 上正式開源,以下是技術細節:項目地址:https://github.com/Tencent/PhoenixGo如果你在研究中使用 PhoenixGo,請按以下方式引用庫:@misc{PhoenixGo2018
  • 現在人類社會大部分人在跟機器人說話做事已經沒有區別了
    首先可以肯定的是ai不可能帶來人類太多的創造力和生產力,就像現在人們一提到工業革命時的機器人,認為這是人類近代人類文明發展的結果,根本不是,相反現在很多製造業已經達到了所謂高精尖程度,但仍然不是所謂的智慧機器人。其次,大氣資源的消耗,地球的資源主要還是化石能源,因為化石能源消耗巨大,不可能回收。更有可能出現原子彈那樣的轟然倒塌。在地球上目前看不到可以替代人類的智慧機器人。
  • AlphaGo Zero完全自學吊打老狗,人類數據沒用了?
    與之前幾個版本的阿爾法狗不同,阿爾法元除了解圍棋規則外,完全不依靠棋譜和人類數據,從零開始「自學成才」,成為全世界最厲害的(人工智慧)圍棋手。1完爆對手,阿爾法元有多厲害?大衛·席爾瓦認為,阿爾法元通過自我學習取得比通過學習人類數據更好的成績,是因為阿爾法元的對手總是能跟它處在同一水平。阿爾法元的第一局,從非常隨機的招式開始。但是在學習過程中的每一步,它的對手,或者說是陪練,都會被校準為匹配其當前水平。在阿爾法元出現之前,AlphaGo基本採用了傳統增強學習技術再加上深度神經網絡DNN完成搭建。
  • AlphaGo Zero幕後開發心路歷程大公開!DeepMind資深研究員黃士傑最新演講解密
    我們把策略網絡做出來後,勝率就提高到70~80%,後來加入了David Silver提出的價值網絡,要讓機器進行不斷左右互搏的自我學習,一開始不太成功,過了一個月我們克服over fitting的問題後,AlphaGo的勝率大大提升到95%,而這也是後面AlphaGo Zero的主要核心。
  • 解密人類「生老病死」,從細胞研究中要答案
    解密人類「生老病死」,從細胞研究中要答案專家在香山科學會議上呼籲大力發展細胞醫學航母的電磁彈射器可以在幾秒鐘內將重達幾十噸的艦載,以每小時幾百公裡的速度彈射至高空。你想過細胞也能「電磁彈射」嗎?專家認為,這次會議主題「細胞可塑性調控與細胞工程應用」,不僅關注生物學的核心問題,而且希望從細胞水平破解重大疾病機理並實現幹預治療。研究成體幹細胞可塑性,有助治癒糖尿病「細胞是生命的基本結構和功能單元。」
  • 新版AlphaGo Zero100:0完爆舊「狗」:3天走完人類千年棋史
    它通過一種名為「強化學習」的機器學習技術,可以在與自己遊戲中吸取教訓。從一張白紙開始,零基礎學習,在短短3天內,成為頂級高手。AlphaGo團隊負責人大衛·席爾瓦(Dave Sliver)說:這些技術細節強於此前版本的原因是,我們不再受到人類知識的限制,它可以向圍棋領域裡最高的選手——AlphaGo自身學習。AlphaGo Zero使用新的強化學習方法,讓自己變成了老師。
  • 【話題】AlphaGo Zero!圍棋之神真來了……
    在10月19日世界《自然》雜誌上線的重磅論文中,詳細介紹了谷歌DeepMind團隊最新的研究成果。阿爾法元完全從零開始,不需要任何歷史棋譜的指引,更不需要參考人類任何的先驗知識,完全靠自己強化學習和參悟, 棋藝增長遠超阿爾法狗,百戰百勝,擊潰阿法爾狗100比0。
  • zero 絕藝解說alphago - CSDN
    對於這個話題,鮮有人比曠視科技首席科學家孫劍更有發言權了,因為AlphaGo Zero裡面最核心使用的技術ResNet,正是孫劍在微軟亞洲研究院時期的發明。  孫劍認為,擬合搜索和ResNet,正是Zero算法中的兩個核心技術。  其中擬合搜索所解決的問題,主要是定製化,它可以對棋盤上的每一次落子都進行量化,比如會對最終獲勝機率做多大貢獻,但是這其實並不是近期才產生的一種理論,而是在很早之前就存在的一種基礎算法理論。  而另一核心技術是最深可達80層的ResNet。
  • 柯潔回應新版本AlphaGo問世:人類太多餘了
    對此,柯潔回應稱:「一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」用這種方法,它很快超過了人類水平,對陣此前戰勝人類冠軍李世石的前代AlphaGo取得了100連勝。AlphaGo Zero之所以能當自己的老師,是用了一種叫強化學習的新模式。系統從一個對圍棋一無所知的神經網絡開始,將該神經網絡和一個強力搜索算法結合,自我對弈。在對弈過程中,神經網絡不斷調整、升級,預測每一步落子和最終的勝利者。
  • 謎之Zero自戰17-序章:AlphaGo Zero自戰上演精彩粘接收後
    眾所周知,zero的自戰譜,分為20block與40block兩塊,而當40block神功大成後,即可穩勝之前人類無法撼動的Master。因此在40block20局自戰中的第17局按此推算,應當是水準頗高。
  • 柯潔終結AI「符合預期」41連勝:若當初第一個與alphago對弈的是我
    【文/觀察者網 周遠方】昨夜,「半狗」柯潔贏了一隻41連勝的「小狗」,輾轉難眠…… 他在今天(18日)凌晨0時23分發微博感嘆: 一個AI滿地走的時代...除了alphago以外,這個暱稱為「符合預期」的AI尤其強,實力應該已經遠超當時與李世石對弈的alphago了吧?...
  • 能贏AlphaGo的只有它自己 柯潔回應新版問世:人類太多餘了
    谷歌人工智慧團隊DeepMind團隊在國際學術期刊《自然》(Nature)上發表論文,宣布新版AlphaGo——AlphaGo Zero可以在沒有人類指導的情況下學習,其水平超過此前所有AlphaGo(阿爾法狗)。
  • AlphaGo Zero橫空出世,從零學習造恐怖記錄【附83盤棋譜】
    :從空白狀態學起,在無任何人類輸入的條件下,它能夠迅速自學圍棋,並以100:0的戰績擊敗「前輩」。擁有48個TPU(神經網絡訓練專用晶片),在參考大量人類棋譜,並自我對弈約3000萬盤、訓練數月後,2016年3年月,AlphaGo Lee以4:1的擊敗韓國九段棋手李世石。        AlphaGo Zero僅擁有4個TPU,零人類經驗,其自我訓練的時間僅為3天,自我對弈的棋局數量為490萬盤。
  • 柯潔終結41連勝圍棋AI:稱其實力遠超初代AlphaGo
    人類AI圍棋之爭,還在繼續。今年5月底,人機圍棋大戰終極對決,最終世界排名第一的柯潔九段和AlphaGo的圍棋終極人機大戰以0:3完敗。賽後,柯潔在接受採訪時直言,AlphaGo太完美,看不到任何勝利的希望。
  • 打敗李世石的AlphaGo,被弟弟AlphaGo Zero打敗了,成績是0-100
    杜克大學博士研究生吳春鵬向知社介紹了技術細節:之前戰勝李世石的AlphaGo基本採用了傳統增強學習技術再加上深度神經網絡DNN完成搭建,而AlphaGo Zero吸取了最新成果做出了重大改進。AlphaGo Zero是在雙方博弈訓練過程中嘗試解決對人類標註樣本的依賴,這是以往沒有的。 第三,AlphaGo Zero在DNN網絡結構上吸收了最新進展,採用了ResNet網絡中的Residual結構作為基礎模塊。近幾年流行的ResNet加大了網絡深度,而GoogLeNet加大了網絡寬度。