谷歌DeepMind團隊新AI研究:阿法元無師自通,百戰百勝阿法狗

2020-11-24 億歐網

Nature今天上線的這篇重磅論文,詳細介紹了谷歌DeepMind團隊最新的研究成果。人工智慧的一項重要目標,是在沒有任何先驗知識的前提下,通過完全的自學,在極具挑戰的領域,達到超人的境地。去年,阿法狗(AlphaGo)代表人工智慧在圍棋領域首次戰勝了人類的世界冠軍,但其棋藝的精進,是建立在計算機通過海量的歷史棋譜學習參悟人類棋藝的基礎之上,進而自我訓練,實現超越。

可是今天,我們發現,人類其實把阿法狗教壞了!新一代的阿法元(AlphaGo Zero)),完全從零開始,不需要任何歷史棋譜的指引,更不需要參考人類任何的先驗知識,完全靠自己一個人強化學習(reinforcement learning)和參悟,棋藝增長遠超阿法狗,百戰百勝,擊潰阿法狗100-0。

達到這樣一個水準,阿法元只需要在4個TPU上,花三天時間,自己左右互搏490萬棋局。而它的哥哥阿法狗,需要在48個TPU上,花幾個月的時間,學習三千萬棋局,才打敗人類。

這篇論文的第一和通訊作者是DeepMind的David Silver博士,阿法狗項目負責人。他介紹說阿法元遠比阿法狗強大,因為它不再被人類認知所局限,而能夠發現新知識,發展新策略。

為更深入了解阿法元的技術細節,知社採訪了美國杜克大學人工智慧專家陳怡然教授。他向知社介紹說:

DeepMind最新推出的AlphaGo Zero降低了訓練複雜度,擺脫了對人類標註樣本(人類歷史棋局)的依賴,讓深度學習用於複雜決策更加方便可行。我個人覺得最有趣的是證明了人類經驗由於樣本空間大小的限制,往往都收斂於局部最優而不自知(或無法發現),而機器學習可以突破這個限制。之前大家隱隱約約覺得應該如此,而現在是鐵的量化事實擺在面前!

阿法元是如何實現無師自通的呢?杜克大學博士研究生吳春鵬向知社介紹了技術細節:

之前戰勝李世石的AlphaGo基本採用了傳統增強學習技術再加上深度神經網絡DNN完成搭建,而AlphaGo Zero吸取了最新成果做出了重大改進。

首先,在AlphaGo Zero出現之前,基於深度學習的增強學習方法按照使用的網絡模型數量可以分為兩類:一類使用一個DNN"端到端"地完成全部決策過程(比如DQN),這類方法比較輕便,對於離散動作決策更適用;另一類使用多個DNN分別學習policy和value等(比如之前戰勝李世石的AlphaGoGo),這類方法比較複雜,對於各種決策更通用。此次的AlphaGo Zero綜合了二者長處,採用類似DQN的一個DNN網絡實現決策過程,並利用這個DNN得到兩種輸出policy和value,然後利用一個蒙特卡羅搜索樹完成當前步驟選擇。

其次,AlphaGo Zero沒有再利用人類歷史棋局,訓練過程從完全隨機開始。隨著近幾年深度學習研究和應用的深入,DNN的一個缺點日益明顯:訓練過程需要消耗大量人類標註樣本,而這對於小樣本應用領域(比如醫療圖像處理)是不可能辦到的。所以Few-shot learning和Transfer learning等減少樣本和人類標註的方法得到普遍重視。AlphaGo Zero是在雙方博弈訓練過程中嘗試解決對人類標註樣本的依賴,這是以往沒有的。

第三,AlphaGo Zero在DNN網絡結構上吸收了最新進展,採用了ResNet網絡中的Residual結構作為基礎模塊。近幾年流行的ResNet加大了網絡深度,而GoogLeNet加大了網絡寬度。之前大量論文表明,ResNet使用的Residual結構比GoogLeNet使用的Inception結構在達到相同預測精度條件下的運行速度更快。AlphaGo Zero採用了Residual應該有速度方面的考慮。

這個工作意義何在呢?人工智慧專家、美國北卡羅萊納大學夏洛特分校洪韜教授也對知社發表了看法:

我非常仔細從頭到尾讀了這篇論文。首先要肯定工作本身的價值。從用棋譜(supervised learning)到扔棋譜,是重大貢獻(contribution)!幹掉了當前最牛的棋手(變身前的阿法狗),是advancing state-of-the-art。神經網絡的設計和訓練方法都有改進,是創新(novelty)。從應用角度,以後可能不再需要耗費人工去為AI的產品做大量的前期準備工作,這是其意義(significance)所在!

但洪教授對人工智慧做了並不十分樂觀的展望:最終這個火能燒多久,還得看神經網絡能解決多少實際問題。對於眼前流行的東西,不要盲目追逐,要先審時度勢,看看自己擅長啥、有啥積累,看準了坑再跳。


人工智慧——2017年最火熱的標籤。對於眾多AI試水者,你知道如何平衡技術與需求嗎?你知道如何利用政策事半功倍嗎?你知道如何尋找公司的投資伯樂嗎?12月14日,「2017億歐創新者年會·AI產業應用峰會」,我們將邀請眾多投資人、創業者、AI領域精英共同探討,不僅是AI+產業+應用,這裡是需求方和技術提供方的溝通平臺,是政策專家與企業方的交流平臺,是投資人與企業方交流的互獵平臺,是應屆畢業生和企業方的對接平臺。多維度,更深度,來這裡實現屬於你的AI!

本文經授權發布,版權歸原作者所有;內容為作者獨立觀點,不代表億歐立場。如需轉載請聯繫原作者。

相關焦點

  • 人工智慧從0到1:阿法零AlphaGo Zero無師自通100-0完爆阿法狗AlphaGo
    AlphaGo Zero無師自通100-0完爆阿法狗AlphaGo(1769字)。公號由秦隴紀發起,未覆蓋各領域科普及簡化,期待大家參與~】 人工智慧從0到1:阿法零AlphaGo Zero無師自通100-0完爆阿法狗AlphaGo(1736字)2016年底AlphaGo阿法狗4-1打敗世界冠軍Lee Sedol
  • 新版「阿法狗」迅速成為圍棋霸主
    人工智慧(AI)領域再次出現驚人突破——據英國《自然》雜誌近日發表的論文報導,一款新版的「阿法狗」(AlphaGo)電腦程式能夠從空白狀態起,在不需要任何人類棋譜輸入的條件下,自學圍棋,無師自通,自學成才。
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    △圖源:Deepmind兩年前,上一版本的AlphaFold便已經取得了裡程碑的突破,但是,仍然沒有完全解決蛋白質摺疊問題。而這次AlphaFold 2,則更進一步。這一巨大的突破,直接引爆了全網,Nature、Science紛紛報導,生物屆和AI大牛們也紛紛祝賀。
  • 阿法圍棋對大斜的看法公布,阿法玩起了星際2
    早安各位,小編本以為阿法圍棋不會繼續揭秘大斜定式(因為他從來沒下過大斜的變化),但剛才Aja Huang博士在朋友圈又公布了阿法圍棋關於大斜的看法——以下為Aja Huang博士朋友圈(以及Facebook)原文:圖1大家好,之前我們公布了
  • 創造出「阿法狗」的是怎樣的人
    創造出AlphaGo的傑米斯·哈薩比斯,一個英國智力天才一月下旬,谷歌旗下的DeepMind公司公布其創造的「阿法狗」(AlphaGo)圍棋程序擊敗了人類職業選手、歐洲冠軍樊麾,這一消息震撼了主要聚集在東亞的整個圍棋圈
  • 阿法狗算什麼?這個星球最聰明的人說:零來了 擺脫人類自學成才
    倫敦當地時間10月18日傍晚,阿法狗(AlphaGo)再次登上世界頂級科學雜誌——《自然》。谷歌人工智慧團隊以《脫離人類認知,精通圍棋遊戲》為題,用整整5頁的篇幅,隆重介紹了阿法狗的新版本AlphaGo Zero。
  • 阿法狗之父登《時代》人物榜 提前十年攻克圍棋
    阿法狗之父入選百大人物 騰訊體育訊 北京時間4月21日,美國《時代》周刊公布本年度「全球100位最具影響力人物」榜,AlphaGo之父、谷歌Deepmind總裁哈薩比斯入選這個排行榜。谷歌技術總監雷-庫茲韋爾稱:「哈薩比斯和他的團隊創造了阿爾法圍棋,打敗了世界最好棋手之一的李世石,比人工智慧軟體攻克圍棋的預期至少提早了十年,這在人工智慧領域是一個裡程碑事件。哈薩比斯是創造人工智慧突破的領導學者之一,在過去兩年在《自然》上發表了三篇文章。他和我同樣堅信,人工智慧將會幫助解決人類生活中艱巨的挑戰,例如消除貧困,治療疾病和改善環境。」
  • 谷歌推出阿法狗圍棋工具:讓機器教人類下棋
    12月4日下午消息,今天下午13時,由聶衛平圍棋道場和谷歌聯合推出的「尋找圍棋小先鋒」活動,在上海世博園萬國體育館舉行。聶衛平道場創始人、圍棋9段聶衛平先生、谷歌CEO桑達爾·皮查伊先生和谷歌大中華區總裁石博盟先生參加了此次發布會。
  • 阿法狗2.0版來了!這次人工智慧要正式摒棄人類棋譜
    阿法狗2.0版來了!據@央視CCTV5報導,谷歌旗下Deepmind公司近日在德國慕尼黑的DLD創新大會上正式宣布,將推出真正的2.0版AlphaGo。新版「阿法狗」將正式摒棄人類棋譜,只靠計算機自身深度學習的方式成長——即探索「深度學習」方式的極限,臻至「圍棋之神」的境界。
  • 從阿法狗大雪崩新變化說起
    大雪崩、妖刀、大斜被譽為最難解的三大定式,正在進行的歐洲圍棋大會上,樊麾老師演講中談到了阿法狗對於大雪崩的看法。不禁又想到吳大師的那句話:圍棋定式不應叫「定式」大雪崩內拐定式最長出現的局面,至此雙方正常進行。
  • 人機大戰落幕 阿法狗3:0全勝柯潔落淚
    阿法狗在不斷進化實際上與柯潔對戰的阿法狗並不是與李世石對戰的阿法狗,李世石也在採訪中確認了這一點,他認為下法更加直接明確,不會出現一些莫名其妙的布局,牢牢掌控了整盤。
  • 阿法狗並不是真正的人工智慧:3分鐘讓你徹底明白阿法狗如何下棋
    原標題:阿法狗並不是真正的人工智慧:3分鐘讓你徹底明白阿法狗如何下棋 阿法狗很強大,它的強大是由於它的原理和算法,這是大家都知道的,但具體咋回事,可能很多人就說不上來了。
  • 阿法狗之父評李世石神之一手:點中不為人知BUG
    網易體育3月13日報導:北京時間3月13日消息,李世石與谷歌圍棋AlphaGo人機五局大戰第四局,繼續在韓國首爾鍾路區四季酒店進行,結果李世石執白戰勝AlphaGo,贏下這場榮譽之戰。
  • 第一次人機大戰阿法狗的五路尖衝,是學自李世石
    早期的阿法狗遍覽人類棋譜,猶如悟出九陰真經的黃裳熟讀天下道家之書,無師自通、內外兼修,終成一代大師。  在與人類勝負師李世石的人機大戰中,最令人盪氣迴腸的非第4局莫屬,此局造就了李世石"神之一手"的傳奇。
  • 柯潔對戰阿爾法狗完敗也不用怕 阿法狗只是一條"狗"而已
    柯潔對戰阿爾法狗完敗也不用怕 阿法狗只是一條"狗"而已  柯潔必然完敗,阿爾法狗才是圍棋界的"上帝"  首先來看看阿爾法狗的歷史:  阿爾法圍棋(AlphaGo)是一款圍棋人工智慧程序,由谷歌(Google)旗下DeepMind公司的戴密斯·哈薩比斯
  • 把柯潔虐哭的阿法狗被「新一代」Alpha Go Zero虐死,人工智慧也太可怕了!
    一物降一物,這(幾)只偉大的「狗狗」——AlphaGo(阿法狗)在踩碎了圍棋愛好者的一地玻璃心之後,終於被家族的「新世代」——AlphaGoZero給收拾了。近日,《自然》(Nature)雜誌發表了一篇題為Mastering the game of Go without human knowledge(不使用人類知識掌握圍棋)的論文,詳細介紹了阿法狗的Daddy們、即谷歌DeepMind團隊最新的研究成果:AlphaGo Zero從圍棋小白起步,不需要任何歷史棋譜的指引,更不需要參考人類任何的知識經驗,純靠個人強化學習(reinforcementlearning
  • 手把手教你打造自己的「阿法狗」
    可你最近還是到處跟人大談「阿法狗」,就好像那就是你姥姥家的旺財一樣。    有沒有覺得「阿法狗」萌萌噠?   一時間,「阿法狗」成為了高科技、人工智慧的代言者。你當然不可能在寵物店找到這隻「阿法狗」,這套大名叫做AlphaGo的智能設備有錢你也買不到。不過,紳寶君能保證你可以輕鬆打造出屬於自己的「阿法狗」——還能到處跑的那種。
  • DeepMind新GNN模型,將谷歌地圖預估到達準確率提升50%!
    近日,DeepMind宣布幫「兄弟一把」——與谷歌地圖展開合作,利用了一種圖神經網絡(GNN),成功提升了谷歌地圖在柏林、東京、雪梨等大城市的實時 ETA 準確率,最高提升了50%。DeepMind此次的研究,就是如何解決這個動態預測問題。
  • 神之一手實現終極逆襲 人類首次戰勝"阿法狗"
    經歷了前三次的失敗,李世石終於扳回一局,捍衛了人類的榮譽,而他在第78手的一招妙棋更是被看做打亂「阿法狗」節奏的神之一手。明天,在本次人機大戰的收官一局中,李世石將執黑再戰「阿法狗」。  「挖」出勝利  是我的唯一選擇  從一致支持李世石到倒向「阿法狗」,人類只用了三盤棋。沮喪、壓力和愧疚感也讓第四戰之前的李世石直言自己正在面對圍棋生涯中最緊張的時刻。