人工智慧從0到1:阿法零AlphaGo Zero無師自通100-0完爆阿法狗AlphaGo

2021-01-15 科學Sciences

秦隴紀10彙編,關注「科學Sciences」後文章分類頁

(文末「閱讀原文」可下載4k字0表4圖4頁PDF)

簡介:人工智慧從0到1:阿法零AlphaGo Zero無師自通100-0完爆阿法狗AlphaGo(1769字)。深度神經網絡強大的特徵提取能力以及尋找更優解的能力,擺脫對人類經驗和輔助的依賴,從應用角度,以後可能不再需要耗費人工去為AI的產品做大量的前期準備工作,類似的深度強化學習算法或許能更容易地被廣泛應用到其他人類缺乏了解或是缺乏大量標註數據的領域——無監督學習未來之路,這也許是阿法零的最偉大的創新(novelty),搞不好會誕生一個圖靈獎。【「數據簡化DataSimp、科學Sciences、知識簡化」公號希望聚集各專業領域一線研究員;研究技術時也傳播知識、專業視角解釋和普及科學現象和原理,展現自然社會生活之科學面。公號由秦隴紀發起,未覆蓋各領域科普及簡化,期待大家參與~】

 

人工智慧從0到1:阿法零AlphaGo Zero無師自通100-0完爆阿法狗AlphaGo(1736字)

2016年底AlphaGo阿法狗4-1打敗世界冠軍Lee Sedol李世石,本文以從此人間無敵手。然而2017年10月18日DeepMind公布最新研究成果,AlphaGo Zero(阿法元、直譯阿法零)在沒有任何先驗知識前提下,通過完全自學,完全擊敗最強版本阿法狗。如何評價阿法零(AlphaGo Zero)不看人類棋譜,從零開始,自我學習從而100-0完敗其親哥阿法狗?

谷歌DeepMind項目這項偉大的突破,讓Nature以《無人類知識而掌握圍棋》(Mastering the game of Go without human knowledge)為題發表觀點,又引起人們的AI關注。結合該文和知乎跟帖、DeepMind David Silver博士專訪視頻截圖等網友看法,談談個人幾點淺見。


Nature10月19日上線的這篇重磅論文(論文連結http://nature.com/articles/doi:10.1038/nature24270),詳細介紹了谷歌DeepMind團隊最新的研究成果。人工智慧的一項重要目標,是在沒有任何先驗知識的前提下,通過完全的自學,在極具挑戰的領域,達到超人的境地。


新一代阿法零(AlphaGo Zero)完全從零開始,不需要任何歷史棋譜的指引,更不需要參考人類任何的先驗知識,只需4個TPU上花三天時間、自己左右互搏490萬棋局,完全靠自己一個人強化學習(reinforcement learning)參悟棋藝。算力增長遠超阿法狗,百戰百勝,擊潰阿法狗100-0。達到這樣一個水準,阿法零的哥哥阿法狗,需要48個TPU上花幾個月的時間,學習三千萬棋局,才打敗人類。


阿法狗項目負責人,這篇論文一作和通訊作者是DeepMind的David Silver博士介紹說:This technique is more powerful than previous versions of AlphaGo because it is no longer constrained by the limits of human knowledge. Instead, it is able to learn tabula rasa from the strongest player in the world: AlphaGo itself. AlphaGo Zero also discovered new knowledge, developing unconventional strategies and creative new moves that echoed and surpassed the novel techniques it played in the games against Lee Sedol and Ke Jie.這種技術比以前的Alphago版本更強大,因為它不再受人類知識約束。相反,它能夠從世界上最強的選手——Alphago本身,白板狀態下自學。阿法零也會發現新知識,發展非傳統策略和創意的新舉措和新技術,也超越了對Lee Sedol和Ke Jie的比賽。

Perfect Games完美遊戲(如圍棋、象棋)對於人類而言,從此再也不能對抗機器學習類AI程序。最厲害的人類棋手,如柯潔所能達到的棋力只能與原版AlphaGo相近。戰勝李世石的AlphaGo是用傳統增強學習技術加深度神經網絡DNN完成搭建,藉助走子策略、樣本空間、強化學習,收斂於局部最優。而阿法零AlphaGo Zero吸取了最新成果做出了重大改進,採用類似DQN的一個DNN網絡實現決策過程,並利用這個DNN得到兩種輸出policy和value,然後利用一個蒙特卡羅搜索樹完成當前步驟選擇。

AlphaGo Zero用人類歷史棋局,訓練過程從完全隨機開始,也就是說訓練過程不再需要大量人類標註樣本。AlphaGo Zero在DNN網絡結構上吸收了最新進展,採用了ResNet網絡中的Residual結構作為基礎模塊。近幾年流行的ResNet加大了網絡深度,而GoogLeNet加大了網絡寬度。之前大量論文表明,ResNet使用的Residual結構比GoogLeNet使用的Inception結構在達到相同預測精度條件下的運行速度更快。AlphaGo Zero採用了Residual應該有速度方面的考慮。


DeepMind新算法AlphaGo Zero阿法零,開始擺脫對人類知識的依賴:在學習開始階段無需先學習人類選手的走法,另外輸入中沒有了人工提取的特徵。網絡結構設計上,新算法與之前的AlphaGo有兩個大的區別:

一、與之前將走子策略(policy)網絡和勝率值(value)網絡分開訓練不同,阿法零網絡結構可同時輸出該步的走子策略(policy)和當前情形下的勝率值(value)。阿法零policy與value網絡共用之前大部分特徵提取層,輸出階段的最後幾層結構仍然相互獨立。阿法零訓練的損失函數也同時包含policy和value兩部分。這樣的顯然可以節省訓練時間,更重要的是,混合policy與value網絡也許能適應更多種不同情況。

二、特徵提取層採用20或40個殘差模塊,每個模塊包含2個卷積層。與之前採用12層左右卷積層相比,殘差模塊運用使網絡深度獲得很大提升。AlphaGo Zero不再需要人工提取特徵,應該也是由於更深的網絡能更有效地直接從棋盤上提取特徵。根據文章提供的數據,這兩點結構上的改進對棋力的提升貢獻大致相等。

總之,阿法零放棄學習人類棋手走法以及人工提取特徵之後,算法能夠取得更優秀表現。

深度神經網絡強大的特徵提取能力以及尋找更優解的能力,擺脫對人類經驗和輔助的依賴,從應用角度,以後可能不再需要耗費人工去為AI的產品做大量的前期準備工作,這是其意義(significance)所在!類似的深度強化學習算法或許能更容易地被廣泛應用到其他人類缺乏了解或是缺乏大量標註數據的領域——無監督學習未來之路,這也許是阿法零的最偉大的創新(novelty),搞不好會誕生一個圖靈獎。

大數據、數據挖掘、機器學習、神經網絡和人工智慧,會持續應用到社會各個角落,傳統人類知識會變得越來越蒼白無力,人類接受的教育、所擁有的知識和技能,都面臨新文明高度的挑戰。

 

參考文獻(118字)

[1] Nature.Mastering the game of Go without human knowledge.[EB/OL]http://nature.com/articles/doi:10.1038/nature24270,2017-10-19.

[2] 知乎.如何評價阿法元(AlphaGo Zero)?.[EB/OL]https://www.zhihu.com/question/66867197,2017-10-19.

[x] 秦隴紀.數據科學與大數據技術專業概論;人工智慧研究現狀及教育應用;純文本數據神經網絡訓練;大數據簡化之技術體系[EB/OL].數據簡化DataSimp(微信公眾號)http://www.datasimp.org,2017-06-06.

 

Appx(670).數據簡化DataSimp社區會議,譯文志願者

信息社會之數據、信息、知識、理論越來越多,遠遠超越個人認知學習能力、時間、精力。行動起來,解決這個問題,主要方法是數據簡化(Data Simplification):簡化減少知識、媒體、社會數據,應對大數據時代的數據爆炸、信息爆炸、知識爆炸,使信息、數據、知識越來越簡單,符合人與設備的現有負荷。

數據簡化2018年會議(DS2018)聚焦數據簡化技術(Data Simplification techniques):對各類數據從採集、處理、存儲、閱讀、分析、邏輯、形式等方面做簡化,應用於信息系統、大數據、自然語言處理、知識工程,數學統計,結構化資料庫、機器學習技術、生物數據、信息系統、物理空間表徵等領域。請通過DataSimp論文投稿網站https://easychair.org/cfp/DS2017或會議網站http://cfp.datasimp.org/ds2017提交電子版(最好有PDF格式)論文。詳情訪問www.datasimp.org,如遇網站維護,請投至會員郵箱DataSimp@163.com。

數據簡化DataSimp」社區義工志願者,至少投一篇:①高質量原創投稿,正式成為數據簡化DataSimp社區成員;②翻譯美歐數據科學技術論文,IT大數據、人工智慧、編程開發技術文章;③設計黑白靜態和三彩色動態社區S圈型LOGO圖標

投稿、加入數據簡化DataSimp社區,請關注公眾號「數據簡化DataSimp」、網站http://www.datasimp.org;公號留言,或加微信QinlongGEcai(備註:姓名-單位/學校-職務/專業-手機號)。

免費分享型社群入口=>科學Sciences學術文獻(今天下篇就是)

長按下圖「識別圖中二維碼」關注技術微信公眾號:數據簡化DataSimp(搜名稱也行,關注後菜單有文章分類頁連結):

 

科普公眾號:科學Sciences(搜名稱也行,關注後有文章分類頁菜單):

 

關注「知識簡化」知識教育公眾號:

 

作者:秦隴紀10譯彙編。來源:網絡新聞、微信群公號等彙編,引文出處請看參考文獻。版權聲明:科普文章,公開資料©版權歸原作者所有。僅供學習研究,請勿用於商業非法目的。如出處有誤或侵權,請聯繫溝通、授權或刪除事宜,聯繫郵箱:DataSimp@126.com(轉載請寫出處:秦隴紀10「數據簡化DataSimp、科學Sciences、知識簡化」匯譯編,投稿反饋郵箱QinDragon@qq.com。歡迎傳媒、技術夥伴投稿、加入數據簡化社區!)

普及科學知識,分享朋友圈


相關焦點

  • 打敗李世乭的AlphaGo,被弟弟AlphaGo Zero打敗了,成績是0-100-虎嗅網
    去年,有個小孩讀遍人世所有的棋譜,辛勤打譜,苦思冥想,棋藝精進,4-1打敗世界冠軍李世石,從此人間無敵手。他的名字叫 AlphaGo(阿法狗)。今年,他的弟弟只靠一副棋盤和黑白兩子,沒看過一個棋譜,也沒有一個人指點,從零開始,自娛自樂,自己參悟,100-0打敗哥哥 AlphaGo 。他的名字叫 AlphaGo Zero(阿法元) 。
  • 新版「阿法狗」迅速成為圍棋霸主
    人工智慧(AI)領域再次出現驚人突破——據英國《自然》雜誌近日發表的論文報導,一款新版的「阿法狗」(AlphaGo)電腦程式能夠從空白狀態起,在不需要任何人類棋譜輸入的條件下,自學圍棋,無師自通,自學成才。
  • 打敗李世石的AlphaGo,被弟弟AlphaGo Zero打敗了,成績是0-100
    去年,有個小孩讀遍人世所有的棋譜,辛勤打譜,苦思冥想,棋藝精進,4-1打敗世界冠軍李世石,從此人間無敵手。他的名字叫阿法狗。今年,他的弟弟只靠一副棋盤和黑白兩子,沒看過一個棋譜,也沒有一個人指點,從零開始,自娛自樂,自己參悟,100-0打敗哥哥阿法狗。他的名字叫阿法元。
  • 谷歌DeepMind團隊新AI研究:阿法元無師自通,百戰百勝阿法狗
    人工智慧的一項重要目標,是在沒有任何先驗知識的前提下,通過完全的自學,在極具挑戰的領域,達到超人的境地。去年,阿法狗(AlphaGo)代表人工智慧在圍棋領域首次戰勝了人類的世界冠軍,但其棋藝的精進,是建立在計算機通過海量的歷史棋譜學習參悟人類棋藝的基礎之上,進而自我訓練,實現超越。可是今天,我們發現,人類其實把阿法狗教壞了!
  • 創造出「阿法狗」的是怎樣的人
    在Deepmind公司公布的一段視頻中,有人就留意到,在「阿法狗」與樊麾對弈時,「阿法狗」的介紹標籤上貼著一個英國國旗。而這一次「阿法狗」挑戰韓國的世界冠軍李世石,現場的選手信息介紹中,也同樣給「阿法狗」貼上了一個英國國旗。
  • 阿法狗之父評李世石神之一手:點中不為人知BUG
    網易體育3月13日報導:北京時間3月13日消息,李世石與谷歌圍棋AlphaGo人機五局大戰第四局,繼續在韓國首爾鍾路區四季酒店進行,結果李世石執白戰勝AlphaGo,贏下這場榮譽之戰。
  • 阿法狗2.0版來了!這次人工智慧要正式摒棄人類棋譜
    阿法狗2.0版來了!2.0版的AlphaGo,將通過數學模型下的自我對局和深度學習,下出真正屬於人工智慧(AI)的圍棋。柯潔微博。在2017年開年,化身Master的阿法狗風捲殘雲完成60勝,唯一一場平局還是因為對弈者掉線。
  • 阿法狗並不是真正的人工智慧:3分鐘讓你徹底明白阿法狗如何下棋
    原標題:阿法狗並不是真正的人工智慧:3分鐘讓你徹底明白阿法狗如何下棋 阿法狗很強大,它的強大是由於它的原理和算法,這是大家都知道的,但具體咋回事,可能很多人就說不上來了。
  • 人機大戰落幕 阿法狗3:0全勝柯潔落淚
    阿法狗在不斷進化實際上與柯潔對戰的阿法狗並不是與李世石對戰的阿法狗,李世石也在採訪中確認了這一點,他認為下法更加直接明確,不會出現一些莫名其妙的布局,牢牢掌控了整盤。
  • 阿法狗算什麼?這個星球最聰明的人說:零來了 擺脫人類自學成才
    在今年5月烏鎮一役完勝人類第一高手柯潔、宣布就此封盤退役的阿法狗為何在短短數月之後又捲土重來?紅星新聞記者19日晚在第一時間連線到了阿法狗之父、谷歌Deepmind公司CEO德米什·哈薩比斯,他向我們獨家揭秘了新一代阿法狗之謎。
  • 把柯潔虐哭的阿法狗被「新一代」Alpha Go Zero虐死,人工智慧也太可怕了!
    一物降一物,這(幾)只偉大的「狗狗」——AlphaGo(阿法狗)在踩碎了圍棋愛好者的一地玻璃心之後,終於被家族的「新世代」——AlphaGoZero給收拾了。近日,《自然》(Nature)雜誌發表了一篇題為Mastering the game of Go without human knowledge(不使用人類知識掌握圍棋)的論文,詳細介紹了阿法狗的Daddy們、即谷歌DeepMind團隊最新的研究成果:AlphaGo Zero從圍棋小白起步,不需要任何歷史棋譜的指引,更不需要參考人類任何的知識經驗,純靠個人強化學習(reinforcementlearning
  • 還記得那個打敗了柯潔的阿法狗嗎?新一代阿法星已全面超越人類
    原本人們以為圍棋將會是人類引以為傲的智商唯一保留地,然而阿法狗擊碎了這一切,從一開始戰勝韓國著名棋手,再到後來戰勝中國最強棋手柯潔,阿法狗已經用多次的實戰證明了自己已經是不敗之神,而都得益於它的特殊機制,跟完全的死記硬背不同的是,阿法狗是通過自己去看數萬場棋局,然後學習經驗並且優化自己。
  • 《棋魂》阿法狗和褚嬴對局誰會贏?
    那我們就看褚嬴和阿法狗對局誰會贏?(AlphaGo是第一個擊敗人類職業圍棋選手的的人工智慧機器人)阿法狗是一個具有學習技能的人工智慧,阿法狗在圍棋方面的學習和計算能力遠超人類。而在計算能力上,阿法狗大約相當於1000臺計算機的運算能力,一個普通人類的大腦對抗1000臺計算機的計算能,好像褚嬴並不佔優勢。
  • 阿爾法狗0-100慘敗,新版AlphaGo Zero百戰百勝,AI顛覆性飛躍
    2016年,橫空出世的阿爾法狗(AlphaGo)以4:1的成績擊敗了圍棋世界冠軍、職業九段棋手李世石,後來又在網絡上與中日韓圍棋高手交戰,60場比賽無一失利。2017年5月,它再與排名世界第一、我國著名圍棋選手柯潔對戰,結果3比0完勝。
  • 神之一手實現終極逆襲 人類首次戰勝"阿法狗"
    昨天,備受矚目的阿爾法人工智慧圍棋與韓國棋手李世石的第四番較量如期而至。經歷了前三次的失敗,李世石終於扳回一局,捍衛了人類的榮譽,而他在第78手的一招妙棋更是被看做打亂「阿法狗」節奏的神之一手。明天,在本次人機大戰的收官一局中,李世石將執黑再戰「阿法狗」。
  • 手把手教你打造自己的「阿法狗」
    可你最近還是到處跟人大談「阿法狗」,就好像那就是你姥姥家的旺財一樣。    有沒有覺得「阿法狗」萌萌噠?   一時間,「阿法狗」成為了高科技、人工智慧的代言者。你當然不可能在寵物店找到這隻「阿法狗」,這套大名叫做AlphaGo的智能設備有錢你也買不到。不過,紳寶君能保證你可以輕鬆打造出屬於自己的「阿法狗」——還能到處跑的那種。
  • 第一次人機大戰阿法狗的五路尖衝,是學自李世石
    早期的阿法狗遍覽人類棋譜,猶如悟出九陰真經的黃裳熟讀天下道家之書,無師自通、內外兼修,終成一代大師。  在與人類勝負師李世石的人機大戰中,最令人盪氣迴腸的非第4局莫屬,此局造就了李世石"神之一手"的傳奇。
  • 如何優雅地了解阿法元AlphaGo Zero的驚人事跡
    阿法元AlphaGoZero沒有基於任何人類已有的經驗,通過完全自學,以 100-0 打敗了之前傲視圍棋群雄的阿法狗AlphaGo。AI 會給世界帶來什麼劇變?人類真的一無是處了嘛?
  • 網曝Master是新版阿法狗 與網站籤有保密協議
    據華西都市報-封面新聞記者了解,MASTER正是新版「阿法狗」,目前處於公測階段,由於這臺「新狗」重出江湖之前,與弈城、野狐等國內知名圍棋對弈網站籤有保密協議,因此到目前為止,我們不可能得到對弈網站方面的官方承認。但正如一位成都業餘圍棋高手所言——只有「阿法狗」才能如此碾壓人類的頂尖高手,這是一個最簡單的推理,不需要官方證實。
  • 柯潔:阿法狗是圍棋上帝 我輸得完全沒有脾氣
    柯潔:阿法狗是圍棋上帝 我輸得完全沒有脾氣 暴風體育訊(陶冶 浙江烏鎮報導)5月