人工智慧從0到1:阿法零AlphaGo Zero無師自通100-0完爆阿法狗AlphaGo

2021-02-16 科學Sciences

秦隴紀10彙編,關注「科學Sciences」後文章分類頁

(文末「閱讀原文」可下載4k字0表4圖4頁PDF)

簡介:人工智慧從0到1:阿法零AlphaGo Zero無師自通100-0完爆阿法狗AlphaGo(1769字)。深度神經網絡強大的特徵提取能力以及尋找更優解的能力,擺脫對人類經驗和輔助的依賴,從應用角度,以後可能不再需要耗費人工去為AI的產品做大量的前期準備工作,類似的深度強化學習算法或許能更容易地被廣泛應用到其他人類缺乏了解或是缺乏大量標註數據的領域——無監督學習未來之路,這也許是阿法零的最偉大的創新(novelty),搞不好會誕生一個圖靈獎。【「數據簡化DataSimp、科學Sciences、知識簡化」公號希望聚集各專業領域一線研究員;研究技術時也傳播知識、專業視角解釋和普及科學現象和原理,展現自然社會生活之科學面。公號由秦隴紀發起,未覆蓋各領域科普及簡化,期待大家參與~】

 

人工智慧從0到1:阿法零AlphaGo Zero無師自通100-0完爆阿法狗AlphaGo(1736字)

2016年底AlphaGo阿法狗4-1打敗世界冠軍Lee Sedol李世石,本文以從此人間無敵手。然而2017年10月18日DeepMind公布最新研究成果,AlphaGo Zero(阿法元、直譯阿法零)在沒有任何先驗知識前提下,通過完全自學,完全擊敗最強版本阿法狗。如何評價阿法零(AlphaGo Zero)不看人類棋譜,從零開始,自我學習從而100-0完敗其親哥阿法狗?

谷歌DeepMind項目這項偉大的突破,讓Nature以《無人類知識而掌握圍棋》(Mastering the game of Go without human knowledge)為題發表觀點,又引起人們的AI關注。結合該文和知乎跟帖、DeepMind David Silver博士專訪視頻截圖等網友看法,談談個人幾點淺見。


Nature10月19日上線的這篇重磅論文(論文連結http://nature.com/articles/doi:10.1038/nature24270),詳細介紹了谷歌DeepMind團隊最新的研究成果。人工智慧的一項重要目標,是在沒有任何先驗知識的前提下,通過完全的自學,在極具挑戰的領域,達到超人的境地。


新一代阿法零(AlphaGo Zero)完全從零開始,不需要任何歷史棋譜的指引,更不需要參考人類任何的先驗知識,只需4個TPU上花三天時間、自己左右互搏490萬棋局,完全靠自己一個人強化學習(reinforcement learning)參悟棋藝。算力增長遠超阿法狗,百戰百勝,擊潰阿法狗100-0。達到這樣一個水準,阿法零的哥哥阿法狗,需要48個TPU上花幾個月的時間,學習三千萬棋局,才打敗人類。


阿法狗項目負責人,這篇論文一作和通訊作者是DeepMind的David Silver博士介紹說:This technique is more powerful than previous versions of AlphaGo because it is no longer constrained by the limits of human knowledge. Instead, it is able to learn tabula rasa from the strongest player in the world: AlphaGo itself. AlphaGo Zero also discovered new knowledge, developing unconventional strategies and creative new moves that echoed and surpassed the novel techniques it played in the games against Lee Sedol and Ke Jie.這種技術比以前的Alphago版本更強大,因為它不再受人類知識約束。相反,它能夠從世界上最強的選手——Alphago本身,白板狀態下自學。阿法零也會發現新知識,發展非傳統策略和創意的新舉措和新技術,也超越了對Lee Sedol和Ke Jie的比賽。

Perfect Games完美遊戲(如圍棋、象棋)對於人類而言,從此再也不能對抗機器學習類AI程序。最厲害的人類棋手,如柯潔所能達到的棋力只能與原版AlphaGo相近。戰勝李世石的AlphaGo是用傳統增強學習技術加深度神經網絡DNN完成搭建,藉助走子策略、樣本空間、強化學習,收斂於局部最優。而阿法零AlphaGo Zero吸取了最新成果做出了重大改進,採用類似DQN的一個DNN網絡實現決策過程,並利用這個DNN得到兩種輸出policy和value,然後利用一個蒙特卡羅搜索樹完成當前步驟選擇。

AlphaGo Zero用人類歷史棋局,訓練過程從完全隨機開始,也就是說訓練過程不再需要大量人類標註樣本。AlphaGo Zero在DNN網絡結構上吸收了最新進展,採用了ResNet網絡中的Residual結構作為基礎模塊。近幾年流行的ResNet加大了網絡深度,而GoogLeNet加大了網絡寬度。之前大量論文表明,ResNet使用的Residual結構比GoogLeNet使用的Inception結構在達到相同預測精度條件下的運行速度更快。AlphaGo Zero採用了Residual應該有速度方面的考慮。


DeepMind新算法AlphaGo Zero阿法零,開始擺脫對人類知識的依賴:在學習開始階段無需先學習人類選手的走法,另外輸入中沒有了人工提取的特徵。網絡結構設計上,新算法與之前的AlphaGo有兩個大的區別:

一、與之前將走子策略(policy)網絡和勝率值(value)網絡分開訓練不同,阿法零網絡結構可同時輸出該步的走子策略(policy)和當前情形下的勝率值(value)。阿法零policy與value網絡共用之前大部分特徵提取層,輸出階段的最後幾層結構仍然相互獨立。阿法零訓練的損失函數也同時包含policy和value兩部分。這樣的顯然可以節省訓練時間,更重要的是,混合policy與value網絡也許能適應更多種不同情況。

二、特徵提取層採用20或40個殘差模塊,每個模塊包含2個卷積層。與之前採用12層左右卷積層相比,殘差模塊運用使網絡深度獲得很大提升。AlphaGo Zero不再需要人工提取特徵,應該也是由於更深的網絡能更有效地直接從棋盤上提取特徵。根據文章提供的數據,這兩點結構上的改進對棋力的提升貢獻大致相等。

總之,阿法零放棄學習人類棋手走法以及人工提取特徵之後,算法能夠取得更優秀表現。

深度神經網絡強大的特徵提取能力以及尋找更優解的能力,擺脫對人類經驗和輔助的依賴,從應用角度,以後可能不再需要耗費人工去為AI的產品做大量的前期準備工作,這是其意義(significance)所在!類似的深度強化學習算法或許能更容易地被廣泛應用到其他人類缺乏了解或是缺乏大量標註數據的領域——無監督學習未來之路,這也許是阿法零的最偉大的創新(novelty),搞不好會誕生一個圖靈獎。

大數據、數據挖掘、機器學習、神經網絡和人工智慧,會持續應用到社會各個角落,傳統人類知識會變得越來越蒼白無力,人類接受的教育、所擁有的知識和技能,都面臨新文明高度的挑戰。

 

參考文獻(118字)

[1] Nature.Mastering the game of Go without human knowledge.[EB/OL]http://nature.com/articles/doi:10.1038/nature24270,2017-10-19.

[2] 知乎.如何評價阿法元(AlphaGo Zero)?.[EB/OL]https://www.zhihu.com/question/66867197,2017-10-19.

[x] 秦隴紀.數據科學與大數據技術專業概論;人工智慧研究現狀及教育應用;純文本數據神經網絡訓練;大數據簡化之技術體系[EB/OL].數據簡化DataSimp(微信公眾號)http://www.datasimp.org,2017-06-06.

 

Appx(670).數據簡化DataSimp社區會議,譯文志願者

信息社會之數據、信息、知識、理論越來越多,遠遠超越個人認知學習能力、時間、精力。行動起來,解決這個問題,主要方法是數據簡化(Data Simplification):簡化減少知識、媒體、社會數據,應對大數據時代的數據爆炸、信息爆炸、知識爆炸,使信息、數據、知識越來越簡單,符合人與設備的現有負荷。

數據簡化2018年會議(DS2018)聚焦數據簡化技術(Data Simplification techniques):對各類數據從採集、處理、存儲、閱讀、分析、邏輯、形式等方面做簡化,應用於信息系統、大數據、自然語言處理、知識工程,數學統計,結構化資料庫、機器學習技術、生物數據、信息系統、物理空間表徵等領域。請通過DataSimp論文投稿網站https://easychair.org/cfp/DS2017或會議網站http://cfp.datasimp.org/ds2017提交電子版(最好有PDF格式)論文。詳情訪問www.datasimp.org,如遇網站維護,請投至會員郵箱DataSimp@163.com。

數據簡化DataSimp」社區義工志願者,至少投一篇:①高質量原創投稿,正式成為數據簡化DataSimp社區成員;②翻譯美歐數據科學技術論文,IT大數據、人工智慧、編程開發技術文章;③設計黑白靜態和三彩色動態社區S圈型LOGO圖標

投稿、加入數據簡化DataSimp社區,請關注公眾號「數據簡化DataSimp」、網站http://www.datasimp.org;公號留言,或加微信QinlongGEcai(備註:姓名-單位/學校-職務/專業-手機號)。

免費分享型社群入口=>科學Sciences學術文獻(今天下篇就是)

長按下圖「識別圖中二維碼」關注技術微信公眾號:數據簡化DataSimp(搜名稱也行,關注後菜單有文章分類頁連結):

 

科普公眾號:科學Sciences(搜名稱也行,關注後有文章分類頁菜單):

 

關注「知識簡化」知識教育公眾號:

 

作者:秦隴紀10譯彙編。來源:網絡新聞、微信群公號等彙編,引文出處請看參考文獻。版權聲明:科普文章,公開資料©版權歸原作者所有。僅供學習研究,請勿用於商業非法目的。如出處有誤或侵權,請聯繫溝通、授權或刪除事宜,聯繫郵箱:DataSimp@126.com(轉載請寫出處:秦隴紀10「數據簡化DataSimp、科學Sciences、知識簡化」匯譯編,投稿反饋郵箱QinDragon@qq.com。歡迎傳媒、技術夥伴投稿、加入數據簡化社區!)

普及科學知識,分享朋友圈

相關焦點

  • AlphaGo Zero 橫空出世,無師自通完爆阿法狗
    阿法狗戰勝人類,其棋藝的精進是建立在計算機對海量歷史棋譜學習參悟的基礎之上,實現自我進化和超越。而新一代的阿法元(AlphaGo Zero)完全是從零開始,不需要任何歷史和人類的指導,通過全新的強化學習方式自己成為自己的老師,在棋藝上不僅達到了超越人類的精通程度,也打敗了它的師兄阿法狗(AlphaGo)。
  • 當全國網友和「阿發狗」組隊,「阿法狗」表示壓力很大?
    2016年,人工智慧程序「阿法狗」與代表人類聰明大腦的圍棋世界冠軍、職業九段棋手李世石對戰,最終「阿法狗」以4比1的總比分獲勝;2017年初,「阿法狗」與中、日、韓數十位圍棋高手進行快棋對決,連續60局無一敗績;
  • 創造出「阿法狗」的是怎樣的人
    在Deepmind公司公布的一段視頻中,有人就留意到,在「阿法狗」與樊麾對弈時,「阿法狗」的介紹標籤上貼著一個英國國旗。而這一次「阿法狗」挑戰韓國的世界冠軍李世石,現場的選手信息介紹中,也同樣給「阿法狗」貼上了一個英國國旗。
  • 由AlphaGo Zero 說起 我們尚未真正理解什麼是人類智能
    跟阿法狗不同,阿法狗零不依賴於任何人類對弈記錄,完全從圍棋的規則出發,「自學成才」,「推導」出所有的戰略,在與阿法狗的對戰中完勝。有人問我,阿法狗零是否改變了我對人工智慧的看法。我的回答是:沒有。我必須承認阿法狗零是個重要的成就。在以往的文章中我沒能表達這種欣賞,有些人可能誤解我,以為我對它的態度是不屑。不是那樣的。
  • 《棋魂》阿法狗和褚嬴對局誰會贏?
    那我們就看褚嬴和阿法狗對局誰會贏?(AlphaGo是第一個擊敗人類職業圍棋選手的的人工智慧機器人)阿法狗是一個具有學習技能的人工智慧,阿法狗在圍棋方面的學習和計算能力遠超人類。而在計算能力上,阿法狗大約相當於1000臺計算機的運算能力,一個普通人類的大腦對抗1000臺計算機的計算能,好像褚嬴並不佔優勢。
  • 阿法狗團隊:Master只是測試版 人機決戰在今年
    阿法狗幕後團隊——谷歌DeepMind接受了成都商報記者獨家專訪。「人類注意了,Master只是其中一個。還有更多的人工智慧化身網絡帳號正在挑戰世界棋壇……」1月4日晚,隨著古力認輸,阿法狗(AlphaGo)新版Master對人類頂尖高手的戰績停留在60勝0負1和,而令人尷尬的是這唯一一場和棋還是因為棋手掉線系統自動判和。
  • 我們該恐懼的不是阿法狗 是身後的谷歌與美國
    這不是李世石的與阿法狗的博弈,而是美國的高科技與全球其他國家科技實力的博弈。  我們該恐懼的,不是阿法狗,而是阿法狗身後的Google與美國  一、  不出意外,李世石又輸了.  如果說第一盤輸,還有點自身失誤的內心鬱結,那麼,今天李世石几乎是滿盤被碾壓,完全沒脾氣。
  • 關於阿法狗教學工具的若干疑問
    各位好,在連續擺了兩天阿法狗老師的布局的變化後,小編和同仁都深感自己已經中了「重度狗毒」,頗有難以自拔之感。然而中毒歸中毒,在學習阿法圍棋布局理論過程中依然浮現了一些「難解之謎」,並困擾著小編們,拿來與大家分享——上圖的結果公然反對一直以來人類教科書中點角方向的結論,且勝率差達3個點之多,讓人費解。
  • 3比0,「阿法狗」又贏了,為啥會讓學校很鬧心?|校長說升學
    它的名字叫「阿法狗」(AlphaGo),一隻會下圍棋的機器狗。今天,它和人類圍棋冠軍李世石剛下成了3:0。這個比分,不但讓圍棋高手們坐不住了,據說連校長們也不大開心。比如,本期「校長說升學」的嘉賓,安吉路良渚實驗學校校長駱玲芳。
  • 「阿法狗超級無聊,卻是圍棋福音」
    他曾打敗巔峰時期的聶棋聖,四川圍棋元老王劍坤—— 「阿法狗超級無聊,卻是圍棋福音」   在上周成都園丁控股隊本賽季圍甲聯賽主場賽事之前,一位特殊的嘉賓被請到成都棋校上課——他是王劍坤七段,成都棋校的第一批學員。
  • 像「阿法狗」一樣去交易
    前言像「阿法狗」一樣去交易「阿法狗」,英文名:AlphaGo。相信很多人都不陌生。2016年,谷歌開發出圍棋機器人「阿法狗」,之後橫掃人類,保持不敗,被阿法狗完虐的,還包括世界圍棋冠軍韓國的李世石,中國的柯潔。
  • 阿法狗的詭異思路,完全難以捉摸的棋步
    阿法狗(虛擬圖像)基本圖局面,1—13手。參考圖一:白1跳,按照棋手的正常思路,黑2刺了以後粘,白棋飛的時候黑6夾擊(也可以走A,B位)。阿法狗的詭異思路:黑2碰。如果初學者這樣走,會被老師認為不適合下圍棋,但阿法狗不走尋常路,這樣的棋步令人匪夷所思。參考圖二:白棋1位扳,黑2大概也扳,然後黑棋走4位拐然後6—8強行拉出二子作戰嗎?人類棋手在此局面下肯定一頭霧水。
  • 圖解:「阿法狗」勝出預示大數據成為軍事武器?
    「阿法狗」的出現,預示著未來由軟體定義的軍隊與戰爭將成為現實,數位化的戰例、訓練、演習將成為核心戰鬥力,物聯網、雲計算、作戰計算實驗將成為軍事行動的「新常態」,我們必須建立自己相應的智慧國防軍事理論與體系。3月15日,在舉世矚目的人機圍棋大戰中,谷歌的人工智慧程序(軟體機器人)「阿法狗」以4:1戰勝韓國世界冠軍李世乭,令人類瞠目結舌。
  • 阿老師教你新定式,小目高掛一間低夾新招大揭露
    大家豪,我四小阿(模仿機器人)今天來給大家講解新手新型新定式的第一課,講哪個定式呢?這位同學——小目高掛一間低夾?好的,我們就來講講這個定式。放心這手棋還沒出現在人類棋譜裡面過,絕對新鮮出爐包治百病……(阿呸呸)……那飛之後有兩個變化,頂和尖你們想聽哪個?這是比較簡明的變化黑棋頂,到白棋二間高跳,非常簡明。
  • 柯潔是如何被阿法狗超越的?關鍵在於這3點!
    在2017年5月23日,一場舉世矚目的「圍棋人機對抗賽」在浙江桐鄉打響,參賽雙方分別是當時等級分排名世界第一的中國棋手柯潔九段,以及谷歌公司研製的人工智慧程序AlphaGo(國內網友親切地稱之為「阿法狗」)。
  • 愛迪生為何拒絕特斯拉,阿法狗如何戰勝李世石?背後的原因是一樣的
    2016年3月發生一件具有裡程碑意義的大事,阿法狗戰勝了李世石。在對戰的第二局,阿法狗走出了人類不可能走出的一手棋,號稱「天外飛仙」,阿法狗下到第37手棋,壓制了白旗,圍棋術語也叫肩衝。而人類棋手對肩衝的運用對多是四路壓三路,而阿法狗走出了五路壓四路,這一步棋,在人類看來,黑棋(阿法狗)反而大虧,但後來的局勢表明,這一步走的非常精妙。
  • 曝人機大戰目的:檢測阿法狗漏洞 逼出失誤為成功
    廣州日報訊 (全媒體記者 施紹宗) 日前,世界第一高手柯潔與最新版「阿法狗」的三番棋較量,雙方第一局以柯潔的完敗而結束。外界對此疑問重重,既然比賽毫無懸念,為何還要搞這次人機大戰?
  • iH5 3.0上線,這是H5行業的阿法狗和柯潔之戰
    14年一個不知名團隊閒來做了個小遊戲《圍住神經貓》,2天內靠自傳播點擊量破千萬;15年吳亦凡入伍互動廣告的分享熱潮,更讓各行各業意識到H5營銷的巨大價值。 近兩年H5廣告百花齊放,有三個重要原因: (1)H5廣告的有效性經過了大量實例驗證。全景互動、全屏視頻、互動遊戲、長頁面動畫等等,玩法五花八門,都出現過零成本百萬量級推廣的營銷神話。