秦隴紀10彙編,關注「科學Sciences」後文章分類頁
(文末「閱讀原文」可下載4k字0表4圖4頁PDF)
簡介:人工智慧從0到1:阿法零AlphaGo Zero無師自通100-0完爆阿法狗AlphaGo(1769字)。深度神經網絡強大的特徵提取能力以及尋找更優解的能力,擺脫對人類經驗和輔助的依賴,從應用角度,以後可能不再需要耗費人工去為AI的產品做大量的前期準備工作,類似的深度強化學習算法或許能更容易地被廣泛應用到其他人類缺乏了解或是缺乏大量標註數據的領域——無監督學習未來之路,這也許是阿法零的最偉大的創新(novelty),搞不好會誕生一個圖靈獎。【「數據簡化DataSimp、科學Sciences、知識簡化」公號希望聚集各專業領域一線研究員;研究技術時也傳播知識、專業視角解釋和普及科學現象和原理,展現自然社會生活之科學面。公號由秦隴紀發起,未覆蓋各領域科普及簡化,期待大家參與~】
人工智慧從0到1:阿法零AlphaGo Zero無師自通100-0完爆阿法狗AlphaGo(1736字)
2016年底AlphaGo阿法狗4-1打敗世界冠軍Lee Sedol李世石,本文以從此人間無敵手。然而2017年10月18日DeepMind公布最新研究成果,AlphaGo Zero(阿法元、直譯阿法零)在沒有任何先驗知識前提下,通過完全自學,完全擊敗最強版本阿法狗。如何評價阿法零(AlphaGo Zero)不看人類棋譜,從零開始,自我學習從而100-0完敗其親哥阿法狗?
谷歌DeepMind項目這項偉大的突破,讓Nature以《無人類知識而掌握圍棋》(Mastering the game of Go without human knowledge)為題發表觀點,又引起人們的AI關注。結合該文和知乎跟帖、DeepMind David Silver博士專訪視頻截圖等網友看法,談談個人幾點淺見。
Nature10月19日上線的這篇重磅論文(論文連結http://nature.com/articles/doi:10.1038/nature24270),詳細介紹了谷歌DeepMind團隊最新的研究成果。人工智慧的一項重要目標,是在沒有任何先驗知識的前提下,通過完全的自學,在極具挑戰的領域,達到超人的境地。
新一代阿法零(AlphaGo Zero)完全從零開始,不需要任何歷史棋譜的指引,更不需要參考人類任何的先驗知識,只需4個TPU上花三天時間、自己左右互搏490萬棋局,完全靠自己一個人強化學習(reinforcement learning)參悟棋藝。算力增長遠超阿法狗,百戰百勝,擊潰阿法狗100-0。達到這樣一個水準,阿法零的哥哥阿法狗,需要48個TPU上花幾個月的時間,學習三千萬棋局,才打敗人類。
阿法狗項目負責人,這篇論文一作和通訊作者是DeepMind的David Silver博士介紹說:This technique is more powerful than previous versions of AlphaGo because it is no longer constrained by the limits of human knowledge. Instead, it is able to learn tabula rasa from the strongest player in the world: AlphaGo itself. AlphaGo Zero also discovered new knowledge, developing unconventional strategies and creative new moves that echoed and surpassed the novel techniques it played in the games against Lee Sedol and Ke Jie.這種技術比以前的Alphago版本更強大,因為它不再受人類知識約束。相反,它能夠從世界上最強的選手——Alphago本身,白板狀態下自學。阿法零也會發現新知識,發展非傳統策略和創意的新舉措和新技術,也超越了對Lee Sedol和Ke Jie的比賽。
Perfect Games完美遊戲(如圍棋、象棋)對於人類而言,從此再也不能對抗機器學習類AI程序。最厲害的人類棋手,如柯潔所能達到的棋力只能與原版AlphaGo相近。戰勝李世石的AlphaGo是用傳統增強學習技術加深度神經網絡DNN完成搭建,藉助走子策略、樣本空間、強化學習,收斂於局部最優。而阿法零AlphaGo Zero吸取了最新成果做出了重大改進,採用類似DQN的一個DNN網絡實現決策過程,並利用這個DNN得到兩種輸出policy和value,然後利用一個蒙特卡羅搜索樹完成當前步驟選擇。
AlphaGo Zero不用人類歷史棋局,訓練過程從完全隨機開始,也就是說訓練過程不再需要大量人類標註樣本。AlphaGo Zero在DNN網絡結構上吸收了最新進展,採用了ResNet網絡中的Residual結構作為基礎模塊。近幾年流行的ResNet加大了網絡深度,而GoogLeNet加大了網絡寬度。之前大量論文表明,ResNet使用的Residual結構比GoogLeNet使用的Inception結構在達到相同預測精度條件下的運行速度更快。AlphaGo Zero採用了Residual應該有速度方面的考慮。
DeepMind新算法AlphaGo Zero阿法零,開始擺脫對人類知識的依賴:在學習開始階段無需先學習人類選手的走法,另外輸入中沒有了人工提取的特徵。網絡結構設計上,新算法與之前的AlphaGo有兩個大的區別:
一、與之前將走子策略(policy)網絡和勝率值(value)網絡分開訓練不同,阿法零網絡結構可同時輸出該步的走子策略(policy)和當前情形下的勝率值(value)。阿法零policy與value網絡共用之前大部分特徵提取層,輸出階段的最後幾層結構仍然相互獨立。阿法零訓練的損失函數也同時包含policy和value兩部分。這樣的顯然可以節省訓練時間,更重要的是,混合policy與value網絡也許能適應更多種不同情況。
二、特徵提取層採用20或40個殘差模塊,每個模塊包含2個卷積層。與之前採用12層左右卷積層相比,殘差模塊運用使網絡深度獲得很大提升。AlphaGo Zero不再需要人工提取特徵,應該也是由於更深的網絡能更有效地直接從棋盤上提取特徵。根據文章提供的數據,這兩點結構上的改進對棋力的提升貢獻大致相等。
總之,阿法零放棄學習人類棋手走法以及人工提取特徵之後,算法能夠取得更優秀表現。
深度神經網絡強大的特徵提取能力以及尋找更優解的能力,擺脫對人類經驗和輔助的依賴,從應用角度,以後可能不再需要耗費人工去為AI的產品做大量的前期準備工作,這是其意義(significance)所在!類似的深度強化學習算法或許能更容易地被廣泛應用到其他人類缺乏了解或是缺乏大量標註數據的領域——無監督學習未來之路,這也許是阿法零的最偉大的創新(novelty),搞不好會誕生一個圖靈獎。
大數據、數據挖掘、機器學習、神經網絡和人工智慧,會持續應用到社會各個角落,傳統人類知識會變得越來越蒼白無力,人類接受的教育、所擁有的知識和技能,都面臨新文明高度的挑戰。
參考文獻(118字)
[1] Nature.Mastering the game of Go without human knowledge.[EB/OL]http://nature.com/articles/doi:10.1038/nature24270,2017-10-19.
[2] 知乎.如何評價阿法元(AlphaGo Zero)?.[EB/OL]https://www.zhihu.com/question/66867197,2017-10-19.
[x] 秦隴紀.數據科學與大數據技術專業概論;人工智慧研究現狀及教育應用;純文本數據神經網絡訓練;大數據簡化之技術體系[EB/OL].數據簡化DataSimp(微信公眾號)http://www.datasimp.org,2017-06-06.
Appx(670字).數據簡化DataSimp社區會議,譯文志願者
信息社會之數據、信息、知識、理論越來越多,遠遠超越個人認知學習能力、時間、精力。行動起來,解決這個問題,主要方法是數據簡化(Data Simplification):簡化減少知識、媒體、社會數據,應對大數據時代的數據爆炸、信息爆炸、知識爆炸,使信息、數據、知識越來越簡單,符合人與設備的現有負荷。
數據簡化2018年會議(DS2018)聚焦數據簡化技術(Data Simplification techniques):對各類數據從採集、處理、存儲、閱讀、分析、邏輯、形式等方面做簡化,應用於信息系統、大數據、自然語言處理、知識工程,數學統計,結構化資料庫、機器學習技術、生物數據、信息系統、物理空間表徵等領域。請通過DataSimp論文投稿網站https://easychair.org/cfp/DS2017或會議網站http://cfp.datasimp.org/ds2017提交電子版(最好有PDF格式)論文。詳情訪問www.datasimp.org,如遇網站維護,請投至會員郵箱DataSimp@163.com。
「數據簡化DataSimp」社區義工志願者,至少投一篇:①高質量原創投稿,正式成為數據簡化DataSimp社區成員;②翻譯美歐數據科學技術論文,IT大數據、人工智慧、編程開發技術文章;③設計黑白靜態和三彩色動態社區S圈型LOGO圖標。
投稿、加入數據簡化DataSimp社區,請關注公眾號「數據簡化DataSimp」、網站http://www.datasimp.org;公號留言,或加微信QinlongGEcai(備註:姓名-單位/學校-職務/專業-手機號)。
免費分享型社群入口=>科學Sciences學術文獻(今天下篇就是)
長按下圖「識別圖中二維碼」關注技術微信公眾號:數據簡化DataSimp(搜名稱也行,關注後菜單有文章分類頁連結):
科普公眾號:科學Sciences(搜名稱也行,關注後有文章分類頁菜單):
關注「知識簡化」知識教育公眾號:
作者:秦隴紀10譯彙編。來源:網絡新聞、微信群公號等彙編,引文出處請看參考文獻。版權聲明:科普文章,公開資料©版權歸原作者所有。僅供學習研究,請勿用於商業非法目的。如出處有誤或侵權,請聯繫溝通、授權或刪除事宜,聯繫郵箱:DataSimp@126.com(轉載請寫出處:秦隴紀10「數據簡化DataSimp、科學Sciences、知識簡化」匯譯編,投稿反饋郵箱QinDragon@qq.com。歡迎傳媒、技術夥伴投稿、加入數據簡化社區!)
普及科學知識,分享到朋友圈