Nature今天上線的這篇重磅論文,詳細介紹了谷歌DeepMind團隊最新的研究成果。人工智慧的一項重要目標,是在沒有任何先驗知識的前提下,通過完全的自學,在極具挑戰的領域,達到超人的境地。去年,阿法狗(AlphaGo)代表人工智慧在圍棋領域首次戰勝了人類的世界冠軍,但其棋藝的精進,是建立在計算機通過海量的歷史棋譜學習參悟人類棋藝的基礎之上,進而自我訓練,實現超越。
可是今天,我們發現,人類其實把阿法狗教壞了!新一代的阿法元(AlphaGo Zero)),完全從零開始,不需要任何歷史棋譜的指引,更不需要參考人類任何的先驗知識,完全靠自己一個人強化學習(reinforcement learning)和參悟,棋藝增長遠超阿法狗,百戰百勝,擊潰阿法狗100-0。
達到這樣一個水準,阿法元只需要在4個TPU上,花三天時間,自己左右互搏490萬棋局。而它的哥哥阿法狗,需要在48個TPU上,花幾個月的時間,學習三千萬棋局,才打敗人類。
這篇論文的第一和通訊作者是DeepMind的David Silver博士,阿法狗項目負責人。他介紹說阿法元遠比阿法狗強大,因為它不再被人類認知所局限,而能夠發現新知識,發展新策略。
為更深入了解阿法元的技術細節,知社採訪了美國杜克大學人工智慧專家陳怡然教授。他向知社介紹說:
DeepMind最新推出的AlphaGo Zero降低了訓練複雜度,擺脫了對人類標註樣本(人類歷史棋局)的依賴,讓深度學習用於複雜決策更加方便可行。我個人覺得最有趣的是證明了人類經驗由於樣本空間大小的限制,往往都收斂於局部最優而不自知(或無法發現),而機器學習可以突破這個限制。之前大家隱隱約約覺得應該如此,而現在是鐵的量化事實擺在面前!
阿法元是如何實現無師自通的呢?杜克大學博士研究生吳春鵬向知社介紹了技術細節:
之前戰勝李世石的AlphaGo基本採用了傳統增強學習技術再加上深度神經網絡DNN完成搭建,而AlphaGo Zero吸取了最新成果做出了重大改進。
首先,在AlphaGo Zero出現之前,基於深度學習的增強學習方法按照使用的網絡模型數量可以分為兩類:一類使用一個DNN"端到端"地完成全部決策過程(比如DQN),這類方法比較輕便,對於離散動作決策更適用;另一類使用多個DNN分別學習policy和value等(比如之前戰勝李世石的AlphaGoGo),這類方法比較複雜,對於各種決策更通用。此次的AlphaGo Zero綜合了二者長處,採用類似DQN的一個DNN網絡實現決策過程,並利用這個DNN得到兩種輸出policy和value,然後利用一個蒙特卡羅搜索樹完成當前步驟選擇。
其次,AlphaGo Zero沒有再利用人類歷史棋局,訓練過程從完全隨機開始。隨著近幾年深度學習研究和應用的深入,DNN的一個缺點日益明顯:訓練過程需要消耗大量人類標註樣本,而這對於小樣本應用領域(比如醫療圖像處理)是不可能辦到的。所以Few-shot learning和Transfer learning等減少樣本和人類標註的方法得到普遍重視。AlphaGo Zero是在雙方博弈訓練過程中嘗試解決對人類標註樣本的依賴,這是以往沒有的。
第三,AlphaGo Zero在DNN網絡結構上吸收了最新進展,採用了ResNet網絡中的Residual結構作為基礎模塊。近幾年流行的ResNet加大了網絡深度,而GoogLeNet加大了網絡寬度。之前大量論文表明,ResNet使用的Residual結構比GoogLeNet使用的Inception結構在達到相同預測精度條件下的運行速度更快。AlphaGo Zero採用了Residual應該有速度方面的考慮。
這個工作意義何在呢?人工智慧專家、美國北卡羅萊納大學夏洛特分校洪韜教授也對知社發表了看法:
我非常仔細從頭到尾讀了這篇論文。首先要肯定工作本身的價值。從用棋譜(supervised learning)到扔棋譜,是重大貢獻(contribution)!幹掉了當前最牛的棋手(變身前的阿法狗),是advancing state-of-the-art。神經網絡的設計和訓練方法都有改進,是創新(novelty)。從應用角度,以後可能不再需要耗費人工去為AI的產品做大量的前期準備工作,這是其意義(significance)所在!
但洪教授對人工智慧做了並不十分樂觀的展望:最終這個火能燒多久,還得看神經網絡能解決多少實際問題。對於眼前流行的東西,不要盲目追逐,要先審時度勢,看看自己擅長啥、有啥積累,看準了坑再跳。
人工智慧——2017年最火熱的標籤。對於眾多AI試水者,你知道如何平衡技術與需求嗎?你知道如何利用政策事半功倍嗎?你知道如何尋找公司的投資伯樂嗎?12月14日,「2017億歐創新者年會·AI產業應用峰會」,我們將邀請眾多投資人、創業者、AI領域精英共同探討,不僅是AI+產業+應用,這裡是需求方和技術提供方的溝通平臺,是政策專家與企業方的交流平臺,是投資人與企業方交流的互獵平臺,是應屆畢業生和企業方的對接平臺。多維度,更深度,來這裡實現屬於你的AI!
本文經授權發布,版權歸原作者所有;內容為作者獨立觀點,不代表億歐立場。如需轉載請聯繫原作者。