澎湃新聞10月20日報導,DeepMind公司10月18日新發布的最強版阿爾法狗(AlphaGo Zero)僅用3天時間,490萬盤自我對弈的訓練數據,一臺機器和4個TPU就打敗了戰勝過韓國棋手李世石對弈的AlphaGo。該團隊成員稱,公司內部已經停止了AlphaGo的強化研究,他們正著手開發星際爭霸。
AlphaGo項目首席研究員,大衛·席爾瓦 澎湃新聞視頻截圖
僅用3天時間,490萬盤自我對弈的訓練數據,一臺機器和4個TPU就打敗了戰勝過韓國棋手李世石對弈的AlphaGo,DeepMind公司10月18日新發布的最強版AlphaGo Zero技驚四座。
在最新的論文和官方博客中,DeepMind聯合創始人兼CEO 、AlphaGo之父戴密斯·哈薩比斯(Demis Hassabis)和AlphaGo團隊負責人大衛·席爾瓦(Dave Sliver) 將AlphaGo Zero的成功歸咎於強化學習的升級。這一次,他們僅採用單一的神經網絡,綜合了策略網絡和價值網絡兩種此前用的方法,在不用人類棋譜的情況下,完成了上所述的成就。
10月19日,大衛·席爾瓦與團隊另一成員 Julian Schrittwieser 代表 AlphaGo ,在問答新聞社區Reddit上回答了網友的提問。
在問答過程中,席爾瓦透露,目前,DeepMind內部已經停止了強化 AlphaGo 的積極研究,但仍保留了研究試驗臺,以供 DeepMind 人員驗證新思路和新算法。至於未來是否會開源給全球開發者共享。席爾瓦表示,DeepMind之前已經開源了大量的代碼,但過程一直非常複雜。不幸的是,AlphaGo 項目的代碼庫更加複雜,甚至可以說複雜的過分了。
值得一提的是,據兩位成員透露,在開發AlphaGo的過程中,DeepMind團隊遇到的最大困難是在與李世石比賽期間出現的。當時,團隊意識到 AlphaGo 偶爾會受到錯覺(delusion)的影響。即對弈中,會持續多次系統地誤解當前的棋局。他們嘗試了很多方法來解決,如給程序灌輸更多的圍棋知識或人類元知識。這一次他們的解決方法是讓系統的算法變得更加條理化,使用更少的知識,更多地依賴強化學習來生成更高質量的解決方案。從最終結果看,效果還不錯。
AlphaGo Zero更多依靠強化學習算法,而不是人類數據的方法,也引發了算法和數據之間哪個更重要的討論。在Julian Schrittwieser看來,目前算法仍然比數據更重要,只要看看 AlphaGo Zero 比之前幾個版本的訓練效率高出那麼多就能理解。但這也表明,未來,數據在訓練效率上的重要性還會有很大的提升。
DeepMind與暴雪合作打造的圖形界面,將把《星際爭霸 2》簡化成基本的視覺圖形 圖源:鎢絲科技
另外,網友還特別關心了DeepMind星際爭霸人工智慧的開發進度,Julian Schrittwieser回答道:「我們宣布開放星際爭霸 2 環境剛過去幾個星期,所以現在還處於早期階段。星際爭霸的行動空間確實要比圍棋更具挑戰性,因為其觀察空間要遠大於圍棋。從技術上講,我認為兩者最大的區別之一在於圍棋是一種完美信息博弈,而星際爭霸因為有戰爭迷霧,屬於不完美信息博弈。」
在問答中,也有網友將DeepMind的人工智慧與Facebook的研究做比較,兩者究竟誰更勝一籌。對於這個問題,席爾瓦說:「Facebook 更關注監督學習,它能產生當時性能最優的模型;而我們更關注強化學習,因為我們相信它最終會超越人類已有的知識而進一步取得提升。我們最近的結果實際上表明,只有監督學習確實可實現令人驚嘆的表現,但強化學習絕對是超越人類水平的關鍵。」
澎湃新聞記者/王心馨