近日,2019 年 ACM 計算獎頒出,由於在計算機遊戲領域取得突破性進展,「AlphaGo 之父」、DeepMind 首席科學家、倫敦大學學院教授 David Silver 獲得最新一屆的 ACM 計算獎。
David Silver 是深度學習領域的先驅人物,他在人工智慧領域的一系列成績中,又以帶領打造了 AlphaGo 最為人所知:David Silver 通過巧妙地結合深度學習、強化學習、蒙特卡洛搜索樹和大規模計算的思想,開發了 AlphaGo 算法,AlphaGo 戰勝了頂尖的人類棋手,更是被公為人工智慧(AI)研究的一個裡程碑。
(來源:ACM)
根據 ACM 官方報導,最初,AlphaGo 會經過來自人類專業棋手經驗的小範圍訓練,然後,它會通過強化學習來不斷改善性能。AlphaGo 之後, David Silver 和他的團隊創造了更新穎的方法,來實現更高的性能和通用性,AlphaZero 就此誕生。與 AlphaGo 不同,AlphaZero 完全通過與自己玩遊戲來進行學習,不需要任何人類數據或先驗知識(遊戲規則除外)。而且,AlphaZero 同時在西洋棋、將棋和圍棋遊戲中有超過人類的表現,證明了其 AI 算法的通用性。
早在 David Silver 於艾伯塔大學(University of Alberta)攻讀博士學位時,他就開始探索開發一種可以掌握圍棋智慧的電腦程式,這也成為了他後續一直在專注的研究興趣。在 2013 年的 NeurIPS 會議上,Silver 展示了一種算法,它可以在雅達利遊戲中展現達到人類水平的技巧。這個程序學會了在遊戲過程中僅僅通過觀察像素和分數來玩遊戲。
2015 年, David Silver 和他的同事發布開創性論文「Human Level Control Through Deep Reinforcement Learning 」,在這個研究中,他們將強化學習與人工神經網絡相結合,論文發表在 Nature 雜誌上,且至今被引用近 1 萬次,對該領域產生了巨大影響。隨後,Silver 和他的同事繼續用新技術改進這些深度強化學習算法,這些算法仍然是機器學習中應用最廣泛的工具之一。
2016 年 3 月,團隊開發的 AlphaGo 擊敗世界圍棋冠軍李世石,這被被譽為 AI 裡程碑式的時刻。同年,解析 AlphaGo 背後技術的論文 「 Mastering the Game of Go with Deep Neural Networks and Tree Search 」 公開發布在Nature雜誌上。
AlphaGo 和 AlphaZero 之後,DeepMind 的遊戲 AI 探索的另一個重點是徵服《星際爭霸 II》。就在去年,由 Silver 領導的 DeepMind 團隊開發了 AlphaStar,它掌握了多人即時戰略遊戲《星際爭霸 II》,這類遊戲被認為是遊戲 AI 需要攀登的高峰。
現在,在 DeepMind——這家谷歌旗下最星光熠熠的 AI 公司,David Silver 和他的同事仍在尋求將機器學習和神經科學方面的進展進行技術融合,以構建功能強大的通用學習算法。David Silver 在深度強化學習上的諸多工作也已被應用於提高英國電網效率、幫助谷歌數據中心降低功耗、為歐洲航天局策劃太空探測器軌跡等領域。DeepMind 團隊還將繼續推進這些技術,並為其找到更多的應用場景。
-End-
編輯:黃珊
參考:
https://www.acm.org/media-center/2020/april/acm-prize-2019
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
https://www.nature.com/articles/nature16961
—— 分享新聞,還能獲得積分兌換好禮哦 ——