隨著 DeepMind 公司的崛起,深度學習和強化學習已經成為了人工智慧領域的熱門研究方向。除了眾所周知的 AlphaGo 之外,DeepMind 之前已經使用深度學習與強化學習的算法構造了能夠自動玩 Atari 遊戲的 AI,並且在即時戰略遊戲 StarCraft II 的遊戲 AI 構建上做出了自己的貢獻。雖然目前還沒有成功地使用 AI 來戰勝 StarCraft II 的頂尖職業玩家,但是 AI 卻能夠帶給大家無窮的想像力和期待。
本篇 PPT 將會從強化學習的一些簡單概念開始,逐步介紹值函數與動作值函數,以及 Q-Learning 算法。然後介紹深度學習中卷積神經網絡的大致結構框架。最後將會介紹卷積神經網絡是如何和強化學習有效地結合在一起,來實現一些簡單的遊戲 AI。
之前也寫過一份PPT《當強化學習遇見泛函分析》,之前文章從強化學習的定義出發,一步一步地給讀者介紹強化學習的簡單概念和基本性質,並且會介紹經典的 Q-Learning 算法。文章的最後一節會介紹泛函分析的一些基本概念,並且使用泛函分析的經典定理 Banach Fixed Point Theorem 來證明強化學習中 Value Iteration 等算法的收斂性。
歡迎大家關注公眾帳號數學人生
(長按圖片,識別二維碼即可添加關注)
Long-press QR code to transfer me a reward
As required by Apple's new policy, the Reward feature has been disabled on Weixin for iOS. You can still reward an Official Account by transferring money via QR code.