今晚8點,「因果科學與Causal AI」讀書會將進行第十期的線上論文分享,主題是「因果強化學習」,將由劍橋大學在讀博士陸超超、清華大學在讀博士張卓婧來進行分享,本次內容將在集智俱樂部B站直播。
主題背景簡介
近些年來,在遊戲領域強化學習取得了巨大的進展,已經能夠打敗人類最頂級的玩家。但在現實生活中,我們卻罕見強化學習的成功應用。帶著這種疑惑,在本次讀書會上,我們將探訪機器學習中一個全新的領域——因果強化學習。因果強化學習不僅可以為傳統強化學習中那些棘手的問題提供一種新的解決方案,更重要的是,它還為通用人工智慧提供一種解決思路。隱藏在因果強化學習背後的哲學理念是迷人的:回顧科學發展的歷史,人類也是走著相似的道路。具體來說,人類是在不斷地與自然交互探索的過程中總結經驗和規律,然後利用這些經驗和規律更好地指導下一次與自然的交互探索,以此來不斷地發展進步。因果強化學習就是在模仿人類的這種行為:智能體在於環境的交互過程中學習和發現其因果關係,然後利用學到的因果關係來優化自己的策略以指導下一步的交互。正是由於這個原因,因果強化學習可以被視為一種通用的學習算法,在現實生活中有著廣泛的應用,比如:計算機視覺、機器人、生物醫藥、健康醫療、推薦系統,自動駕駛,金融、社會學等等。
大綱
Introduction to Causal RL
Brief Intro to RL and Causality
Motivation
Key Concepts
Challenges
Confoundings
Counterfactuals
Causal Representation Learning
Artificial General Intelligence
Applications
Computer Vision
Healthcare/Medicine
Self-driving
Recommendation Systems
Paper Reading
Causality for RL [1-3]
RL for Causality [4-5]
Discussion
主講人介紹
陸超超:劍橋大學在讀博士,研究方向為因果強化學習。
張卓婧:清華大學在讀博士,研究興趣是因果強化學習。
參考文獻
[1] Dudik, M., Langford, J., Li, L. Doubly robust policy evaluation and learning. In Proceedings of 28th International Conference on Machine Learning. 2011.
[2] Bareinboim, E., Forney, A., Pearl, J. Bandits with Unobserved Confounders: A Causal Approach. In Proceedings of the 28th Annual Conference on Neural Information Processing Systems, 2015.
[3] Zhang, J., Bareinboim, E. Designing Optimal Dynamic Treatment Regimes: A Causal Reinforcement Learning Approach. In Proceedings of the 37th International Conference on Machine Learning. 2020.
[4] Khalil, Elias, et al. "Learning combinatorial optimization algorithms over graphs." Advances in Neural Information Processing Systems. 2017.
[5] Zhu, Shengyu, Ignavier Ng, and Zhitang Chen. "Causal discovery with reinforcement learning." arXiv preprint arXiv:1906.04477 (2019).
[6] Lu et al. "Deconfounding reinforcement learning in observational settings." arXiv preprint arXiv:1812.10576
[7] Schoelkopf, Bernhard. "Causality for machinine learning." arXiv preprint arXiv:1911.10500
[8] Buesing et al. "Woulda, coulda, shoulda: Counterfactually-guided policy search." arXiv preprint arXiv:1811.06272
[9] de Haan et al. "Causal confusion in imitation learning." arXiv preprint arXiv: 1905.11979
直播信息與報名方式
直播時間:今天(11月29日) 20:00-23:00
直播地址:集智俱樂部 B 站直播間
關注B站主播「集智俱樂部」
不錯過每一場集智重磅直播
直播地址:
https://live.bilibili.com/8091531
直播時間 :20:00-22:00
關於讀書會內容介紹的更新
集智俱樂部聯合智源社區發起了因果科學與Causal AI讀書會受到了因果科學領域一線科研工作者的廣泛認可,我們也深深的感受到了青年科學工作者推動該領域發展的熱情。目前因果科學與Causal AI讀書會已經有220+的朋友報名,其中碩博的比例接近80%。
在讀書會中的參與者以科研工作者居多,清華大學、北京大學、國防科技大學、浙江大學、復旦大學、中山大學等國內高校的學生居多,也有許多一線網際網路包括谷歌X、FackBook、滴滴、騰訊、阿里、拼多多等大廠的工程師也參與其中。
時間:9月20日起,每周日晚19:00-21:00,持續約2-3個月
模式:線上閉門讀書會;收費-退款的保證金模式;讀書會成員認領解讀論文
費用:299/人