「學術報告」南開大學郭憲:強化學習基本理論概述

2020-12-12 讀芯術

不到現場，照樣看最乾貨的學術報告！

嗨，大家好。這裡是學術報告專欄，讀芯術小編不定期挑選並親自跑會，為大家奉獻科技領域最優秀的學術報告，為同學們記錄報告乾貨，並想方設法搞到一手的PPT和現場視頻——足夠乾貨，足夠新鮮！話不多說，快快看過來，希望這些優秀的青年學者、專家傑青的學術報告，能讓您在業餘時間的知識閱讀更有價值。

2018年8月4月，由北京理工大學大數據創新學習中心與中國科學院人工智慧聯盟標準組聯合主辦的「2018深度強化學習：理論與應用」學術研討會，學界與業界頂級專家濟濟一堂，共同分享深度強化學習領域的研究成果。

南開大學郭憲老師以強化學習基本理論概述為主題進行報告，以下分享內容根據嘉賓口頭分享整理。

強化學習基本理論概述

郭憲南開大學自動化與智能科學系

此次報告主要是從更宏觀的角度講一講強化學習到底是怎麼回事。報告主要從8個Topic進行闡述。

這裡的8個Topic是從陌生人接觸一個新的學科認知過程逐層深入，每個Topic都是層層相扣的。我們需要了解一個新的技術，首先要知道該技術能夠解決什麼問題，對於自己現在從事的研究項目如果不能用強化學習來解決，卻非要用強化學習算法解決肯定是解決不好的，所以第一個Topic是非常關鍵的，要看Insight是什麼。因為強化學習不是萬能的，雖然現在是比較熱，但也有自己適用的範圍，任何算法包括監督學習和無監督學習都有自己適用的範圍。

其次，需要了解強化學習與其他機器學習的區別和聯繫。現在大部分人都說機器學習很火，深度學習當中最火的是監督學習，那麼強化學習和監督學習之間有什麼聯繫和區別呢？這個topic也非常關鍵，因為很多人都有監督學習的基礎。從學習的過程來看，新的知識和舊的知識是兩個不相關的東西，能夠建立之間的聯繫就會學得非常迅速，也容易融會貫通，因此了解強化學習和其它知識學習的聯繫和區別非常關鍵。

然後，在知道它們之間的聯繫和區別的基礎上，需要知道強化學習是怎麼解決這些問題的，學習一門新技術，最關鍵的是把握它的核心，也就是我們所說的精髓。就像練太極拳一樣，太極拳最重要的就是重意而不重招式，如果知道了強化學習的精髓，再看各種各樣五花八門的強化學習算法就一目了然了。

再者，需要了解強化學習的算法歷史及發展趨勢。大家了解到強化學習可能是從Alpha-Go得來，因其下了幾盤圍棋以後就火了。其實強化學習算法是一點點逐步提升的，提升到了一定程度以後，解決了一些比較好的問題，這才引起了大家的注意。所以要和大家講一下它的算法歷史及發展趨勢，明確強化學習不是一下子冒出來的，而是有發展歷史的，要想了解最新的強化學習算法就要從它的根上去思考怎麼一步一步發展起來的，並且從這些算法當中吸收一些靈感。

最後，強化學習這門課程需要循序漸進地去學習，網上是有很多資料可以看，但看了一個月以後還會是一頭霧水，因為學習什麼東西都是有一個過程的，樓梯要一個一個臺階地上，一下子上五個臺階肯定是要摔下去的，所以強化學習也是應該有路線的，這裡也會和大家分享強化學習的路線圖，了解了這些東西以後再聽相關的報告，比如秦老師的先進算法和趙老師的英文講述就會清楚了解講者講述的內容了。

對於強化學習能夠解決什麼問題？首先是雙級倒立板的問題，這是一個典型的非線性控制問題。圖示是雙級倒立板，黑色小方塊是臺車，可以控制臺車左右運動。臺車左右受力，目的是讓這個擺達到平衡位置，就是一個豎直的位置。傳統的非線性控制方法是建模和設置控制器就能解決問題，而強化學習的方法是通過數據不斷試錯學到最優的控制。

第一個問題如果能夠用模型的方式解決，第二個問題最優控制就解決不了，因為視頻遊戲的運動學和動力學很難建立，只能通過學習的方法得到。接下來是Alpha-Go和機器人學走路，強化學習從根源上是行為心理學，就是模仿人的學習過程，機器人學走路經常摔倒，然後在摔倒的過程當中不斷調整自己，最後就學會了走路。強化學習可以解決很多問題，除了非線性控制、視頻遊戲、下棋、機器人，還可用於人機對話、無人駕駛、機器翻譯、文本序列預測等領域。如果用一句話概述這些可以解決的問題，那就是強化學習能夠解決智能決策的問題，而且是序列決策的問題。

深度學習針對的是什麼問題？深度學習針對的是智能感知的問題，例如：圖像識別感知到了一幅圖像，就是看到了圖像就感知到了它是什麼。而智能決策就不一樣了，需要考慮的事情很多，看到當前的磚塊分布形式以及小球的位置，包括當前拍子的位置，需要進行深度的思考，所以深度學習是深度表示，強化學習是深度思考，雖然都是兩個深度，但深度的地方不一樣。

強化學習解決的是智能決策，因為要決策的話要智能決策，需要思前想後，想得很多才叫智能決策，如果有一個人沒有多少智慧，只看眼前的話就是一般決策，如果想得很多就需要智能決策，強化學習也是智能決策算法，想得很多，不光是看眼前圖片，還要考慮後期的狀態，就是要做規劃，所以強化學習和Planning有關。

深度學習針對的是監督學習，強化學習針對的是智能決策，但二者是有聯繫的，即都要從數據當中進行學習。人剛生下來不是很智能的人，需要通過學習才能變得很有智慧，才會走路唱歌跳舞。我們來看一下它的共同點，監督學習當然也需要學習，認識圖片是什麼，相同點就是從數據當中學習，不同點就是學習方法不一樣。

監督學習是給一個數據集構建神經網絡，所以學習的數據集是靜態數據集，就是給了一堆數據和網絡，加上一些計算資源就可以學出來，強化學習其實需要的是交互的數據，什麼是交互的數據？就是機器人要走路，剛開始的時候是很沒有智能的機器人，所以經常會摔倒，摔倒的數據是有意義的，根據摔倒的數據學習調整自己，然後不斷地智能起來。

強化學習比監督學習有意思，伯克利的abbeel曾經說過，強化學習最有意思的是看到了一個智能體，然後從非常不智能的東西變成很智能的智能體，這個過程是非常快樂的，也是很神奇的，就像一個小孩成長的過程。強化學習是需要交互的數據，根據交互的數據不斷調整自己，這是它們之間不同的地方。

那麼強化學習到底是怎麼解決問題的呢？我們需要掌握的核心就是通過什麼來學習的。強化學習是在交互數據當中產生的，交互的數據最基本的單元是什麼？

首先是當前的狀態，然後給了一個動作，環境又給了一個回報，所以強化學習最基本的單元必須要包含兩個因素：首先要有交互的數據，交互體現在當前的狀態和下一個狀態，如果監督學習最基本的數據是數據集和標籤，強化學習不一樣，需要當前的狀態和下一個狀態，這是最基本的單元。如果數據當中只有S0、S1、S2，沒有回報的話其實是沒有信息的，因為沒有環境的回報信息，我們在做強化學習的時候一定要注意我們要採集的是帶有回報的交互數據，所有的算法最最本質的精髓是什麼？就是用我的回報去調動作，要在r當中進行學習。

強化學習中最核心的是用回報函數r調整動作，我們從強化學習的歷史上來看一看，歷史上是怎麼用回報函數的。

1998年之前有一個基本理論的框架，為什麼以1998年為分界線？因為當時出了一本書叫做《強化學習導論》，現在第二版已經出來了。第一版出現以後基本理論框架已經形成了，這個時候算法是怎麼用回報的？就是把這種回報放到值函數裡面，包括最典型的Q-Learning，把回報r放到值函數裡面。

然後是1998年到2013年，值函數的方法一直在發展，但異軍突起的是1998年到2013年基於直接策略搜索的方法，其中一種就是策略基數的方法，最大的缺點就是補償問題沒法解決。其後還有基於回歸的方法和模型的方法。

由於深度學習技術的積累和發展，最核心的就是它的表示能力很強大，可以表示很多自動學習特徵，這是深入學習的核心。把深度學習用來表示特徵，然後和強化學習結合，這個時候就是深入強化學習。為什麼深度強化學習這麼火？因為到了這個階段，深度學習有了很多深度網絡，CNN網絡對圖像的表示非常強，可以自動抽取很多特徵，RNN網絡的數據抽取也非常好，把這些深度網絡抽取特徵和強化學習結合就可以有很強大的表示能力和決策能力，這樣就可以超過人類。

接著我們來看一看強化學習的分類：根據是否依賴模型分為：基於模型的強化學習和無模型的強化學習；根據策略更新的方法可以分為直接策略搜索以及2017年和2018年比較火的結合策略和提升算法的方法，根據回報是否已知可以分為正向和逆向，包括分層的強化學習和原強化學習。

對於強化學習的發展趨勢，主要從以下四點闡述：首先是強化學習和深入學習的結合會更加緊密，因為現在我們看到的Alpha-Zoro的成功離不開CNN網絡和策略網絡；其次，強化學習和專業知識的結合也會更加緊密，還是要看Alpha-Zero的成功，純粹的強化學習可能不好使，這個時候就要和專業知識結合起來，結合得好就可以取得比較大的突破；還有就是理論算法也會更穩定更高效，因為深入學習和機器學習每次大的成功都離不開腦科學和認知科學，尤其是記憶，強化學習和機器學習的聯合是非常有前景的方向。

貝葉斯強化學習是融合了推理能力，分層強化學習可以解決大規模的學習問題，元強化學習解決的是多任務的強化學習，多智能體強化學習將會在博弈領域有新的突破。

學習資源方面需要關注國際上比較重要的Deep Mind， OpenAI以及異軍突起的Uber，還有斯坦福、劍橋和MIT的研究成果。推薦書籍首選的肯定是《強化學習導論》，然後是我自己寫的書，大家可能也都看過。我們還在準備實戰編程，因為學計算機的對這種公式不敏感，直接上手練習就好，所以實戰編程的書籍我們也請了很多人在做，請及時關注該書動態。

最後給大家看一看學習的路線圖，這也是我自己的個人觀點，強化學習應該怎麼入門？

首先需要弄清楚這個概念，很多論文在Introduction和導言當中都會講決策過程。強化學習也有基本方法，包括策略評估和策略改進，所有的強化學習算法都是這兩個過程循環迭代，也就是說所有的強化學習算法都可以歸結為這兩個部分。如果想做創新的話可以做其中一個，常用的包括值函數和策略搜索方法，基於模型和記憶的強化學習等。

獲取完整PPT，請後臺回覆：學術報告

供稿人：白佳喜

精彩的學術報告背後，是一群優秀的學術人才。都說搞學術的人需要「超凡脫俗」，需要耐得住清貧寂寞，其實……芯君想說：完全不需要這樣啊！比如，馬上申請2018百度獎學金——是的，百度為每位具有AI才能的「潛力股」學術精英們提供了廣闊的平臺資源和發展空間，為其提供20萬研究資金支持，幫助優秀學子全身心投入科研工作，心無旁騖地進行科學探索。

還等什麼，你——未來的學術之星，趕快申請報名吧！

留言點讚發個朋友圈

我們一起探討AI落地的最後一公裡

素材來源：搜狐科技、雷鋒網、新浪科技等

如需轉載，請後臺留言，遵守轉載規範

「學術報告」南開大學郭憲:強化學習基本理論概述

相關焦點

【學術講座】臺灣中山大學黃國勝教授關於強化學習的講座通知

中國海洋大學李志剛教授應邀來校做《紮根理論之道》的學術報告

贈書:Sutton老爺子經典之作,《強化學習》中文第2版

南開大學馬院:夯實理論基礎,引領思政教學

「鏡頭」南開大學喜迎2020級碩博新生

南開教學學術論壇聚焦研究性教學

MILA 2018夏季深度學習與強化學習課程資源大放送

天津市數學會2020年學術年會在南開大學舉辦

美國夏威夷大學學者做客南開金融學術講堂

Bengio、Sutton的深度學習&強化學習暑期班又來了,2019視頻已放出

2019年天津大學博士生學術論壇暨第八屆天津大學-南開大學生態環境...

幼教科目二 | 兒童發展理論概述

「人工智慧研學社· 強化學習組」第二期:超越職業玩家的算法 - Deep Q-network

臺灣中山大學黃國勝教授來訪我校開展學術交流

澳門大學講座教授陳俊龍:從深度強化學習到寬度強化學習:結構,算法...

學習「文學」是一種什麼樣的體驗?

清華大學人工智慧研究院開源「天授」強化學習平臺

2018年學術頂會:深度學習的江山如此多嬌

好課推薦 | 基於策略的強化學習和強化學習理論

哈佛大學的學術風格-人文心靈故鄉的嚮往