「學術報告」南開大學郭憲:強化學習基本理論概述

2020-12-12 讀芯術

不到現場,照樣看最乾貨的學術報告!

嗨,大家好。這裡是學術報告專欄,讀芯術小編不定期挑選並親自跑會,為大家奉獻科技領域最優秀的學術報告,為同學們記錄報告乾貨,並想方設法搞到一手的PPT和現場視頻——足夠乾貨,足夠新鮮!話不多說,快快看過來,希望這些優秀的青年學者、專家傑青的學術報告 ,能讓您在業餘時間的知識閱讀更有價值。

2018年8月4月,由北京理工大學大數據創新學習中心與中國科學院人工智慧聯盟標準組聯合主辦的「2018深度強化學習:理論與應用」學術研討會,學界與業界頂級專家濟濟一堂,共同分享深度強化學習領域的研究成果。

南開大學郭憲老師以強化學習基本理論概述為主題進行報告,以下分享內容根據嘉賓口頭分享整理。

強化學習基本理論概述

郭憲 南開大學自動化與智能科學系

此次報告主要是從更宏觀的角度講一講強化學習到底是怎麼回事。報告主要從8個Topic進行闡述。

這裡的8個Topic是從陌生人接觸一個新的學科認知過程逐層深入,每個Topic都是層層相扣的。我們需要了解一個新的技術,首先要知道該技術能夠解決什麼問題,對於自己現在從事的研究項目如果不能用強化學習來解決,卻非要用強化學習算法解決肯定是解決不好的,所以第一個Topic是非常關鍵的,要看Insight是什麼。因為強化學習不是萬能的,雖然現在是比較熱,但也有自己適用的範圍,任何算法包括監督學習和無監督學習都有自己適用的範圍。

其次,需要了解強化學習與其他機器學習的區別和聯繫。現在大部分人都說機器學習很火,深度學習當中最火的是監督學習,那麼強化學習和監督學習之間有什麼聯繫和區別呢?這個topic也非常關鍵,因為很多人都有監督學習的基礎。從學習的過程來看,新的知識和舊的知識是兩個不相關的東西,能夠建立之間的聯繫就會學得非常迅速,也容易融會貫通,因此了解強化學習和其它知識學習的聯繫和區別非常關鍵。

然後,在知道它們之間的聯繫和區別的基礎上,需要知道強化學習是怎麼解決這些問題的,學習一門新技術,最關鍵的是把握它的核心,也就是我們所說的精髓。就像練太極拳一樣,太極拳最重要的就是重意而不重招式,如果知道了強化學習的精髓,再看各種各樣五花八門的強化學習算法就一目了然了。

再者,需要了解強化學習的算法歷史及發展趨勢。大家了解到強化學習可能是從Alpha-Go得來,因其下了幾盤圍棋以後就火了。其實強化學習算法是一點點逐步提升的,提升到了一定程度以後,解決了一些比較好的問題,這才引起了大家的注意。所以要和大家講一下它的算法歷史及發展趨勢,明確強化學習不是一下子冒出來的,而是有發展歷史的,要想了解最新的強化學習算法就要從它的根上去思考怎麼一步一步發展起來的,並且從這些算法當中吸收一些靈感。

最後,強化學習這門課程需要循序漸進地去學習,網上是有很多資料可以看,但看了一個月以後還會是一頭霧水,因為學習什麼東西都是有一個過程的,樓梯要一個一個臺階地上,一下子上五個臺階肯定是要摔下去的,所以強化學習也是應該有路線的,這裡也會和大家分享強化學習的路線圖,了解了這些東西以後再聽相關的報告,比如秦老師的先進算法和趙老師的英文講述就會清楚了解講者講述的內容了。

對於強化學習能夠解決什麼問題?首先是雙級倒立板的問題,這是一個典型的非線性控制問題。圖示是雙級倒立板,黑色小方塊是臺車,可以控制臺車左右運動。臺車左右受力,目的是讓這個擺達到平衡位置,就是一個豎直的位置。傳統的非線性控制方法是建模和設置控制器就能解決問題,而強化學習的方法是通過數據不斷試錯學到最優的控制。

第一個問題如果能夠用模型的方式解決,第二個問題最優控制就解決不了,因為視頻遊戲的運動學和動力學很難建立,只能通過學習的方法得到。接下來是Alpha-Go和機器人學走路,強化學習從根源上是行為心理學,就是模仿人的學習過程,機器人學走路經常摔倒,然後在摔倒的過程當中不斷調整自己,最後就學會了走路。強化學習可以解決很多問題,除了非線性控制、視頻遊戲、下棋、機器人,還可用於人機對話、無人駕駛、機器翻譯、文本序列預測等領域。如果用一句話概述這些可以解決的問題,那就是強化學習能夠解決智能決策的問題,而且是序列決策的問題。

深度學習針對的是什麼問題?深度學習針對的是智能感知的問題,例如:圖像識別感知到了一幅圖像,就是看到了圖像就感知到了它是什麼。而智能決策就不一樣了,需要考慮的事情很多,看到當前的磚塊分布形式以及小球的位置,包括當前拍子的位置,需要進行深度的思考,所以深度學習是深度表示,強化學習是深度思考,雖然都是兩個深度,但深度的地方不一樣。

強化學習解決的是智能決策,因為要決策的話要智能決策,需要思前想後,想得很多才叫智能決策,如果有一個人沒有多少智慧,只看眼前的話就是一般決策,如果想得很多就需要智能決策,強化學習也是智能決策算法,想得很多,不光是看眼前圖片,還要考慮後期的狀態,就是要做規劃,所以強化學習和Planning有關。

深度學習針對的是監督學習,強化學習針對的是智能決策,但二者是有聯繫的,即都要從數據當中進行學習。人剛生下來不是很智能的人,需要通過學習才能變得很有智慧,才會走路唱歌跳舞。我們來看一下它的共同點,監督學習當然也需要學習,認識圖片是什麼,相同點就是從數據當中學習,不同點就是學習方法不一樣。

監督學習是給一個數據集構建神經網絡,所以學習的數據集是靜態數據集,就是給了一堆數據和網絡,加上一些計算資源就可以學出來,強化學習其實需要的是交互的數據,什麼是交互的數據?就是機器人要走路,剛開始的時候是很沒有智能的機器人,所以經常會摔倒,摔倒的數據是有意義的,根據摔倒的數據學習調整自己,然後不斷地智能起來。

強化學習比監督學習有意思,伯克利的abbeel曾經說過,強化學習最有意思的是看到了一個智能體,然後從非常不智能的東西變成很智能的智能體,這個過程是非常快樂的,也是很神奇的,就像一個小孩成長的過程。強化學習是需要交互的數據,根據交互的數據不斷調整自己,這是它們之間不同的地方。

那麼強化學習到底是怎麼解決問題的呢?我們需要掌握的核心就是通過什麼來學習的。強化學習是在交互數據當中產生的,交互的數據最基本的單元是什麼?

首先是當前的狀態,然後給了一個動作,環境又給了一個回報,所以強化學習最基本的單元必須要包含兩個因素:首先要有交互的數據,交互體現在當前的狀態和下一個狀態,如果監督學習最基本的數據是數據集和標籤,強化學習不一樣,需要當前的狀態和下一個狀態,這是最基本的單元。如果數據當中只有S0、S1、S2,沒有回報的話其實是沒有信息的,因為沒有環境的回報信息,我們在做強化學習的時候一定要注意我們要採集的是帶有回報的交互數據,所有的算法最最本質的精髓是什麼?就是用我的回報去調動作,要在r當中進行學習。

強化學習中最核心的是用回報函數r調整動作,我們從強化學習的歷史上來看一看,歷史上是怎麼用回報函數的。

1998年之前有一個基本理論的框架,為什麼以1998年為分界線?因為當時出了一本書叫做《強化學習導論》,現在第二版已經出來了。第一版出現以後基本理論框架已經形成了,這個時候算法是怎麼用回報的?就是把這種回報放到值函數裡面,包括最典型的Q-Learning,把回報r放到值函數裡面。

然後是1998年到2013年,值函數的方法一直在發展,但異軍突起的是1998年到2013年基於直接策略搜索的方法,其中一種就是策略基數的方法,最大的缺點就是補償問題沒法解決。其後還有基於回歸的方法和模型的方法。

由於深度學習技術的積累和發展,最核心的就是它的表示能力很強大,可以表示很多自動學習特徵,這是深入學習的核心。把深度學習用來表示特徵,然後和強化學習結合,這個時候就是深入強化學習。為什麼深度強化學習這麼火?因為到了這個階段,深度學習有了很多深度網絡,CNN網絡對圖像的表示非常強,可以自動抽取很多特徵,RNN網絡的數據抽取也非常好,把這些深度網絡抽取特徵和強化學習結合就可以有很強大的表示能力和決策能力,這樣就可以超過人類。

接著我們來看一看強化學習的分類:根據是否依賴模型分為:基於模型的強化學習和無模型的強化學習;根據策略更新的方法可以分為直接策略搜索以及2017年和2018年比較火的結合策略和提升算法的方法,根據回報是否已知可以分為正向和逆向,包括分層的強化學習和原強化學習。

對於強化學習的發展趨勢,主要從以下四點闡述:首先是強化學習和深入學習的結合會更加緊密,因為現在我們看到的Alpha-Zoro的成功離不開CNN網絡和策略網絡;其次,強化學習和專業知識的結合也會更加緊密,還是要看Alpha-Zero的成功,純粹的強化學習可能不好使,這個時候就要和專業知識結合起來,結合得好就可以取得比較大的突破;還有就是理論算法也會更穩定更高效,因為深入學習和機器學習每次大的成功都離不開腦科學和認知科學,尤其是記憶,強化學習和機器學習的聯合是非常有前景的方向。

貝葉斯強化學習是融合了推理能力,分層強化學習可以解決大規模的學習問題,元強化學習解決的是多任務的強化學習,多智能體強化學習將會在博弈領域有新的突破。

學習資源方面需要關注國際上比較重要的Deep Mind, OpenAI以及異軍突起的Uber,還有斯坦福、劍橋和MIT的研究成果。推薦書籍首選的肯定是《強化學習導論》,然後是我自己寫的書,大家可能也都看過。我們還在準備實戰編程,因為學計算機的對這種公式不敏感,直接上手練習就好,所以實戰編程的書籍我們也請了很多人在做,請及時關注該書動態。

最後給大家看一看學習的路線圖,這也是我自己的個人觀點,強化學習應該怎麼入門?

首先需要弄清楚這個概念,很多論文在Introduction和導言當中都會講決策過程。強化學習也有基本方法,包括策略評估和策略改進,所有的強化學習算法都是這兩個過程循環迭代,也就是說所有的強化學習算法都可以歸結為這兩個部分。如果想做創新的話可以做其中一個,常用的包括值函數和策略搜索方法,基於模型和記憶的強化學習等。

獲取完整PPT,請後臺回覆:學術報告

供稿人:白佳喜

精彩的學術報告背後,是一群優秀的學術人才。都說搞學術的人需要「超凡脫俗」,需要耐得住清貧寂寞,其實……芯君想說:完全不需要這樣啊!比如,馬上申請2018百度獎學金——是的,百度為每位具有AI才能的「潛力股」學術精英們提供了廣闊的平臺資源和發展空間,為其提供20萬研究資金支持,幫助優秀學子全身心投入科研工作,心無旁騖地進行科學探索。

還等什麼,你——未來的學術之星,趕快申請報名吧!

留言 點讚 發個朋友圈

我們一起探討AI落地的最後一公裡

素材來源:搜狐科技、雷鋒網、新浪科技等

如需轉載,請後臺留言,遵守轉載規範

相關焦點

  • 【學術講座】臺灣中山大學黃國勝教授關於強化學習的講座通知
    臺灣中山大學黃國勝教授關於強化學習的講座通知報告人: 黃國勝 教授(IET Fellow)邀請人: 崔榮鑫時間: 2017年11月4日,下午2:30地點: 航海學院東配樓主題: 強化學習概述及其應用範例內容簡介:強化學習是機器學習中的一個領域,強調如何基於環境而行動,以取得最大化的預期利益。
  • 中國海洋大學李志剛教授應邀來校做《紮根理論之道》的學術報告
    新聞網訊 12月10日下午,中國海洋大學管理學院李志剛教授應邀來校為國際教育學院師生做了一場題為《紮根理論之道》的學術報告。李志剛教授的報告高屋建瓴、深入淺出,主要介紹了紮根理論的基本問題、分析過程、應用舉例三部分內容。
  • 贈書:Sutton老爺子經典之作,《強化學習》中文第2版
    時序差分方法、同軌離軌策略等強化學習的基本概念和方法,並以大量的實例幫助讀者理解強化學習的問題建模過程以及核心的算法細節。第 2 版中,它從強化學習的基本思想出發,深入淺出又嚴謹細緻地介紹了馬爾可夫決策過程、蒙特卡洛方法、時序差分方法、同軌離軌策略等強化學習的基本概念和方法,並以大量的實例幫助讀者理解強化學習的問題建模過程以及核心的算法細節。基於強化學習近來的蓬勃發展,作者補充了很多新的內容:人工神經網絡、蒙特卡洛樹搜索、平均收益最大化等,涵蓋了當今最關鍵的核心算法和理論。
  • 南開大學馬院:夯實理論基礎,引領思政教學
    一年多以來,南開大學馬克思主義學院全體教師認真學習領會習近平總書記重要講話精神,不斷夯實理論基礎、深化教學改革、優化課程體系、創新教學手段,著力打造具有南開大學特色的思政課程體系,用真理的強大力量引領思政課程教育教學。
  • 「鏡頭」南開大學喜迎2020級碩博新生
    9月17日,南開大學迎來2020級研究生新同學。  南開大學研工部新生大數據顯示,今年,南開大學共錄取研究生新生5000餘名,其中博士生約佔23%,碩士生約佔77%,全日制碩士生佔比80%,非全日制碩士生佔比20%。新生來自五湖四海,家鄉遍布全國,其中來自山東、河北、河南的同學最多。中共黨員佔比超30%。
  • 南開教學學術論壇聚焦研究性教學
    南開新聞網訊(通訊員 嚴鐵毅)12月5日,南開大學教學學術論壇第七期報告會舉行。南開大學電子信息與光學工程學院教授、教研團隊負責人張偉剛主持會議。  會上,南開大學文學院謝朝教授、物理科學學院李玉棟教授分別做題為「研究性教學在藝術設計教學中的應用——以《自然設計方法研究》課程為例」「研究性教學在物理教學中的應用——以《大學物理》課程為例」的教學學術專題報告。
  • MILA 2018夏季深度學習與強化學習課程資源大放送
    強化學習夏季課程RLSS 會覆蓋強化學習的基礎知識,並且展示其最前沿的研究方向和新發現,還會提供與研究生和業內高級研究人員進行交流的機會。值得注意的是,今年 Richard Sutton 會先給我們上一次強化學習「啟蒙課」:《Introduction to RL and TD》。本課程主要面向機器學習及其相關領域的研究生。
  • 天津市數學會2020年學術年會在南開大學舉辦
    南開新聞網訊(通訊員 李佳傲 攝影 李建新)10月24日,天津市數學會2020年學術年會在南開大學省身樓二樓學術報告廳開幕。  南開大學教授、天津市數學會理事長尤建功總結了市數學會2019-2020年度工作,肯定了天津市數學界同仁在學科建設,人才培養,科研獲獎和學術交流等多方面取得的成績。
  • 美國夏威夷大學學者做客南開金融學術講堂
    南開新聞網訊(通訊員 李曉 柳明)6月8日,來自美國夏威夷大學馬諾阿分校經濟系的王亮副教授應邀做客南開金融學術講堂,並作了題為「Money and Credit: Theory and Applications」的精彩報告。  在報告中,王亮探究了貨幣與信用作為競爭性支付工具的理論及其應用。
  • Bengio、Sutton的深度學習&強化學習暑期班又來了,2019視頻已放出
    2005 年,加拿大高等研究院(CIFAR)的「機器與大腦學習計劃」在多倫多舉辦了第一屆深度學習&強化學習暑期班,希望能夠培養下一代 AI 研究人員。許多以前的學生都已經成為一些頂級科技公司和大學實驗室的負責人。
  • 2019年天津大學博士生學術論壇暨第八屆天津大學-南開大學生態環境...
    本站訊(通訊員 童銀棟 李若佳)10月19日,2019年天津大學博士生學術論壇暨第八屆天津大學-南開大學生態環境領域博士生學術分論壇在天津大學北洋園校區成功舉辦,在津高校生態環境領域200餘名博士研究生參加此次論壇。
  • 幼教科目二 | 兒童發展理論概述
    」:C「解析」:幼兒在1-3歲,主要是自主對羞愧,兒童必須學習自主,自己吃飯、穿衣及照顧自己的個人衛生等。」:C「解析」:三山實驗,是心理學家皮亞傑做過的一個著名的實驗。「答案」:(1)社會認知學習理論把學習分為參與性學習和替代性學習。 (2)他認為觀察學習是人的學習的最重要形式,包括注意、保持、再現和動機四個子過程。
  • 「人工智慧研學社· 強化學習組」第二期:超越職業玩家的算法 - Deep Q-network
    點擊連結閱讀:http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html摘要: 強化學習理論為動物行為提供了一個根植於心理學和神經科學視角的規範化解釋,它告訴我們主體(agent)是如何優化他們對環境的控制。
  • 臺灣中山大學黃國勝教授來訪我校開展學術交流
    西工大新聞網11月8日電(崔榮鑫)11月4日下午2:30,應航海學院崔榮鑫教授邀請,臺灣中山大學電機系黃國勝教授(HWANG KAO-SHING)做客西北工業大學航海學院,在東配樓會議室作了題為「強化學習概述及其應用範例」的學術報告。
  • 澳門大學講座教授陳俊龍:從深度強化學習到寬度強化學習:結構,算法...
    雷鋒網 AI 科技評論按:2018 年 5 月 31 日-6 月 1 日,中國自動化學會在中國科學院自動化研究所成功舉辦第 5 期智能自動化學科前沿講習班,主題為「深度與寬度強化學習」。如何賦予機器自主學習的能力,一直是人工智慧領域的研究熱點。
  • 學習「文學」是一種什麼樣的體驗?
    以學習《中國古代文學》為例首先,以「文學」兩字命名的課,有中國《古代文學史》、《現代文學史》、《當代文學史》、《民間文學》(民俗學)及《外國文學史》、《比較文學》、《文學理論》、《中國古代文學批評理論史》(古代文論)、《西方文學理論史》(西方文論)九門課,是為總論。這裡僅講講學習、研究「中國古代文學」的體驗。管中窺豹,以見一斑。
  • 清華大學人工智慧研究院開源「天授」強化學習平臺
    清華大學人工智慧研究院基礎理論研究中心聚焦這一問題,開展了一系列理論和關鍵技術研究,自研了深度強化學習算法平臺「天授」,日前向業界開源:https://github.com/thu-ml/tianshou
  • 2018年學術頂會:深度學習的江山如此多嬌
    本文中,機器之心將概述 2018 年十大學術會議,包括論文提交與接收情況、備受關注的論文評審制度,以及論文主題分布等。我們希望讀者能通過這篇文章遍歷機器學習在一年中的起伏與風雨,同時也希望追隨學術會議開闢的道路繼續向前。
  • 好課推薦 | 基於策略的強化學習和強化學習理論
    因此,小編整理了英國倫敦大學學院(UCL)汪軍教授帶來的《基於策略的強化學習和強化學習理論》課程,讓有興趣的同學了解、走進強化學習與智能科學這一前沿領域。備註:該課程來自於近日國內外知名高校和研究機構的強化學習領域研究者共同發起的RLChina 2020強化學習夏令營。
  • 哈佛大學的學術風格-人文心靈故鄉的嚮往
    這正是後來哈佛大學所延續學術自由的傳統,進而發揚光大成為哈佛大學的學術自由原則。肩負美國「學術自由」開拓者的哈佛大學,為使大學教授者為弘揚學術真理不被政治、宗教或學界權威人士的意見引導或左右,以致大學教授不願或不能發表卓然成一家之言的理論或創見,於是鍥而不捨地大力倡導「學術自由」,鼓舞學有專精的學者多多表示與眾不同的獨特學說或發明。