我的人工智慧學習筆記(三)

2021-02-08 刪除星

回來了半個月,也拖了半個月,終於開始動筆寫倒數第二篇文章了。對,這不是最後一篇,我臨時決定講完基本概念以後來討論一下人工智慧威脅論。之前看到了一個很具有代表性的知乎的文章,完全沒有從技術實現角度來討論,只是從人工智慧分級和技術進步速度,我覺得這樣是沒有說服力的。但是今天廢話不多說了,第三篇人工智慧學習筆記,增強學習Reinforcement Learning。

 

試想如下情形,一個撿瓶子機器人放置在一個空曠的區域中,他的任務是拾取可回收的瓶子,機器人的電量用兩種狀態「高」和「低」來表示,同一時間機器人可以進行,找尋瓶子,等待,充電這三種行為,機器人的目標是在不用完電的情況下高效的拾取瓶子。這種情況下,我們如何通過之前講到的神經網絡和監督學習來完成這個任務呢?

 

事實上,通過神經網絡和監督學習是基本完成不了這個任務的。當我們使用神經網絡或者監督學習的時候,人工智慧對環境全知,並且把過去所有的數據都輸入到模型中,得到輸出。可是在上述任務中,機器人對環境未知,並且機器人是在和環境接觸的過程中不斷決策,同時我們也不知道正確的結果是什麼,我們只是要高效的撿瓶子。

 

所以這就輪到增強學習登場了,增強學習主要用於這種類似的任務。人工智慧根據環境給出的反饋,學習應該進行什麼行為。增強學習和環境的接觸如下圖所示

在我們的人工智慧在時間t做出行為A後,造成了環境的改變和自身狀態的改變。新的狀態表示為St+1,對環境的改變使用獎勵reward來描述,表示為Rt+1,然後這兩個作為時間t+1的輸入值輸入給人工智慧,人工智慧再根據狀態和獎勵來決定下一步做什麼。例如在撿瓶子機器人的例子中,電量狀態是「低」的時候,執行其他操作的獎勵可以設置為負數。這些對人工智慧的獎勵,人工智慧的狀態,人工智慧可進行的行為,加上dynamics都是由人來設定的。Dynamics是什麼呢,打個比方,我們在扔硬幣的時候,朝上的概率是50%,朝下的概率也是50%,那麼相同的行為A——扔硬幣,產生了兩個St+1和對應的獎勵Rt+1,dynamics就是用來描述當前狀態下採取某一行為得到一個St+1和Rt+1的概率。在扔硬幣的例子中,dynamics就有兩個等式,分別表示下一狀態朝上概率是50%,和朝下概率是50%。正規的表達式如下圖所示

這裡等號上加一點代表define定義,前面的小寫p代表dynamics,豎線後代表觀察到的狀態s和行為a,豎線前面代表下一狀態s'和獎勵r,那麼它的dynamics被定義為觀察到t-1的時候狀態為s,採取行為a,在t時間狀態為s'獎勵為r的概率(Pr代表概率)。

 

而這四個設定,構成了增強學習的架構——Markov Decision Process馬可夫決策過程。而在馬可夫決策過程中,人工智慧的任務可以很簡單的定義為最大化你的獎勵。改變人工智慧的目標就是改變獎勵機制。接下來要講到的就是程序是如何做決策的。

 

在程序中有一組數不需要人為設定到特殊值的,他就是policy策略。人工智慧根據策略值來進行決策。策略的表達如下圖

通常這個值初始設置為1。有了一個基本的決策方法之後,我們就可以根據value function價值公式來決定採取什麼行為了。價值公式有兩種,state-value function和action-value function。分別是計算某一狀態的價值是多少和某一行為的價值是多少。公式分別為

其中γ是人為設定值,為0到1之間的值,表示一種權重。在前面的sigma表達式中越往後迭代,reward的權重越小。這樣就可以避免一個問題,就是我當前行為的獎勵很少,但是我採取當前行為之後下一行為可以獲得特別多的獎勵,但是程序不會採取當前行為。當然因為有時間參與,未來的獎勵到當前價值損耗,通過γ來模擬。(學ENG M 310的同學熟不熟悉)

另外現實情況不會計算到正無窮,我們通常會規定一個誤差,如果多計算一次產生的修改小於這個誤差值了,我們就停止再更新這一狀態的價值。之前大火的AlphaGo就是會先選點,然後計算每個點的價值,然後決定下哪一步。

 

接下來聊聊學習的事,前面講完了增強學習的設定,接下來該講學習了。增強學習的學習過程就是一個更新我們policy策略的過程。通過修改policy的值來讓獎勵越來越多。那怎麼才算是一個比當前策略更好的一個策略呢。比如說我們現在有策略π和策略π',如果根據π計算出來的每個狀態的價值都不小於根據π』計算出來的狀態價值,我們就說π是一個更好的策略。

知道了怎麼確定一個策略是不是更好的,就到了提升策略的環節了。有一個簡單粗暴的辦法,叫greedy policy improvement。

π'是我們要找的那個最好的策略,這裡他描述的當我們狀態為s時採取各個行為的概率。但是這裡面,在狀態s下,採取的行為被簡單粗暴的規定為——按照當前策略π能讓action value最大的那個行為,也就是採取那個行為a的概率是1,其他都是0。這樣我們就完成了一次policy improvement。實際操作中需要執行很多次這樣的操作,先計算action value或state value,用上述方法更新策略,使用新策略重新計算action value或state value,再更新策略,直到更新的值小於認為規定的誤差。

 

關於增強學習我就想講這些,正常上的課後面還有蒙特卡洛預測,蒙特卡洛控制,Temporaldifference learning(也是增強學習的一種)等。但是作為科普文,講出基本原理大概就夠了,而且後面的內容更加難以理解和講清楚。還有興趣的可以參閱Richard Sutton的書《Reinforcement Learning: An Introduction》。我的公眾號之前也有過一篇講AlphaGo算法的文章,可以和這篇對照著閱讀,但是AlphaGo的算法比簡單的增強學習更複雜。

 

下一篇不知道什麼時候更新了,畢竟寫公眾號這東西,不動筆就完全不想寫,一開始寫就停不下來了。關注一下公眾號等更新吧~順便求個轉發,點個「在看」。

相關焦點

  • 床長人工智慧教程免費文檔——學習Unity3D的筆記
    聲明:本人只是分享一些床長人工智慧教程相關的免費pdf文檔而已,並非床長人工智慧網校的收費文章。尊重版權,支持原創!學習的筆記在學習時記錄的筆記的筆記中一類的警告的解決方案中沒有高級保存選項的解決方案中和的區別中關於四元數的詳解轉載自類默認方向方向的表示法①歐拉角表示法②前方上方矢量界定法③繞軸旋轉界定法④向到向相對旋轉表示法成員變量成員函數靜態函數驗證前方上方矢量表示法總結幾種表示方法將四元數旋轉應用於子彈射擊示例在學習時記錄的筆記的筆記
  • 人工智慧之機器學習ML 學習筆記乾貨
    機器學習(ML)是指通過數據訓練出能完成一定功能的模型,是實現人工智慧的手段之一,也是目前最主流的人工智慧實現方法。人工智慧是科學,機器學習是讓機器變得更加智能的方法或算法。機器學習ML是人工智慧的核心,是使計算機具有智能的根本途徑,其應用遍及人工智慧的各個領域,它主要使用歸納、綜合而不是演繹。
  • 中國科學院自動化研究所王飛躍博士的人工智慧演講筆記,請自取
    所以,我不信機器換人,應該是機器渡人,機器生人,機器化人。我是不大相信人工智慧會危害人的,至少近一段時期,我相信它的前途在知識自動化方面。」王飛躍博士的人工智慧演講筆記這次演講他補充了一個幾百年前英女王看待機器的例子,1589年,英國人威廉·李發明針織機後興衝衝地跑去申請專利,女王卻訓斥了他:「你的發明會把我可憐的臣民都變成乞丐
  • 【重溫經典】吳恩達機器學習課程學習筆記七:Logistic回歸
    【導讀】前一段時間,專知內容組推出了春節充電系列:李宏毅2017機器學習課程學習筆記,反響熱烈,由此可見,大家對人工智慧、機器學習的系列課程非常感興趣
  • 我最常用的日記 / 學習筆記 / 備忘軟體
    上次分享了我的周計劃本使用方法,今天繼續聊聊我常用的學習筆記/備忘錄/日記軟體。
  • AI學習筆記:人工智慧與機器學習概述 - 計算機java編程
    人工智慧:Artificial Intelligence, AI,亦稱機器智能,是指利用計算機來對人的意識、思維信息過程、智能行為進行模擬(如學習、 推理、 思考、 規劃等)和延伸,使計算機能實現更高層次的應用。人工智慧基於機器學習偏向於應用。
  • 什麼是人工智慧,還有如何學習人工智慧,看我這篇的吹水文
    一個Ai工程師關鍵是能夠推到線下部署使用,要做出東西來,今天我就無聊吹下啥是人工智慧,以及如何學AI 。前言經過60多年的演進,人工智慧發展進入新階段,成為國際競爭的新焦點。真正的人工智慧是要機器人啊所以難的是硬體端LOT,現在頂多就是弱人工智慧,做一個分類,回歸,預測下後來的情況,就以為是人工智慧,真是搞笑。你有本事,預測下明天的股價給我,什麼時間序列,突然間來一個新冠肺炎,就美股幾連跌。別預測了,股票是預測不了,都是騙人,影響因素太大了。
  • 春節充電系列:李宏毅2017機器學習課程學習筆記19之遷移學習(Transfer Learning)
    春節充電系列:李宏毅2017機器學習課程學習筆記01之簡介春節充電系列:李宏毅2017機器學習課程學習筆記02之Regression春節充電系列:李宏毅2017機器學習課程學習筆記03之梯度下降春節充電系列:李宏毅2017機器學習課程學習筆記04分類(Classification)春節充電系列:李宏毅2017機器學習課程學習筆記05
  • 「疫」起學習·曬筆記 | 優秀筆記pick出道(三)
    ,大大提高了學習的興趣,好的學習方法會使人受益匪淺,記筆記便於在平時做題中查找易混信息,提高做題效率,同時加深印象鞏固所學知識點只有坐著一邊記筆記一邊學習才能真切的感受到是在學習,在記筆記的過程中你記的每個字都會用心去理解去感受,等到你把你認為的重點都記錄和捋清楚以後,你收穫的不僅僅是思路清晰地記住要點,與此同時你還更好地理解了你所記錄的知識點,不再是走馬觀花,那種滿足感真的跟你躺在床.上那樣看看讀讀背背是不一樣的。
  • 關於《保險法司法解釋三》的學習筆記
    大家好,我是小理賠員,你身邊的理賠小能手。難得周末有時間,又重新學習了《保險法司法解釋三》,每看一次都有新的收穫,今天理賠員就和大家分享一下上周的學習筆記。《保險法司法解釋三》其主要是針對人身保險合同的特徵,司法解釋起草中堅持注重防範道德風險、注重保護消費者、支持保險創新、釐定保險合同法律關係等原則。
  • Sans Forgetica字體 更好地記住您的學習筆記
    我們在學校上課時,儘管我們已經做了很多筆記,但是當你走出課堂時,你還能記得多少筆記內容?
  • 人工智慧在瘋狂學習,你卻在刷朋友圈
    當AlpnaGo在2016年戰勝圍棋世界冠軍李世石,人工智慧便開始了爆炸式的增長: 在翻譯、醫療、法律等多個領域超越人類頂尖水平,而這次的大爆發,源於背後的人工智慧技術:深度學習算法。 而是你的大腦,可能忘記植入「學習功能」了... 先學習「學習的方法」再學習 就像人工智慧,你得先把「深度學習」的算法程序編好,把需要的硬體給配置齊全,讓計算機擁有「學習能力」,然後,才能輸入數據進行學習。 不然,你只是給一臺普通的電腦輸入一堆數據有什麼用?他又不會學習,他最多只能把這些數據儲存起來...
  • 春節充電系列:李宏毅2017機器學習課程學習筆記16之無監督學習:自編碼器(autoencoder)
    話不多說,讓我們一起學習這些內容吧春節充電系列:李宏毅2017機器學習課程學習筆記01之簡介春節充電系列:李宏毅2017機器學習課程學習筆記02之Regression春節充電系列:李宏毅2017機器學習課程學習筆記03之梯度下降春節充電系列:李宏毅2017機器學習課程學習筆記04分類(Classification)春節充電系列:李宏毅
  • 人工智慧筆記:如何開始
    AI、ML、DL下面這張圖可以很好的描述出AI(人工智慧)、ML(機器學習)和DL(深度學習)各自的特點。再來一張圖看看AI到ML和DL的發展歷程。AI:人工智慧-讓機器擁有人類的智能早在1956年夏天的達特茅斯會議上,那些人工智慧先驅的夢想就是建造複雜的機器,擁有人類智能特徵的機器。這就是「通用人工智慧」的概念,自那以後,人工智慧一直是人類想像中的一部分,不斷在科幻小說和影視作品中出現。而人工智慧的爆發家則在計算機科學家們的實驗室中醞釀著。
  • 手帳學習筆記——《別告訴我你會記筆記》
    隨手記下一些跟自己比較相關的點(本子是moleskine的讀書筆記,目前利用率過低,但願明年能讓它豐富起來。)胖恆月說:默默把國譽自我筆記加入2017年手帳備選。3.胖恆月說:這三個部分應當都是需要的,不過還是習慣用文庫本將2、3集成。
  • 臺灣大學林軒田機器學習基石課程學習筆記1 -- The Learning Problem
    那麼,從這篇開始,我們將連續對這門課做課程筆記,共16篇,希望能對正在看這們課的童鞋有所幫助。下面開始第一節課的筆記:The Learning Problem。一、What is Machine Learning什麼是「學習」?學習就是人類通過觀察、積累經驗,掌握某項技能或能力。就好像我們從小學習識別字母、認識漢字,就是學習的過程。
  • 學習筆記:ReLU的各種變形函數
    PReLU函數Parameter-ReLU,簡稱PReLU,是對Leaky ReLU的改進,PReLU的出發點是不將a 設置為0.01,而是根據數據來定,這樣就可以自適應地從數據中學習參數。部分可重配置都生成哪些.bit文件VIO你用對了嗎Device視圖下能看到什麼Schematic視圖下能看到什麼學習筆記:神經元模型(2)
  • 我的公考學習筆記:邏輯填空學習心得(手寫筆記)
    對於邏輯填空我曾一度找不到學習的捷徑,對我而言只有踏踏實實的去整理去記憶。不積小流無以成江海,不積跬步無以至千裡,從2019年8月開始,每次做言語理解首先自己先做一遍,再對答案,然後將選項中的不熟悉成語、詞語通過查閱資料或者百度整理在筆記本上,在每個周末抽出時間看一遍最近一周的筆記。
  • 人工智慧專業需要學習哪些內容
    、語言學基礎等內容;第四部分涉及到人工智慧平臺相關知識。由於人工智慧是典型的交叉學科,所以人工智慧專業需要學習的內容還是相對比較多的,而且學習難度也相對比較大,因此如果在本科階段選擇人工智慧專業需要具有較強的學習能力。由於人工智慧專業的學習過程對於學習環境有較高的要求,所以開設人工智慧專業的高校往往都會有專門的數據中心、計算中心,以便於為學生提供數據和算力的支撐。
  • 一文打盡人工智慧和機器學習網絡資源,反正我已經收藏了!
    激動過後,多數AI學習者會陷入焦慮:入坑人工智慧,到底要從何入手?的確,如今學習人工智慧最大的困難不是找不到資料,更多同學的痛苦是:網上資源太多了,以至於沒法知道從哪兒開始搜索,也沒法知道搜到什麼程度。為了節省大家的時間,我們搜遍網絡把最好的免費資源匯總整理到這篇文章當中。