機器學習系列(二):機器人是如何走出迷宮的?

2021-02-16 待字閨中

一個機器人站在迷宮的起始位置,下圖中的左下角。每一個位置,機器人有四個移動方向,左,右,上,下,當然,對於邊緣情況,它的行動可能被限制。比如,在起始位置,它只能上移或是右移。如果某個移動讓它碰到了障礙,那麼它就被禁止往那個方向移動。在這些設置和條件的情況下,機器人如何能夠通過自學習走出迷宮,也就是說,從迷宮的右上角出來?

這是一個典型的強化學習(reinforcement learning)的例子。它直接將機器人的行動和產生的結果聯繫起來,而不需要機器人學習一個複雜的行動和結果的關係。機器人基於行動的獎賞和懲罰來學習如何走出迷宮。當機器人的移動造成了撞到障礙,那麼它收到懲罰-1分。當它到達一個開闊地帶,那麼它收到獎賞0分(因為是它應該做的事情,不獎不罰)。當它到達出口,那麼它收到一個大大的獎賞100分。這種反饋就是鼓勵機器人做某個動作,或是防止做某個動作的「強化」。

強化學習是從交互中學習,從而成功達到一個目標。學習者和決策者稱作是智能體(比如例中的機器人)。智能體交互的所有外部一切稱作是環境(比如例中的迷宮)。這些交互持續進行,智能體選擇某些行動,環境響應這些行動並且呈現一些新的情境給智能體。同時,環境給出一些獎賞,表現為特殊的數值,而這些數值是智能體希望長期最大化的。一個對環境,包括獎賞如何確定,的完整說明,定義了一個任務,即一個強化學習問題的實例。


更確切的說,智能體和環境在離散的時間序列上交互,t = 0, 1, 2, 3, ... 在每個時間步t,智能體收到環境狀態的某種表示 St ∈ S,其中 S 是所有可能環境狀態的集合。然後智能體選擇一個行動 At ∈ A(St),其中 A(St) 是在狀態 St 的所有可以選擇的行動的集合。一個時間步之後,作為行動的部分結果,智能體收到一個數值獎賞 Rt+1 ∈ R ⊂ R,並且進入到一個新的環境狀態 St+1。 智能體的目標就是最大化長期的累積獎賞(回報)。對於有限的時間序列,定義回報為時間步t之後的所有獎賞的和,目標就是使之最大。


而對於無限的時間序列,當 T = ∞,上述的回報會區域無窮大,所以需要引入discounting。如下所示的 discounted 回報,γ ( 0 ≤ γ ≤ 1)叫做 discount rate。


在強化學習的框架中,智能體根據環境狀態的信號來做決定。那麼,什麼信息能構成環境狀態的信號呢,這個就涉及到一個屬性,叫做 Markov Property。通常情況下,環境狀態的轉換是和前面路徑上的所有狀態和行動相關的。如下所示。


但是,如果說狀態信號的轉換具有 Markov Property,那麼,它的下一個狀態只與當前狀態和行動相關。這樣就大大簡化了模型。


一個強化學習的任務如果滿足 Makov Property,那麼它就叫做 Markov Decision Process(MDP)。

知道了這個屬性,就可以計算有關環境狀態的各種信息了,比如,state-action 的期望獎賞。


state-transition 概率。


state-action-next-state 的期望獎賞。


幾乎所有強化學習的算法都涉及到估算 value functions(環境狀態 states,或是 state-action 的 functions),而這些 functions 能估算智能體選擇一個行動之後,它所處的下一個狀態是不是比較好(how good)。而這個比較好(how good)定義為將來期望的獎賞(rewards),精確的說,就是期望回報。當然,智能體期望收到的獎賞和它採取的行動密切相關。也就是說,value functions 離不開特定的策略(policies,或 π )。

一個策略, π, 是一個映射:從環境狀態 s ∈ S 和 行動 a ∈ A(s) 到在環境狀態 s 時採取行動 a 的概率 π(a|s)。有了這個知識,就可以定義一個環境狀態 s 在策略 π 的 value,叫做 state-value function。


同理,定義一個環境狀態 s 在策略 π 下採取行動 a 的 value,in state s under a policy π,叫做 action-value function。


上述的 state-value function 和 value-action function 能夠通過和環境的交互的體驗估算出來。比如,一個智能體遵照策略 π,且對每一個狀態維持一個從這個狀態收到的回報的平均值,當這個狀態被訪問了接近無限次之後,那麼這個平均值就會收斂到 state-value vπ(s)。如果對一個狀態採取的每個行動記錄一個平均值的話,那麼這個平均值就會收斂到 action-value qπ (s, a)。

value function 的一個基本屬性是滿足特定的遞歸關係。這個就是著名的Bellman Equation。


從下面的圖示就很容易理解了。


解決一個強化學習問題,粗略的說,是找到一個策略能夠從長遠獲得許多的回報。對於有限的MDPs,精確的定義最有的策略如下:Value functions 定義了策略的偏序關係。一個策略 π 比另一個策略 π′ 好,如果且只有對於任何的環境狀態,它的期望回報大於 π′。也就是說,對於所有的 s ∈ S,π ≥ π′ iff vπ(s) ≥ vπ′(s)。總是有一個策略好於或是等於其它所有的策略,那麼它就是最有的策略,表示成 π∗。


同理對於 action-value,它的最優q∗。


對於 state–action (s, a),在環境狀態 s 採取行動 a 的期望回報一定是遵循最優的策略,所以,可以將 q∗ 按 v∗ 表達如下:


下面是Bellman optimality equation,它表達的是,在最優策略下,state value 必須等於在那個環境狀態下採取的最好行動時的期望回報。

對於q∗,Bellman optimality equation 如下:


從下面的圖示就很容易理解了。


有了這些關於強化學習的問題的定義和基礎知識之後,有不同的算法來迭代的解決。

下面介紹一種經常用到的強化學習方法 Q-learning。它學習 action-value function,Q,來近似 q*,最優的 action-value function。

偽碼的實現如下:


應用 Q-learning 到機器人走迷宮的問題。

Q(4, left) = 0 + 0.2 * (0 + 0.9 * Q(1,right) - 0)

Q(4, right) = 0+ 0.2 * (0 + 0.9 * Q(5,up) -0)

這裡,learning rate 是 0.2,且 discount rate 是 0.9。 在狀態1的最好行動是 right,而狀態5的是up。Q(1,right) 和 Q(5,up) 有不同的值,因為從狀態1達到出口比從狀態5需要更多的步數,也就是說,Q(5,up) 比 Q(1,right) 的 value 值更大。也正式這個原因,Q(4,right) 的值比 Q(4, left) 大。那麼,在狀態4的最好的行動是right。重複迭代計算,最後機器人能通過 Q-learning 的方法自學習找到出口,走出迷宮。

參考文獻:

Reinforcement learning explained https://www.oreilly.com/ideas/reinforcement-learning-explained?from=groupmessage&isappinstalled=0

Richard S. Sutton and Andrew G. Barto的《Reinforcement Learning:An Introduction》

相關焦點

  • 《工匠物語2》蘑菇森林攻略 如何走出迷宮
    導 讀     在工匠物語2遊戲中,蘑菇森林這個地圖就想迷宮一樣,很多玩家在這個地圖中都迷路了,不知道該如何走出這個迷宮
  • 不思議迷宮如何用重裝卡車在蒸汽之都拿隱藏機器人
    不思議迷宮如何用重裝卡車在蒸汽之都拿隱藏機器人時間:2017-03-25 12:46   來源:8090網頁遊戲   責任編輯:毛青青 川北在線核心提示:不思議迷宮如何用重裝卡車在蒸汽之都拿隱藏機器人?相信玩家們都還不是很清楚吧,下面就讓小編來為大家細細的解答吧!
  • 強化學習走出研究實驗室,微軟如何落地新型AI解決方案?
    Azure機器學習還在為數據科學家和機器學習專業人士預覽基於雲的強化學習產品。「過去兩年來,我們在微軟內部進行了大量概念驗證項目,並與幾個客戶一起進行部署,已經取得了很大的進步。」微軟研究院紐約實驗室高級主管拉法·霍斯恩(Rafah Hosn)表示:「現在,我們的打包和壓縮技術確實取得了長足進步,並指向了一系列特殊問題。」
  • 有趣的瑪塔立體迷宮 竟然有這麼多玩法
    宅家玩編程系列也推出一段時間了,豐富的遊戲案例和玩法受到了大家積極的反饋,這個欄目一開始的目的是為了幫助疫情期間困在家中的親子能增添趣味的互動。隨著疫情漸緩,我們多番考慮之下,決定把欄目名改為瑪塔創意世界。今後將為大家帶來更多富有創意的趣味編程遊戲,讓大家對編程、對Matatalab有更為全面深入的了解。
  • 投籃搬運接力跑闖迷宮……|在三中一群學生把機器人玩得麻溜轉
    奪球投籃、搬運木塊、折返跑競速、循軌跡勇闖迷宮,操控無人機上躥下跳過障礙…………在群力三中球館裡,這些各式各樣的機器人被學生們在手上把玩得既聽話又無所不能賽場上的一角,正在進行緊張刺激的機器人籃球競賽,兩個機器人分別為「攻」「防」兩角色,它們爭搶的「籃球」是一個可發光的球體,機器人選手靠捕捉光亮來搶奪籃球,率先搶到手的機器人再躲閃另一方,伺機進行投籃。「漂亮,中了!」
  • 談《漫長的告別》:如何走出偵探小說的「敘事迷宮」
    在錢德勒的系列小說中,毫無疑問,《漫長的告別》是代表作,也是他最得意之作。該小說在1955年斬獲了 愛·倫坡獎。日本著名作家 村上春樹 曾殷勤地說:《漫長的告白》是部完美的傑作,極其出類拔萃。如果允許我用誇張的表述,那幾乎達到了夢幻的境界。鋪墊了這麼多,這部《漫長的告別》究竟有何魅力讓眾人愛不釋手呢?它的敘事技巧在哪裡?
  • 推方塊走出迷宮 益智遊戲《六面迷宮》上線
    推方塊走出迷宮 益智遊戲《六面迷宮》上線 來源:www.18183.com 作者:南山頑石 時間:2015-12-24 分享到:
  • 掃地機變身機器人管家,科沃斯走出智能家居迷宮
    今天,我應科沃斯公司的邀請前往他們蘇州總部,參加了他們建立的全國首家機器人博物館的開館盛典並且在下午的發布會上擔任論壇MC,與包括錢東奇先生在內的多位業內嘉賓共同見證了科沃斯「UNIBOT管家機器人」的誕生。應該說,我今天看到的這款產品實際與我之前語言的非常接近。
  • 穿迷宮、搭積木、現場編程 看看孩子們的機器人「大戰」
    上遊新聞·重慶晚報慢新聞記者 彭光瑞 文 任君 圖一隻「迷途」的機器人跑進了迷宮當中,沒有指引、沒有幫助,只能自己四處「碰壁」,再自動尋路,十幾秒之後,碰得「頭破血流」的機器人跌跌撞撞地找到了出口,一個孩子興奮地歡呼
  • 無所不能的機器人——暑期公開課全攻略
    Robot No.1 Canada公益機器人開放網課,免費運送器材借給學生使用,這也是多倫多唯一配合硬體的機器人網絡開放課!Robot No.1 在全球持續服務5000名以上學生人工智慧學業,機器人網絡授課經驗豐富,好評如潮。線上直播+錄播細節+課程PPT+1對1實操+1對1答疑。
  • 大神給倉鼠製作了一個迷宮和掃地機器人,倉鼠的表現有些意外
    我們都知道,貓咪是一種十分好動的動物,家裡很多用品都成了它們的玩具,特別是會動的,比如掃地機器人。有時候,在沒人打擾的情況下,貓咪和掃地機器人能玩上一天。與之類似,倉鼠也是一種十分好動的動物,普通的掃地機器人太大了,倉鼠駕馭不了,於是主人靈機一動,直接給倉鼠製作了一個迷你掃地機人外加一個迷宮。小哥首先拿來一張白紙,用記號筆仔細勾勒出自己設計的迷宮草圖,這個時候粘人的小倉鼠總是爬上來搗亂,於是主人毫不客氣地將它拽到一邊。
  • 《冥王神話》處女座沙加、釋靜摩和雅典娜是如何走出諸神之迷宮的
    處女宮時,雅典娜因為端粒的作用導致身材突變,而作為處女宮守護者的釋靜摩在與沙加交手過後,也承認了他是歷代處女座最強的一位,並受其所託輔助雅典娜完成任務,然而卻非常的不湊巧,過程中他們卻被雙魚座引進了「諸神之迷宮」中,這個號稱是眾神也無法走出來的迷宮,他們是如穿過去的呢?且看分析……01雅典娜的「突變」!
  • 研一有些迷茫,在學習機器學習知識,未來想從事機器人是否可以
    當前選擇主攻機器人方向是不錯的選擇,未來在工業網際網路時代,機器人領域有大量的創新空間,產業規模也會逐漸擴大,這必然會需要大量的專業人才。但是,要想從事機器人相關的研發,需要首先完成自身的知識結構搭建。機器人學是人工智慧的傳統六大研究方向之一,而機器學習是打開人工智慧技術大門的鑰匙,所以研一期間從機器學習開始學起是沒有問題的,關鍵在於如何學習,以及如何能夠提升自身的學習效率,這是非常關鍵的。
  • 紐約大學教授談MR/AR/VR發展趨勢,將與機器人、機器學習、計算機...
    我們把MR/AR/VR技術與機電一體化、機器人學、計算機視覺和控制工程進行整合,在數個領域開發一系列新奇的應用。例如工程實驗室教育,直觀和自然的人與機器人交互,面向殘障、老年和中風人士的機電一體化和機器人解決方案等等。IEEE Transmitter:為什麼MR/AR/VR很重要?這些技術能夠對當今和未來社會帶來哪些幫助?
  • 薦會| CoRL:機器人與機器學習領域的下一個頂級會議
    機器人與人工智慧社區的融合恰逢其時CoRL的全程為Conference on Robot Learning(機器人學習大會),顧名思義,這是一個以機器人和機器學習為主題的學術會議,而雷鋒網也注意到,近期的頂級機器人大會如IROS上
  • 古希臘人告訴你如何走出迷宮,想不到這麼簡單!
    作者:M·辰#希臘篇-33# 親愛的小夥伴們,感謝您一路支持、跟隨「走遍世界博物館」從文明古國系列的埃及、印度、墨西哥一直走到亞洲系列的新加坡現在,「文明古國系列(四)——希臘篇」正在進行中!小夥伴們,速搬沙發,開講啦!
  • 畫中的「迷宮、井」——疫情之下,如何處理孩子的負面情緒?
    by德國哲學家馬丁·海德格爾 ●●迷宮和井今天,Miller的課堂作品吸引了我。Miller說在玫瑰花窗裡,那是個迷宮。而這口井,也許是能走出迷宮的方法。聽了這個回答,我想了很久。如何在這樣一個在家隔離的特殊階段通過繪畫,讓孩子來舒緩緊張、焦慮的潛在情緒呢?我們可以通過鼓勵孩子每天用少量的時間來畫日記,畫故事,把他們感受最深的事、最想念的人用圖畫的方式記錄下來,進而了解孩子的內心世界。
  • 美國德州農工大學胡俠教授:機器學習的可解釋性與自動機器學習 |...
    雷鋒網按:2018 全球人工智慧與機器人峰會(CCF-GAIR)在深圳召開,峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,得到了寶安區政府的大力指導,是國內人工智慧和機器人學術界、工業界及投資界三大領域的頂級交流盛會,旨在打造國內人工智慧領域最具實力的跨界交流合作平臺。
  • 【犀牛說】迷宮書系列|薦書單
    這套迷宮書按照年齡難度遞增,需要孩子去做的,就是用線把代表「入口/出口」箭頭和星星相連接。它出品的迷宮也和公文式一樣,按照年齡難度遞進的,不過色彩更加豐富,可愛。形式也多樣化一些,主要獲得的形式還是訂閱他們的雜誌。中文出版物我買到過的只有一本《神奇的迷宮:我們出發了》
  • 【下載】《機器學習》+《機器學習實戰》
    簡介:機器學習是計算機科學與人工智慧的重要分支領域。 本書作為該領域的入門教材,在內容上儘可能涵蓋機器學習基礎知識的各方面。本書第一部分主要介紹機器學習基礎,以及如何利用算法進行分類,並逐步介紹了多種經典的監督學習算法,如k近鄰算法、樸素貝葉斯算法、Logistic回歸算法、支持向量機、AdaBoost集成方法、基於樹的回歸算法和分類回歸樹(CART)算法等。第三部分則重點介紹無監督學習及其一些主要算法:k均值聚類算法、Apriori算法、FP-Growth算法。第四部分介紹了機器學習算法的一些附屬工具。