Nature重磅:科學家利用深度強化學習使全自動環境監測實現

2020-12-05 學術頭條

在電影《飛屋環遊記》中,男主人公用一大堆氣球將自己的小木屋帶上天空,並通過增減氣球、手動施力來改變氣球的飛行方向,去實現他未曾實現的夢想......

當然,電影世界具有一定的幻想色彩。但是,如今還真有這樣一種巨型氣球,它雖然不能帶著小木屋飛上天空,卻更加智能、用處更大——讓全自動環境實時監測成為可能。

平流層氣球(stratospheric balloon),又稱高空氣球,可以在大氣平流層中自主飛行數月,具有低成本、高效益的特點,這使其成為通信、地球觀測、收集氣象數據和許多其他應用的寵兒。但是,如何實現高空氣球的自主導航,一直是科學研究的一個難題。

近日,來自谷歌研究院(Google Research )和 Alphabet 旗下公司 Loon 的研究人員組成的科研團隊,成功開發出的一種基於深度強化學習的高性能人工智慧控制器,能讓高空氣球一連數周待在原地,並根據環境因素進行實時決策並實現自主導航。這一研究結果提高了全自動環境監測成為現實的可能性,代表深度強化學習向現實世界應用邁進了非常重要的一步。

該研究成果以「Autonomous navigation of stratospheric balloons using reinforcement learning」為題,於 12 月 3 日在線發表在頂級期刊 Nature 上。

(來源:Nature)

續航瓶頸,無法滿足需求

高空氣球中應用最廣泛的當屬「超壓」氣球,氣球內填充氦氣,常被用來在高層大氣開展實驗。這些氣球遇到氣流風時,往往會偏離航道,之後便只能返回地面駐點。而此次研究所採用的深度強化學習方法,可以訓練人工智慧系統進行實時決策。對於超壓氣球來說,這些決策包括採取哪些行動來保持其在空中的位置不變。

Loon 超壓氣球是谷歌於 2013 年成立的高空氣球項目的成果之一,旨在將其作為通信中繼平臺,為還未接入網際網路的偏遠地區提供一種相對廉價的通信服務。傳統上,Loon 的上下垂直飛行通過泵出固定體積的氣囊來實現,而左右水平運動則由氣球所處位置的風向所決定。因此,為了實現導航目的,飛行控制器必須通過上升和下降的方式,以找到並跟隨對其有利的氣流。

(來源:Loon)

然而,這種簡單的導航方式無法滿足氣球長時間(有時長達幾個月)控制的目標。例如,傳統「控位法」(Station-keeping)需要將氣球固定在某個地面位置的正上方。為了完成這一任務,氣球就必須不斷地通過風場變化採取間接飛行路徑,以保證位置不變。

圖|通過「控位法」保持超壓氣球位置。a) 超壓氣球在風場航行的原理圖。氣球通過不斷移動來保持在離駐點較近的地方。其高度範圍用上下虛線表示;b) 氣球飛行路徑平面示意圖。藍色區域表示駐點方圓 50 公裡範圍。陰影箭頭代表風場。風場不斷變化,要求氣球實時規劃路線。(來源:Nature

不僅如此,氣球還需要在晝夜交替中管理自身電力,由於氣球下降時會使用存儲在電池中的太陽能,一旦電力不夠,氣球也就無法再自主控制飛行。另外,一個好的飛行控制器必須能夠權衡收集目標觀測結果的性價比。因此,上述傳統控制技術本身非智能化的性質就限制了其最終表現。

AI 賦能,帶來質的飛躍

為提高超壓氣球的續航能力,論文作者之一、谷歌研究院科學家 Marc Bellemare 及其合作者訓練了一種人工智慧控制器,這種控制器能根據風的歷史記錄、預報、局部風向觀測以及氦氣損失和電池疲勞等其他因素,來實時決定氣球是否需要移動。

首先,研究人員將 StationSeeker 算法用於這一人工智慧控制器中。該算法為控制器提供了較好的「洞察力」,StationSeeker 會憑藉風向與駐點形成的銳角來跟蹤風向,只要氣球處於駐點範圍內,它就會主動去尋找移動較為緩慢的氣流。

而後,研究人員對該控制器進行了模擬訓練,在模擬試驗中使用強化學習來訓練飛行控制器。強化學習擅長自動產生控制策略,可以處理高維度的異質數據,並在需要長期觀測時優化對應的控制策略。

為了獲得最先進的控制器,研究人員結合了深度強化學習領域的最新進展,即強調在學習過程中使用深度神經網絡。該控制器使用的神經網絡分為 7 層、每層具有 600 個校正線性單元,而且試驗證明,使用較小的網絡或非分布算法會使得性能降低。

圖|神經網絡規模對 TWR50(氣球位於駐點 50 公裡以內範圍時節省的時間)的影響(來源:Nature)

此次模擬試驗包括對超壓氣球控制器在一個固定的位置上進行兩天模擬,在此期間,控制器以 3 分鐘的間隔接收輸入數據和發出命令。因此,飛行控制器能夠置身於晝夜循環場景中,這意味著氣球必須從艱難的夜間條件中恢復工作,且最終產生的飛行路徑則會接近真實場景。

最後,作者將該技術應用到分布於全球各地的 Loon 氣球上,包括一項在太平洋上空進行的為期 39 天的受控實驗(共 2884 飛行小時)。分析結果證明,受到 StationSeeker 控制的氣球能夠成功實現自主導航,一旦被吹偏航道,它們能以比傳統控制器控制的氣球更快的速度回到駐點。

其中,控制器最佳表現達到 55.1% TWR50。要知道,1% 的性能提升相當於節省 14.4 分鐘的返回時間,因此,這一差異相當於每 24 小時內的返回時間平均減少 3.5 小時。

毫無疑問,此次研究成功將人工智慧強化學習方法應用到了超壓氣球與環境的實時交互之中,拓寬了其在現實科學研究中的應用。

正如牛津大學物理系教授 Scott Osprey 所說:「Marc Bellemare 和同事的成果代表了強化學習在現實世界應用的一次巨大進步。」

參考資料:

https://www.nature.com/articles/s41586-020-2939-8

相關焦點

  • 最新研究:人工智慧控制氣球實驗促全自動環境監測成為可能
    &nbsp&nbsp&nbsp&nbsp中新網北京12月3日電 (記者 孫自法)國際著名學術期刊《自然》最新發表一篇計算機科學研究論文稱,一種人工智慧控制器能讓平流層的氣球一連數周待在原地,這一研究結果代表深度強化學習向現實世界應用邁進了重要的一步,將提高全自動環境監測成為現實的可能性。
  • 最新研究:人工智慧控制氣球實驗促全自動環境監測成為可能
    中新網北京12月3日電 (記者 孫自法)國際著名學術期刊《自然》最新發表一篇計算機科學研究論文稱,一種人工智慧控制器能讓平流層的氣球一連數周待在原地,這一研究結果代表深度強化學習向現實世界應用邁進了重要的一步,將提高全自動環境監測成為現實的可能性。
  • 深度學習與強化學習
    隨著 DeepMind 公司的崛起,深度學習和強化學習已經成為了人工智慧領域的熱門研究方向。
  • 全人工智慧控制氣球實現自主導航
    全人工智慧控制氣球實現自主導航能在平流層一連數周待在原地科技日報北京12月3日電 (記者張夢然)根據英國《自然》雜誌3日發表的一項計算機科學最新突破,加拿大科學家團隊報告:完全由人工智慧控制的氣球,成功實現自主導航,在平流層一連數周待在原地。
  • 全人工智慧控制氣球實現自主導航能在平流層一連數周待在原地
    原標題:全人工智慧控制氣球實現自主導航能在平流層一連數周待在原地根據英國《自然》雜誌3日發表的一項計算機科學最新突破,加拿大科學家團隊報告:完全由人工智慧控制的氣球,成功實現自主導航,在平流層一連數周待在原地。這一成果標誌著深度強化學習向現實應用邁出了重要且非常難得的一步,同時提高了人類全自動環境監測的可能性。
  • 【強化學習實戰】基於gym和tensorflow的強化學習算法實現
    1新智元推薦【新智元導讀】知乎專欄強化學習大講堂作者郭憲博士開講《強化學習從入門到進階》,我們為您節選了其中的第二節《基於gym和tensorflow的強化學習算法實現》,希望對您有所幫助。同時,由郭憲博士等擔任授課教師的深度強化學習國慶集訓營也將於 10 月 2 日— 6 日在北京舉辦。
  • Pieter Abbeel:深度強化學習加速方法
    來源:深度強化學習算法  編輯:元子  【新智元導讀】深度強化學習一直以來都以智能體訓練時間長、計算力需求大、模型收斂慢等而限制很多人去學習,加州大學伯克利分校教授Pieter Abbeel最近發表了深度強化學習的加速方法,解決了一些問題。
  • NASA利用深度學習監測太陽天氣
    美國國家航空航天局(NASA)前沿發展實驗室(FDL)的研究團隊已經證明,通過使用人工智慧(AI)深度學習,可以虛擬地監測太陽的極端紫外線(EUV)輻射度。EUV輻射度是空間天氣的關鍵驅動因素。  FDL團隊成員亞歷山大·斯澤尼茨說,研究表明,深層神經網絡可以被訓練成模擬太陽動力學天文臺(SDO)上的儀器。
  • 深度強化學習走入「死胡同」,繼續死磕電子遊戲還是另闢蹊徑?
    有無數的報告記錄了深度強化學習模型做出的各種意想不到的動作。強化學習通常被劃分為除監督機器學習和無監督機器學習以外的第三類,但在我看來,它其實就是監督學習。當前的強化學習實現步驟是這樣的:你開始訓練模型,然後你看著它失敗然後「死掉」,接著你花費大量的時間一次又一次調整獎勵函數,直到你「有可能」得到一個理想的結果,但僅僅是「有可能」。
  • 用於深度強化學習的結構化控制網絡(ICML 論文講解)
    這項工作是我在Apple AI Research實習時完成的,是我實習工作的一部分,擊敗了眾多強化學習控制環境中最先進的技術,包括MuJoCo,Roboschool,Atari,OpenAI Gym,甚至自動駕駛。 我們計劃將這項工作擴展到包含機器人環境和高級操作。 以下是該論文的一些結果。
  • DeepMind 綜述深度強化學習:智能體和人類相似度竟然如此高!
    不過 Deep RL 需要大量的訓練數據,人們開始質疑深度強化學習過於依賴樣本,導致效率低下,無法與人類學習的合理模型相匹配。但在本文中,DeepMind 研究人員將利用最近開發的技術來駁回這些質疑聲,這些技術不僅允許深度強化學習更靈活地運行,而且還使其更高效地解決問題。
  • DeepMind綜述深度強化學習中的快與慢,智能體應該像人一樣學習
    當這一擔憂被帶到深度強化學習第一波浪潮時,後續的 AI 工作創建了一些方法,允許深度 RL 系統更快、更高效地學習。兩種有趣且有前景的技術分別是 episodic memory 和元學習。除了作為 AI 技術以外,利用 episodic memory 和元學習的深度 RL 方法還在心理學和神經科學上有直接且有趣的應用。
  • Nature Neurosci: 神經科學的深度學習框架是什麼?
    而深度神經網絡可能可以用來研究這類問題,其用簡化的units來模擬真實神經元的整合和激活特性,而且更重要的是,是通過學習而不是提前設計來實現具體運算的。 為什麼能呢?最近的大量研究表明,深度學習能夠幫助我們研究大腦。
  • 深度強化學習從入門到大師:以刺蝟索尼克遊戲為例講解PPO(第六部分)
    別忘了自己親自實現代碼的每一個部分,因為調試完善代碼是非常重要的。嘗試更改環境,調整超參,嘗試是學習的最佳途徑也是最大樂趣。 花點時間來想想我們從第一節課到現在取得的所有成就:從簡單的文本遊戲(OpenAI taxi-v2)到像毀滅戰士、索尼克這些複雜的遊戲,我們採用越來越強大的模型結構。這真是極好的!
  • 登上Nature子刊封面:英特爾神經晶片實現在線學習
    近日,來自英特爾和康奈爾大學的研究者宣布,團隊已經在神經形態晶片 Loihi 上成功設計了基於大腦嗅覺電路的算法,實現了在線學習和強記憶力能力。這項研究發表在最新一期自然雜誌子刊上《Nature Machine Intelligence》上,並成為封面文章。
  • 專題| 深度強化學習綜述:從AlphaGo背後的力量到學習資源分享(附...
    選自arXiv作者:Yuxi Li編譯:Xavier Massa、侯韻楚、吳攀摘要本論文將概述最近在深度強化學習(Deep Reinforcement Learning)方面喜人的進展。本文將從深度學習及強化學習的背景知識開始,包括了對實驗平臺的介紹。
  • ...深度強化學習綜述:從AlphaGo背後的力量到學習資源分享(附論文)
    選自arXiv作者:Yuxi Li編譯:Xavier Massa、侯韻楚、吳攀摘要本論文將概述最近在深度強化學習(Deep Reinforcement Learning)方面喜人的進展。本文將從深度學習及強化學習的背景知識開始,包括了對實驗平臺的介紹。
  • AI學會「以牙還牙」,OpenAI發布多智能體深度強化學習新算法LOLA
    OpenAI和牛津大學等研究人員合作,提出了一種新的算法LOLA,讓深度強化學習智能體在更新自己策略的同時,考慮到他人的學習過程,甚至實現雙贏。每個LOLA智能體都調整自己的策略,以便用有利的方式塑造其他智能體的學習過程。初步試驗結果表明,兩個LOLA 智能體相遇後會出現「以牙還牙/投桃報李」(tit-for-tat)策略,最終在無限重複囚徒困境中出現合作行為。
  • 深度強化學習:阿里巴巴「AI 智能體」認知
    阿里巴巴認知計算實驗室資深總監袁泉在接受新智元專訪時表示,當下,人工智慧的每一個進步,幾乎都受到了神經科學的啟發,尤其是新一輪通用智能發展的中堅力量——基於神經網絡的深度強化學習。本文轉自「新智元」,作者:胡祥傑;經億歐編輯,供業內人士閱讀。
  • 股票市場交易中的強化學習|機器學習|強化學習|深度學習
    在深度學習的世界中,無論您的模型多麼先進,沒有充分對業務充分理解和乾淨的數據都不會走得太遠。這個事實在金融領域尤其如此,在我們的數據集中,只存在股票的開盤價,最高價,最低價,調整後的收盤價和交易量的5個變量。在第一幅圖中,不難發現這些原始數據值不足以訓練機器學習模型。高度相關的變量乍看起來似乎很有希望,但是相關係數極高的缺點是實際上沒有那麼多的信息。