人工智慧控制器可在未知風速的平流層環境中控制氣球懸停數周,開闢了無監督環境監測的新圖景。
自動化設備的目標是在與動態環境協調的同時,通過決策實現既定目標。在充分了解系統當前狀態後,人工智慧和機器學習就可以勝任這一任務,甚至在某些特定任務上有可能做得比人類更好,例如玩街機和棋類遊戲[1]。但除了理想的遊戲世界外,真實世界的自動化機器部署還受到環境中無法被充分觀察的噪聲及混亂的影響。根據不完整數據設計長期策略的難度,也阻礙了獨立的AI主體應對真實世界中的挑戰。Bellemare等人[2]在《自然》上發表論文,提出了一種可能的新方向。他們報告了一種可由AI指導的懸停方式,可採取長期策略控制探空氣球固定在赤道上方的某個位置,即使在沒有精確掌握風力擾動的情況下也能完成任務。
圖1 | 位於平流層中的無人氣球。Loon項目(Project Loon)就利用這樣的氣球來提供空中無線通訊網絡。圖片來源:Loon
固定容積氣球也被稱為超壓氣球,經常被用於攜帶無人設備探測高層大氣(如圖1所示)。站位保持是指將氣球的懸浮位置保持在與地面站一定水平距離內的行為。這涉及到通過改變氣球高度來使氣球在不同風向的風層中運動——當氣球在某一高度被風帶走後,還可以通過移動到另一高度乘著反方向的風運動回來(如圖2所示)。
圖2 | 平流層氣球的站位保持。無人氣球,也被稱為超壓氣球,常被用於在高層大氣進行實驗。站位保持是指氣球在空中懸浮時,將與地面站的距離保持在一定範圍內。一天中氣球的高度是不斷變化的,以便在不同風向的氣流中移動——當氣球在一個高度被風吹走遠離地面站時,它可以運動到不同的高度讓風將其送回。Bellemare等人[2]報告了一種被稱為強化學習的機器學習方法,可用於訓練機器自動控制系統實現站位保持,其性能優於先前的控制系統。
自動導航氣球通過兩種途徑來保持與站點的距離。當其距離站點的位置超出範圍時,機載控制器將尋找指向站點方向小角度範圍內的風。然而當氣球位於目標範圍內並靠近站點時會優先尋找微風。更為積極的上下探索將會幫助氣球尋找到更合適的風以保持站位,但這會擠壓其他任務(例如中繼通信或環境監測等)所需的電量,在實際操作中需要仔細考量這些此消彼長的競爭因素。
一種被稱為強化學習的機器學習方法可被用於訓練智能體來實現決策優化。當應用於超壓氣球控制時,基於全球的風場歷史數據[3]、當地的風力風向觀測結果以及預測信息,來決定何時上升、下降或者保持不動。但關鍵問題是,實際操作過程中關於風的可用信息非常稀少,無法完全約束飛行控制器的決策過程。
在最新的工作中,Bellemare等人通過在風力數據上添加隨機生成的「噪聲」來彌補這一問題,更好地覆蓋了風力數據可能存在的範圍,並提升了對於氣球將來可能採用的各種路徑效果的評估能力。由此得到的風力信息和統計不確定性,以及少數幾個與氣球控制相關的參數,被用於訓練一種被稱為人工神經網絡的機器學習系統。與先前使用相同電量的控制系統相比,這種方式最終縮短了在飛行過程中的決策時間。
早期的強化學習應用,例如經典的棋類遊戲和電子遊戲,大都利用完整信息集進行訓練(與人類控制者可使用的信息相同)[4]。這使得AI智能體可以與人類進行同類任務的表現比較。然而,Bellemare和同事們卻面臨著環境風信息不完整的挑戰,這不僅使得對最優行為的判斷變得困難,同時也會導致基於這些行為預測的未來狀態充滿不確定性。這些問題同時還會因其他實際不確定因素變得複雜,例如氣球內部運動、電源管理和電池健康監測等,而這些在先前的遊戲控制任務中是不會遇到的。因此,Bellemare及其同事的成功代表強化學習向現實應用邁進了一大步。
站位保持的性能最終受制於氣球周圍的風速和風向(本研究中的氣球高度是15-20km)。氣球站位保持的實現還要求風向必須改變,以便於氣球調整軌跡。這些特殊的條件每次只能在赤道附近的平流層中持續數個月,Bellemare團隊的研究表明,逆風的緩慢形成將會在30km高度附近達到峰值,並在15km高度附近消散,每14個月切換一次方向[5]。
這種風的多樣性無處不在,但在單個超壓氣球運行的高度範圍外會變得不可靠。據目前研究中飛行活動所描述的信息顯示,在熱帶平流層中來自高緯度的風會造成更大的風擾,並可能有助於氣球的站位保持。雖然Bellemare和同事的系統也許因此很難在其他地區取得成功,但更小更快的風力變化也會發生,包括各種類型的大氣波[6],高性能的飛行控制器可以利用這些風來發揮優勢!
高效自動化超壓氣球的出現將會開啟一系列豐富的商業和科學應用,包括探測地球和其他行星的大氣。這類氣球已經被用於研究熱帶平流層小規模和大規模的波動[7],探測由海洋[8]、閃電[9]和地震[10]產生的低頻噪聲。科學家們還建議將氣球用於未來金星的大氣探測[11],用於收集火山活動信號以及與生命相關的化學特徵[12]。此外,如果利用氣球構建空中無線通信網絡,氣球的站位保持能力就顯得更為重要了。這也是Loon項目的一個早期目標,Bellemare和同事在研究中所使用的氣球就屬於Loon。
一次性駐留數月的站位保持氣球使得長期的環境監測成為可能,例如監測城市空氣品質、熱脅迫下森林的碳通量和永久凍土層的融化情況。其他應用還包括監測動物的遷徙路線、邊境地區人員和貨物的非法流動。鑑於氣候變化的影響日漸明顯,全球新冠大流行對人員流動造成限制,而且涉及航空的長期氣候變化緩解措施促使人們尋求空中觀測的替代平臺,這些應用將越來越受重視。#木木西裡#
內容來源:Nature自然科研
我們為何會 「芯「 痛?一文詳解晶片基本概念
想和王力宏共進晚餐?那先來看看王力宏哥哥的學術水平!
機械原理:密碼鎖如何工作?
特別聲明:本文發布僅僅出於傳播信息需要,並不代表本公共號觀點;如其他媒體、網站或個人從本公眾號轉載使用,請向原作者申請,並自負版權等法律責任。