來源:Nature news
一個人工智慧控制器可以在不完全了解周圍風的情況下,一次讓一個平流層氣球停留數周,為無人的環境監測開闢了前景。
圖1 |平流層中的無人駕駛氣球。Loon項目正在使用這樣的氣球為電信建立一個空中的無線網絡。
自主機器的目標是通過在動態環境中協商決策來實現。如果完全了解系統的當前狀態,人工智慧和機器學習可以在這方面表現出色,甚至在某些任務上甚至優於人類——例如,在玩街機遊戲和回合遊戲時。但在遊戲的理想世界之外,現實世界中自動化機器的部署會受到噪音和混亂的環境的阻礙,而且這些環境沒有得到充分的觀察。從不完整的數據中設計長期策略的困難也會阻礙獨立人工智慧主體在現實世界挑戰中的運行。Bellemare 等人在《自然》雜誌上撰文描述了一種前進的道路,它證明了平流層氣球在人工智慧的引導下,可以尋求一種長期的策略來定位自己在赤道上的某個位置,即使不知道精確的風場信息。
固定容積氣球,也就是所謂的超壓氣球,經常被用來在高層大氣中進行無人駕駛的實驗(圖1)。定位是將氣球的位置保持在離地面位置(空間站)一定水平距離內的行為。這涉及到改變氣球的高度,使其在不同風向的區域之間移動——當氣球被一個高度的風吹離它的位置時,它會移動到一個不同的高度,在那裡風可以再次將其吹回來(圖2)。
Bellemare等人報告稱,一種被稱為強化學習的機器學習方法,可以用來訓練一個性能優於以前使用的控制器的自動控制系統。
自動導航氣球做了兩件事中的一件,以保持在其駐留範圍內。當氣球在其駐留範圍之外時,機載控制器尋找指向駐留區域小角度內的風。然而,當氣球在目標範圍內且靠近駐留區域時,它會優先尋找較輕的風。氣球在探測其上方和下方的風時更為活躍,更有可能找到合適的風來幫助實現定位,但這是以使用電池電量為代價的,而電池電量可能是其他任務所需的,例如中繼電信或環境監測。這些相互競爭的因素需要仔細權衡。
一種被稱為強化學習的機器學習方法可以用來訓練一個人工智慧體來做出一個最優的決策序列。在超高壓氣球的情況下,決定是上升、下降還是什麼都不做,基於全球風的歷史記錄、當地觀測和預報的風以及預計的未來飛行路線。最關鍵的是,可用的風數據稀疏,不能完全約束飛行控制器的決策。
閱讀論文:使用強化學習的平流層氣球自主導航
(Autonomous navigation of stratospheric balloons using reinforcement learnings)
在他們的系統中,Bellemare等人通過在風數據中添加隨機產生的「噪聲」來填補空白,以便更好地繪製可能發生的風的範圍,並改進對氣球未來可能的各種路徑的評估。由此產生的風信息及其統計不確定性,加上少量氣球相關參數,被用來訓練一個被稱為人工神經網絡的機器學習系統,在電池功率不變的前提下,與以前使用的控制系統相比,最終改善了飛行期間的決策時間。
早期強化學習的應用程式,包括玩經典的棋盤遊戲和街機遊戲,都是使用完整的信息集進行訓練的,這也是人類控制者所能獲得的相同信息。這使得人類和人工智慧玩家之間可以進行相似的性能比較。然而,Bellemare和他的同事們面臨的挑戰是,對環境風的不完全了解不僅使人們難以判斷採取的最佳行動,而且還使對這些行動之後的未來狀態的預測變得不確定。這些問題被其他不影響遊戲控制器的實際不確定性進一步加劇,比如與氣球內部運動、電源管理和電池健康有關的不確定性。因此,Bellemare的應用代表了Bellemare在實際應用中的巨大成功。
定位性能最終受到氣球周圍區域風速和風向的限制(目前的研究是在15-20公裡的高度)。風還必須改變方向,這樣氣球就可以調整它們的軌跡,使其保持在駐留範圍內。在赤道平流層內,這些特殊情況每次只持續數月,貝勒馬爾和同事們在那裡進行了研究,在那裡,一股緩慢的逆風在30公裡附近達到峰值,然後在15公裡附近下降和消散,每14個月左右改變一次方向。
從零開始學習遊戲
這種風的多樣性也出現在其他地方,但可靠性較低,而且通常發生在單個超高壓氣球能夠運行的高度範圍之外。在本研究所描述的飛行活動中,熱帶平流層中出現了來自高緯度地區的更大的風擾動,可能有助於定位。因此,Bellemare和同事們的系統可能會在其他地方難以取得同樣的成功。然而,更小、更快速的風變化也會發生,包括各種類型的大氣波,熟練的控制器可以利用這些變化發揮其優勢。
有效的自主超高壓氣球的出現將為探測地球和其他行星的大氣提供一系列商業和科學應用。這種氣球已經被用來研究熱帶平流層中的小尺度和大尺度波動,並探測海洋、閃電和地震產生的低頻聲音。它們也被提議用於未來對金星大氣層的探測,以尋找活躍火山活動的跡象和生命的化學特徵。此外,如果氣球被用來建立一個空中無線通信網絡,那麼確定氣球的地理位置的能力是至關重要的——這是Loon項目的早期目標,Bellemare使用氣球的所有者和同事們的研究。
一次將一個氣球放置數月,就可以進行長期的環境監測,例如,城市上空的空氣品質、受高溫脅迫的森林和凍土融化地區的碳通量。其他應用還包括監測動物遷徙路線和跨境非法販運貨物和人員。隨著氣候變化的影響越來越明顯,由於諸如COVID-19這樣的全球性事件對行動施加了限制,以及涉及航空的長期氣候變化緩解措施促使人們尋找替代的空中觀測平臺,這些應用將變得越來越重要。