本文研究了自主水下機器人跟蹤期望深度軌跡的深度控制問題。由於水下機器人未知的動力學模型和橫搖運動與橫搖運動之間的耦合,大多數基於模型或比例積分微分的控制器不能有效地解決這些問題。為此,我們將水下機器人的深度控制問題表述為未知轉移概率下的連續狀態、連續動作馬爾可夫決策過程。基於確定性策略梯度定理和神經網絡逼近,提出了一種無模型強化學習算法,該算法從水下機器人的採樣軌跡中學習狀態反饋控制器。為了提高反向學習算法的性能,我們進一步提出了一種通過重放先前的優先軌跡的批量學習方案。我們通過仿真說明,我們的無模型方法甚至可以與基於模型的控制器相媲美。此外,在中國南海採集的海底數據集上驗證了該算法的有效性。
索引術語——自主水下機器人(AUV)、深度控制、確定性策略梯度(DPG)、神經網絡、優先經驗重放、強化學習(RL)。
自治水下機器人(AUV)是一種自控潛艇,其靈活性、自主性和尺寸多樣性使其在許多應用中具有優勢,包括海底測繪[1]、化學示蹤[2]、資源收集、汙染源定位[3]、危險環境下的操作、海上救援等。因此,水下機器人的控制引起了控制界的極大關注。在水下機器人的諸多控制問題中,深度控制在許多應用中都至關重要。例如,在進行海底測繪時,要求水下機器人與海底保持恆定的距離。
水下機器人的深度控制問題存在許多困難。水下機器人的非線性動力學渲染許多線性控制器如線性二次高斯積分(LQI)和固定比例積分微分(PID)控制器性能不佳。實際應用中,即使採用非線性控制器,也很難獲得水下機器人的精確動力學模型。此外,複雜的海底環境帶來了各種幹擾,例如海流、波浪和模型不確定性,所有這些都增加了深度控制的難度。
傳統的控制方法主要集中在基於精確的動力學模型解決水下機器人的控制問題。針對海洋水面艦艇的動態定位系統,提出了一種包含加速度反饋的擴展PID控制器[4]。控制器通過引入測量的加速度反饋來補償緩慢變化的力的幹擾。採用Mamdani模糊規則整定的自適應PID控制器控制非線性AUV系統以穩定的速度跟蹤航向和深度,優於經典整定的PID控制器[5]。
其他基於模型的水下機器人控制器包括反推[6]、[7]、滑模[8]、[9]、模型預測控制[10]、[11]、魯棒控制[12]等。針對船舶和機械系統的跟蹤問題,設計了一種自適應反推控制器,保證了閉環跟蹤誤差的一致全局漸近穩定性[13]。結合視線制導,兩個滑模控制器分別被設計用於船舶的搖擺-偏航控制[8]。最大功率控制是一種控制策略,其中每個採樣時間的控制輸入是基於某個水平的預測來估計的[14]。在[15]中,通過解決特定的最大功率控制問題提出了一種控制器,並控制非線性約束潛艇跟蹤海底。在[16]中,基於L2ROV水下航行器的設定點調節和軌跡跟蹤的魯棒控制,提出了非線性深度和偏航控制器。所提出的控制器在實際應用中易於調整,並通過李亞普諾夫參數證明了其穩定性。
然而,在不正確的動態模型下,基於模型的控制器的性能會嚴重下降。在實際應用中,由於複雜的海底環境,水下機器人的精確模型很難獲得。對於這種情況,需要一個無模型控制器,本文通過強化學習來學習。
RL是一個基於動態規劃的馬爾可夫決策過程(MDP)的求解框架,沒有轉移模型。它已成功地應用於機器人控制問題,包括單個機器人,移動機器人[17]或多機器人[18],機器人足球[19],雙足機器人[20],無人飛行器[21]等的路徑規劃。
本文基於確定性策略梯度(DPG)定理和神經網絡逼近,提出了一種水下機器人深度控制問題的逆向學習框架。根據目標軌跡的不同形式和可觀測信息,我們考慮了三個深度控制問題,包括恆定深度控制、彎曲深度跟蹤和海底跟蹤。
應用RL的關鍵是如何將深度控制問題建模為多維決策問題。MDP描述了這樣一個過程,在這個過程中,處於某個狀態的代理採取一個動作,然後以一步的代價轉移到下一個狀態。在我們的問題中,「狀態」和「一步成本」的定義對RL的性能很重要。通常水下機器人的運動由六個坐標及其導數描述。直接將坐標視為MDPs的狀態很簡單。然而,這種情況對於排除目標深度軌跡的信息並不完美。此外,運動坐標中的角度變量是周期性的,因此不能直接用作狀態的分量。因此,我們的工作之一是設計一個更好的狀態來克服這些缺陷。
大多數RL算法通常分別逼近一個價值函數和一個策略函數,這兩個函數分別用於評估和生成策略,而逼近器的形式取決於MDP的過渡模型。對於水下機器人的深度控制問題,非線性動力學和約束控制輸入導致嚴重的逼近困難。本文選擇神經網絡逼近器是因為它們強大的表示能力。我們考慮如何為水下機器人的深度問題設計自適應網絡結構。
網絡設計完成後,我們根據水下機器人的採樣軌跡對其進行訓練,彌補了無模型的局限性。然而,遠洋水下機器人的電池和存儲容量限制了水下任務中的採樣數據量,因此採樣軌跡通常不足以滿足訓練需求。為了提高數據效率,我們提出了一種通過回放以往經驗的批量學習方案。
本文的主要貢獻概括如下。
本文的其餘部分組織如下。在第二節中,我們描述了水下機器人的運動和三個深度控制問題。在第三節中,深度控制問題被建模為在設計良好的狀態和單步成本函數下的多學科設計優化問題。在第四節中,基於DPG的反向傳播算法被應用於求解多目標規劃問題。在第五節中,我們重點介紹了幾種改進反向鏈路算法性能的創新技術。在第六節中,模擬是在一個經典的遙控潛水器上進行的將兩種基於模型的控制器的性能與我們的算法進行了比較,以驗證其有效性。此外,在真實海底數據集上進行了實驗,驗證了該框架的實用性。
在這一節中,我們描述了水下機器人的坐標框架和深度控制問題。
水下機器人的運動有六個自由度,包括浪湧、搖擺和升沉,即縱向、橫向和垂直位移,以及偏航、滾轉和俯仰,後者描述了圍繞垂直、縱向和橫向軸線的旋轉。圖1示出了六個自由度的細節。
相應地,有六個獨立的坐標來確定水下機器人的位置和方向。地球固定坐標系{I}由η = [x,y,z,φ,θ,ψ]T表示的沿x,y,z軸的位置和方向對應的六個坐標定義。通過忽略地球旋轉的影響,假設地球固定坐標係為慣性坐標系。由ν = [u,v,w,p,q,r]表示的線速度和角速度在固定體坐標系{B}中描述,該坐標系是原點固定在水下機器人上的移動坐標系。圖1顯示了兩個坐標框架和六個坐標。
為了簡單起見,本文只考慮了水下機器人在x-z平面上的深度控制問題,所有這些問題都可以很容易地擴展到三維情況。因此,我們只檢查x-z平面上的運動,並把這些項從平面上去掉。此外,浪湧速度u假設為常數。剩下的坐標用矢量χ = [z,θ,w,q]T表示,包括升沉位置z,升沉速度w,俯仰方位θ,俯仰角速度q。
水下機器人的動力學方程定義如下:
其中u表示控制向量,ξ表示可能的擾動。.
深度控制的目的是控制水下機器人以最小的能量消耗跟蹤期望的深度,其中期望的深度軌跡由下式給出
根據形狀和關於的信息,我們關注三種情況下的深度控制。
在本節中,我們將上述三個深度控制問題建模為轉移概率未知的多學科設計優化問題,這是由於水下機器人的動力學未知。
MDP過程是一個滿足馬爾可夫性的隨機過程。它由四部分組成:
1)一個狀態空間;
2)一個n動作空間;
3)一步成本函數;以及
4)平穩一步轉移概率。馬爾可夫屬性意味著當前狀態僅取決於最後的狀態和動作,即
MDP描述了代理如何與環境交互:在某個時間步驟,處於狀態的代理採取一個動作,並根據轉移概率轉移到下一個狀態,觀察到的一步成本。圖2說明了MDP的演變。
MDP問題是找到一個策略來最小化長期累積損失函數。策略是狀態空間到動作空間的映射,可以定義為函數形式或分布。因此,優化問題被表述為
其中表示策略空間,是折扣因子,。求和的上標代表問題的視界。
MDP的四個組成部分的定義對RL算法的性能至關重要。對於水下機器人的深度控制問題,未知的動力學模型意味著未知的轉移概率,而動作對應於控制輸入,即。因此,關鍵是如何設計控制問題的狀態和一步代價函數。
恆定深度控制問題的目的是控制AUV在恆定深度下運行。我們設計了表單的一步損失函數
其中,表示最小化相對深度,表示保持沿x軸的俯仰角,最後三項表示最小化消耗的能量。損失函數通過係數在不同的控制目標之間進行權衡。
選擇描述水下機器人運動的作為狀態是直觀的。然而,這種選擇在實踐中表現更差,原因有二。首先,俯仰角θ是一個角度變量,由於其周期性,不能直接添加到狀態中。例如,θ = 0的狀態和θ = 2π的狀態看似不同,但實際上是等價的。因此,我們將俯仰角分成兩個三角分量,以消除周期性。
第二個缺點是狀態下的絕對深度z。假設如果我們已經學習了一個控制器,使AUV保持在一個特定的深度,現在目標深度變為一個新的深度水下機器人從未去過的地方。舊的控制器將不會在以前探索的狀態空間沒有覆蓋的新深度上工作。比較好的選擇是相對深度表示水下機器人離目標深度有多遠。一種學習狀態包含的最優控制器當為負或者正時,會控制AUV上升或下降。
為了克服上述缺點,我們將恆定深度控制的狀態設計如下:
彎曲深度控制是控制AUV跟蹤給定的彎曲深度軌跡。狀態(6)對於彎曲深度控制是不充分的,因為它不包括由曲線的傾斜角及其導數表示的目標深度的未來趨勢。傾斜角用於預測AUV應該上升還是下降,表示的變化率。
圖3顯示了(6)中定義的處於相同狀態的水下機器人跟蹤兩條不同的曲線的兩種情況。顯然,在相同的策略下,它們不能被控制來跟蹤兩條曲線。失敗的原因是水下機器人無法預測曲線的趨勢。
為了將關於的信息添加到狀態中,我們考慮它的形式
其中表示水下機器人的恆定浪湧速度,和表示g(x)相對於x的一階和二階導數。
然後我們考慮相對深度z的導數如下:
其中表示水下機器人和目標深度曲線之間的相對航向角。靈感來源於的形式?,我們設計了以下一步損失函數:
其中和分別最小化相對深度和相對航向。這意味著控制水下機器人同時跟蹤深度曲線及其趨勢。
彎曲深度控制的狀態定義為
如圖4所示,海底跟蹤是為了控制水下機器人跟蹤海底,同時在碰撞的情況下保持恆定的相對深度。在這種情況下,水下機器人只能通過類似聲納的裝置從海底觀察測量相對垂直距離,但無法觀察海底曲線的傾斜角及其導數。
因此,由於和 的缺失,狀態(10)不再可行。如果我們採用(6)中定義的狀態,圖3所示的問題仍然存在。實際上,這個問題也被稱為「感知混疊」[22],這意味著環境的不同部分看起來類似於水下機器人的傳感器系統。原因是狀態(6)只對環境進行了部分觀察。因此,我們考慮擴大狀態以包含更多的信息。
雖然水下機器人無法測量,但海底曲線的趨勢仍然可以通過最近觀測到的相對垂直距離序列來估計,即其中,N表示序列的長度。因此,使用相同的一步成本函數(5),我們將海底跟蹤問題的擴展狀態定義為
最近測量的序列N的長度對於狀態的性能很重要,所以我們將在模擬中討論N的最佳設置。
本節,我們採用RL算法去解決上一節中的MDP的深度控制問題
在這裡,我們介紹了一個稱為動態規劃的經典MDP求解例程,作為深度控制的RL算法的基礎。為了方便起見,我們首先定義兩種類型的函數來評估策略的性能。價值流函數是一個長期成本函數,定義如下
在特定策略π下具有起始狀態S1。作用值函數(也稱為Q值函數)是一個價值函數
具有選定的開始動作。
注意,長期成本函數(4)和價值函數之間的關係如下
其中表示初始狀態分布。因此,對於每個狀態,最小化(4)等價于貝爾曼最優性方程
貝爾曼最優性方程決定了解決MDP問題的基本程序,包括策略評估和策略改進兩個階段[23]。策略評估通過迭代使用貝爾曼方程來估計策略π的價值函數
初始假設的價值函數為。迭代可以進行到收斂(策略迭代)或固定步(廣義策略迭代),甚至一步(值迭代)[23]。在策略評估之後,進行策略改進,以通過貪婪最小化獲得基於估計值函數的改進策略
兩個階段交替迭代,直到策略收斂到最優。
動態規劃只適用於在已知轉移概率下具有有限狀態和有限作用空間的MDP規劃。對於第三節中構造的mdp方案,轉移概率是未知的,這是由於價值函數更新(16)所需的水下機器人的未知動態。因此,我們採用了一種新的規則,它使用採樣過渡數據,稱為時間差分(TD)來更新價值函數。
假設在時間k沿著水下機器人的軌跡觀察到一個過渡對,那麼TD更新Q值函數為形式[23]
其中是學習率。
TD算法將狀態-動作對的映射更新為它們的Q值,並將其存儲為查找表。然而,對於深度控制問題,狀態由水下機器人的運動矢量和期望深度組成,而作用通常是螺旋槳的力和扭矩。所有這些連續變量導致連續的狀態和動作空間,這些空間不能用查找表來表示。
我們用參數化函數來表示映射,並更新參數ω如下:
其中是下一節中定義的策略函數。
水下機器人深度控制的連續控制輸入導致連續動作,因此如果每次迭代執行,在連續動作空間上的最小化(17)是耗時的。
相反,我們通過DPG算法實現策略改進階段。DPG算法假設一個確定的參數化策略函數,並沿著長期成本函數的負梯度更新參數
其中是真實梯度的隨機近似。DPG算法推導出[24]如下:
其中 表示在策略下的 Q-值函數 。
在最後一節中,Q值函數由參數化逼近器逼近,因此我們用代替了,近似梯度由下式給出
注意(21)中的近似梯度是由過渡序列計算的,這似乎不適合深度控制問題的在線特性。如果設置M = 1,我們仍然可以得到一個在線更新規則,但是近似的偏差可能會被放大。實際上,批量更新方案可以通過沿著水下機器人的軌跡滑動序列來執行。
我們在TD和DPG算法中定義了兩個函數逼近器和,但沒有給出逼近器的具體形式。由於水下機器人的非線性和複雜動力學特性,我們構造了兩個神經網絡逼近器,即以ω和θ為權值的評價網絡和策略網絡。
為了通過TD和DPG算法說明兩個網絡的更新,我們給出了圖5所示的結構圖。RL算法的最終目的是學習策略網絡所代表的狀態反饋控制器。在我們的算法中有兩條反向傳播路徑。評估網絡由當前Q值和後續狀態動作對之間的誤差加上一步成本 去反向傳播,即TD算法的概念。評估網絡的輸出被傳遞到「梯度模塊」以生成梯度,然後通過DPG算法傳播回更新策略網絡。這兩條反向傳播路徑分別對應於動態規劃中的策略評估和策略改進階段。請注意,「狀態轉換器」模塊,即第三節中說明的狀態設計過程,將水下機器人的坐標和參考深度信號轉換為狀態。
在最後一節中,我們給出了一個水下機器人深度控制的RL框架,它通過迭代時域和DPG算法來更新兩個神經網絡逼近器。結合控制問題的特點,從兩個方面進一步提出了改進策略。首先,根據水下機器人控制時的物理約束,設計了神經網絡的自適應結構,採用了一種新型的激活函數。然後我們提出了一個批處理學習方案來提高數據效率。
考慮到水下機器人的非線性動力學特性,我們構造了兩個神經網絡逼近器,以ω和θ為權值的評價網絡和策略網絡μ(s|θ)。
評估網絡有四層,以狀態s和控制變量u作為輸入,其中u不包括在內,直到第二層。輸出層是產生標量Q值的線性單元。
策略網絡設計為三層結構,在給定輸入狀態的情況下產生控制變量u。由於水下機器人螺旋槳的功率有限,輸出u必須限制在給定的範圍內。因此,我們採用 單位作為輸出層的激活函數。然後,將[-1,1]中tanh函數的輸出縮放至給定的區間。
除了網絡的結構之外,我們還採用了一種新的激活函數ReLu作為隱藏層。
在傳統的神經網絡控制器中,激活函數通常使用sigmoid或tanh函數,這些函數對接近零的輸入敏感,但對大的輸入不敏感。這種飽和特性帶來了「梯度消失」問題,即在大的輸入下單元的梯度減小到零,並且無助於網絡的訓練。然而,ReLu函數避免了這個問題,因為它只抑制一個方向上的變化,如圖6所示。
此外,ReLu的簡單形式可以加快網絡的計算速度,這正好符合水下機器人深度控制的在線特性。
最後,我們在圖7中說明了兩個網絡的完整結構。
在本節中,我們考慮如何提高水下機器人深度控制問題的數據效率。該算法不是基於精確模型設計控制器,而是從水下任務中沿水下機器人軌跡採樣的轉移記錄中學習最優策略。然而,遠洋水下機器人的電池和存儲容量限制了每次水下任務的採樣數據量。任務對水下機器人進行充電和部署既費時又有風險,因為複雜的海底環境。因此,對於我們的RL算法來說,從有限數量的採樣數據中學習最優控制器是至關重要的。
我們提出了一種稱為優先經驗回放的批量學習方案,它是林[26]提出的經驗重放的改進版本。想像一下用RL算法控制AUV的場景。水下機器人觀察隨後的狀態,狀態下的單步成本,每次執行控制輸入。我們稱作為一種「經驗」。而不是通過新採樣的經驗來更新評估網絡和策略網絡,它使用緩存來存儲所有訪問的經驗,並從緩存中採樣一批先前的經驗來更新兩個網絡。重放機制重用以前的經驗,就像它們是新訪問的一樣,這大大提高了數據效率。
然而,並不是所有的經驗都應該得到同等的重視。如果一種體驗給網絡的權重帶來了微小的差異,它就不值得重播,因為網絡已經了解了它的隱含模式。而「錯誤」的經歷應該經常重演。
受(18)的啟發,優先化的經驗重放採用TD算法的「錯誤」作為經驗的優先級,該優先級由下式給出
優先級衡量從緩存中經驗被採樣的可能性。因此,優先級越高的體驗,對評價網絡的權重產生的差異越大,重放的概率也就越大。
綜上所述,我們結合上述技術提出了一種基於神經網絡的DPG算法。在算法1中給出了更詳細的NNDPG過程。
在本節的最後,有必要討論NNDPG的優勢。首先,NNDPG不需要任何關於水下機器人模型的知識,但仍然可以學習一個控制器,其性能在精確的動力學下與控制器具有競爭力。此外,針對水下機器人的控制問題,首次在RL控制器中提出了優先經驗回放,極大地提高了數據效率和性能。
在這一節中,我們給出了一組經典的六自由度水下機器人模型的顯式動力學方程,用來驗證我們的算法。然而,由於我們的算法是完全無模型的,實驗可以很容易地擴展到其他水下機器人模型。
如上所述,我們只考慮水下機器人在x-z平面的運動,並假設恆定的浪湧速度。簡化的動力學方程由下式給出
其中和分別為重心和浮力;表示附加質量;表示車身升力和力矩係數;橫流阻力係數;和代表水下機器人的重量和浮力。有界控制輸入和是螺旋槳推力和扭矩,它的擾動和由不穩定的水下環境引起。水動力係數值如表一所示。值得注意的是,方程中包含了水下機器人縱蕩和橫蕩運動的耦合項。
我們比較了兩種基於模型的控制器和NNDPG學習的狀態反饋控制器。第一個是線性二次高斯積分(LQI)控制器[28],由線性化的水下機器人模型導出。
水下機器人(23a)–(23d)的非線性模型可以在穩態下通過SIMULINK線性化模式進行線性化[5]
其中指出微小的線性化誤差,將穩態點設置為,直接導出線性化的水下機器人模型
其中係數矩陣A、B和C由下式給出
輸出為。
由於狀態和輸出變量都是可測量的,所以設計了一個LQI控制器來解決圖8所示的線性化水下機器人模型的深度控制問題。反饋控制器設計為
其中是積分器的輸出
增益矩陣K通過求解代數黎卡提方程獲得,該方程由以下損失函數的最小化導出:
LQI控制器是基於線性化的水下機器人模型設計的,該模型是原始非線性模型的近似。在一個精確的非線性水下機器人動力學模型下,我們採用了一個由非線性最大功率控制(NMPC)導出的非線性控制器。NMPC設計了一個N步累積損失函數[15]
對於每個時間步長k,NMPC預測最優的N步控制序列通過最小化優化函數
其中預測步長的計數N也稱為預測範圍。NMPC通過交替迭代兩個過程來解決N步優化問題。正向過程使用候選控制序列執行系統方程,以找到預測狀態序列。後向過程找到拉格朗日乘子,以消除相對於狀態序列的偏導數項,然後沿著梯度向量更新控制序列。重複這兩個過程,直到達到所需的精度。
在這一節中,我們介紹了模擬的實驗設置。LQI和NMPC控制器是在MA TLAB R2017a平臺上使用控制系統和MPC工具箱實現的。如上所述,水下機器人模型由水下機器人動力學(23a)–(23d)的S函數通過SIMULINK線性化。NNDPG由Python 2.7在Linux系統上使用Google的開源模塊Tensorflow實現。
應該注意的是,所有的控制器和模型都是以離散時間形式實現的,採樣時間,儘管在前面的章節中,它們中的一些是在連續時間下描述的。例如,一般的水下機器人動力學(1)使用向前歐拉公式離散化
樣本水平設置為T = 100秒。
擾動項ξ由Ornstein–Uhlenbeck過程產生[29]
其中,是符合標準正態分布的噪聲項,其他參數設置為。請注意,這是一個時間相關的隨機過程。
首先,我們將NNDPG與LQI和NMPC在恆定深度控制問題上的性能進行了比較。圖9示出了三個控制器從初始深度到目標深度的跟蹤行為。三個指標,穩態誤差(SSE)、過衝(OS)和響應時間(RT),用於評估控制器的性能,其精確值在表2中給出。
我們可以發現LQI在控制者中表現最差。這一結果表明,在不精確的模型下,基於模型的控制器的性能會惡化。
此外,仿真結果表明,基於理想的非線性水下機器人模型,神經網絡動力定位系統的性能與NMPC相當,甚至以更快的收斂速度和更小的作業系統擊敗後者(表二中的粗體小數)。在未知水下機器人模型下,驗證了該算法的有效性。
圖10示出了三個控制器的控制序列。NNDPG學習的控制策略比其他控制器變化更敏感。我們用神經網絡的逼近誤差來解釋這一現象。LQI和NMPC可以獲得更平滑的控制律函數,因為他們可以訪問水下機器人的動力學方程。然而,神經網絡(策略網絡)用於生成NNDPG中的控制序列。因此,它可以看作是對未知動力學模型的一種補償。
為了驗證優先化經驗回放的改進的數據效率,我們通過總回報的收斂過程將其性能與原始經驗回放進行比較,如圖11所示。我們發現具有優先經驗回放的NNDPG比具有原始經驗重放的NNDPG花費更少的收斂步驟,因為前者以更有效的方式重放先前的經驗。
在這一部分,水下機器人被控制以跟蹤彎曲的深度軌跡。我們將跟蹤軌跡設置為正弦函數,其中 m。首先,我們假設NNDPG具有軌跡的趨勢信息,包括傾斜角及其導數,作為第三節中研究的彎曲深度控制的情況。然後在傾斜角不可測量的情況下對算法進行了驗證。相反,測量的相對深度的先前歷史序列提供,其中序列的長度稱為窗口大小。圖12(a)和(b)示出了跟蹤誤差和軌跡,其中NNDPG-PI表示帶有傾斜角信息的NNDGP算法,NNDPG-WIN-X表示與最近測量的X個相對深度有關的NNDPG。
首先,我們從圖12中觀察到,NNDPG-PI的性能與NMPC的性能相當,後者與恆定深度控制的情況相似。請注意,NMPC需要水下機器人的精確動力學,而我們的算法完全沒有模型。另外,NNDPG-PI的性能是不同NNDPG版本中最好的,而NNDPG-WIN-1隻包括當前相對深度的性能差很多。它驗證了為恆定深度控制問題設計的狀態對於彎曲深度設置變得部分可觀察。然而,當我們將最近測量的相對深度添加到狀態(NNDPG-WIN-3)時,跟蹤誤差大大減小。這種改善可以用包含在最新測量中的隱含趨勢信息來解釋。
為了確定窗口大小的最佳選擇,我們列出並比較了不同窗口大小(從1到9)的NNDPG的性能。根據一個實驗的長期成本來評估性能
由於水下機器人動力學中存在幹擾,我們對每個窗口大小進行了十次實驗。結果在圖13中顯示為箱線圖,以顯示性能的分布。
可以清楚地看到,過去測量的相對深度的補充確實補償了期望深度軌跡的缺失趨勢信息。然而,這並不意味著越多越好。事實上,之前超過太多步驟的記錄會降低性能,因為它們可能會干擾已學習的策略。從情節中我們發現窗口大小的最佳值是3,對應於最小均值和方差。
最後,我們測試了所提出的用於跟蹤真實海底的RL框架。數據集採樣自南海海底由中國科學院瀋陽自動化研究所提供。我們沿著預設路徑對深度進行採樣,獲得圖14所示的二維距離-深度海底曲線。
我們的目標是控制水下機器人跟蹤海底曲線,同時保持恆定的安全距離。我們將NNDPG-WIN-3與NMPC的性能做比較,如圖15所示。似乎兩個控制器都可以很好地跟蹤海底的快速變化趨勢,但是我們的算法不需要水下機器人的動力學。
針對水下機器人在離散時間的深度控制問題,提出了一種無模型RL框架。研究了三個不同的深度控制問題,並將其建模為具有設計良好的狀態和單步代價函數的多目標規劃。提出了一種學習狀態反饋控制器的反向學習算法NNDPG,該控制器由一個稱為策略網絡的神經網絡表示。策略網絡的權重由DPG定理計算的近似策略梯度更新,而另一個評估網絡用於估計狀態-動作值函數,並由時域算法更新。兩個網絡的交替更新由NNDPG的一個迭代步驟組成。為了提高收斂性,提出了優先經驗回放來回放以前的經驗以訓練網絡。
我們在一個經典的REMUS水下機器人模型上測試了所提出的無模型RL框架,並與兩個基於模型的控制器進行了性能比較。結果表明,在水下機器人的精確動力學條件下,神經網絡預測控制策略的性能可以與控制器的性能相媲美。此外,我們發現所選狀態的可觀測性影響性能,並且可以添加最近的歷史來提高性能。
未來,我們將在一個真實的水下航行器上驗證所提出的無模型RL框架,該水下航行器是一個在海平面下6000米處工作的深海可控視覺採樣器。
原文連結