中國科學院自動化研究所複雜管理系統與控制國家重點實驗室針對一類非線性吊車系統,建立一種基於評判學習機制的智能優化控制方法,通過近似求解Hamilton–Jacobi–Bellman方程,實現含有折扣因子代價函數時的最優反饋鎮定。利用神經網絡的在線學習能力,提出不同於傳統自適應評判算法的新穎權值更新策略,降低對於系統初始穩定控制律的要求,由此給自適應評判控制設計帶來極大便利。
研究團隊從理論上證明了閉環系統的穩定性,針對所述非線性吊車系統開展仿真實驗,考慮不同折扣因子情況下的控制效果,經過充分的對比分析驗證了論文中方法的有效性。
首先,針對一類實際吊車系統(圖1)構建連續時間狀態空間模型,定義含有折扣因子的代價函數,考慮這一複雜非線性系統在特定性能指標下的狀態反饋優化鎮定問題。對於一般非線性系統的最優控制設計,為了有效地求解其中的Hamilton–Jacobi–Bellman方程,研究人員引入智能評判控制方法,旨在通過有關參數的自適應更新與自主學習,得到近似的優化控制律。
其次,提出改進的評判網絡更新準則,構建論文中的自適應評判控制方案框架,如圖2所示。改進的神經網絡學習策略是在傳統策略迭代算法的基礎上,融入反映系統穩定性能的增強項,形成新穎的評判學習機制,直接作用於評判神經網絡,引導更加高效的訓練和學習,這可以消除對於被控系統初始穩定控制律的依賴,更方便於實現自適應評判控制算法。
最後,將上述智能優化策略應用於吊車系統,考慮不同折扣因子得到不同的響應曲線,達到近似最優反饋鎮定的目的,實現過程簡單,由此驗證該方法的良好控制性能。實驗結果表明:當增大折扣因子時,實現被控系統優化鎮定的代價函數將逐漸變小,這反映了在代價函數中引入折扣因子的作用。圖3和4刻畫一種特定情形時的系統狀態和控制輸入曲線。
相關研究成果發表在IEEE Transactions on Industrial Informatics上。(來源:中國科學院自動化研究所)
圖1
圖2
圖3
圖4
特別聲明:本文轉載僅僅是出於傳播信息的需要,並不意味著代表本網站觀點或證實其內容的真實性;如其他媒體、網站或個人從本網站轉載使用,須保留本網站註明的「來源」,並自負版權等法律責任;作者如果不希望被轉載或者聯繫轉載稿費等事宜,請與我們接洽。