一种新的基于数据驱动的神经动态规划方法
A New Data-Driven Neural Dynamic Programming Algorithm
DOI: 10.12677/AIRR.2019.82006, PDF,    科研立项经费支持
作者: 李星科*, 陈学松*:广东工业大学应用数学学院,广东 广州
关键词: 最优控制神经动态规划Q函数神经网络 Optimal Control Neural Dynamic Programming Q-Function Neural Network
摘要: 为了实现无模型离散时间非线性动态系统的最优控制,提出了一种新的基于数据驱动的神经动态规划方法。该方法利用Q函数的残差与基函数的内积为零,同时控制策略的残差与基函数的内积也为零,从而得到控制方程。接着使用离线数据集与在线数据来迭代更新神经网络的系数,从而得到近似最优的控制策略,本文还证明了该算法是收敛的。
Abstract: A new data-driven neural dynamic programming method for model-free discrete-time nonlinear dynamic system is proposed in this paper. The residual of the Q-function and the control strategy are operated to be zero with the basis function through the inner product. Then the coefficients of the neural network are updated by the offline trained data and the online data. Finally the optimal control strategy is obtained and the convergence of this algorithm is proved.
文章引用:李星科, 陈学松. 一种新的基于数据驱动的神经动态规划方法[J]. 人工智能与机器人研究, 2019, 8(2): 46-56. https://doi.org/10.12677/AIRR.2019.82006

参考文献

[1] 张化光, 张欣, 罗艳红, 杨珺. 自适应动态规划综述[J]. 自动化学报, 2013, 39(4): 303-311.
[2] 林小峰, 丁强. 基于评价网络近似误差的自适应动态规划优化控制[J]. 控制与决策, 2015, 30(3): 495-499.
[3] Lakovos, M., Simone, B., Elias, B.K. and Petros, A.L. (2017) Adaptive Optimal Control for Large-Scale Nonlinear Systems. IEEE Transactions on Automatica Control, 62, 5567-5577. [Google Scholar] [CrossRef
[4] 赵金刚, 戈新生. 基于动态规划的机器人运动规划最优控制[J]. 控制工程, 2017, 24(11): 2374-2379.
[5] 田涛涛, 侯忠生, 刘世达, 邓志东. 基于无模型自适应动态规划的无人驾驶汽车横向控制方法[J]. 自动化学报, 2017, 43(11): 1931-1940.
[6] 乔俊飞, 王亚清, 柴伟. 基于迭代ADP算法的污水处理过程最优控制[J]. 北京工业大学学报, 2018, 44(2): 200-206.
[7] 刘毅, 章云. 基于值迭代的自适应动态规划的收敛条件[J]. 广东工业大学学报, 2017, 34(5): 10-14.
[8] 刘毅, 章云. 一种基于自适应动态规划的协同优化算法[J]. 广东工业大学学报, 2017, 34(6): 15-19.
[9] Liu, D.R. and Wei Q.L. (2014) Policy Iteration Adaptive Dynamic Programming Algorithm for Dis-crete-Time Nonlinear Systems. IEEE Transactions on Neural Networks Learning Systems, 2014, 25, 621-634. [Google Scholar] [CrossRef
[10] Luo, B., Wu, H.N., Huang, T.W. and Liu, D.R. (2014) Data Based Approximate Policy Iteration for Affine Nonlinear Continuous-Time Optimal Control Design. Automatica, 50, 3281-3290. [Google Scholar] [CrossRef
[11] Luo, B., Liu, D.R., Wu, H.N., Wang, D. and Lewis, F.L. (2017) Policy Gradient Adaptive Dynamic Programming for Data-Based Optimal Control. IEEE Transactions on Cybernrtics, 47, 3341-3354. [Google Scholar] [CrossRef
[12] 王鼎, 穆朝絮, 刘德荣. 基于迭代神经动态规划的数据驱动非线性近似最优调节[J]. 自动化学报, 2017, 43(3): 366-375.