一种新的基于数据驱动的神经动态规划方法

doi:10.12677/AIRR.2019.82006

期刊菜单

一种新的基于数据驱动的神经动态规划方法
A New Data-Driven Neural Dynamic Programming Algorithm

DOI: 10.12677/AIRR.2019.82006, PDF, HTML, XML, 科研立项经费支持
作者: 李星科^*, 陈学松^*：广东工业大学应用数学学院，广东广州
关键词: 最优控制；神经动态规划；Q函数；神经网络； Optimal Control； Neural Dynamic Programming； Q-Function； Neural Network

摘要: 为了实现无模型离散时间非线性动态系统的最优控制，提出了一种新的基于数据驱动的神经动态规划方法。该方法利用Q函数的残差与基函数的内积为零，同时控制策略的残差与基函数的内积也为零，从而得到控制方程。接着使用离线数据集与在线数据来迭代更新神经网络的系数，从而得到近似最优的控制策略，本文还证明了该算法是收敛的。

Abstract: A new data-driven neural dynamic programming method for model-free discrete-time nonlinear dynamic system is proposed in this paper. The residual of the Q-function and the control strategy are operated to be zero with the basis function through the inner product. Then the coefficients of the neural network are updated by the offline trained data and the online data. Finally the optimal control strategy is obtained and the convergence of this algorithm is proved.

文章引用：李星科, 陈学松. 一种新的基于数据驱动的神经动态规划方法[J]. 人工智能与机器人研究, 2019, 8(2): 46-56. https://doi.org/10.12677/AIRR.2019.82006

1. 引言

无论是在控制理论还是工程领域，最优化控制问题都是一个重难点。最优控制问题的求解依赖于求解HJB方程，由于系统一般是非线性的，导致对于求解HJB方程很困难，难以得到解析解 [1] 。

Bellman在1957年首次提出了动态规划方法。动态规划对于求解最优控制问题是一个行之有效的方法。该方法适应广泛：离散系统，连续系统，非线性系统，以及随机系统等等。但是该方法是一种逆向计算方法，随着解的时间维度增加，且由于控制变量维数大容易造成“维数灾难”问题。于是近年来，针对未知的复杂非线性系统的最优控制问题，自适应动态规划应运而生。与传统的动态规划相比，由于其采用函数近似结构来逼近系统模型，评价指标 [2] ，和控制策略，避免了因时间逆向计算造成的“维数灾难”问题。自适应动态规划可用于大规模非线性系统 [3] ，其应用也相当广泛；例如：机器人运动规划 [4] ，无人驾驶汽车 [5] ，污水处理系统 [6] 等等。

LIU等采用值迭代的自适应动态规划，并证明其收敛条件是迭代性能指标函数初始化为任意半正定函数 [7] 。根据此收敛条件，提出了一种基于自适应动态规划的协同优化算法 [8] 。该协同优化算法令迭代的残差快速减小，大幅提高了自适应动态规划的收敛速度。LIU等对于离散的非线性系统采用基于策略迭代的自适应动态规划方法 [9] ，证明了该迭代控制律可以使系统稳定，并说明其是收敛的。LUO等则分别对于连续时间非线性系统采用基于策略迭代的自适应动态规划方法 [10] ，该策略迭代的实现使用基于神经网络的最小二乘方法并证明该方法是收敛的。文献 [11] 针对离散时间非线性系统，提出了策略梯度自适应动态规划算法，并证明了该算法中Q函数能收敛到最优值。

由于神经网络良好的自适应与自学习等特点 [12] ，本文采用神经网络与动态规划结合的自适应动态规划对无模型的最优控制问题进行求解。对于神经网络的权重系数采用离线数据集与在线数据结合进行更新。

2. 问题描述

本文所描述的离散时间非线性系统为：

$x_{k + 1} = f (x_{k} + u_{k}), k = 0, 1, 2, \dots$ (1)

其中 $x_{k} \in R^{n}$ 为状态向量， $u_{k} \in R^{m}$ 为控制向量。此外X和U为一个完备集合， $D = {(x, u) | x \in X, u \in U}$ 。系统(1)在X上稳定，函数 $f (x, u)$ 在集合D上连续，且 $f (0, 0) = 0$ ， $x = 0$ 是系统(1)的一个稳定状态。本文考虑的是无模型的最优控制问题，即函数 $f (x, u)$ 的具体解析式是不知道的。优化目标是找到一个稳定的反馈控制 $u_{k} = u (x_{k})$ ，使得性能指标函数(2)最小。

$V_{u} (x_{0}) = \sum_{l = 0}^{\infty} P (x_{l}, u_{l}) .$ (2)

其中 $P (x, u) = S (x) + W (u)$ ，和 $W (u)$ 为正定函数。

3. 策略梯度自适应动态规划

对于上述最优控制问题，由于该系统是非线性的且系统模型 $f (x, u)$ 的解析式并不知道。为了克服这些困难，引入了策略梯度自适应动态规划来求解该最优控制问题。

定义1对于系统(1)，如果 $u (x)$ 在X上连续，且 $\forall x \in X$ ， $V_{u} (x) < \infty$ ，则称控制 $u (x)$ 是可控的，记 $u (x) \in U (X)$ 。基于自适应动态规划理论，定义值函数 $V_{u} (x_{k})$ 为：

$V_{u} (x_{k}) = \sum_{l = k}^{\infty} P (x_{l}, u_{l}) .$ (3)

易知：

$V_{u} (x_{k}) = P (x_{k}, u_{k}) + V_{u} (x_{k +1}) .$ (4)

记最优值函数为：

$V^{*} (x) = \min_{u} V_{u} (x) .$ (5)

对应的最优控制为：

$u^{*} (x) = \arg \min_{u} V_{u} (x_{k}) .$ (6)

根据自适应动态规划，为了更好求解该最优控制问题，下面引入Q函数：

$Q_{u} (x_{k}, a) = P (x_{k}, a) + \sum_{l = k + 1}^{\infty} P (x_{l}, u_{l}) .$ (7)

且易知 $Q_{u} (x_{k}, u) = V_{u} (x_{k})$ ，Q函数也可以表示为：

$Q_{u} (x_{k}, a) = P (x_{k}, a) + Q_{u} (x_{k + 1}, u) = P (x_{k}, a) + V_{u} (x_{k + 1}) .$ (8)

对应最优控制 $u^{*} (x)$ 的最优Q函数为：

$Q^{*} (x_{k}, a) = Q_{u^{*}} (x_{k}, a) = P (x_{k}, a) + V^{*} (x_{k + 1}) .$ (9)

相应的最优控制为：

$u^{*} (x) = \arg \min_{u} V_{u} (x) = \arg \min_{a} Q^{*} (x, a) .$ (10)

为了求解该最优控制问题，通过迭代的思想，希望利用Q函数的梯度信息来更新控制策略u，然后把控制策略u带入Q函数。策略梯度自适应动态规划算法的具体步骤如下：

步骤1：给定初始控制策略 $u^{(0)} \in U (X)$ 和允许误差 $ε$ ，且令 $i = 0$ 。

步骤2：估计Q函数：

$Q^{(i)} (x_{k}, a) = P (x_{k}, a) + Q^{(i)} (x_{k +1}, u^{(i)}) .$ (11)

步骤3：更新控制策略u：

$u^{(i + 1)} (x) = u^{(i)} (x) - {α \nabla_{a} Q^{(i)} (x, a) |}_{a = u^{(i)}} .$ (12)

其中 $α$ 为常数。

步骤4：若 $‖ Q^{(i)} (x_{k}, a) - Q^{(i + 1)} (x_{k}, a) ‖ \leq ε$ ，则输出Q函数和控制策略，否则令 $i = i + 1$ ，返回步骤2。

对于系统(1)，首先定义其Hamiltonian函数为：

$\begin{matrix} H (x_{k}, u, V) = V (x_{k + 1}) - V (x_{k}) + P (x_{k}, u) \\ = V (f (x_{k}, u)) - V (x_{k}) + P (x_{k}, u) . \end{matrix}$ (13)

且 $V^{(i)} (x_{k}) = V_{u^{(i)}} (x_{k}) = \sum_{l = k}^{\infty} P (x_{l}, u^{(i)} (x_{l}))$ 。

引理1 [11] 给定 $u^{(0)} (x) \in U (X)$ ，根据策略梯度自适应动态规划算法得到控制序列 ${u^{(i)} (x)}$ 。假设 $\nabla_{a} V^{(i)} (f (x_{k}, a))$ ， $\nabla_{a a} V^{(i)} (f (x_{k}, a))$ ， $\nabla_{a} W (a)$ 和 $\nabla_{a a} W (a)$ 存在，且 $A = \nabla_{u}^{T} H \nabla_{u u} H \nabla_{u} H$ ， $B = \nabla_{u}^{T} H \nabla_{u} H$ ， $C = h$ 。 $\underline{α} = \frac{B - \sqrt{B^{2} - A C}}{A}$ ， $\bar{α} = \frac{B + \sqrt{B^{2} - A C}}{A}$ 。如果对于 $\forall i, x, a$ ， $B^{2} - A C \geq 0$ 且 $\underline{α} \leq α \leq \bar{α}$ ，则：

1)，

2) $u^{(i)} \in U (X)$ 。

证明：1) 将Hamiltonian函数 $H (x_{k}, u, V^{(i)})$ 在 $u^{(i)}$ 处进行二阶泰勒展开：

$\begin{array}{l} H (x_{k}, u, V^{(i)}) = H (x_{k}, u^{(i)}, V^{(i)}) + {(u - u^{(i)})}^{T} \nabla_{u} H (x_{k}, u^{(i)}, V^{(i)}) \\ + \frac{1}{2} {(u - u^{(i)})}^{T} \nabla_{u u} H (x_{k}, u^{(i)}, V^{(i)}) (u - u^{(i)}) + h (u) . \end{array}$ (14)

根据式(8)和(13)易知：

$\nabla_{a} Q^{(i)} (x_{k}, a) = \nabla_{a} V^{(i)} (f (x_{k}, a)) + \nabla_{a} W (a) = \nabla_{u} H (x_{k}, u, V^{(i)}) .$ (15)

$\nabla_{a a} Q^{(i)} (x_{k}, a) = \nabla_{a a} V^{(i)} (f (x_{k}, a)) + \nabla_{a a} W (a) = \nabla_{u u} H (x_{k}, u, V^{(i)}) .$ (16)

由于 $\nabla_{a} V^{(i)} (f (x_{k}, a)), \nabla_{a a} V^{(i)} (f (x_{k}, a)), \nabla_{a} W (a), \nabla_{a a} W (a)$ ，对于 $\forall i$ 都存在，因此 $\nabla_{u} H, \nabla_{u u} H$ 都存在。由式(12)和(14)~(16)易知：

$\begin{array}{l} H (x_{k}, u^{(i + 1)}, V^{(i)}) \\ = H (x_{k}, u^{(i)}, V^{(i)}) + {(u^{(i + 1)} - u^{(i)})}^{T} \nabla_{u} H (x_{k}, u^{(i)}, V^{(i)}) \\ + \frac{1}{2} {(u^{(i + 1)} - u^{(i)})}^{T} \nabla_{u u} H (x_{k}, u^{(i)}, V^{(i)}) (u^{(i + 1)} - u^{(i)}) + h (u^{(i + 1)}) \end{array}$

$\begin{array}{l} = H (x_{k}, u^{(i)}, V^{(i)}) - α \nabla_{a}^{T} Q^{(i)} (x_{k}, u^{(i)}) \nabla_{u} H (x_{k}, u^{(i)}, V^{(i)}) \\ + \frac{1}{2} α^{2} \nabla_{a}^{T} Q^{(i)} (x_{k}, u^{(i)}) \nabla_{u u} H (x_{k}, u^{(i)}, V^{(i)}) \nabla_{a} Q^{(i)} (x_{k}, u^{(i)}) + h (u^{(i + 1)}) \\ = H (x_{k}, u^{(i)}, V^{(i)}) - α \nabla_{a}^{T} H (x_{k}, u^{(i)}, V^{(i)}) \nabla_{u} H (x_{k}, u^{(i)}, V^{(i)}) \\ + \frac{1}{2} α^{2} \nabla_{a}^{T} H (x_{k}, u^{(i)}, V^{(i)}) \nabla_{u u} H (x_{k}, u^{(i)}, V^{(i)}) H (x_{k}, u^{(i)}, V^{(i)}) + h (u^{(i + 1)}) . \end{array}$

令 $A = \nabla_{u}^{T} H \nabla_{u u} H \nabla_{u} H, B = \nabla_{u}^{T} H \nabla_{u} H, C = h$ ，且 $A \geq 0$ ，则：

$H (x_{k}, u^{(i + 1)}, V^{(i)}) = H (x_{k}, u^{(i)}, V^{(i)}) + \frac{1}{2} A α^{2} - B α + C .$ (17)

如果 $B^{2} - A C \geq 0$ ，当 $\underline{α} \leq α \leq \bar{α}$ 时，其中 $\underline{α} = \frac{B - \sqrt{B^{2} - A C}}{A}$ ， $\bar{α} = \frac{B + \sqrt{B^{2} - A C}}{A}$ ，则：

$\frac{1}{2} A α^{2} - B α + C \leq 0.$ (18)

即 $H (x_{k}, u^{(i + 1)}, V^{(i)}) \leq H (x_{k}, u^{(i)}, V^{(i)})$ 。根据Hamiltonian函数定义知： $H (x_{k}, u^{(i)}, V^{(i)}) = 0$ 。

故： $H (x_{k}, u^{(i + 1)}, V^{(i)}) \leq 0$ 。

2) 假设 $u^{(i)} (x) \in U (X)$ ，对于系统 $x_{k + 1} = f (x_{k}, u^{(i + 1)})$ ，则对于Lyapunov函数 $V^{(i)} (x_{k})$ 有：

$\begin{matrix} Δ V^{(i)} (x_{k}) = V^{(i)} (f (x_{k}, u^{(i + 1)})) - V^{(i)} (x_{k}) \\ = V^{(i)} (f (x_{k}, u^{(i + 1)})) - V^{(i)} (x_{k}) + P (x_{k}, u^{(i + 1)}) - P (x_{k}, u^{(i + 1)}) \\ = H (x_{k}, u^{(i + 1)}, V^{(i)}) - P (x_{k}, u^{(i + 1)}) . \end{matrix}$ (19)

由 $H (x_{k}, u^{(i + 1)}, V^{(i)}) \leq 0$ ，知： $Δ V^{(i)} (x_{k}) \leq - P (x_{k}, u^{(i + 1)}) \leq 0$ 。即： $V^{(i)} (f (x_{k}, u^{(i + 1)})) \leq V^{(i)} (x_{k}) < \infty$ 。

对于所有 $x, u \neq 0$ ，根据定义1知： $u^{(i + 1)} (x) \in U (X)$ 。由数学归纳法知，当 $u^{(0)} (x) \in U (X)$ ，有 $u^{(i)} (x) \in U (X)$ 。

引理2 [11] 对于所有 $(x, a) \in D$ ，根据策略梯度自适应动态规划算法得到序列 ${Q^{(i)} (x, a)}$ 和

满足：1) $Q^{(i)} (x, a) \geq Q^{(i + 1)} (x, a) \geq Q^{*} (x, a)$ ，

2) $\lim_{i \to \infty} Q^{(i)} (x, a) = Q^{*} (x, a)$ 。

证明 1)由式(4)和(8)知：

$\begin{matrix} Q^{(i)} (x_{k}, u^{(i + 1)}) = P (x_{k}, u^{(i + 1)}) + V^{(i)} (f (x_{k}, u^{(i + 1)})) \\ = P (x_{k}, u^{(i + 1)}) + V^{(i)} (f (x_{k}, u^{(i + 1)})) - V^{(i)} (x_{k}) + V^{(i)} (x_{k}) \\ = H (x_{k}, u^{(i + 1)}, V^{(i)}) + V^{(i)} (x_{k}) \\ \leq H (x_{k}, u^{(i)}, V^{(i)}) + V^{(i)} (x_{k}) \\ = V^{(i)} (x_{k}) . \end{matrix}$ (20)

且：

$\begin{matrix} V^{(i + 1)} (x_{k}) = P (x_{k}, u^{(i + 1)}) + V^{(i)} (x_{k + 1}) - V^{(i)} (x_{k + 1}) + V^{(i + 1)} (x_{k + 1}) \\ = Q^{(i)} (x_{k}, u^{(i + 1)}) - V^{(i)} (x_{k + 1}) + V^{(i + 1)} (x_{k + 1}) \\ \leq V^{(i)} (x_{k}) - V^{(i)} (x_{k + 1}) + V^{(i + 1)} (x_{k + 1}) \\ = P (x_{k}, u^{(i)}) + V^{(i + 1)} (x_{k + 1}) \\ \leq P (x_{k}, u^{(i)}) + P (x_{k + 1}, u^{(i)}) + V^{(i + 1)} (x_{k + 2}) \\ \leq \sum_{l = k}^{\infty} P (x_{l}, u^{(i)}) = V^{(i)} (x_{k}) . \end{matrix}$ (21)

则对于所有 $(x_{k}, a) \in D$ ，有：

$\begin{matrix} Q^{(i + 1)} (x_{k}, a) = P (x_{k}, a) + V^{(i + 1)} (x_{k + 1}) \\ \leq P (x_{k}, a) + V^{(i)} (x_{k + 1}) \\ = Q^{(i)} (x_{k}, a) . \end{matrix}$ (22)

由于式(9)知：

$\begin{matrix} Q^{(i)} (x_{k}, a) = P (x_{k}, a) + V^{(i)} (x_{k + 1}) \\ \geq P (x_{k}, a) + V^{*} (x_{k + 1}) \\ = Q^{*} (x_{k}, a) . \end{matrix}$ (23)

故可得： $Q^{(i)} (x, a) \geq Q^{(i + 1)} (x, a) \geq Q^{*} (x, a)$ 。

2) 由式(12)知，当i趋于 $\infty$ 时有：

$u^{\infty} = u^{\infty} - {α \nabla_{a} Q^{\infty} (x, a) |}_{a = u^{\infty}} .$ (24)

即：

${α \nabla_{a} Q^{\infty} (x, a) |}_{a = u^{\infty}} = 0.$ (25)

由式(8)知：

(26)

则有：

${\nabla_{a} W (a) |}_{a = u^{\infty}} + {\nabla_{a} V^{\infty} (f (x_{k}, a)) |}_{a = u^{\infty}} = 0.$ (27)

又由式(4)知：

(28)

上式对u求导得：

${\nabla_{u} W (u) |}_{u = u^{*}} + {\nabla_{u} V^{*} (f (x_{k}, u)) |}_{u = u^{*}} = 0.$ (29)

易知式(27)和(29)是一样的，由唯一性得：

$V^{\infty} (x) = V^{*} (x) .$ (30)

由式(26)得：

$\begin{matrix} Q^{\infty} (x_{k}, a) = P (x_{k}, a) + V^{\infty} (x_{k + 1}) \\ = P (x_{k}, a) + V^{*} (x_{k + 1}) \\ = Q^{*} (x_{k}, a) . \end{matrix}$ (31)

由结论1)知，序列是单减序列，记 $\lim_{i \to \infty} Q^{(i)} (x, a) = Q^{\infty} (x, a)$ ，则有：

$\lim_{i \to \infty} Q^{(i)} (x, a) = Q^{*} (x, a)$ 。

4. 基于数据驱动的神经动态规划及其实现

首先定义一个数据 $(x, a, \tilde{x})$ 其中为当前状态x执行控制动作a后得到状态向量。 $\tilde{x}$ 的获得是通过实际系统输入控制动作a后得到，而不是使用系统模型f的数学解析式。如图1，是策略梯度自适应动态规划算法的结构。其中包括两个部分：离线数据集和在线数据。离线数据集。M为数据的数量，其中离线数据集 $S_{M}$ 可以通过实际系统随机采样获得，其结构如图2。在线数据 $s_{k} = (x_{k - 1}, u_{k - 1}, x_{k})$ ，其分别是在时刻 $k - 1$ 和k的在线状态和控制信息，其获得的结构图如图3。图1的大概流程是：首先，给定一个初始控制 $u^{(0)}$ ，根据离线数据集 $S_{M}$ 通过策略梯度自适应动态规划算法步骤2，得到 $Q^{(0)} (x, a)$ 。其次，将初始控制 $u^{(0)}$ 通过实际系统作用于当前状态 $x_{0}$ ，得到下一状态 $x_{1}$ ，即得到在线数据 $s_{1}$ 。然后，将 $Q^{(0)} (x, a)$ 和 $u^{(0)}$ 通过策略梯度自适应动态规划算法步骤3，得到 $u^{(1)}$ 。最后，将 $s_{1}$ 加入离线数据集 $S_{M}$ 作为新的离线数据集，以此重复循环，则可得到在线数据 $s_{2}, s_{3}, \dots$ ，控制序列 $u^{(2)}, u^{(3)}, \dots$ 和Q函数序列 $Q^{(2)} (x, a), Q^{(3)} (x, a), \dots$ 。

Figure 1. Policy gradient adaptive dynamic programming algorithm

图1. 策略梯度自适应动态规划算法

Figure 2. Collect offline data sets

图2. 收集离线数据集

Figure 3. Collect online data

图3. 收集在线数据

4.1. 神经动态规划的实现设计

由于根据策略梯度自适应动态规划算法，要求去计算未知的Q函数和控制策略 $u^{(i)} (x)$ ，为了实现该过程，下面引入执行―评价神经网络。其中用执行网络来逼近控制策略 $u (x)$ ，用评价网络来逼近Q函数 $Q (x, a)$ 。首先介绍俩组线性无关的基函数： $Φ (x) = {ϕ_{j} (x)}_{j = 1}^{\infty}$ ， $Ψ (x, a) = {ψ_{j} (x, a)}_{j = 1}^{\infty}$ 。其中 $ϕ_{j} (0) = 0, ψ_{j} (0, 0) = 0$ 。根据代数理论，控制策略 $u (x)$ 和Q函数 $Q (x, a)$ 可以如下线性表示：

$u (x) = \sum_{j = 1}^{\infty} υ_{j} ϕ_{j} (x) .$ (32)

$Q (x, a) = \sum_{j = 1}^{\infty} θ_{j} ψ_{j} (x, a) .$ (33)

根据函数逼近理论，Q函数 $Q^{(i)} (x, a)$ 和控制策略 $u^{(i)} (x)$ 可以被有限维基函数近似表示：

(34)

${\bar{Q}}^{(i)} (x, a) = \sum_{j = 1}^{L_{2}} θ_{j}^{(i)} ψ_{j} (x, a) = Ψ_{L}^{T} (x, a) θ^{(i)} .$ (35)

其中 $υ^{(i)} = {[υ_{1}^{(i)} \dots υ_{L_{1}}^{(i)}]}^{T}$ 和 $θ^{(i)} = {[θ_{1}^{(i)} \dots θ_{L_{2}}^{(i)}]}^{T}$ 分别为执行网络和评价网络的权重系数向量，但其是未知的。 $Φ_{L} (x) = {[ϕ_{1} (x) \dots ϕ_{L_{1}} (x)]}^{T}$ 和 $Ψ_{L} (x, a) = {[ψ_{1} (x, a) \dots ψ_{L_{2}} (x, a)]}^{T}$ 分别为执行网络和评价网络的激活函数向量。则该神经网络的输出可以表示为：

${\hat{u}}^{(i)} (x) = \sum_{j = 1}^{L_{1}} {\hat{υ}}_{j}^{(i)} ϕ_{j} (x) = Φ_{L}^{T} (x) {\hat{υ}}^{(i)} .$ (36)

${\hat{Q}}^{(i)} (x, a) = \sum_{j = 1}^{L_{2}} {\hat{θ}}_{j}^{(i)} ψ_{j} (x, a) = Ψ_{L}^{T} (x, a) {\hat{θ}}^{(i)} .$ (37)

其中和 ${\hat{θ}}^{(i)} = {[{\hat{θ}}_{1}^{(i)} \dots {\hat{θ}}_{L_{2}}^{(i)}]}^{T}$ 分别为 $υ^{(i)}$ 和 $θ^{(i)}$ 的近似估计。由于神经网络有误差，在用 ${\hat{u}}^{(i)} (x)$ 和 ${\hat{Q}}^{(i)} (x, a)$ 估计 $u^{(i)} (x)$ 和 $Q^{(i)} (x, a)$ 时会产生残差，定义Q函数残差为：

$\begin{matrix} σ_{Q}^{(i)} (x, a, \tilde{x}) = {\hat{Q}}^{(i)} (x, a) - {\hat{Q}}^{(i)} (\tilde{x}, {\hat{u}}^{(i)}) - P (x, a) \\ = Ψ_{L}^{T} (x, a) {\hat{θ}}^{(i)} - Ψ_{L}^{T} (\tilde{x}, {\hat{u}}^{(i)}) {\hat{θ}}^{(i)} - P (x, a) \\ = Ψ_{L}^{T} (x, a) {\hat{θ}}^{(i)} - Ψ_{L}^{T} (\tilde{x}, Φ_{L}^{T} (\tilde{x}) {\hat{υ}}^{(i)}) {\hat{θ}}^{(i)} - P (x, a) . \end{matrix}$ (38)

下面的目标是，在满足残差趋于0的条件下，基于数据驱动来计算 ${\hat{υ}}^{(i)}$ ， ${\hat{θ}}^{(i)}$ 。任意 $s_{1} (x, u) \in U$ 和，定义内积 ${〈 s_{1} (x, u), s_{2} (x, u) 〉}_{D} = \int_{D} s_{1} (x, u), s_{2} (x, u) d (x, u)$ 。令：

(39)

将(38)式带入(39)式得：

$\begin{array}{l} [{〈 Ψ_{L} (x, a), Ψ_{L}^{T} (x, a) 〉}_{D} - {〈 Ψ_{L} (x, a), Ψ_{L}^{T} (\tilde{x}, Φ_{L}^{T} (\tilde{x}) {\hat{υ}}^{(i)}) 〉}_{D}] {\hat{θ}}^{(i)} \\ - {〈 Ψ_{L} (x, a), P (x, a) 〉}_{D} = 0. \end{array}$ (40)

则可得：

(41)

在计算 ${\hat{θ}}^{(i)}$ 时，其中涉及许多积分，根据蒙特卡洛积分方法，令： $I_{D} = \int_{D} d (x, a)$ 。首先基于离线数据集 $S_{M}$ 来计算 ${\hat{θ}}^{(0)}$ ：

$\begin{matrix} {〈 Ψ_{L} (x, a), Ψ_{L}^{T} (x, a) 〉}_{D} = \int_{D} Ψ_{L} (x, a) Ψ_{L}^{T} (x, a) d (x, a) \\ = \frac{I_{D}}{M} \sum_{l = 1}^{M} Ψ_{L} (x_{l}, a_{l}) Ψ_{L}^{T} (x_{l}, a_{l}) \\ = \frac{I_{D}}{M} η_{0} . \end{matrix}$ (42)

其中 $η_{0} = \sum_{l = 1}^{M} Ψ_{L} (x_{l}, a_{l}) Ψ_{L}^{T} (x_{l}, a_{l})$ 。同理可得：

${〈 Ψ_{L} (x, a), Ψ_{L}^{T} (\tilde{x}, Φ_{L}^{T} (\tilde{x}) {\hat{υ}}^{(0)}) 〉}_{D} = \frac{I_{D}}{M} ρ_{0} .$ (43)

(44)

且， $ξ_{0} = \sum_{l = 1}^{M} Ψ_{L} (x_{l}, a_{l}) P (x_{l}, a_{l})$ 。则可得：

${\hat{θ}}^{(0)} = {(η_{0} - ρ_{0})}^{- 1} ξ_{0} .$ (45)

如图4，基于离线数据集 $S_{M}$ 可以计算出 ${\hat{θ}}^{(0)}$ ，当 $i = k$ 时，对于在线数据 $s_{k}$ ，此时把在线数据 $s_{k}$ 加入到离线数据集 $S_{M}$ 作为新的离线数据集 $S_{M} + s_{k}$ ，且用其来计算 ${\hat{θ}}^{(k)}$ ：

${〈 Ψ_{L} (x, a), Ψ_{L}^{T} (x, a) 〉}_{D} = \frac{I_{D}}{M + 1} η_{k} .$ (46)

${〈 Ψ_{L} (x, a), Ψ_{L}^{T} (\tilde{x}, Φ_{L}^{T} (\tilde{x}) {\hat{υ}}^{(k)}) 〉}_{D} = \frac{I_{D}}{M + 1} ρ_{k} .$ (47)

${〈 Ψ_{L} (x, a), P (x, a) 〉}_{D} = \frac{I_{D}}{M +1} ξ_{k} .$ (48)

Figure 4. Neural dynamic programming algorithm

图4. 神经动态规划算法

其中 $η_{k} = η_{0} + Ψ_{L} (x_{k - 1}, a_{k - 1}) Ψ_{L}^{T} (x_{k - 1}, a_{k - 1})$ ，

$ρ_{k} = \sum_{l = 1}^{M} Ψ_{L} (x_{l}, a_{l}) Ψ_{L}^{T} ({\tilde{x}}_{l}, Φ_{L}^{T} ({\tilde{x}}_{l}) {\hat{υ}}^{(k)}) + Ψ_{L} (x_{k - 1}, a_{k - 1}) Ψ_{L}^{T} (x_{k}, u_{k}) .$

则由(41)式知，当 $i = k$ 时：

${\hat{θ}}^{(k)} = {(η_{k} - ρ_{k})}^{- 1} ξ_{k} .$ (49)

接着需要计算执行网络的权重系数 ${\hat{υ}}^{(i)}$ ，由神经动态规划算法步骤3更新控制策略时，用 ${\hat{u}}^{(i)} (x)$ 替换 $u^{(i)} (x)$ 会产生误差，定义控制策略残差为：

$\begin{matrix} σ_{u}^{(i)} (x) = u^{(i + 1)} (x) - u^{(i)} (x) + {α \nabla_{a} Q^{(i)} (x, a) |}_{a = u^{(i)}} \\ = Φ_{L}^{T} (x) {\hat{υ}}^{(i + 1)} - Φ_{L}^{T} (x) {\hat{υ}}^{(i)} + α \nabla_{a} Φ_{L}^{T} (x, Φ_{L}^{T} (x) {\hat{υ}}^{(i)}) {\hat{θ}}^{(i)} . \end{matrix}$ (50)

同理在计算 ${\hat{υ}}^{(i)}$ 时要满足控制策略残差趋于0：

(51)

即：

$\begin{array}{l} {〈 Φ_{L} (x), Φ_{L}^{T} (x) 〉}_{X} {\hat{υ}}^{(i + 1)} - {〈 Φ_{L} (x), Φ_{L}^{T} (x) 〉}_{X} {\hat{υ}}^{(i)} \\ + α {〈 Φ_{L} (x), \nabla_{a} Φ_{L}^{T} (x, Φ_{L}^{T} (x) {\hat{υ}}^{(i)}) 〉}_{X} {\hat{θ}}^{(i)} = 0. \end{array}$ (52)

则可得：

${\hat{υ}}^{(i + 1)} = {\hat{υ}}^{(i)} - α {〈 Φ_{L} (x), Φ_{L}^{T} (x) 〉}_{X}^{- 1} \times {〈 Φ_{L} (x), \nabla_{a} Φ_{L}^{T} (x, Φ_{L}^{T} (x) {\hat{υ}}^{(i)}) 〉}_{X} {\hat{θ}}^{(i)} .$ (53)

根据蒙特卡洛积分方法，令： $I_{X} = \int_{X} d x$ 。基于离线数据集，当 $i = k$ 时，对于在线数据 $s_{k}$ ，此时把在线数据 $s_{k}$ 与离线数据集 $S_{M}$ 结合，且用其来计算 ${\hat{υ}}^{(k)}$ ：

(54)

${〈 Φ_{L} (x), \nabla_{a} Ψ_{L}^{T} (x, Φ_{L}^{T} (x) {\hat{υ}}^{(k)}) 〉}_{X} = \frac{I_{X}}{M + 1} F_{k} .$ (55)

其中 $Γ_{k} = Γ_{0} + Φ_{L} (x_{k}) Φ_{L}^{T} (x_{k})$ ，且 $Γ_{0} = \sum_{l = 1}^{M} Φ_{L} (x_{l}) Φ_{L}^{T} (x_{l})$ ，

$F_{k} = \sum_{l = 1}^{M} Φ_{L} (x_{l}) \nabla_{a} Ψ_{L}^{T} (x_{l}, Φ_{L}^{T} (x_{l}) {\hat{υ}}^{(k)}) + Φ_{L} (x_{k}) \nabla_{a} Ψ_{L}^{T} (x_{k}, Φ_{L}^{T} (x_{k}) {\hat{υ}}^{(k)})$ 。则由(53)可得：

${\hat{υ}}^{(k + 1)} = {\hat{υ}}^{(k)} - α Γ_{k}^{- 1} F_{k} {\hat{θ}}^{(k)} .$ (56)

4.2. 神经动态规划算法

步骤1：收集离线数据集 $S_{M}$ ，计算。

步骤2：给定一个初始允许误差 $ε$ 和初始控制策略 ${\hat{u}}^{(i)} (x) \in U (X)$ ，并令 $i = 0$ 。

步骤3：使用 $S_{M}$ 和 $s_{i + 1}$ 计算 $η_{i}, ρ_{i}, ξ_{i}$ 。并根据(49)式计算 ${\hat{θ}}^{(i)}$ 。

步骤4：使用离线数据集和在线状态数据 $x_{i}$ ，计算 $Γ_{i}, F_{i}$ ，并根据(56)式计算 ${\hat{υ}}^{(i + 1)}$ 。

步骤5：若 $‖ {\hat{θ}}^{(i)} - {\hat{θ}}^{(i + 1)} ‖ \leq ε$ ，则输出 ${\hat{θ}}^{(i + 1)}$ 和 ${\hat{υ}}^{(i + 1)}$ ；否则令 $i = i + 1$ ，返回步骤3，继续循环。

5. 结束语

本文提出了一种基于数据驱动的神经动态规划方法。该方法不依赖于系统的数学解析式，采用神经网络与动态规划结合的方式对最优控制问题进行求解。其分别利用Q函数的残差和Q函数的基函数做内积为零，控制策略的残差与控制策略的基函数做内积为零；并使用离线数据集与在线数据来迭代更新神经网络的系数，最后得到所需的控制策略。该方法能将离线数据与在线数据有效结合，使得系数更新更加完善。并且证明该算法是收敛的；且收敛到最优值。

基金项目

广东省自然科学基金项目(No.2018A030313505)，广东省科技计划项目(No.2017B010124003, No.2017 B090909001)。

参考文献

[1]	张化光, 张欣, 罗艳红, 杨珺. 自适应动态规划综述[J]. 自动化学报, 2013, 39(4): 303-311.
[2]	林小峰, 丁强. 基于评价网络近似误差的自适应动态规划优化控制[J]. 控制与决策, 2015, 30(3): 495-499.
[3]	Lakovos, M., Simone, B., Elias, B.K. and Petros, A.L. (2017) Adaptive Optimal Control for Large-Scale Nonlinear Systems. IEEE Transactions on Automatica Control, 62, 5567-5577. [Google Scholar] [CrossRef]
[4]	赵金刚, 戈新生. 基于动态规划的机器人运动规划最优控制[J]. 控制工程, 2017, 24(11): 2374-2379.
[5]	田涛涛, 侯忠生, 刘世达, 邓志东. 基于无模型自适应动态规划的无人驾驶汽车横向控制方法[J]. 自动化学报, 2017, 43(11): 1931-1940.
[6]	乔俊飞, 王亚清, 柴伟. 基于迭代ADP算法的污水处理过程最优控制[J]. 北京工业大学学报, 2018, 44(2): 200-206.
[7]	刘毅, 章云. 基于值迭代的自适应动态规划的收敛条件[J]. 广东工业大学学报, 2017, 34(5): 10-14.
[8]	刘毅, 章云. 一种基于自适应动态规划的协同优化算法[J]. 广东工业大学学报, 2017, 34(6): 15-19.
[9]	Liu, D.R. and Wei Q.L. (2014) Policy Iteration Adaptive Dynamic Programming Algorithm for Dis-crete-Time Nonlinear Systems. IEEE Transactions on Neural Networks Learning Systems, 2014, 25, 621-634. [Google Scholar] [CrossRef]
[10]	Luo, B., Wu, H.N., Huang, T.W. and Liu, D.R. (2014) Data Based Approximate Policy Iteration for Affine Nonlinear Continuous-Time Optimal Control Design. Automatica, 50, 3281-3290. [Google Scholar] [CrossRef]
[11]	Luo, B., Liu, D.R., Wu, H.N., Wang, D. and Lewis, F.L. (2017) Policy Gradient Adaptive Dynamic Programming for Data-Based Optimal Control. IEEE Transactions on Cybernrtics, 47, 3341-3354. [Google Scholar] [CrossRef]
[12]	王鼎, 穆朝絮, 刘德荣. 基于迭代神经动态规划的数据驱动非线性近似最优调节[J]. 自动化学报, 2017, 43(3): 366-375.

为你推荐

友情链接