相关噪声下随机最优控制问题的最大值原理

doi:10.12677/dsc.2025.142015

期刊菜单

相关噪声下随机最优控制问题的最大值原理
Maximum Principles for Stochastic Optimal Control Problems with Correlated Noises

DOI: 10.12677/dsc.2025.142015, PDF, HTML, XML,
作者: 解斯雯, 王岩^*：大连交通大学理学院，辽宁大连
关键词: 最大值原理；随机最优控制；相关噪声；延迟信息；均值–方差模型；Maximum Principle； Stochastic Optimal Control； Correlated Noise； Delayed Information； Mean-Variance Model

摘要: 本文研究了一类延迟信息下的随机最优控制问题，其中控制过程是关于延迟信息的滤子流适应，且系统中多个噪声不独立具有相关性。本文首先利用凸变分法建立必要最大值原理，进一步假设哈密尔顿函数和终端效用函数具有凹性得到充分最大值原理，最后将得到的充分必要最大值原理应用于一类资产组合配置问题中的均值–方差模型。

Abstract: This paper studies a class of stochastic optimal control problems with delayed information, where the control process is adapted to the delayed filtration, which describes the delayed information, and that the noises in the system are not independent but correlated. The necessary maximum principle is established using the convex variational method. Furthermore, the sufficient maximum principle is given on the assumption that the Hamiltonian function and the terminal utility function are concave. Finally, the obtained maximum principles are applied to the mean-variance model for a class of asset portfolio allocation problems.

文章引用：解斯雯, 王岩. 相关噪声下随机最优控制问题的最大值原理[J]. 动力系统与控制, 2025, 14(2): 139-150. https://doi.org/10.12677/dsc.2025.142015

1. 引言

随机控制系统与确定控制系统不同，研究当系统中含有随机性时如何实现系统的性能指标最优化，是现代控制理论的核心内容之一，在自动化、金融、机械等领域广泛应用(见文献[1] [2])。

在求解随机最优控制问题时主要有两种经典的解决方法：动态规划原理和最大值原理，其中动态规划原理的核心是Bellman最优性准则，其基本思想是将全局最优控制问题转化为一系列局部最优控制问题，且这些局部控制问题有不同的初始时间和初始状态，利用Bellman最优性准则得到最优策略(见文献[3])。最大值原理首先由Pontryagin在1950年代提出，并将优化问题转化为最大化哈密顿函数的问题[4]。随机最大值原理求解最优控制问题要引入哈密顿函数和伴随过程，伴随过程是由伴随方程的解给出，利用最大值条件将随机最优控制问题转化为求解正倒向随机微分方程的问题(见文献[5])。

在延迟信息下的随机最优控制问题中，控制过程是关于延迟信息的滤子流适应，近年来这类问题受到学者们的广泛关注，例如：在文献[6]中学者们针对带有延迟的随机最优控制问题进行了研究，在噪声具有独立性的假设下，推出最大值原理；Li和Wu在文献[7]中研究了一类带有跳跃和延迟的随机线性二次最优控制问题，利用正倒向随机微分方程的可解性，给出了最优控制的存在性；文献[8]研究的是双通道伊藤随机系统的线性二次最优控制问题，其中一个通道存在输入延迟，通过建立新的Riccati微分方程给出了这类问题可解的充分条件以及最优解；Meng和Shi在文献[9]中给出了具有延迟的随机最优控制问题的全局最大值原理；文献[10]利用反向分离法、变分法和滤波技术推导了一类带有延迟的线性二次部分观测最优控制问题的随机最大值原理；在文献[11]中，学者们研究了一类广义平均场延迟随机微分方程，并给出了该类控制问题的随机最大值原理；Meng等[12]研究了一类状态和控制带有延迟的随机最优控制问题，通过倒向随机Volterra积分系统理论推导出最大值原理。

在噪声相关的假设下，专家学者对不同类型的随机最优控制问题进行了深入的研究。当观测方程的噪声与系统方程的噪声具有相关性时，相关的研究如下：文献[13]研究了一类随机最优控制问题，其中系统方程是由布朗运动和泊松随机测度驱动，并且状态噪声和观测噪声是相关的，文章给出了当控制域为凸时的充分必要最大值原理；文献[14]利用希尔伯特空间正交直和分解和空间投影理论，推导出了一类部分观测最优控制问题的最小值原理。此外，另一个研究焦点是系统方程中含有的多个噪声具有相关性，例如：Wang和Wu [15]利用Girsanov定理与针状变分技术相结合，推导了一类随机最大值原理，并将其用于研究风险敏感的最优投资组合问题；郭云瑞和梁晓青[16]在模型不确定且系统中包含的多个噪声具有相关性的前提下，对DC型养老金的鲁棒最优投资问题利用随机动态规划原理得到了最优投资策略。

本文研究一类随机最优控制问题，其中系统中的控制过程是关于延迟信息的滤子流适应，且系统是由多个布朗运动驱动，这些布朗运动之间不独立具有相关性。由于引入延迟信息的滤子流，导致系统具有非马尔可夫性，进而Bellman最优性准则失效，动态规划原理就不再适用了[6]，因此本文将针对这类随机最优控制问题给出充分必要最大值原理。文献[6]给出了带有延迟的随机系统的充分必要最大值原理，本文在此基础上进一步假设系统中的多个噪声不独立具有相关性，利用凸变分、伊藤公式和凹函数的性质推导了相应的充分必要最大值原理，因此本文可以视为文献[6]结果的推广和发展。

本文的结构如下：第二节介绍问题模型；在第三节中给出了充分必要最大值原理，是本文的主要结果；在第四节中，将得到的理论应用于投资组合中的均值–方差模型；最后在第五节对本文的内容作出总结。

2. 模型介绍

令是一个完备的滤子概率空间，其中 $B_{1} (t), B_{2} (t), B_{3} (t)$ 分别为定义在滤子概率空间中的一维布朗运动。假设系统 $X (t) = X^{u} (t) \in R^{n}$ 满足下述随机微分方程：

${\begin{array}{l} d X (t) = b (t, X (t), u (t)) d t + \sum_{i = 1}^{3} σ_{i} (t, X (t), u (t)) d B_{i} (t), & 0 \leq t \leq T, \\ X (0) = x_{0} \in R, \end{array}$ (2.1)

其中，系统方程中的漂移项系数 $b : [0, T] \times R^{n} \times U \to R^{n}$ 和扩散项系数 $σ_{i} : [0, T] \times R^{n} \times U \to R^{n}, i = 1, 2, 3$ 是给定的函数，U是欧式空间中的子集，具有凹性， $T \in (0, + \infty)$ 是给定的常数。空间中的滤子流 ${ℱ_{t}}_{t \geq 0}$ 表示 $[0, t]$ 系统包含的完全信息，而滤子流 ${ℱ_{t - δ}}_{t \geq 0}$ ( $δ > 0$ 是一个给定的常数)表示 $[0, t - δ]$ 内系统包含的信息，与滤子流 ${ℱ_{t}}_{t \geq 0}$ 相比， ${ℱ_{t - δ}}_{t \geq 0}$ 表示延迟信息。本文假设控制过程 $u (t)$ 是 ${ℱ_{t - δ}}_{t \geq 0}$ 适应的随机过程，即：

$U [0, T] ≐ {u : [0, T] \times Ω \to U | u (\cdot) 是 ℱ_{t - δ} - 适 � 的},$

此外，假设系统方程中包含的三个布朗运动不是相互独立的，且满足：

$d B_{i} (t) \cdot d B_{j} (t) = ρ_{i j} (t) d t (i, j = 1, 2, 3),$ (2.2)

其中，对 $\forall t \in [0, T]$ 有 $ρ_{i j} (t) \in [- 1, 1]$ ，且当 $i = j$ 时，有 $ρ_{i j} (t) = 1$ 。

定义代价泛函：

$J (u (\cdot)) = E [\int_{0}^{T} f (t, X (t), u (t)) d t + g (X (T))],$ (2.3)

其中， $f : [0, T] \times R^{n} \times U \to R$ 和 $g : R^{n} \to R$ 。

定义2.1 在给定的滤子概率空间 $(Ω, ℱ, {ℱ_{t}}_{t \geq 0}, ℙ)$ 中，若满足下述条件：

1) $u (\cdot) \in U [0, T]$ ；

2) $u (\cdot)$ 使得其对应的系统方程存在唯一解，即 $x^{u} (t)$ ；

3) $u (\cdot)$ 使得 $E [\int_{0}^{T} | f (t, X (t), u (t)) | d t + | g (X (T)) |] < \infty$ 成立，

则称 $u (\cdot)$ 为可容许控制，称 $(x (\cdot), u (\cdot))$ 为可容许控制对，令 $A$ 表示容许控制的集合，称为容许控制集。

问题1 选择 $Φ \in R$ 和 $\hat{u} \in A$ ，使得：

$Φ = \inf_{u \in A} J (u (\cdot)) = J (\hat{u} (\cdot)),$ (2.4)

此时称 $\hat{u} (t)$ 为问题1的最优控制。

在随机控制领域当中，求解最优控制问题有两种最常见的方法：动态规划原理和最大值原理[6]。由于引入了延迟信息，即控制过程 $u (t)$ 是关于 $ℱ_{t - δ}$ -适应的随机过程，这就导致系统具有非马尔可夫性，故Bellman最优性准则失效，所以不能使用动态规划原理求解问题(2.4)，本文决定采用最大值原理对问题进行求解。由于系统方程中的三个噪声(布朗运动)不是相互独立的，因此本文的主要挑战是根据问题1的特性建立一个新的最大值原理。

3. 噪声相关控制系统的随机最大值原理

本节要建立控制问题1的最大值原理，主要分为两部分，第一节证明充分最大值原理；第二节证明必要最大值原理。

首先根据问题的特性定义哈密尔顿函数为：

$\begin{array}{l} H (t, X (t), u (t), p (t), q_{1} (t), q_{2} (t), q_{3} (t)) \\ = f (t, X (t), u (t)) + b^{T} (t, X (t), u (t)) p (t) + \sum_{i, j = 1}^{3} σ_{i} (t, X (t), u (t)) ρ_{i j} (t) q_{j} (t), \end{array}$

其中，随机过程 $p (t), q_{1} (t), q_{2} (t), q_{3} (t)$ 满足下述伴随方程：

${\begin{cases} d p (t) = - \nabla_{x} H (t, X (t), u (t), p (t), q_{1} (t), q_{2} (t), q_{3} (t)) d t + \sum_{i = 1}^{3} q_{i} (t) d B_{i} (t), 0 \leq t \leq T \\ p (T) = \nabla g (X (T)) \end{cases},$ (3.1)

该方程是一个倒向随机微分方程，这里 $\nabla_{x} φ (\cdot) = (\frac{\partial φ}{\partial x_{1}}, \dots, \frac{\partial φ}{\partial x_{n}})$ 表示函数 $φ : R^{n} \to R$ 对向量 $x = (x_{1}, \dots, x_{n})$ 求梯度。为方便起见，记：

$H (t) = H (t, X (t), u (t), p (t), q_{1} (t), q_{2} (t), q_{3} (t)),$

$\hat{H} (t) = H (t, \hat{X} (t), \hat{u} (t), \hat{p} (t), {\hat{q}}_{1} (t), {\hat{q}}_{2} (t), {\hat{q}}_{3} (t)) .$

3.1. 充分性

定理3.1 假设 $\hat{u} (t) \in A$ 为一个可容许控制，且对应的系统状态过程为 $\hat{X} (t) = X^{\hat{u}} (t)$ ，伴随方程(3.1)的解为 $\hat{p} (t), {\hat{q}}_{1} (t), {\hat{q}}_{2} (t), {\hat{q}}_{3} (t)$ ，且对 $i = 1, 2, 3$ 满足下述可积性条件：

$E [\int_{0}^{T} {(\hat{X} (t) - X (t))}^{T} {\hat{q}}_{i} (t) {\hat{q}}_{i}^{T} (t) (\hat{X} (t) - X (t)) d t] < \infty,$ (3.2)

$E [\int_{0}^{T} \hat{p} {(t)}^{T} (σ_{i} (t, \hat{X} (t), \hat{u} (t)) - σ_{i} (t, X (t), u (t))) {(σ_{i} (t, \hat{X} (t), \hat{u} (t)) - σ_{i} (t, X (t), u (t)))}^{T} \hat{p} (t) d t] < \infty,$ (3.3)

$E [\int_{0}^{T} {| \nabla_{u} H (t, X (t), u (t), p (t), q_{1} (t), q_{2} (t), q_{3} (t)) |}^{2} d t] < \infty .$ (3.4)

此外，假设对 $\forall t \in [0, T]$ ， $H (t, x, u, \hat{p}, {\hat{q}}_{1}, {\hat{q}}_{2}, {\hat{q}}_{3})$ 关于x和u是凹的且 $g (x)$ 关于x是凹的。若 $\hat{u}$ 满足延迟信息系统下的最大值条件：

$\begin{array}{l} E [H (t, \hat{X} (t), \hat{u} (t), \hat{p} (t), {\hat{q}}_{1} (t), {\hat{q}}_{2} (t), {\hat{q}}_{3} (t)) | ℱ_{t - δ}] \\ = \inf_{u} E [H (t, \hat{X} (t), u (t), \hat{p} (t), {\hat{q}}_{1} (t), {\hat{q}}_{2} (t), {\hat{q}}_{3} (t)) | ℱ_{t - δ}], \end{array}$

则 $\hat{u}$ 是最优控制问题1的最优解，即 $\hat{u}$ 是最优控制。

证明：对 $u \in A$ ，考虑：

$\begin{matrix} J (\hat{u} (\cdot)) - J (u (\cdot)) = E [\int_{0}^{T} (f (t, \hat{X} (t), \hat{u} (t)) - f (t, X (t), u (t))) d t] \\ + E [g (\hat{X} (T)) - g (X (T))], \end{matrix}$ (3.5)

由哈密尔顿函数的定义有：

$\begin{matrix} f (t, X (t), u (t)) = H (t, X (t), u (t), p (t), q_{1} (t), q_{2} (t), q_{3} (t)) - b^{T} (t, X (t), u (t)) p (t) \\ - \sum_{i, j = 1}^{3} σ_{i} (t, X (t), u (t)) ρ_{i j} (t) q_{j} (t), \end{matrix}$ (3.6)

将(3.6)代入(3.5)有：

$\begin{matrix} J (\hat{u} (\cdot)) - J (u (\cdot)) = E [\int_{0}^{T} \hat{H} (t) - H (t, X (t), u (t), \hat{p} (t), {\hat{q}}_{1} (t), {\hat{q}}_{2} (t), {\hat{q}}_{3} (t)) d t] \\ - E {\int_{0}^{T} {\hat{p}}^{T} (t) [b (t, \hat{X} (t), \hat{u} (t)) - b (t, X (t), u (t))] d t} \\ - E [\int_{0}^{T} \sum_{i, j = 1}^{3} (σ_{i}^{T} (t, \hat{X} (t), \hat{u} (t)) - σ_{i}^{T} (t, X (t), u (t)) (t)) {\hat{q}}_{j} (t) ρ_{i j} (t) d t] \\ + E [g (\hat{X} (T)) - g (X (T))], \end{matrix}$

由于哈密尔顿函数 $H (t)$ 关于x和u是凹的，于是有：

$\begin{array}{l} \hat{H} (t) - H (t, X (t), u (t), \hat{p} (t), {\hat{q}}_{1} (t), {\hat{q}}_{2} (t), {\hat{q}}_{3} (t)) \\ \leq \nabla_{x} \hat{H} (t) (\hat{X} (t) - X (t)) + \nabla_{u} \hat{H} (t) (\hat{u} (t) - u (t)), \end{array}$ (3.7)

又因为 $u \to E [H (t, \hat{X} (t), u (t), \hat{p} (t), {\hat{q}}_{1} (t), {\hat{q}}_{2} (t), {\hat{q}}_{3} (t)) | ℱ_{t - δ}]$ 在 $u (t) = \hat{u} (t)$ 处取极小值点，并且 $u (t), \hat{u} (t)$ 是 $ℱ_{t - δ}$ -可测的，又根据(3.4)有：

$\begin{array}{l} \nabla_{u} E [{H {(t, \hat{X} (t), \hat{u} (t), \hat{p} (t), {\hat{q}}_{1} (t), {\hat{q}}_{2} (t), {\hat{q}}_{3} (t) | ℱ_{t - δ})}^{T} |}_{u = \hat{u} (t)} (\hat{u} (t) - u (t))] \\ = E [\nabla_{u} H {(t)}^{T} (\hat{u} (t) - u (t)) | ℱ_{t - δ}] \leq 0, \end{array}$ (3.8)

结合(3.2)、(3.7)、(3.8)有：

$\begin{array}{l} E [\int_{0}^{T} \hat{H} (t) - H (t, X (t), u (t), \hat{p} (t), {\hat{q}}_{1} (t), {\hat{q}}_{2} (t), {\hat{q}}_{3} (t)) d t] \\ \leq E [\int_{0}^{T} {(\nabla_{x} \hat{H} (t))}^{T} (\hat{X} (t) - X (t)) d t] + E [\int_{0}^{T} \nabla_{u} \hat{H} {(t)}^{T} (\hat{u} (t) - u (t)) d t] \\ \leq E [\int_{0}^{T} {(\nabla_{x} \hat{H} (t))}^{T} (\hat{X} (t) - X (t)) d t] \\ = E [\int_{0}^{T} {(\hat{X} (t) - X (t))}^{T} \nabla_{x} \hat{H} (t) d t], \end{array}$ (3.9)

进一步根据伴随方程的定义和伊藤积分的性质，有：

$E [\int_{0}^{T} {(\hat{X} (t) - X (t))}^{T} \nabla_{x} \hat{H} (t) d t] = - E [\int_{0}^{T} {(\hat{X} (t) - X (t))}^{T} d \hat{p} (t)] .$ (3.10)

同理可知 $g (x)$ 关于x也为凹的，再结合(3.2)、(3.3)和伊藤公式得：

$\begin{matrix} E [g (\hat{X} (T)) - g (X (T))] \leq E [\nabla g {(\hat{X} (T))}^{T} (\hat{X} (T) - X (T))] \\ = E [\int_{0}^{T} {(\hat{X} (T) - X (T))}^{T} (- \nabla_{x} \hat{H} (t)) d t] \\ + E [\int_{0}^{T} {\hat{p}}^{T} (t) (b (t, \hat{X} (t), \hat{u} (t)) - b (t, X (t), u (t))) d t] \\ + E [\int_{0}^{T} \sum_{i, j = 1}^{3} ({\hat{σ}}_{i}^{T} - σ_{i}^{T}) {\hat{q}}_{j} (t) ρ_{i j} (t) d t], \end{matrix}$ (3.11)

将(3.9)~(3.11)代入(3.5)中可得：

$J (\hat{u} (\cdot)) - J (u (\cdot)) \leq 0,$

因此， $\hat{u}$ 是 $J (u (\cdot))$ 的最优控制。

3.2. 必要性

在定理3.1中给出了噪声相关控制系统下的充分最大值原理，同时也想知道：如果已知 $\hat{u} (t)$ 为最优控制，那么 $\hat{u} (t)$ 应该满足那些条件呢？即最优控制的必要性条件。因此，本节要给出必要最大值原理。首先增加一些假设条件：

(假设1)假设 $β (s) \in A$ 具有以下形式：

$β (s) ≐ (0, \dots, β_{i} (s), \dots, 0) \subset R^{k}, (i = 1, 2, \dots, k),$

且 $β (s)$ 的第i个分量 $β_{i} (s)$ 具有以下形式：

$β_{i} (s) = α_{i} χ_{[t, t + h]} (s) \in A, \forall s \in [0, T],$

其中， $0 \leq t \leq t + h \leq T$ ， $α_{i} = α_{i} (ω)$ 是一个有界的且 $ℱ_{t - δ}$ -可测的随机变量， $χ_{[t, t + h]}$ 表示示性函数。

(假设2)对于 $u \in A, β \in A$ 且β是有界的随机过程，存在 $δ > 0$ ，使得 $u + y β \in A$ 对于 $y \in (- δ, δ)$ 成立。

定义随机过程 $Y (t) = Y^{u + y β} (t)$ 为：

${\begin{cases} Y (t) = {\frac{d}{d y} X^{u + y β} (t) |}_{y = 0} = {(Y_{1} (t), \dots, Y_{n} (t))}^{T} \\ Y (0) = 0 \end{cases},$

根据系统方程可以推出：

$X^{u + y β} (t) = X (0) + \int_{0}^{T} b (s, X^{u + y β} (s), u (s)) d s + \sum_{i = 1}^{3} \int_{0}^{T} σ_{i} (s, X^{u + y β} (s), u (s)) d B_{i} (s),$ (3.12)

于是有：

$\begin{matrix} \frac{d X^{u + y β} (t)}{d y} = \int_{0}^{T} (\nabla_{x} b (s, X^{u + y β} (s), u (s)) Y (s) + \nabla_{u} b (s, X^{u + y β} (s), u (s)) \cdot β (s)) d s \\ + \sum_{i = 1}^{3} \int_{0}^{T} (\nabla_{x} σ_{i} (s, X^{u + y β} (s), u (s)) \cdot Y (s) + \nabla_{u} σ_{i} (s, X^{u + y β} (s), u (s)) \cdot β (s)) d B_{i}, \end{matrix}$

即：

$\begin{matrix} d Y_{k} (t) = (\nabla_{x} b_{k} (t, X (t), u (t)) Y (t) + \nabla_{u} b_{k} (t, X (t), u (t)) β (t)) d t \\ + \sum_{i = 1}^{3} (\nabla_{x} σ_{i k} (t, X (t), u (t)) \cdot Y (t) + \nabla_{u} σ_{i k} (t, X (t), u (t)) \cdot β (t)) d B_{i}, \end{matrix}$

其中， $Y_{k} (t)$ 表示 $n$ 维向量 $Y (t)$ 的第 $k$ 个分量。

定理3.2 若 $\hat{u} \in A$ 是 $J (u)$ 的一个局部极小值点，即 $h (y) ≐ J (\hat{u} + y β)$ 在点 $y = 0$ 处达到极小值，其中 $β \in A$ 是有界随机过程，存在 $δ > 0$ ，使得 $\hat{u} + y β \in A$ 对于 $y \in (- δ, δ)$ 成立。假设伴随方程(3.1)的解存在，并令其为 $\hat{p} (t), {\hat{q}}_{1} (t), {\hat{q}}_{2} (t), {\hat{q}}_{3} (t)$ ，此外假设对 $i = 1, 2, 3$ 满足下述条件：

$E [\int_{0}^{T} \hat{Y} {(t)}^{T} {\hat{q}}_{i} (t) {\hat{q}}_{i}^{T} (t) \hat{Y} (t) d t] < \infty,$ (3.13)

$E [\int_{0}^{T} \hat{p} {(t)}^{T} (\nabla_{x} σ_{i} (t) Y (t) + \nabla_{u} σ_{i} (t) β) {(\nabla_{x} σ_{i} (t) Y (t) + \nabla_{u} σ_{i} (t) β)}^{T} \hat{p} (t) d t],$ (3.14)

其中， $σ_{i} (t)$ 表示 $σ_{i} (t, X (t), u (t))$ ，则 $\hat{u}$ 是 $E [H (t, X (t), u (t), p (t), q_{1} (t), q_{2} (t), q_{3} (t)) | ℱ_{t - δ}]$ 的稳定点，即对 $\forall t \in [0, T]$ 有：

$E [\nabla_{u} H (t, \hat{X} (t), \hat{u} (t), \hat{p} (t), {\hat{q}}_{1} (t), {\hat{q}}_{2} (t), {\hat{q}}_{3} (t)) | ℱ_{t - δ}] = 0.$ (3.15)

证明：由于：

$h (y) = J (\hat{u} + y β) = E [\int_{0}^{T} f (t, \hat{X} (t), \hat{u} + y β) d t + g (\hat{X} (T))],$

$h (y)$ 对y进行求导，并令 $y = 0$ ，且根据伴随方程(3.1)得到：

$\begin{matrix} 0 = h^{'} (0) \\ = E [\int_{0}^{T} (\nabla_{x} f {(t, \hat{X} (t), \hat{u} (t))}^{T} \hat{Y} (t) + \nabla_{u} f {(t, \hat{X} (t), \hat{u} (t))}^{T} β (t)) d t] + E [\nabla g {(\hat{X} (T))}^{T} \hat{Y} (T)] \\ = E [\int_{0}^{T} (\nabla_{x} f {(t, \hat{X} (t), \hat{u} (t))}^{T} \hat{Y} (t) + \nabla_{u} f {(t, \hat{X} (t), \hat{u} (t))}^{T} β (t)) d t] + E [{\hat{p}}^{T} (T) \hat{Y} (T)], \end{matrix}$ (3.16)

对 ${\hat{p}}^{T} (t) \hat{Y} (t)$ 用伊藤公式有：

$\begin{matrix} d ({\hat{p}}^{T} (t) \hat{Y} (t)) = \sum_{k = 1}^{n} {\hat{p}}_{k} (t) d {\hat{Y}}_{k} (t) + {\hat{Y}}_{k} (t) d {\hat{p}}_{k} (t) + d {\hat{p}}_{k} (t) d {\hat{Y}}_{k} (t) \\ = \sum_{k = 1}^{n} ({\hat{p}}_{k} (t) \cdot (\nabla_{x} b_{k} (t, x, u) \cdot \hat{Y} (t) + \nabla_{u} b_{k} (t, x, u) \cdot β (t)) + {\hat{Y}}_{k} (t) {(- \nabla_{x} H (t))}_{k}) d t \\ + \sum_{k = 1}^{n} \sum_{i, j = 1}^{3} {\hat{q}}_{j} (t) (\nabla_{x} σ_{i k} (t, x, u) \cdot \hat{Y} (t) + \nabla_{u} σ_{i k} (t, x, u) \cdot β (t)) ρ_{i j} (t) d t, \end{matrix}$

令

$\begin{array}{l} M (t) = {\hat{p}}_{k} (t) \cdot (\nabla_{x} b_{k} (t, x, u) \cdot \hat{Y} (t) + \nabla_{u} b_{k} (t, x, u) \cdot β (t)) + {\hat{Y}}_{k} (t) {(- \nabla_{x} H (t))}_{k}, \\ N (t) = \sum_{i, j = 1}^{3} {\hat{q}}_{j} (t) (\nabla_{x} σ_{i k} (t, x, u) \cdot \hat{Y} (t) + \nabla_{u} σ_{i k} (t, x, u) \cdot β (t)) ρ_{i j} d t, \end{array}$

对 $d ({\hat{p}}^{T} (t) \hat{Y} (t))$ 积分后取数学期望得到：

$E [{\hat{p}}^{T} (T) \hat{Y} (T)] = E [\int_{0}^{T} d {\hat{p}}^{T} (t) \hat{Y} (t)] = E [\sum_{k = 1}^{n} \int_{0}^{T} (M (t) + N (t)) d t] .$

哈密尔顿函数 $H (t)$ 分别对x和u求梯度有：

$\begin{matrix} \nabla_{x} H (t) = \nabla_{x} f (t, X (t), u (t)) + \nabla_{x} b^{T} (t, X (t), u (t)) p (t) \\ + \sum_{i, j = 1}^{3} \nabla_{x} σ_{i} (t, X (t), u (t)) ρ_{i j} (t) q_{j} (t), \end{matrix}$ (3.17)

和

$\begin{matrix} \nabla_{u} H (t) = \nabla_{u} f (t, X (t), u (t)) + \nabla_{u} b^{T} (t, X (t), u (t)) p (t) \\ + \sum_{i, j = 1}^{3} \nabla_{u} σ_{i} (t, X (t), u (t)) ρ_{i j} (t) q_{j} (t), \end{matrix}$ (3.18)

(3.17)移项后得到：

$\begin{matrix} \nabla_{x} f (t, X (t), u (t)) = \nabla_{x} H (t) - \nabla_{x} b^{T} (t, X (t), u (t)) p (t) \\ - \sum_{i, j = 1}^{3} \nabla_{x} σ_{i} (t, X (t), u (t)) ρ_{i j} (t) q_{j} (t), \end{matrix}$ (3.19)

由(3.16)可知：

$\begin{array}{l} E [\int_{0}^{T} (\nabla_{x} f {(t, \hat{X} (t), \hat{u} (t))}^{T} \hat{Y} (t) + \nabla_{u} f {(t, \hat{X} (t), \hat{u} (t))}^{T} β (t)) d t + \sum_{k = 1}^{n} \int_{0}^{T} (M (t) + N (t)) d t] \\ = E [\int_{0}^{T} [\nabla_{u} f^{T} (t, \hat{X} (t), \hat{u} (t)) + \nabla_{u} {\hat{b}}^{T} (t, \hat{X} (t), \hat{u} (t)) \hat{p} (t) + \sum_{i, j = 1}^{3} \nabla_{u} σ_{i} (t, \hat{X} (t), \hat{u} (t)) ρ_{i j} (t) {\hat{q}}_{j} (t)] β (t) d t] \\ = E [\int_{0}^{T} \nabla_{u} \hat{H} {(t)}^{T} β (t) d t] = 0. \end{array}$

固定 $t \in [0, T]$ 有 $β (s) ≐ (0, \dots, β_{i} (s), \dots, 0) \in U \subset R^{k}$ ，其中：

$β_{i} (s) = α_{i} X_{[t, t + h]} (s) \in A, s \in [0, T],$

$α_{i} = α_{i} (ω)$ 是一个有界的且 $ℱ_{t - δ}$ -可测的随机变量， $χ_{[t, t + h]}$ 表示示性函数，则有：

$0 = E [\int_{0}^{T} \nabla_{u} \hat{H} {(s)}^{T} β (s) d t] = E [\int_{t}^{t + h} \frac{\partial}{\partial u_{i}} \hat{H} (s) α_{i} (s) d s],$

等式两边同时对 $t + h$ 求导，并令 $h = 0$ 有：

$E [\frac{\partial}{\partial u_{i}} \hat{H} (t) α_{i} (t)] = 0,$

根据条件数学期望的性质有：

$E [E [\frac{\partial}{\partial u_{i}} \hat{H} (t) α_{i} (t) | ℱ_{t - δ}]] = 0,$

由数学期望的定义式和 $α_{i}$ 的可测性得到：

$\int_{Ω} E [\frac{\partial}{\partial u_{i}} \hat{H} (t) | ℱ_{t - δ}] α_{i} (t) d p (ω) = 0,$

上述勒贝格积分等于零等价于被积函数等于零，又由于 $α_{i} (t)$ 取值任意，所以有：

4. 应用

本节将上一节所得到的理论应用于金融资产组合配置模型。假设金融市场中有两种资产模型：无风险资产和风险资产，分别用以下随机微分方程表示：

1) t时刻无风险资产 $S_{0} (t)$ 满足：

${\begin{cases} \frac{d S_{0} (t)}{S_{0} (t)} = r (t) d t, t \in [0, T] \\ S_{0} (0) = 1 \end{cases},$ (4.1)

其中， $r (t)$ 表示t时刻短期利率过程，与经典模型不同的是，本文的利率过程不是确定性的过程，而是具有随机性，使得模型更加符合实际情况，假设其满足Vasicek模型：

${\begin{cases} d r (t) = a (b - r (t)) d t - σ_{r} d B_{1} (t), t \in [0, T] \\ r (0) = r_{0} \end{cases},$ (4.2)

其中， $a > 0$ 表示均值回归速度， $b > 0$ 表示随机利率的长期均值水平，常数 $σ_{r} > 0$ 表示随机利率的波动率，一维标准布朗运动 $B_{1} (t)$ 表示随机利率市场中的噪声。

2) t时刻风险资产 $S (t)$ 满足：

${\begin{cases} \frac{d S (t)}{S (t)} = r (t) d t + σ_{S_{1}} (λ_{r} d t + d B_{1} (t)) + σ_{S_{2}} (μ (t) d t + d B_{2} (t)), t \in [0, T] \\ S (0) = 1 \end{cases},$ (4.3)

其中，常数 $σ_{S_{1}}, σ_{S_{2}}$ 表示风险资产的波动系数，常数 $λ_{r}$ 表示利率市场的风险溢价，随机过程 $μ (t)$ 表示风险资产的风险溢价，与常规模型不同的是，为了更加准确地反映在现实市场中风险补偿的不确定性，所以本文风险资产的风险溢价具有随机性，并且随机过程 $μ (t)$ 满足下述随机微分方程：

${\begin{cases} d μ (t) = k (\bar{μ} - μ (t)) d t + σ_{μ_{1}} d B_{2} (t) + σ_{μ_{2}} d B_{3} (t), t \in [0, T] \\ μ (0) = μ_{0} \end{cases},$ (4.4)

其中，k表示均值回归速度参数， $\bar{μ}$ 表示风险市场的长期均值价格， $σ_{μ_{1}}, σ_{μ_{2}}$ 表示股价风险市场价格的波动率，一维标准布朗运动 $B_{2} (t), B_{3} (t)$ 表示风险市场中的噪声。

假设金融市场中代表噪声的三个布朗运动具有相关性，具体关系如下：

$\begin{array}{l} d B_{1} (t) \cdot d B_{2} (t) = ρ_{1} (t) d t, \\ d B_{1} (t) \cdot d B_{3} (t) = ρ_{2} (t) d t, \\ d B_{3} (t) \cdot d B_{2} (t) = ρ_{3} (t) d t . \end{array}$

接下来对上述两种资产进行组合配置，假设控制过程 $u_{S} (t)$ 表示t时刻投资于风险资产的金额，则t时刻投资于无风险资产的金额 $u_{0} (t)$ 满足：

$u_{0} (t) = \bar{X} (t) - u_{S} (t),$ (4.5)

其中， $\bar{X} (t)$ 表示t时刻的财富过程，满足下述随机微分方程：

$d \bar{X} (t) = u_{0} (t) \frac{d S_{0} (t)}{S_{0} (t)} + u_{S} (t) \frac{d S (t)}{S (t)},$ (4.6)

将(4.1)、(4.3)、(4.5)代入(4.6)并化简得到：

$d \bar{X} (t) = [r (t) \bar{X} (t) + u_{S} (t) (σ_{S_{1}} λ_{r} + σ_{S_{1}} μ (t))] d t + u_{S} (t) σ_{S_{1}} d B_{1} (t) + u_{S} (t) σ_{S_{2}} d B_{2} (t),$ (4.7)

记 $X (t) = {(\bar{X} (t), r (t), μ (t))}^{T}$ ，综合(4.2)、(4.4)、(4.7)得到控制问题的系统方程为：

$\begin{matrix} d X (t) = (\begin{matrix} \bar{X} (t) r (t) + u_{S} (t) σ_{S_{1}} λ_{r} + u_{S} (t) μ (t) σ_{S_{2}} \\ a (b - r (t)) \\ k (\bar{μ} - μ (t)) \end{matrix}) d t \\ + (\begin{matrix} u_{S} (t) σ_{S_{1}} \\ - σ_{r} \\ 0 \end{matrix}) d B_{1} (t) + (\begin{matrix} u_{S} (t) σ_{S_{2}} \\ 0 \\ σ_{μ_{1}} \end{matrix}) d B_{2} (t) + (\begin{matrix} 0 \\ 0 \\ σ_{μ_{2}} \end{matrix}) d B_{3} (t), \end{matrix}$ (4.8)

同时定义代价泛函为：

$J (u_{S} (\cdot)) = E [{(X (T) - E [X (T)])}^{2}] .$

问题2 找到投资组合 ${\hat{u}}_{S} \in A$ ，在 $E [X (T)] = a$ (a是给定常数)前提下，使得财富过程在终端时刻的方差最小：

$\begin{array}{l} \inf_{u \in A} V a r X (T) = \inf_{u \in A} E [{(X (T) - E [X (T)])}^{2}], \\ s .t . E [X (T)] = a . \end{array}$

由于问题2是带有等式约束的最优控制问题，所以本文利用拉格朗日乘子法将问题2转化为不带有等式约束的控制问题。具体来讲，首先引入拉格朗日乘子β，有：

$\tilde{J} (u_{S} (\cdot)) = E [{(X (T) - a)}^{2}] + 2 β E [X (T) - a],$

令 $α = β - a$ ，对上式进一步化简得到：

$\tilde{J} (u_{S} (\cdot)) = [E [X^{2} (T) + 2 α X (T)] - a^{2} - 2 a α],$

因为 $- a^{2} - 2 a α$ 是确定的，所以将带有等式约束的问题2转换为：

问题3 找到投资组合 ${\hat{u}}_{S} \in A$ ，使得下式成立：

$\inf_{u_{S} \in A} J (u_{S} (\cdot)) = \inf_{u_{S} \in A} E [X^{2} (T) + 2 α X (T)],$

也就是说，如果存在 ${\hat{u}}_{S} \in A$ 是问题2的最优解，那么 ${\hat{u}}_{S}$ 同时也为问题3的最优解。

由于经过拉格朗日乘子法处理后，控制过程 $u_{S} (t)$ 与α具有一定的函数关系，又因为系统方程 $X (t)$ 与 $u_{S} (t)$ 也具有函数关系，所以对于给定的α，令 $u_{S}^{α} (t)$ 表示对应的控制过程， $X^{u_{S} (α)} (t)$ 表示对应的系统状态过程。接下来应用定理3.1和定理3.2对问题3进行求解，其中哈密尔顿函数为：

$\begin{array}{l} H (t, X^{u_{S} (α)} (t), u_{S}^{α} (t), p (t), q_{1} (t), q_{2} (t), q_{3} (t)) \\ = {(\begin{matrix} {\bar{X}}^{u_{S} (α)} (t) r^{u_{S} (α)} (t) + u_{S}^{α} (t) σ_{S_{1}} λ_{r} + u_{S}^{α} (t) μ^{u_{S} (α)} (t) σ_{S_{2}} \\ a (b - r^{u_{S} (α)} (t)) \\ k (\bar{μ} - μ^{u_{S} (α)} (t)) \end{matrix})}^{T} p (t) + {(\begin{matrix} u_{S}^{α} (t) σ_{S_{1}} + ρ_{1} (t) u_{S}^{α} (t) σ_{S_{2}} \\ - σ_{r} \\ ρ_{1} (t) σ_{μ_{1}} + ρ_{2} (t) σ_{μ_{2}} \end{matrix})}^{T} q_{1} (t) \\ + {(\begin{matrix} ρ_{1} (t) u_{S}^{α} (t) σ_{S_{1}} + u_{S}^{α} (t) σ_{S_{2}} \\ - ρ_{1} (t) σ_{r} \\ σ_{μ_{1}} + ρ_{3} (t) σ_{μ_{2}} \end{matrix})}^{T} q_{2} (t) + {(\begin{matrix} ρ_{2} (t) u_{S}^{α} (t) σ_{S_{1}} + ρ_{3} (t) u_{S}^{α} (t) σ_{S_{2}} \\ - ρ_{2} (t) σ_{r} \\ ρ_{3} (t) σ_{μ_{1}} + σ_{μ_{2}} \end{matrix})}^{T} q_{3} (t), \end{array}$

其中随机过程四元组 $(p (t), q_{1} (t), q_{2} (t), q_{3} (t))$ 满足伴随方程：

${\begin{cases} d p (t) = - (\begin{matrix} r^{u_{s} (α)} (t) & {\bar{X}}^{u_{s} (α)} (t) & u_{S}^{α} (t) σ_{S_{2}} \\ 0 & - a & 0 \\ 0 & 0 & - k \end{matrix}) p (t) d t + \sum_{j = 1}^{3} q_{j} (t) d B_{j} (t) \\ d p (T) = 2 X^{u_{s} (α)} (T) + 2 α \end{cases},$

为符号简化记：

$\begin{array}{l} H (t) = H (t, X^{u_{S} (α)} (t), u_{S}^{α} (t), p (t), q_{1} (t), q_{2} (t), q_{3} (t)), \\ \hat{H} (t) = H (t, {\hat{X}}^{u_{S} (α)} (t), {\hat{u}}_{S}^{α} (t), \hat{p} (t), {\hat{q}}_{1} (t), {\hat{q}}_{2} (t), {\hat{q}}_{3} (t)) . \end{array}$

令

$\begin{matrix} A (t) = p^{T} (t) (\begin{matrix} σ_{S_{1}} λ_{r} + σ_{S_{2}} μ^{u_{S} (α)} (t) \\ 0 \\ 0 \end{matrix}) + q_{1}^{T} (t) (\begin{matrix} σ_{S_{1}} + ρ_{1} (t) σ_{S_{2}} \\ 0 \\ 0 \end{matrix}) \\ + q_{2}^{T} (t) (\begin{matrix} ρ_{1} (t) σ_{S_{1}} + σ_{S_{2}} \\ 0 \\ 0 \end{matrix}) + q_{3}^{T} (t) (\begin{matrix} ρ_{2} (t) σ_{S_{1}} + ρ_{3} (t) σ_{S_{2}} \\ 0 \\ 0 \end{matrix}), \end{matrix}$

和

$\begin{matrix} B (t) = p^{T} (t) (\begin{matrix} {\bar{X}}^{u_{S} (α)} (t) r^{u_{S} (α)} (t) \\ a (b - r^{u_{S} (α)} (t)) \\ k (\bar{μ} - μ^{u_{S} (α)} (t)) \end{matrix}) + q_{1}^{T} (t) (\begin{matrix} 0 \\ - σ_{1} \\ ρ_{1} (t) σ_{μ_{1}} + ρ_{2} (t) σ_{μ_{3}} \end{matrix}) \\ + q_{2}^{T} (t) (\begin{matrix} 0 \\ - ρ_{1} (t) σ_{1} \\ σ_{μ_{1}} + ρ_{3} (t) σ_{μ_{2}} \end{matrix}) + q_{3}^{T} (t) (\begin{matrix} 0 \\ - ρ_{2} (t) σ_{1} \\ ρ_{3} (t) σ_{μ_{1}} + σ_{μ_{2}} \end{matrix}), \end{matrix}$

则哈密尔顿函数可写为：

$H (t) = u_{S}^{α} (t) A^{T} (t) + B^{T} (t),$

假设 ${\hat{u}}_{S}^{α} (t)$ 是最优控制，根据(3.15)有：

$E [A (t) | ℱ_{t - δ}] = 0,$

根据条件数学期望的定义可知 $Α = 0$ ，于是有 ${\hat{u}}_{S}^{α} (t)$ 满足：

$X^{{\hat{u}}_{S} (α)} (t) A_{1} p (t) = - N_{1} p (t) - N_{2} q_{1} (t) - N_{3} q_{2} (t) - N_{4} q_{3} (t),$

其中

$\begin{array}{l} X^{{\hat{u}}_{S} (α)} (t) = {(\begin{matrix} {\bar{X}}^{{\hat{u}}_{S} (α)} (t) \\ r^{{\hat{u}}_{S} (α)} (t) \\ μ^{{\hat{u}}_{S} (α)} (t) \end{matrix})}^{T}, A_{1} = (\begin{matrix} 0 & 0 & 0 \\ 0 & 0 & 0 \\ σ_{S_{2}} & 0 & 0 \end{matrix}), N_{1} = {(\begin{matrix} σ_{S_{1}} λ_{r} \\ 0 \\ 0 \end{matrix})}^{T}, \\ Ν_{2} = {(\begin{matrix} σ_{S_{1}} + ρ_{1} (t) σ_{S_{2}} \\ 0 \\ 0 \end{matrix})}^{T}, N_{3} = {(\begin{matrix} ρ_{1} (t) σ_{S_{1}} + σ_{S_{2}} \\ 0 \\ 0 \end{matrix})}^{T}, N_{4} = {(\begin{matrix} ρ_{2} (t) σ_{S_{1}} + ρ_{3} (t) σ_{S_{2}} \\ 0 \\ 0 \end{matrix})}^{T} . \end{array}$

应用拉格朗日对偶理论，对于控制过程 ${\hat{u}}_{S}^{α} (t)$ 存在 $α^{*}$ 使得：

$\hat{J} ({\hat{u}}_{S}^{α^{*}} (\cdot)) = \inf_{α} E [X^{2} (T) + 2 α X (T)] - a^{2} - 2 a α,$

则有 ${\hat{u}}_{S}^{α^{*}} (t)$ 为问题3的最优解，同时 ${\hat{u}}_{S}^{α^{*}} (t)$ 也为问题2的最优解。

5. 结论

本文研究一类具有延迟信息且噪声相关的随机最优控制问题，推导了这类控制问题的充分必要最大值原理，从而给出了问题解的最优性条件，并将其应用到投资组合的均值–方差模型中。在文献[6]的基础上，本文进一步假设系统中包含的多个布朗运动不独立具有相关性，这一假设为建立最大值原理带来了新的挑战，因为应用伊藤公式时需要考虑到多个布朗运动之间的二次变差项，从而需要重新构造哈密尔顿函数和伴随方程，因此本文的结果可以视为文献[6]的推广。需要指出的是，在本文给出的例子中，我们利用最大值原理将随机最优控制问题的解转化为正倒向随机微分方程的解，但是最终并没有给出最优控制的解析解，这是因为正倒向随机微分方程是非线性的，且系数中有状态过程和控制过程的耦合项，因此不能用线性方法解耦，如何求解这类正倒向随机微分方程是我们下一步需要深入研究的问题。

NOTES

^*通讯作者。

参考文献

[1]	Yüksel, S. (2025) Another Look at Partially Observed Optimal Stochastic Control: Existence, Ergodicity, and Approximations without Belief-Reduction. Applied Mathematics & Optimization, 91, Article No. 16. [Google Scholar] [CrossRef]
[2]	Han, B. and Wong, H.Y. (2019) Optimal Investment and Consumption Problems under Correlation Ambiguity. IMA Journal of Management Mathematics, 31, 69-89. [Google Scholar] [CrossRef]
[3]	Bertsekas, D.P. and White, C.C. (1977) Dynamic Programming and Stochastic Control. IEEE Transactions on Systems, Man, and Cybernetics, 7, 758-759. [Google Scholar] [CrossRef]
[4]	Gamkrelidze, R.V. (1977) Principles of Optimal Control Theory. Springer.
[5]	Yong, J.M. and Zhou, X.Y. (1999) Stochastic Control: Hamiltonian Systems and HJB Equations. Springer.
[6]	Baghery, F. and Øksendal, B. (2007) A Maximum Principle for Stochastic Control with Partial Information. Stochastic Analysis and Applications, 25, 705-717. [Google Scholar] [CrossRef]
[7]	Li, N. and Wu, Z. (2016) Stochastic Linear-Quadratic Optimal Control Problems with Delay and Lévy Processes. 2016 35th Chinese Control Conference (CCC), Chengdu, 27-29 July 2016, 1758-1763. [Google Scholar] [CrossRef]
[8]	Wang, H., Zhang, H. and Xie, L. (2021) Optimal Control and Stabilization for Itô Systems with Input Delay. Journal of Systems Science and Complexity, 34, 1895-1926. [Google Scholar] [CrossRef]
[9]	Meng, W. and Shi, J. (2021) A Global Maximum Principle for Stochastic Optimal Control Problems with Delay and Applications. Systems & Control Letters, 150, Article ID: 104909. [Google Scholar] [CrossRef]
[10]	Zhang, S., Xiong, J. and Shi, J. (2021) A Linear-Quadratic Optimal Control Problem of Stochastic Differential Equations with Delay and Partial Information. Systems & Control Letters, 157, Article ID: 105046. [Google Scholar] [CrossRef]
[11]	Guo, H., Xiong, J. and Zheng, J. (2024) Stochastic Maximum Principle for Generalized Mean-Field Delay Control Problem. Journal of Optimization Theory and Applications, 201, 352-377. [Google Scholar] [CrossRef]
[12]	Meng, W., Shi, J., Wang, T. and Zhang, J. (2025) A General Maximum Principle for Optimal Control of Stochastic Differential Delay Systems. SIAM Journal on Control and Optimization, 63, 175-205. [Google Scholar] [CrossRef]
[13]	Xiao, H. (2013) Optimality Conditions for Optimal Control of Jump-Diffusion SDEs with Correlated Observations Noises. Mathematical Problems in Engineering, 2013, Article ID: 613159. [Google Scholar] [CrossRef]
[14]	Li, Z., Fu, M., Zhang, H. and Zhang, Z. (2024) Partially Observed Optimal Control with Correlated Noises. 2024 3rd Conference on Fully Actuated System Theory and Applications (FASTA), Shenzhen, 10-12 May 2024, 1328-1333. [Google Scholar] [CrossRef]
[15]	Wang, G.C. and Wu, Z. (2009) General Maximum Principles for Partially Observed Risk-Sensitive Optimal Control Problems and Applications to Finance. Journal of Optimization Theory and Applications, 141, 677-700. [Google Scholar] [CrossRef]
[16]	郭云瑞, 梁晓青. Heston模型下DC型养老金鲁棒最优投资问题[J]. 应用概率统计, 2023, 39(4): 531-546.

为你推荐

友情链接