一类时间不一致控制问题的值函数
Value Function of a Class of Time-Inconsistent Control Problems
DOI: 10.12677/PM.2022.123045, PDF, HTML, XML, 下载: 236  浏览: 315  国家自然科学基金支持
作者: 计 伟:贵州建设职业技术学院信息管理学院,贵州 贵阳;何玉容:花溪区职业教育培训管理中心,贵州 贵阳
关键词: 值函数最优控制时间不一致Value Function Optimal Control Time Inconsistency
摘要: 研究一类常微分方程支配的时间不一致控制问题。对时间区间离散化,构造序列最优控制问题,获得相应的序列值函数,并证明了值函数序列收敛于相应最优控制问题的值函数。
Abstract: A class of time-inconsistent control problems by governed ordinary differential equations is studied. A sequence of optimal control problems is constructed by discretization of the time interval and its value sequence is obtained. We then prove that the value function sequence convergence to the value function of the corresponding to optimal control problems.
文章引用:计伟, 何玉容. 一类时间不一致控制问题的值函数[J]. 理论数学, 2022, 12(3): 411-416. https://doi.org/10.12677/PM.2022.123045

1. 引言

我们引入如下的最优控制问题。设 T > 0 U R m 是一个非空的有界闭凸集。控制取值集定义为:

U [ s , t ] { u : [ s , t ] U | u ( ) } , 0 s t T .

问题(D):对 ( r , y ) [ 0 , T ] × R n ,在控制集 U [ r , T ] 求控制函数 u ¯ ( ) 使得

W ˜ ( r , y ; u ¯ ( ) ) = inf u ( ) U [ r , T ] W ˜ ( r , y ; u ( ) ) = V ¯ ( r , y ) ,

满足:

{ Y ˙ ( s ) = g ( s , Y ( s ) , u ( s ) ) , s [ r , T ] , Y ( r ) = y .

其中,

W ˜ ( r , y ; u ( ) ) = r T ϕ ( s ; s , Y ( s ) , u ( s ) ) + ψ ( s ; Y ( T ) ) .

关于问题(D)的研究,有一个前置的基本假设是时间一致性。研究的经典方法是Bellman最优性原理和Pontryagin极大值原理。从20世纪初期开始至今,已经研究得比较成熟 [1] [2]。但是,社会生活实践并不是如此完美,往往表现为时间不一致性,时间不一致问题的数学模型可见 [3] [4]。

事实上,关于时间不一致问题的研究,其定性行为至少可以追溯到1739年Hume [5] 和1759年Smith [6] 的工作。但是,直至20世纪五十年代,Strotz [7] 才对其数学公式化,在这之后,时间不一致问题的研究主要包含实证研究和理论研究两个方面,吸引了大量数学家和金融学家的研究,取得了丰富的研究成果 [8] - [15]。

本文在第一节中,我们将引入常微分方程支配的时间不一致控制问题的数学模型,并给出文中所需要的必要的假设条件。在第二节中给出主要结果,以及相应的证明过程。最后,我们给出本文的总结。

2. 数学模型和预备知识

首先,我们引入时间不一致控制问题的数学模型。

问题(TIP):对 ( r , y ) [ 0 , T ] × R n ,在控制集 U [ r , T ] 求控制函数 u ¯ ( ) 使得

W ( r , y ; u ¯ ( ) ) = inf u ( ) U [ r , T ] W ( r , y ; u ( ) ) ,

满足:

{ Y ˙ ( s ) = g ( s , Y ( s ) , u ( s ) ) , s [ r , T ] , Y ( r ) = y .

其中,

W ( r , y ; u ( ) ) = r T ϕ ( r ; s , Y ( s ) , u ( s ) ) + ψ ( r ; Y ( T ) ) .

注意到,因问题(TIP)的运行泛函 ϕ 和终端泛函 ψ 显示依赖于初始时间,这意味着,随着控制的进行,目标泛函会因为时间的变化而变化,甚至导致控制系统已在变化。因此,问题(TIP)不同于问题(D)只是简单地优化一个问题,而是优化一族问题。

下面,我们引入如下假设条件:

(P1)映射 g : [ 0 , T ] × R n × R m R n 连续,并且存在一个常数 L > 0 使得:

| g ( t , y 1 , u 1 ) g ( t , y 2 , u 2 ) | L ( | y 1 y 2 | + | u 1 u 2 | ) , t [ 0 , T ] , y 1 , y 2 R n , u 1 , u 2 R m .

(P2)映射 ϕ : [ 0 , T ] × R n × [ 0 , T ] × R n × R m R ψ : [ 0 , T ] × R n R 连续。并且存在一个常数 L > 0 使得:

{ | ϕ ( s 1 ; t , y 1 , u 1 ) g ( s 2 ; t , y 2 , u 2 ) | L ( | s 1 s 2 | + | y 1 y 2 | + | u 1 u 2 | ) , | ψ ( s 1 ; y 1 ) ψ ( s 2 ; y 2 ) | L ( | s 1 s 2 | + | y 1 y 2 | ) , t , s 1 , s 2 [ 0 , T ] , y 1 , y 2 R n , u 1 , u 2 R m .

3. 主要结果

现在,我们对时间区间 [ r , T ] 离散化,构造下列序列最优控制问题。设

Δ : r = t 0 < t 1 < t 2 < < t N 1 < t N = T .

首先,在时间区间 [ t N 1 , t N ] 上构造问题(TIPN)。

问题(TIPN)对, Y N 1 Δ ( t N 1 ) R n 在控制集 U [ t N 1 , t N ] 求控制函数 u ¯ N ( ) 使得

W N Δ ( t N 1 , Y N 1 Δ ( t N 1 ) ; u ¯ N ( ) ) = inf u N ( ) U [ t N 1 , t N ] W N Δ ( t N 1 , Y N 1 Δ ( t N 1 ) ; u N ( ) ) .

满足:

{ Y ˙ N Δ ( s ) = g ( s , Y N Δ ( s ) , u N ( s ) ) , s [ t N 1 , t N ] , Y N ( t N 1 ) = Y N 1 Δ ( t N 1 ) .

其中,

W N Δ ( t N 1 , Y N 1 Δ ( t N 1 ) ; u N ( ) ) = t N 1 t N ϕ ( t N 1 ; s , Y N Δ ( s ) ; u N ( s ) ) + V ¯ N Δ ( t N , Y N Δ ( t N ) ) .

注意:这里 V ¯ N Δ ( t N , Y N Δ ( t N ) ) ψ ( t N 1 , Y N Δ ( t N ) ) 是为了记号的方便。

对给定的初始对 ( t N 1 , Y N 1 Δ ( t N 1 ) ) ,这是一个经典的最优控制问题,可以利用Bellman最优性原理求得最优对 ( Y ¯ N Δ ( s ) , u ¯ N Δ ( s ) ) 。进而可得相应的值函数:

V ¯ N Δ ( t N 1 , Y ¯ N Δ ( t N 1 ) ) = W N Δ ( t N 1 , Y ¯ N Δ ( t N 1 ) ; u ¯ N ( ) ) .

其次,在时间区间 [ t N 2 , t N 1 ] 上构造问题(TIPN−1)。

问题(TIPN-1)对 Y N 2 Δ ( t N 2 ) R n ,在控制集 U [ t N 2 , t N 1 ] 求控制函数 u ¯ N 1 ( ) 使得

W N 1 Δ ( t N 2 , Y N 2 Δ ( t N 2 ) ; u ¯ N 1 ( ) ) = inf u N 1 ( ) U [ t N 2 , t N 1 ] W N 1 Δ ( t N 2 , Y N 2 Δ ( t N 2 ) ; u N 1 ( ) ) .

满足:

{ Y ˙ N 1 Δ ( s ) = g ( s , Y N 1 Δ ( s ) , u N 1 ( s ) ) , s [ t N 2 , t N 1 ] , Y N 1 ( t N 2 ) = Y N 2 Δ ( t N 2 ) .

其中,

W N 1 Δ ( t N 2 , Y N 2 Δ ( t N 2 ) ; u N 1 ( ) ) = t N 2 t N 1 ϕ ( t N 2 ; s , Y N 1 Δ ( s ) ; u N 1 ( s ) ) + V ¯ N 1 Δ ( t N 1 , Y N 1 Δ ( t N 1 ) ) .

同样,对给定的初始对 ( t N 2 , Y N 2 Δ ( t N 2 ) ) ,这也是一个经典的最优控制问题,可以利用Bellman最优性原理求得最优对 ( Y ¯ N 1 Δ ( s ) , u ¯ N 1 Δ ( s ) ) 。进一步,可得值函数:

V ¯ N 1 Δ ( t N 2 , Y ¯ N 1 Δ ( t N 2 ) ) = W N 1 Δ ( t N 2 , Y ¯ N 1 Δ ( t N 2 ) ; u ¯ N 1 ( ) ) .

类似地,在时间区间 [ t i 1 , t i ] 上构造问题(TIPi)。

问题(TIPi)对 Y i 1 Δ ( t i 1 ) R n ,在控制集 U [ t i 1 , t i ] 求控制函数 u ¯ i ( ) 使得

W i Δ ( t i 1 , Y i 1 Δ ( t i 1 ) ; u ¯ i ( ) ) = inf u i ( ) U [ t i 1 , t i ] W i Δ ( t i 1 , Y i 1 Δ ( t i 1 ) ; u i ( ) ) .

满足:

{ Y ˙ i Δ ( s ) = g ( s , Y i Δ ( s ) , u i ( s ) ) , s [ t i 1 , t i ] , Y i ( t i 1 ) = Y i 1 Δ ( t i 1 ) .

其中,

W i Δ ( t i 1 , Y i 1 Δ ( t i 1 ) ; u i ( ) ) = t i 1 t i ϕ ( t i 1 ; s , Y i Δ ( s ) ; u i ( s ) ) + V ¯ i Δ ( t i , Y i Δ ( t i ) ) .

根据Bellman最优性原理,关于问题(TIPi),对给定的初始对 ( t i 1 , Y i 1 Δ ( t i 1 ) ) ,可以求得最优对 ( Y ¯ i Δ ( s ) , u ¯ i Δ ( s ) ) 及其相应的值函数:

Y ¯ i Δ ( t i 1 , Y ¯ i Δ ( t i 1 ) ) = W i Δ ( t i 1 , Y ¯ i Δ ( t i 1 ) ; u ¯ i ( ) ) .

综上,对时间区间 [ r , T ] 任意剖分 Δ ,对 i { 1 , 2 , , N } ,我们构造序列 Y ¯ i Δ ( s ) φ ¯ i Δ ( s ) u ¯ i Δ ( s ) 。定义:

{ Y ¯ Δ ( s ) = i = 1 N Y ¯ i Δ ( s ) I [ t i 1 , t i ] ( s ) , u ¯ Δ ( s ) = i = 1 N u ¯ i Δ ( s ) I [ t i 1 , t i ] ( s ) , V ¯ ( r , y ) = i = 1 N V ¯ i 1 Δ ( t i 1 , Y ¯ i ( t i 1 ) ) I [ t i 1 , t i ] ( s ) , t 0 s t N .

定理2.1. 设(P1)-(P2)成立。则对 ( r , y ) [ 0 , T ] × R n , u ¯ ( ) U [ r , T ] 及对时间区间 [ 0 , T ] 的任意剖分 Δ ,下式成立:

lim Δ 0 W i Δ ( t i 1 , Y i 1 Δ ( t i 1 ) ; u i Δ ( ) ) = W ¯ ( t i 1 , Y ( t i 1 ) , u ( ) ) .

证明:设 Δ : r = t 0 < t 1 < t N 1 < t N = T ,对 i { 1 , 2 , , N }

| W i Δ ( t i 1 , Y i 1 Δ ( t i 1 ) ; u i Δ ( ) ) W ¯ ( t i 1 , Y ( t i 1 ) , u ( ) ) | t i 1 t i | ϕ ( t i 1 ; s , Y i 1 Δ ( s ) ; u i Δ ( s ) ) ϕ ( s ; s , Y [ t i 1 , t i ] ( s ) ; u [ t i 1 , t i ] ( s ) ) | d s + j = i N 1 t i 1 t i | ϕ ( t j ; s , Y ¯ j + 1 Δ ( s ) ; u ¯ j + 1 Δ ( s ) ) ϕ ( s ; s , Y ¯ [ t j , t j + 1 ] ( s ) ; u ¯ [ t j , t j + 1 ] ( s ) ) | d s + | ψ ( t N 1 , Y ( t N ) ) ψ ( t N , Y ( t N ) ) | L ( | s t i 1 | + | Y [ t i 1 , t i ] ( s ) Y i 1 Δ ( s ) | + | u [ t i 1 , t i ] ( s ) u i Δ ( s ) | ) ( t i t i 1 ) + j = i N L ( | s t i 1 | + | Y ¯ [ t j , t j + 1 ] ( s ) Y ¯ j + 1 Δ ( s ) | + | u ¯ [ t j , t j + 1 ] ( s ) u j + 1 Δ ( s ) | ) ( t j + 1 t j ) + L ( t N t N 1 ) .

因此,当 Δ 0 时, | W i Δ ( t i 1 , Y i 1 Δ ( t i 1 ) ; u i Δ ( ) ) ( t i 1 , Y ( t i 1 ) , u ( ) ) | 0 ,即:

lim Δ 0 W i Δ ( t i 1 , Y i 1 Δ ( t i 1 ) ; u i Δ ( ) ) = W ¯ ( t i 1 , Y ( t i 1 ) , u ( ) ) .

定理2.2. 设(P1)~(P2)成立。对时间区间 [ 0 , T ] 的任意剖分 Δ ,则有:

lim Δ 0 V ¯ Δ ( r , y ) = V ¯ ( r , y ) , ( r , y ) [ 0 , T ] × R n .

证明:任意取 [ 0 , T ] 的一个剖分 Δ ,对 i = N ( r , y ) [ t N 1 , t N ] × R n ,我们有:

| V ¯ Δ ( r , y ) V ¯ ( r , y ) | r t N | ϕ ( t N 1 ; s , Y N Δ ( s ) ; u N Δ ( s ) ) ϕ ( s ; s , Y [ r , t N ] ( s ) ; u [ r , t N ] ( s ) ) | d s + | ψ ( t N 1 , Y N Δ ( t N ) ) ψ ( t N , Y ( t N ) ) | .

显然,在假设条件下,当 Δ 0 时, V ¯ Δ ( r , y ) V ¯ ( r , y )

1 i N 1 ε > 0 ,存在 u ε ( ) U [ r , t i ] 使得

W ¯ i ( r , y ; u ε ( ) ) ε < V ¯ ( r , y ) .

则对 ( r , y ) [ t i 1 , t i ) × R n

V ¯ Δ ( r , y ) V ¯ ( r , y ) < W i Δ ( t i 1 , Y i 1 Δ ( t i 1 ) ; r , y , u ε ( ) ) W i ( t i 1 , Y i 1 Δ ( t i 1 ) ; r , y , u ε ( ) ) + ε .

因此,

V ¯ Δ ( r , y ) V ¯ ( r , y ) L ( t i t i 1 ) 2 + | V ¯ Δ ( t i , Y i Δ , u ε ( t i 1 ) ) V ¯ ( t i , Y i ε ( t i ) ) | + ε .

又因为

| V ¯ Δ ( t i , Y i Δ , u ε ( t i 1 ) ) V ¯ ( t i , Y i ε ( t i ) ) | t i t i + 1 | ϕ ( t i ; s , Y i + 1 Δ , u ε ( s ) ; u i + 1 ( s ) ) ϕ ( s ; s , Y [ t i , t i + 1 ] u ε ( s ) ; u [ t i , t i + 1 ] ( s ) ) | d s + | V ¯ Δ ( t i + 1 , Y i + 1 Δ , u ε ( t i + 1 ) ) V ¯ ( t i + 1 , Y i + 1 u ε ( t i + 1 ) ) | L ( t i + 1 t i ) 2 + | V ¯ Δ ( t i + 1 , Y i + 1 Δ , u ε ( t i + 1 ) ) V ¯ ( t i + 1 , Y i + 1 u ε ( t i + 1 ) ) | .

类似地,我们可得到

V ¯ Δ ( r , y ) V ¯ ( r , y ) j = i N 1 L ( t j t j 1 ) 2 + | ψ Δ ( t N 1 , Y N Δ ( t N ) ) ψ ( t N , Y ( t N ) ) | j = i N L ( t j t j 1 ) 2 .

所以,当 Δ 0 时,

V ¯ Δ ( r , y ) V ¯ ( r , y ) 0.

同样,当 Δ 0 时,我们可得:

0 V ¯ Δ ( r , y ) V ¯ ( r , y ) .

综上,我们证明了 lim Δ 0 V ¯ Δ ( r , y ) = V ¯ ( r , y )

4. 结论

因时间不一致控制问题不满足Bellman最优性原理,不能运用经典方法予以求解。因此,我们对时间区间进行离散化,构造序列最优控制问题,获得了相应的值函数列,并证明了值函数列收敛于对应经典问题的值函数。

基金项目

国家自然科学基金资助项目(12061021)。

参考文献

[1] 雍炯敏, 楼红卫. 最优控制理论简明教程[M]. 北京: 高等教育出版社, 2006.
[2] Fleming, W. and Rishel, R. (1986) Deterministic and Stochastic Optimal Control. Springer-Verlag, New York.
[3] Yong, J. (2017) Line-ar-Quadratic Optimal Control Problems for Mean-Field Stochastic Differential Equations— Time-Consistent Solutions. Transactions of the American Mathematical Society, 369, 5467-5523.
https://doi.org/10.1090/tran/6502
[4] Yong, J. (2012) Deterministic Time-Inconsistent Optimal Control Problem—An Essentially Cooperative Approach. Acta Mathematicae Applicatae Sinica (English Series), 28, 1-30.
https://doi.org/10.1007/s10255-012-0120-3
[5] Hume, D. (1978) A Treatise of Human Nature. 1st Edition, 1739; Reprint, Oxford University Press, Oxford.
https://doi.org/10.1093/oseo/instance.00046221
[6] Smith, A. (1979) The Theory of Moral Sentiments. 1st Edition, 1759; Reprint, Oxford University Press, Oxford.
https://doi.org/10.1093/oseo/instance.00042831
[7] Strotz, R. (1955) Myopia and Inconsistency in Dynamic Utility Maximization. The Review of Economic Studies, 23, 165-180.
[8] Ekeland, I. and Lazrak, A. (2006) Besing Serious about Non-Commitment: Subgame Perfect Equilibrium in Continuous Time (Preprint).
https://arxiv.org/abs/math/0604264
[9] Yong, J. (2012) Time-Inconsistent Optimal Control Problem and Equi-librium HJB Equation. Mathematical Control and Related Fields, 2, 271-3297.
https://doi.org/10.3934/mcrf.2012.2.271
[10] Hu, Y., Jin, H. and Zhou, X. (2012) Time-Inconsistent Stochastic Linear-Quadratic Control. SIAM Journal on Control and Optimization, 50, 1548-1572.
https://doi.org/10.1137/110853960
[11] Wei, Q., Yong, M. and Yu, Z. (2017) Time-Inconsistent Recursive Sto-chastic Optimal Control Problems. SIAM Journal on Control and Optimization, 55, 4156-4201.
https://doi.org/10.1137/16M1079415
[12] Hu, Y., Jin, H. and Zhou, X. (2017) Time-Inconsistent Stochastic Linear-Quadratic Control: Characterization and Uniqueness of Equilibrium. SIAM Journal on Control and Optimization, 55, 1261-1279.
https://doi.org/10.1137/15M1019040
[13] Björk, T., Khapko, M. and Murgoci, A. (2017) On Time-Inconsistent Stochastic Control in Continuous Time. Finance and Stochastics, 21, 331-360.
https://doi.org/10.1007/s00780-017-0327-5
[14] He, X. and Jiang, Z. (2019) On the Equilibrium Strategies for Time-Inconsistent Problem in Continuous Time. SIAM Journal on Control and Optimization, 59, 3860-3886.
https://doi.org/10.1137/20M1382106
[15] Huang, Y. and Zhou, Z. (2021) Strong and Weak Equilibrium for Time-Inconsistent Stochastic Control in Continuous Time. Mathematics of Operations Research, 46, 428-451.
https://doi.org/10.1287/moor.2020.1066