1. 引言
现如今,海洋战争一直备受关注。尤其是水下战场,它已成为未来海上作战的重要话题。而在潜艇执行水下任务的战术活动中,防御来袭鱼雷攻击一直是最具威胁性和紧迫性的战术问题之一。虽然潜艇通常会先于鱼雷发现对方,但是其慢速机动特性、隐蔽性的特殊需求等,都给潜艇防御鱼雷带来了极大的挑战[1] [2]。因此,分析潜艇防御鱼雷的方法,对于提高潜艇的生存能力和战斗力至关重要。当潜艇发现来袭鱼雷攻击征兆时,通常可以采取常规机动驶离鱼雷搜索带、使用对抗器材、机动等多种规避方法[3]。本文中潜艇选择在水平方向改变其航向角,从而规避鱼雷的追击。如今潜艇通过改变航向角进行鱼雷防御是当前水下对抗领域的重要研究方向,其目标是利用潜艇的机动性来规避鱼雷的攻击路径。潜艇通过改变航向角防御鱼雷具有灵活性强、响应迅速、适应性广等优势,与深度机动相比,这一方法能耗低、噪声小,不易暴露潜艇位置,为潜艇在作战中争取生存空间和战术优势提供了重要保障。
为研究潜艇的防御方案,我们假设以下情形。在某次海上战争中,敌方发射鱼雷攻击我方潜艇,攻击方向始终指向我方潜艇并提前一定角度,而我方潜艇则在初始时刻围绕转弯半径改变航向。为求得我方潜艇最优躲避策略以及鱼雷最优追逐策略,本文将上述场景转化为追逃博弈模型,并利用零和博弈相关知识对该模型进行求解。
在追逃博弈中,上述场景中的鱼雷作为追逐者、潜艇作为逃避者在平面上进行简单运动,即线速度为常数。这类博弈的概念及模型由Isaacs [4]提出,他的博弈理论主要用于描述动态对抗场景,其中两个或更多参与者根据某些规则和目标进行竞争。这些模型被广泛应用于军事战略和战术分析,包括海上作战。
潜艇作战具有复杂环境下的动态博弈对抗特性,通过博弈论方法构建作战仿真模型,不仅推动了潜艇与鱼雷制导技术的理论研究,还加速了智能优化算法在军事智能决策中的实际应用。李世令等[5]以博弈论为基础,客观评估了弹道导弹核潜艇的威慑能力。并且针对信息完全和信息缺失两种不同的情况,给出两种模型下局中人的最优策略;郭力强等[6]基于博弈对抗建立鱼雷抗干扰攻击模型,提出一种改进的遗传模拟退火算法用于优化模型求解;张东俊等[7]对于潜艇交战级作战实验中的态势认知决策建模难题,提出基于判别矩阵的潜艇作战态势认知决策建模方法;郭洪宇等[8]针对潜舰机博弈对抗场景,从深度强化学习和规则推理两个方面构建潜艇智能体,提出两种算法改进机制,通过互博弈对抗和分布式训练,最终实现潜艇在对抗过程中的智能决策。
矩阵博弈的概念最早是由数学家Neumann [9]提出,John [10]的矩阵博弈综合指南详细介绍了矩阵博弈的用途。赵慧瑾等[11]提出了一种基于矩阵博弈的智能对抗策略来解决反鱼雷水声对抗中的决策问题;王芳杰等[12]针对近距一对一场景下的无人机自主空战机动决策问题,提出了一种基于专家知识库和矩阵博弈方法的近距无人机一对一自主机动决策算法。
在实际情况中,潜艇和鱼雷的策略集合往往是有限的,潜艇可以选择不同的航线、速度以及隐蔽策略来防御鱼雷的追击,本文不考虑潜艇对鱼雷的干扰作用。而鱼雷则可以根据不同的追踪算法、速度和航向来制定进攻方案。基于此有限的策略集合,我们可以将潜艇和鱼雷的对抗视为一个双人零和博弈问题。
为了深入分析潜艇和鱼雷之间的交战情况,我们引入了矩阵博弈模型。当策略组合固定时,矩阵博弈适用于分析该情形下各方收益的最优解。通过构建一个以潜艇和鱼雷策略为基础的收益矩阵,能够全面展示双方不同策略组合下的损益关系,并为双方提供最优策略的理论依据。这种方法不仅简化了复杂的决策过程,也为潜艇在规避攻击和鱼雷在进行有效打击时提供了策略指导。
本文将基于矩阵博弈模型,分析潜艇与鱼雷在有限策略集合下的最优对策,并通过数值模拟验证模型的有效性和实用性。这一研究为海军战术中的智能决策提供了新的理论工具。
根据实际作战中鱼雷和潜艇的运动特性,本文假设局中人鱼雷和潜艇均为理性局中人,建立潜艇防御矩阵博弈模型,通过对潜艇防御这一过程进行分析,可以分别得到潜艇和鱼雷的运动学方程,以及各自的策略集合。根据博弈过程中局中人之间的合作关系构造支付函数,寻找出纳什均衡解。
本文第二节建立潜艇防御博弈模型并对其进行详细的阐述。第三节利用博弈论中的矩阵博弈求解鱼雷和潜艇的最优策略,第四节结合具体算例对模型的求解结果进行数值仿真。第五节给出总结。
2. 问题描述
记
,这里
分别代表局中人鱼雷、潜艇;
代表相应局中人的策略集合,
为局中人的支付函数。称
为潜艇防御博弈模型。假设两个局中人鱼雷、潜艇为理性局中人,并且均在平面内做简单运动。两个局中人具有恒定的线速度
,潜艇的最大速度均小于鱼雷的最大速度。
,每个局中人都知道自己和其他局中人的状态信息。
设状态向量:
,
,
是各局中人(鱼雷和潜艇)的笛卡尔坐标。
,
是局中人的控制向量。
在识别出目标潜艇后,鱼雷为了用最短的时间追上目标,鱼雷采取的跟踪策略为:鱼雷的速度方向始终指向目标并提前角度
。
鱼雷的运动方程:
(1)
即:
(2)
可以看到上式中存在
。
前面的符号如何选取,需要按照以下方法:在极短时间内,若鱼雷按提前角
行动后与潜艇之间距离小于鱼雷按提前角
与潜艇之间距离,则取正号,否则取负号。如图,若
,则取
。
潜艇为了躲避鱼雷的追击,在初始时刻选择一次机动,即改变一次航向。由于本文所研究的潜艇体积较为庞大,因此在实际作战中其方向改变的灵活性较差,当潜艇需要转向时,通常会围绕一定的转弯半径R进行调整。潜艇的相对回转半径
是潜艇的转弯半径R与潜艇长度
的比值,满足
[13]。本文考虑潜艇以匀速圆周运动的方式逐步改变航向,从而实现稳定和有效的方向转变。
具体而言,潜艇会以匀速圆周运动的方式逐步改变航向,从而实现稳定和有效的方向转变。假设圆的圆心为
。潜艇到
时刻完成变向,然后接着沿匀速直线运动。记此刻潜艇的方向角为
。
潜艇的运动方程为:
当
时,
(3)
当
时,潜艇的运动方程可以分成以下两种情形:
1)
,根据运动学公式可得:
(4)
(5)
(6)
(7)
(8)
2)
,根据运动学公式可得:
(9)
(10)
其中
,
为圆心角,
为角速度,
为潜艇的初始运动方向。
3. 潜艇防御矩阵博弈模型的表述
对该博弈信息做出以下假设:两个局中人鱼雷、潜艇均为理性局中人,且在整个博弈过程中,每个局中人均知道自己和其他局中人的状态信息。
本文假设在鱼雷的搜索阶段,鱼雷对目标的探测区域为位于鱼雷头部前方关于鱼雷中轴线左右对称的半径为R的圆形区域。因为对于不同的探测目标,其回波强度不同,所以鱼雷的自导搜索半径也不同。当目标在自导搜索的有效探测圆面内,自导装置方能发现目标[14] [15]。目标进入此圆形区域内即认为已经探测到目标。
为保证解的有效性,本文博弈模型的初始状态的容许集合为
(11)
根据以上假设,博弈过程阐述如下:
在鱼雷识别出目标潜艇后,鱼雷为了用最短的时间追上目标,鱼雷采取的跟踪策略为:鱼雷的速度方向始终指向目标并提前角度
。在初始时刻,潜艇开始改变航向,最终方向角为
,然后潜艇继续以
匀速直线运动。潜艇位于鱼雷的自导搜索的有效探测区域之内,并且鱼雷需要估计其资源(最大航行距离)是否足以在最坏的情况下捕获潜艇。该博弈的支付函数J定义为鱼雷捕获目标潜艇所需要的时间:
(12)
表示鱼雷成功捕获到真实目标的最短时间。如果潜艇能保证避免被捕获(目标集合永远不会到达),
的值可以定义为无限大,因此在预期的
时刻值函数为:
(13)
4. 基于矩阵博弈模型求解
4.1. 问题建模
为了构造一个矩阵博弈模型,假设鱼雷和潜艇的策略分别为:
鱼雷的策略
;潜艇的策略
;对于每组鱼雷的提前角度
和潜艇的转弯角度
的组合,通过数值仿真得到鱼雷捕获潜艇所需的时间
。该时间也就是鱼雷和潜艇在局势
下的支付,因此,捕获时间矩阵T可以描述为鱼雷和潜艇策略组合下的捕获时间。在该博弈中,鱼雷的目标是要最小化捕获潜艇的时间。而潜艇的目标则是要最大化被鱼雷捕获的时间,延长生存时间。
将鱼雷的提前角度和潜艇的转弯角度进行离散化,鱼雷的策略集合为
,潜艇的策略集合为
分别取n和m个离散值。对于每一个策略组合
,通过数值模拟,计算出鱼雷追踪潜艇时的捕获时间
,将其存入支付矩阵T的相应位置[16]。其中:
(14)
表示鱼雷选择提前角度
,潜艇选择转弯角度
的情形时,鱼雷捕获潜艇所需的时间为
。
通过遍历鱼雷和潜艇的所有策略组合,即可得到完整的支付矩阵
。鱼雷希望在该矩阵中选择使
最小的
,而潜艇则希望在矩阵中选择使
最大的
。
4.2. 纳什均衡的求解
在支付矩阵T中,鱼雷和潜艇的策略组合
是纳什均衡,如果满足下面条件:
在鱼雷的最佳策略
固定时,潜艇不能通过改变策略
获得更大的捕获时间;在潜艇的最佳策略
固定时,鱼雷不能通过改变策略
获得更小的捕获时间。
矩阵博弈的纳什均衡条件可表示为:
(15)
我们可以通过以下步骤寻找纳什均衡:先找出行最小值,即对于支付矩阵T的每一行,找到每一行的最小值集合
;再找出列最大值,即对于支付矩阵T的每一列,找到每一列的最大值集合
。
纳什均衡判定:如果某一元素
,即
是行最小值和列最大值,那么该元素对于的策略组合
即为纳什均衡。
4.3. 数值求解过程
为了求解这一博弈问题,首先通过对鱼雷的提前角度
和潜艇的转弯角度
进行均匀离散化,分别构造鱼雷和潜艇的策略集合。鱼雷和潜艇的策略数量分别为n和m。接着仿真计算支付矩阵,对每个策略组合
,使用追逃模型模拟鱼雷捕获潜艇的过程,并记录捕获时间
。最终形成支付矩阵T。最后通过分析支付矩阵,寻找满足行最小和列最大的矩阵元素,确定双方的最优策略组合
。
4.4. 结果分析
求解过程的结果是支付矩阵T中的纳什均衡
。最终求得的解表明鱼雷应采用的最优策略提前角度,以及潜艇在逃逸过程中应采取的最优转弯角度。在这个策略组组合下,双方都无法通过单方面改变策略获得更好的结果。
4.5. 仿真结果
本次仿真在笛卡尔坐标下行进,设置鱼雷的初始位置状态为
,鱼雷的行驶速度为40 kn,捕获半径为1.7 m;潜艇的初始位置状态为
,行驶速度为10 kn,此外设定潜艇的转弯半径为300 m,潜艇的初始航向为0。
在上述条件下,求得的纳什均衡为
,即鱼雷采取提前角策略为0.05˚,潜艇采取的转弯角度为沿逆时针方向旋转38.73˚。最终求得的捕获时间为701.4 s。仿真结果如图1~3所示:
Figure 1. Numerical simulation example when both the torpedo and the submarine adopt a balanced strategy
图1. 鱼雷和潜艇均采用均衡策略时的数值仿真实例
Figure 2. Turning angle of the submarine when both the torpedo and the submarine adopt a balanced strategy
图2. 鱼雷和潜艇均采用均衡策略时潜艇的转弯角度
Figure 3. Capture scenario when both the torpedo and submarine adopt equilibrium strategies
图3. 鱼雷和潜艇均采用均衡策略时的捕获情况
5. 总结
本文的主要工作包括将捕获逃避者的点捕获问题推广到海上作战的背景中,根据鱼雷和潜艇的实际运动特性结合真实作战过程建立矩阵博弈模型。根据局中人的当前状态,建立支付矩阵。在博弈模型的定量和定性分析中应用最优控制理论,求解局中人的最优策略。
基金项目
本文由国家自然科学基金面上项目(No. 72171126),青岛大学“系统科学+”联合攻关项目(XT2024301)支持。