基于Q学习的自适应行为选择鹦鹉优化算法——QLAB-PO算法
Q-Learning Based Adaptive Behavior Selection Parrot Optimizer—QLAB-PO Algorithm
DOI: 10.12677/csa.2026.164108, PDF, HTML, XML,   
作者: 章洛铭:温州大学计算机与人工智能学院,浙江 温州
关键词: 鹦鹉优化算法Q学习自适应行为选择Parrot Optimizer Q-Learning Adaptive Behavior Selection
摘要: 针对传统鹦鹉优化算法(Parrot Optimizer, PO)在复杂优化问题中行为选择单一、收敛速度慢、易陷入局部最优等问题,本文提出一种基于Q学习的自适应行为选择鹦鹉优化算法(Q-Learning Based Adaptive Behavior Selection Parrot Optimizer, QLAB-PO)。该算法通过把强化学习中的Q学习机制引入鹦鹉优化算法中,借助选择Q表,使算法能够根据当前搜索情况自适应地选择相应策略。算法在原有四种行为模式的基础上添加了群体学习行为和自适应变异行为,并通过Q学习动态调整所选择策略。实验结果表明,QLAB-PO算法在CEC2017标准测试函数上的收敛速度和求解精度均显著优于原始PO算法及其他主流元启发式算法,验证了所提算法的有效性和优越性。
Abstract: To address the problems of traditional Parrot Optimizer (PO) algorithms, such as limited behavior selection, slow convergence speed, and susceptibility to local optima in complex optimization problems, this paper proposes a Q-Learning Based Adaptive Behavior Selection Parrot Optimizer (QLAB-PO). This algorithm introduces the Q-learning mechanism from reinforcement learning into the Parrot Optimizer, constructing a Q-table of behavior selections to adaptively select appropriate strategies based on the current search situation. In addition to the original four behavior modes, the algorithm adds swarm learning and adaptive mutation behaviors, and dynamically adjusts the selected strategies through Q-learning. Experimental results show that the QLAB-PO algorithm significantly outperforms the original PO algorithm and other mainstream metaheuristic algorithms in terms of convergence speed and solution accuracy on the CEC2017 standard test function, validating the effectiveness and superiority of the proposed algorithm.
文章引用:章洛铭. 基于Q学习的自适应行为选择鹦鹉优化算法——QLAB-PO算法[J]. 计算机科学与应用, 2026, 16(4): 42-55. https://doi.org/10.12677/csa.2026.164108

1. 引言

优化问题广泛存在于科学研究和工程实践的各个领域,如生产调度、路径规划、特征选择等。随着问题维度的增大以及复杂度的提升,传统优化方法往往难以在较短时间内获得较为满意的解。元启发式算法作为一种具有全局搜索能力的随机优化方法,因其不依赖问题的具体数学特性、实现简单、适用范围广等优点,受到了学术界和工业界的广泛关注[1]

近年来,受自然界生物行为启发的群体智能优化算法蓬勃发展。粒子群优化算法(Particle Swarm Optimization, PSO)模拟鸟群觅食行为[2],灰狼优化算法(Grey Wolf Optimizer, GWO)模拟灰狼的社会等级和狩猎机制[3],鲸鱼优化算法(Whale Optimization Algorithm, WOA)模拟座头鲸的泡泡网捕食行为[4]。2024年,Zhang等人提出了鹦鹉优化算法(Parrot Optimizer, PO) [5],该算法模拟鹦鹉的4种自然行为(觅食、停留、交流、恐惧陌生者)进行优化搜索,在多个测试函数上展现了良好的性能。

然而,原始PO算法存在一些不足:首先,算法的随机选择行为模式,缺乏对搜索状态的感知和适应性调整能力;同时,行为选择策略固定,无法根据问题的特性和搜索阶段进行动态调整;最后,算法容易陷入局部最优,特别是在处理多峰的复杂优化问题时表现往往不佳。

强化学习(Reinforcement Learning, RL)是一种通过与环境交互来学习最优策略的机器学习方法其中的Q学习(Q-Learning)属于强化学习的经典方法之一,通过维护一个Q值表来评估在不同状态下采取不同动作的期望回报,从而实现最优决策[6]。并且,将Q学习机制引入元启发式算法,可以使算法具备自适应行为选择能力,根据搜索反馈动态调整策略,提高算法的收敛性能[7]。如李等将Q学习与鲸鱼优化算法相结合提出(PWOQLA) [8],也有国外学者将Q学习与粒子群优化算法相结合应用于机器人路径规划[9]

基于上述分析,本文提出一种基于Q学习的自适应行为选择鹦鹉优化算法(Q-Learning Based Adaptive Behavior Selection Parrot Optimizer, QLAB-PO)。主要贡献包括:(1) 增加了2种行为模式,丰富了算法的搜索策略;(2) 引入Q学习机制,构建行为选择Q表,实现自适应行为决策;(3) 设计了动态贪婪策略和Q表重置机制,平衡探索与开发;(4) 在CEC2017的30个标准测试函数[10]上验证了算法的有效性。

2. 相关工作

2.1. 鹦鹉优化算法

鹦鹉优化算法(PO)是Zhang等人于2024年提出的一种新型元启发式算法。该算法模拟了鹦鹉的4种自然行为:

(1) 觅食行为(Foraging Behavior):模拟鹦鹉在食物源附近搜索食物的行为,利用Levy飞行策略进行全局探索;

X i  = ( X i    X best )Levy( dim ) + randmean( X i ) ( 1t/T ) { 2t/T } (1)

(2) 停留行为(Staying Behavior):模拟鹦鹉停留在栖息地休息的行为,在当前位置附近进行局部搜索;

X i =  X i    X best Levy( dim ) + randn( 1t/T )ones( 1,dim ) (2)

(3) 交流行为(Communicating Behavior):模拟鹦鹉之间的信息交流,通过群体协作提高搜索效率;

X i =  X i  + α( 1t/T )[ X i mean( X ) ] (3)

(4) 恐惧陌生者行为(Fear of Strangers Behavior):模拟鹦鹉对陌生威胁的逃避反应,增强算法逃离局部最优的能力;

X i =  X i  +  randcos( πt/2T )( X best X i )cos( θ ) ( t/T ) 2/T ( X i X best ) (4)

2.2. Q学习算法

Q学习是一种无模型的强化学习算法。算法通过维护一个Q值表 Q( s,a ) 来评估在状态 s 下采取动作 a 的期望累积回报。通过采用贝尔曼最优方程(Bellman Optimality Equation),利用当前估计来更新对未来的预测。算法无需预先知道环境的转移概率和奖励函数,仅通过与环境的交互经验即可学习最优策略。 Q 值的更新公式为:

Q( s t , a t )=Q( s t , a t )+α[ r t+1 +γ max a Q( s t+1 ,a )Q( s t , a t ) ] (5)

其中, α 为学习率, γ 为折扣因子, r t+1 为即时奖励。Q学习通过不断迭代更新 Q 值表,最终收敛到最优策略。

3. 提出的QLAB-PO算法

QLAB-PO算法的核心思想是将Q学习机制融入鹦鹉优化算法中,通过构建行为选择Q表,使算法能够根据当前搜索状态自适应地选择相应行为策略。算法框架如图1所示。

3.1. 算法框架

QLAB-PO算法的核心思想是将Q学习机制融入鹦鹉优化过程,通过构建行为选择Q表,使算法能够根据当前搜索状态自适应地选择最优行为策略。算法框架如图1所示,主要包括以下步骤:

(1) 初始化:随机生成初始种群,初始化Q表;

(2) 状态评估:根据当前解的质量评估个体状态;

(3) 行为选择:基于ε-贪婪策略选择行为;

(4) 行为执行:根据选择的行为更新个体位置;

(5) Q表更新:根据执行结果更新Q值;

(6) 终止判断:若满足终止条件则输出最优解,否则返回步骤(2)。

Figure 1. The flowchart of QLAB-PO

1. QLAB-PO流程图

3.2. 行为模式设计

除了2.1节中提到的4种行为外,本文新加了以下两种行为:

群体学习行为:借鉴人工蜂群算法的思想,通过向优秀个体学习来改进当前解。算法随机选择两个不同的邻居个体,利用GQI (Global Quality Improvement)策略[11]更新位置。

自适应变异行为引入差分进化的思想[12],根据个体适应度自适应地选择变异概率:

  p mutate =0.95 ( f( X i ) f best )/ ( f worst f best ) +0.05 (6)

3.3. Q学习机制

QLAB-PO算法将每个个体的适应度等级作为状态,将六种行为模式作为可选动作,构建一个状态-动作Q值表。Q表的更新采用以下公式:

Q( s,a )=Q( s,a )+α[ r+γ max a Q( s , a )Q( s,a ) ] (7)

其中,学习率 α = 0.1 ,折扣因子 γ = 0.25 。奖励函数定义为:若新解优于原解,则 r =1 ;否则 r = 1 。行为选择采用ε-贪婪策略,以概率ε选择 Q 值最大的行为,以概率 1ε 随机选择行为。贪婪因子ε初始值为0.9,随着迭代进行逐渐减小,以平衡探索与开发。

本文采用了“动作编码状态”简化策略,其核心思想是将智能体的行为选择本身作为状态标识,从而避免了传统Q学习中需要设计复杂状态离散化函数的麻烦。具体来说,算法初始化时为每个个体分配一个状态变量 X_State ,其初始值全部设为1。在每一轮迭代中,个体首先根据自己当前的状态值查询Q表中对应的行,然后使用ε贪婪策略选择下一个要执行的动作。这个动作的编号直接决定了个体接下来的行为模式。并且,当动作执行完毕、环境反馈奖励之后,算法会将个体的状态直接更新为刚刚执行的动作编号,保证下一时刻的状态完全由当前时刻的动作选择所决定。

为避免Q表陷入局部最优,算法设计了Q表重置机制。当连续多代最优解没有改善时,以一定概率重置Q表的部分或全部行,重新探索行为选择策略。

4. 实验与分析

4.1. 实验设置

为验证QLAB-PO算法的有效性,选取CEC2017测试函数上的30个标准测试函数进行实验。对比算法包括:原始PO算法[5]、粒子群优化算法(PSO) [2]、灰狼优化算法(GWO) [3]、鲸鱼优化算法(WOA) [4]和飞蛾扑火算法(MFO) [13]

实验参数设置如下:种群规模 N = 30 ,最大判断次数 T=N×10000 ,维度dim = 30。所有算法独立运行30次,记录最优值、最差值、平均值和标准差并进行比较分析。

4.2. 参数敏感性分析

为验证关键参数在不同取值下对算法性能的影响,本文通过对Q学习的关键参数进行敏感性分析,进行分析的参数为:贪婪值 g 、学习率 lr 和衰减率 dr ,分别设值如下: g{ 0.1,0.9,1 } lr{ 0.01,0.1,0.5 } drϵ{ 0.01,0.25,0.5 } ,分别取单峰函数F3,多峰函数F12、F20以及混合函数F27,进行分别独立运行30次,将运行结果的每个函数进行Friedman排名,最后将排名结果相加,实验结果如图2所示。

Figure 2. Convergence curve of QLAB-PO under 12 test functions

2. QLAB-PO在12个测试函数下的收敛曲线

当贪婪值 g=0.9 、学习率 lr=0.1 和衰减率 dr=0.25 时,算法在所选函数中排名最佳,所选参数具有一定合理性。

4.2. 算法结果分析

表1中可以看出,QLAB-PO算法在大多数测试函数上均取得了较高的排名且在绝大多数函数上获得了最小平均值,特别是通过Wilcoxon秩与原来的PO算法相比其在所有测试函数上取得更好的结果,尤其在测试函数F23到F29均取得最优值,且观察到符号“+”和“≈”总的出现频率远远高于符号“−”,可见QLAB-PO算法的性能优势明显,表明其具有更强的全局搜索能力和逃离局部最优的能力,在绝大多数测试函数上均显著优于其他对比算法。实验结果的最优值、最差值、平均值和标准差见附录表A1

Table 1. Results of QLAB-PO compared with other algorithms under the CEC2017 test function

1. QLAB-PO在CEC2017测试函数下与其他算法比较的结果数据

QLAB-PO

PO

PSO

GWO

WOA

MFO

平均水平

1.3333

4.6333

3.1667

2.9333

4.1333

4.8000

平均结果

1

5

3

2

4

6

+/−/≈

~

30/0/0

28/1/1

20/3/7

28/0/2

30/0/0

Figure 3. Convergence curve of QLAB-PO under 12 test functions

3. QLAB-PO在12个测试函数下的收敛曲线

4.3. 收敛曲线分析

图3显示了各算法在部分代表性测试函数上的收敛曲线。可以看出,QLAB-PO算法的收敛速度明显快于其他对比算法,且能够收敛到更优的解。尤其在F12函数中QLAB-PO能在前期跳出局部最优,快速向全局最优收敛。这得益于Q学习机制的自适应行为选择能力,使算法能够根据搜索状态动态调整搜索策略,使得在各种环境下在保证探索能力的同时加快收敛。

5. 结论

本文针对鹦鹉优化算法在复杂优化问题中存在的探索与开发平衡能力不足、易陷入局部最优等局限性,提出了一种基于Q学习的自适应行为选择鹦鹉优化算法。该算法创新性地将强化学习中的Q学习机制引入元启发式算法框架,通过构建行为选择Q表,使算法能够根据当前搜索状态自适应地选择相应的行为策略,从而实现了搜索过程中探索与开发的动态平衡。

在算法设计方面,QLAB-PO在原始PO算法的基础上添加了两种新的行为模式,丰富了算法的搜索策略多样性。通过Q学习机制,算法能够根据历史搜索经验动态评估不同行为策略的效用,并实时调整行为选择概率,使算法在搜索初期倾向于全局探索,而在搜索后期逐渐转向局部开发,算法实现了从静态预设策略到动态自适应策略的转变,这种数据驱动的行为选择方式不仅提升了算法的优化性能,也增强了其对不同问题特征的适应能力。同时,为避免Q表陷入局部最优导致的早熟收敛问题,本文设计了Q表重置机制,当检测到算法停滞时自动重置Q值,重新激发算法的探索能力,有效增强了算法的全局搜索性能和鲁棒性,为解决强化学习中常见的探索–利用困境提供了有效解决方案。

在30个标准测试函数上的实验结果表明,QLAB-PO算法在收敛速度和求解精度上均显著优于原始PO算法及其他比较算法。

尽管QLAB-PO算法在标准测试函数上取得了良好的优化效果,但仍存在进一步研究的空间。未来的研究方向包括:(1) 将QLAB-PO算法应用于实际工程优化问题;(2) 探索深度强化学习在元启发式算法中的应用;(3) 研究多目标优化场景下的自适应行为选择策略。

附 录

Table A1. The algorithm’s min, max, mean, and std deviation under the CEC2017 test function.

A1. 算法在CEC2017测试函数下最优值、最差值、平均值和标准差

F

算法

max

min

mean

std

F1

QLAB-PO

8.1935e+03

106.9440

2.2506e+03

2.3716e+03

PO

2.2629e+10

2.9182e+09

8.6303e+09

4.6191e+09

PSO

1.6176e+08

1.1190e+08

1.4218e+08

1.3907e+07

GWO

9.4274e+09

2.0363e+08

3.7214e+09

2.8588e+09

WOA

3.8731e+07

1.0432e+06

4.2271e+06

7.1002e+06

MFO

2.6353e+10

4.1003e+09

1.1275e+10

5.8986e+09

F2

QLAB-PO

47704

200

3.1187e+03

8.5648e+03

PO

3.0436e+34

2.9722e+26

3.8233e+33

8.2696e+33

PSO

4.5540e+13

1.0853e+11

5.4389e+12

9.9170e+12

GWO

3.2153e+30

1.0776e+21

1.5350e+29

5.9202e+29

WOA

2.4182e+30

1.0464e+19

8.5389e+28

4.4081e+29

MFO

1.5769e+46

9.1367e+19

5.2574e+44

2.8790e+45

F3

QLAB-PO

333.0741

300.0000

301.1211

6.0351

PO

1.0212e+05

5.7963e+04

8.1486e+04

1.1941e+04

PSO

710.8866

507.2297

629.0236

50.0109

GWO

5.3901e+04

1.8751e+04

3.4572e+04

8.9307e+03

WOA

2.1515e+04

5.5587e+03

1.2918e+04

4.2689e+03

MFO

2.2539e+05

300.0161

8.2837e+04

5.8207e+04

F4

QLAB-PO

576.3473

403.0448

486.5533

33.2439

PO

1.7400e+03

760.6752

1.0001e+03

192.4865

PSO

570.9180

429.1258

463.9561

38.0928

GWO

784.6621

512.4687

624.0825

63.0212

WOA

673.5329

483.8582

566.6120

50.6874

MFO

3.8655e+03

482.0224

1.4236e+03

968.3716

F5

QLAB-PO

687.0510

556.7126

608.7710

39.0505

PO

821.7481

665.5382

736.1092

33.7079

PSO

749.5936

643.5961

693.7975

26.6118

GWO

628.1663

559.4776

593.9754

20.0432

WOA

842.6370

597.2988

701.5574

59.1326

MFO

827.9336

603.4754

723.0041

48.0801

F6

QLAB-PO

637.8936

600.5817

612.5202

10.3125

PO

681.1837

646.1720

661.3695

7.1788

PSO

654.0375

612.7894

635.8213

11.0898

GWO

614.0044

601.0496

606.8324

3.4444

WOA

681.4639

644.7239

660.8823

9.9258

MFO

670.1268

618.9526

640.0859

13.2450

F7

QLAB-PO

1.1133e+03

792.6027

880.5685

89.8227

PO

1.4918e+03

1.1115e+03

1.3056e+03

90.3724

PSO

940.7456

894.8272

918.9639

13.2737

GWO

984.4907

803.2854

876.3544

48.4584

WOA

1.5642e+03

1.0791e+03

1.2702e+03

114.6288

MFO

1.5262e+03

920.1629

1.1734e+03

167.3643

F8

QLAB-PO

999.9847

843.7781

907.4637

49.8873

PO

1.2511e+03

1.0307e+03

1.1201e+03

44.8746

PSO

1.2094e+03

981.4720

1.0637e+03

48.4003

GWO

978.9859

849.2967

898.2341

33.8720

WOA

1.2179e+03

1.0254e+03

1.1089e+03

53.8430

MFO

1.0821e+03

913.4248

994.0077

44.5004

F9

QLAB-PO

5.2425e+03

1.0532e+03

2.2126e+03

1.3992e+03

PO

1.2451e+04

6.9112e+03

9.0465e+03

1.5729e+03

PSO

1.0832e+04

978.4272

5.9349e+03

2.1124e+03

GWO

5.5362e+03

1.3072e+03

2.5549e+03

1.0342e+03

WOA

2.1417e+04

4.3794e+03

9.3475e+03

3.8310e+03

MFO

1.3831e+04

2.7749e+03

7.8965e+03

2.7865e+03

F10

QLAB-PO

5.8971e+03

2.6458e+03

4.3284e+03

704.8629

PO

8.2572e+03

5.3702e+03

7.0876e+03

657.4708

PSO

7.5796e+03

4.4930e+03

5.6192e+03

686.3673

GWO

7.5579e+03

2.5953e+03

3.8077e+03

880.6037

WOA

6.9944e+03

4.6710e+03

6.0020e+03

738.0995

MFO

6.9756e+03

3.5197e+03

5.1139e+03

770.4340

F11

QLAB-PO

1.3448e+03

1.1280e+03

1.2148e+03

54.4480

PO

8.4491e+03

2.7522e+03

5.3824e+03

1.3385e+03

PSO

1.4555e+03

1.2885e+03

1.3634e+03

44.7584

GWO

9.8968e+03

1.4019e+03

3.3124e+03

2.2445e+03

WOA

1.7557e+03

1.3443e+03

1.5095e+03

105.1521

MFO

3.2967e+04

1.5723e+03

9.1750e+03

9.0057e+03

F12

QLAB-PO

3.4882e+05

3.2765e+03

5.5539e+04

7.2316e+04

PO

1.4010e+09

1.7320e+08

5.8037e+08

3.2477e+08

PSO

1.5399e+08

3.1226e+07

7.6727e+07

2.8460e+07

GWO

1.8120e+08

6.7829e+07

1.3560e+08

2.5994e+07

WOA

2.4835e+08

4.7754e+06

1.2177e+08

6.4637e+07

MFO

3.3798e+09

1.0948e+06

6.2345e+08

8.1654e+08

F13

QLAB-PO

9.5927e+03

1.6662e+03

3.7888e+03

1.8665e+03

PO

1.7620e+08

2.2858e+05

4.1311e+07

4.4538e+07

PSO

4.9241e+06

9.0393e+05

2.6379e+06

7.9145e+05

GWO

7.6351e+07

5.6123e+04

1.6335e+07

2.6848e+07

WOA

4.3052e+05

1.8951e+04

1.1961e+05

1.1072e+05

MFO

1.3363e+09

1.2477e+04

1.2471e+08

3.5586e+08

F14

QLAB-PO

1.7084e+03

1.4854e+03

1.5816e+03

48.2553

PO

2.6141e+06

2.7936e+04

8.9729e+05

7.5399e+05

PSO

9.9825e+04

6.7693e+03

3.3298e+04

2.1146e+04

GWO

3.6999e+05

1.8528e+03

1.1036e+05

1.3347e+05

WOA

8.0201e+05

9.3504e+03

2.7421e+05

2.0045e+05

MFO

1.3918e+07

1.7564e+03

6.5004e+05

2.5429e+06

F15

QLAB-PO

7.6112e+03

1.6042e+03

2.6713e+03

1.2499e+03

PO

1.4239e+06

4.2314e+04

3.0920e+05

3.6134e+05

PSO

5.6153e+05

2.5786e+04

3.0643e+05

1.3491e+05

GWO

6.0086e+04

6.0272e+03

2.0300e+04

1.3900e+04

WOA

4.0809e+05

4.6118e+03

6.4055e+04

8.5331e+04

MFO

1.2616e+05

4.4765e+03

3.7038e+04

2.9130e+04

F16

QLAB-PO

3.2327e+03

1.7497e+03

2.4072e+03

348.9439

PO

4.4104e+03

2.8223e+03

3.5670e+03

513.0583

PSO

3.2105e+03

2.3512e+03

2.7129e+03

220.2373

GWO

2.6790e+03

1.8655e+03

2.2090e+03

238.4371

WOA

4.0808e+03

2.1840e+03

3.0892e+03

460.3610

MFO

4.2179e+03

2.5282e+03

3.1992e+03

401.8000

F17

QLAB-PO

2.3400e+03

1.7657e+03

1.9234e+03

140.3771

PO

3.4685e+03

2.2257e+03

2.6935e+03

351.8547

PSO

3.0518e+03

2.0030e+03

2.4282e+03

241.7692

GWO

2.1353e+03

1.7808e+03

1.9525e+03

94.5629

WOA

3.2994e+03

2.1782e+03

2.6775e+03

310.8352

MFO

2.9858e+03

2.1330e+03

2.4906e+03

213.8843

F18

QLAB-PO

9.8719e+04

6.4526e+03

2.5313e+04

1.8491e+04

PO

1.4155e+07

2.8816e+05

4.7036e+06

3.6042e+06

PSO

1.3279e+05

3.4553e+04

7.0290e+04

2.5945e+04

GWO

2.4903e+06

2.0872e+04

5.4854e+05

6.8871e+05

WOA

1.2151e+07

2.5262e+05

2.9940e+06

2.5881e+06

MFO

4.4195e+06

1.6337e+04

5.2106e+05

1.0483e+06

F19

QLAB-PO

1.2956e+04

1.9792e+03

4.0392e+03

2.8661e+03

PO

1.0491e+07

1.2028e+05

2.7714e+06

2.8372e+06

PSO

1.0683e+06

1.3415e+05

4.0662e+05

2.3025e+05

GWO

9.3095e+06

2.7547e+03

3.7550e+05

1.6909e+06

WOA

3.0790e+06

3.9782e+03

7.2407e+05

7.5010e+05

MFO

7.3032e+06

2.0787e+03

7.6809e+05

2.2164e+06

F20

QLAB-PO

2.7834e+03

2.1340e+03

2.4731e+03

154.8161

PO

3.1908e+03

2.4672e+03

2.8135e+03

177.9018

PSO

2.9590e+03

2.3465e+03

2.6149e+03

180.4662

GWO

2.7567e+03

2.1631e+03

2.3575e+03

155.5425

WOA

3.0413e+03

2.5007e+03

2.7439e+03

139.6758

MFO

3.3013e+03

2.3337e+03

2.7106e+03

222.2927

F21

QLAB-PO

2.2508e+03

2.1689e+03

2.2205e+03

32.0878

PO

3.0059e+03

2250

2.5430e+03

250.6095

PSO

2.2737e+03

2.1325e+03

2.2057e+03

47.4276

GWO

2.5319e+03

2.2089e+03

2.2944e+03

64.0750

WOA

2.3158e+03

2.2023e+03

2.2608e+03

23.6324

MFO

6.2139e+03

2.1878e+03

2.7776e+03

873.8728

F22

QLAB-PO

2.4527e+03

2.2507e+03

2.3259e+03

44.0384

PO

2.5655e+03

2350

2.4410e+03

71.5019

PSO

2.4878e+03

2.3500e+03

2.4041e+03

44.0978

GWO

2.3500e+03

2.2664e+03

2.3129e+03

31.4122

WOA

2.6352e+03

2.3227e+03

2.4144e+03

76.2963

MFO

2.5014e+03

2.3300e+03

2.3938e+03

43.6225

F23

QLAB-PO

2500

2500

2500

0

PO

2.5000e+03

2.5000e+03

2.5000e+03

3.1101e-04

PSO

5.4168e+03

3.2107e+03

4.6205e+03

511.2225

GWO

3.0130e+03

2.8299e+03

2.8804e+03

41.8703

WOA

3.4635e+03

2.9537e+03

3.1264e+03

125.7941

MFO

3.0197e+03

2.9344e+03

2.9710e+03

22.8556

F24

QLAB-PO

2600

2600

2600

0

PO

2.6000e+03

2600

2.6000e+03

5.6295e-04

PSO

2.6723e+03

2.6617e+03

2.6676e+03

2.4404

GWO

3.5568e+03

2.6000e+03

3.0579e+03

344.1775

WOA

3.8600e+03

2600

2.8330e+03

474.3684

MFO

3.5774e+03

3.4336e+03

3.5028e+03

37.3300

F25

QLAB-PO

2700

2700

2700

0

PO

2.7000e+03

2700

2.7000e+03

0.0070

PSO

3.3204e+03

2.9166e+03

2.9576e+03

77.6828

GWO

3.4217e+03

3.0760e+03

3.1960e+03

84.5995

WOA

3.0776e+03

2700

2.7249e+03

94.8383

MFO

6.2388e+03

2.9197e+03

3.5817e+03

802.9432

F26

QLAB-PO

2800

2800

2800

0

PO

2.8000e+03

2800

2.8000e+03

0.0084

PSO

3.4580e+03

3.0283e+03

3.3845e+03

72.6427

GWO

6.2244e+03

2.8000e+03

5.2422e+03

764.5287

WOA

1.0005e+04

2800

3.8324e+03

2.3744e+03

MFO

7.8021e+03

5.6375e+03

6.5737e+03

556.3917

F27

QLAB-PO

2900

2900

2900

0

PO

2.9000e+03

2900

2.9000e+03

0.0024

PSO

6.5863e+03

3.1815e+03

4.7559e+03

873.9973

GWO

3.9800e+03

3.4851e+03

3.6999e+03

127.3991

WOA

4.3937e+03

3.5638e+03

3.9288e+03

200.1890

MFO

3.9630e+03

3.4845e+03

3.6089e+03

103.6543

F28

QLAB-PO

3000

3000

3000

0

PO

3.0001e+03

3000

3.0000e+03

0.0242

PSO

3.3807e+03

3.2355e+03

3.2951e+03

39.3830

GWO

5.2931e+03

3.3259e+03

3.8216e+03

536.0915

WOA

5.2340e+03

3000

3.1445e+03

419.6155

MFO

6.0632e+03

3.1554e+03

5.1195e+03

568.0444

F29

QLAB-PO

3100

3100

3100

0

PO

3.1001e+03

3100

3.1000e+03

0.0363

PSO

4.5440e+03

3.4926e+03

4.0144e+03

281.8470

GWO

3.8550e+03

3.2779e+03

3.5266e+03

154.3573

WOA

5.5377e+03

3100

4.3379e+03

505.7328

MFO

4.5205e+03

3.5798e+03

4.1085e+03

239.1453

F30

QLAB-PO

2.9121e+04

3200

4.9043e+03

5.3401e+03

PO

7.1294e+05

3.2000e+03

2.7808e+04

1.2945e+05

PSO

4.9612e+06

1.2975e+06

2.6436e+06

1.0931e+06

GWO

9.0416e+06

1.6328e+04

8.0935e+05

1.7230e+06

WOA

3.7776e+07

3200

3.3056e+06

6.8473e+06

参考文献

[1] Macready, W.G. and Wolpert, D.H. (1996) What Makes an Optimization Problem Hand? Complexity, 1, 40-46. [Google Scholar] [CrossRef
[2] Kennedy, J. and Eberhart, R. (1995) Particle Swarm Optimization. Proceedings of ICNN’95—International Conference on Neural Networks, Vol. 4, 1942-1948. [Google Scholar] [CrossRef
[3] Mirjalili, S., Mirjalili, S.M. and Lewis, A. (2014) Grey Wolf Optimizer. Advances in Engineering Software, 69, 46-61. [Google Scholar] [CrossRef
[4] Mirjalili, S. and Lewis, A. (2016) The Whale Optimization Algorithm. Advances in Engineering Software, 95, 51-67. [Google Scholar] [CrossRef
[5] Lian, J., Hui, G., Ma, L., Zhu, T., Wu, X., Heidari, A.A., et al. (2024) Parrot Optimizer: Algorithm and Applications to Medical Problems. Computers in Biology and Medicine, 172, Article ID: 108064. [Google Scholar] [CrossRef] [PubMed]
[6] Watkins, C.J.C.H. and Dayan, P. (1992) Q-Learning. Machine Learning, 8, 279-292. [Google Scholar] [CrossRef
[7] Yang, Y., Gao, Y., Ding, Z., Wu, J., Zhang, S., Han, F., et al. (2024) Advancements in Q‐Learning Meta‐Heuristic Optimization Algorithms: A Survey. WIREs Data Mining and Knowledge Discovery, 14, e1548. [Google Scholar] [CrossRef
[8] Li, Y., Wang, H., Fan, J. and Geng, Y. (2022) A Novel Q-Learning Algorithm Based on Improved Whale Optimization Algorithm for Path Planning. PLOS ONE, 17, e0279438. [Google Scholar] [CrossRef] [PubMed]
[9] Meerza, S.I.A., Islam, M. and Uzzal, M.M. (2019) Q-Learning Based Particle Swarm Optimization Algorithm for Optimal Path Planning of Swarm of Mobile Robots. 2019 1st International Conference on Advances in Science, Engineering and Robotics Technology (ICASERT), Dhaka, 3-5 May 2019, 1-5. [Google Scholar] [CrossRef
[10] Kazikova, A., Pluhacek, M. and Senkerik, R. (2018) Performance of the Bison Algorithm on Benchmark IEEE CEC 2017. In: Silhavy, R., Ed., Artificial Intelligence and Algorithms in Intelligent Systems, Springer International Publishing, 445-454. [Google Scholar] [CrossRef
[11] Zhao, W., Wang, L., Zhang, Z., Mirjalili, S., Khodadadi, N. and Ge, Q. (2023) Quadratic Interpolation Optimization (QIO): A New Optimization Algorithm Based on Generalized Quadratic Interpolation and Its Applications to Real-World Engineering Problems. Computer Methods in Applied Mechanics and Engineering, 417, Article ID: 116446. [Google Scholar] [CrossRef
[12] 高鑫宇. 基于自适应知识迁移的多因子进化算法研究与应用[D]: [硕士学位论文]. 西安: 西安理工大学, 2024.
[13] Mirjalili, S. (2015) Moth-Flame Optimization Algorithm: A Novel Nature-Inspired Heuristic Paradigm. Knowledge-Based Systems, 89, 228-249. [Google Scholar] [CrossRef