基于双Q学习算法的可重入混合流水晶圆车间调度与维护联合优化研究

doi:10.12677/mos.2024.136587

期刊菜单

基于双Q学习算法的可重入混合流水晶圆车间调度与维护联合优化研究
Research on Joint Optimization of Scheduling and Maintenance of Crystal Circle Shop for Re-Entrant Hybrid Flow Based on Double Q Learning Algorithm

DOI: 10.12677/mos.2024.136587, PDF, HTML, XML, 国家自然科学基金支持
作者: 王艺蜚, 刘勤明^*, 叶春明, 汪宇杰：上海理工大学管理学院，上海；倪静然：北部湾大学东密歇根联合工程学院，广西钦州
关键词: 可重入调度模型；双Q学习；多目标优化模型；设备役龄；可重入设备维护模型；Reentrant Scheduling Constraint Model； Double-Q Learning； Multi-Objective Model； Service Age； Reentrant Equipment Maintenance Model

摘要: 针对可重入晶圆车间调度与预维护问题的复杂性，以及近年来人工智能算法的飞速发展和启发式算法在优化复杂生产系统上的不足，本文提出了一种基于双Q学习的可重入晶圆车间调度与维护联合优化模型。首先，考虑到可重入工序的影响，在调度阶段建立可重入调度约束模型。考虑可重入工序以及设备维护后的役龄更新对设备维护频次的影响，并通过设立维护阈值来对设备进行预维护以及机会维护，建立考虑役龄更新的可重入晶圆车间设备维护模型。其次，结合实际生产系统中多因素的影响，以最小完工时间、最低能源消耗以及最低总维护成本为目标函数进行多目标优化。最后，以生产数据为基础，通过双Q学习算法来定义状态和动作，并设置建立奖励函数，采用贪婪策略随机选择动作来跳出局部最优，并通过调整役龄更新因子来进行灵敏度分析验证算法的鲁棒性。经过结果分析以及对比分析，基于双Q学习算法所建立模型的结果均取得了较好的优化结果，并且具有较强的鲁棒性，证明了所提出的基于双Q学习算法的可重入晶圆车间调度与维护联合优化模型的有效性。

Abstract: Due to the complexity of reentrant wafer workshop scheduling and preventive maintenance issues, as well as the rapid development of artificial intelligence algorithms in recent years and the limitations of heuristic algorithms in optimizing complex production systems, this paper proposes a reentrant wafer shop scheduling and maintenance joint optimization model based on double-Q learning. First, considering the influence of reentrant processes, a reentrant scheduling constraint model is established in the scheduling stage. Considering the influence of reentrant process and service age update after equipment maintenance on equipment maintenance frequency, and setting up maintenance thresholds for pre-maintenance and opportunity maintenance of equipment, a reentrant wafer shop equipment maintenance model considering service age update is established. Secondly, the minimum completion time, minimum energy consumption and minimum total maintenance cost are taken as the objective functions for multi-objective optimization, taking into account the influence of multiple factors in the actual production system. Finally, based on the production data, the double-Q learning algorithm is used to define the states and actions, and the reward function is set up to establish a greedy strategy to randomly select the actions to jump out of the local optimum, and the sensitivity analysis is carried out by adjusting the service age update factor to verify the robustness of the algorithm. After the result analysis and comparative analysis, the results have achieved better optimization results and have strong robustness, which proves the effectiveness of the proposed re-entry wafer shop scheduling and maintenance joint model.

文章引用：王艺蜚, 刘勤明, 倪静然, 叶春明, 汪宇杰. 基于双Q学习算法的可重入混合流水晶圆车间调度与维护联合优化研究[J]. 建模与仿真, 2024, 13(6): 6416-6431. https://doi.org/10.12677/mos.2024.136587

1. 引言

随着半导体行业的快速发展，晶圆生产车间对生产调度和设备维护提出了更高的要求。传统的调度模型难以应对晶圆生产中复杂的可重入工序，这增加了调度和设备维护的难度，降低了生产效率。同时，随着十四五节能减排工作的发布的提出，降低能耗也成为生产中的关键目标。可重入生产车间的调度与维护方法因其灵活性已在半导体等领域得到广泛应用。晶圆生产作为可重入混合流水车间问题(Reentrant Hybrid Flow Shop, RHFS)的典型案例，其复杂性远超传统调度问题，并且是NP难问题。晶圆生产涉及多次重复的高精度工序，不同层次的工件竞争同一设备，增加了不确定性并影响系统稳定性。设备维护频率和故障情况也显著影响生产效率，因此制定高效的设备维护计划具有重要的现实意义。

对于RHFS调度与维护问题，已经有国内外学者进行了相关研究。目前研究方式主要分为两种，一种是调度与维护单独研究，另一种是调度与维护联合优化。在调度方面，吴秀丽[1]提出了一种带精英调整的学习型迭代贪婪算法，并针对可重入混合流水车间的重入特性插入有效性判断，提高了算法的运行速度。董君[2]提出改进多元宇宙优化算法用于求解三目标半导体晶圆车间调度问题。雷德明[3]针对可重入混合流水车间调度问题，提出一种协作蛙跳算法，以同时最小化最大完成时间和总延迟时间。在设备维护方面，Siraskar [4]采用强化学习解决预测性维护中的复杂任务优化问题，提高维护决策效果。Chen [5]采用深度强化学习优化可修复多状态系统的动态加载策略，提升维护效率。赵子夜[6]提出了一种改进的双种群协同进化算法，该算法采用混合初始化方法生成高质量初始种群，并利用结合变邻域搜索和正交学习的混合局部搜索策略提高算法性能。江雨燕[7]提出了一种改进的NSGA-II算法用于求解该模型，采用基于工序、机器和预维护的三层编码方式，设计了考虑工序分配、机器选择以及机器预维护策略的同步解码方案。Li [8]基于广义几何过程，建立了顺序预防性维护优化模型。研究表明，如果不考虑预防性维护效果的差异，整体维护成本率将被低估。Yu [9]考虑装配构件的生产过程特点和以可靠性为中心的维护，建立了非周期性预防性维护生产调度的联合优化模型。Kung [10]提出了基于禁忌搜索算法的预防性维护与作业调度联合优化模型。上述调度与维护的文献虽然对目标优化也有较好的结果，但是对可重入工序对调度与维护影响的考虑还有所欠缺，并且大多数研究基于启发式算法求解模型，在处理复杂生产系统时的效率以及鲁棒性还有所不足。

因此，本文提出了一种基于双Q学习算法的可重入混合流水晶圆车间调度与维护联合优化模型，考虑了可重入工序以及生产环境对调度与维护产生的影响，通过对算法进行算例分析、结果对比以及灵敏度分析来证明方法的可行性。将可重入工序的影响考虑到调度的过程中，建立可重入晶圆车间调度模型。采用预维护的维护策略，考虑晶圆可重入因素以及设备役龄更新对设备健康以及维护频率的影响，并设立阈值来对设备是否进行维护以及维护类型进行决策，建立可重入晶圆车间设备维护模型。在上述模型的基础上，以最小完工时间、能源消耗以及维护总成本为优化目标建立多目标可重入晶圆车间维护与调度联合优化模型。最后，采用双Q学习算法对模型进行求解，并通过贪婪策略随机选择概率避免局部最优，再通过灵敏度分析来测试算法在环境因素波动下的鲁棒性，完成对多目标的优化。

2. 问题描述

在面向晶圆生产车间的RHFS问题的详细流程如图1所示，描述如下：假设有n个工件，每一个工件必须在s个生产阶段上进行加工，并且每个生产阶段至少有一个机台，每个工件可以根据工序需要在对应的生产阶段选择任意的机台进行加工，同一生产阶段的机台加工时间一致，每个工件都可根据需要在任意生产阶段进行重入式加工。

Figure 1. Hybrid flow shop diagram

图1. 混合流水车间示意图

问题需满足以下假设：a) 每个工件都独立于任何其他作业；b) 当车间调度开始时，所有工件都准备好可使用，全部机台均可持续处理作业；c) 每个工件之间的加工顺序没有先后约束，但是每个工件的所有工序有先后约束，一旦机台开始加工作业，工件必须不间断地完成，若该工件加工工序的下一生产阶段的所有机台均不可用，则允许工件在缓冲空间中等待加入该生产阶段的机台的队列；d) 任何时候，每台机台最多只能处理加工一个工件，每个工件最多只能在同一生产阶段的一个机台上处理。

3. 数学模型

3.1. 可重入混合流水晶圆车间调度约束模型

假设j代表工件编号，k表示工序编号，i代表生产阶段或加工段编号，l代表机台的编号。为确保工件完工时必须早于开始或等于开始时间，则要满足：完成时间 $C_{i j k l}$ 必须满足：

$S_{i j k l} \geq \max {r_{j}, \max (C_{(i - 1) j (k - 1) (l - 1)} + d_{i j (k - 1) l}), \max (C_{i (j - 1) k l} + q_{j (j - 1) k l})} + g_{i j l k}$ (1)

$C_{i j k l} = S_{i j k l} + p_{i j k l} + \sum_{w = 1}^{w} s_{i j k l w} + \sum_{l = 1}^{l - 1} (e_{i j k (l - 1)} + t_{i (j k) (l - 1) l}), \forall w \leq W_{j k}$ (2)

其中 $S_{i j k l}$ 是工件j在机器l，生产阶段i，工序k的开始时间。r_j是工件j的到达时间，或者可以开始加工的最早时间。 $C_{(i - 1) (k - 1) (l - 1)}$ 表示在当前工件j的当前工序k开始之前，同一个工件在前一工序k − 1的完成时间。 $d_{i j (k - 1) l}$ 代表完成前一工序k−1后，在生产阶段i的机台l上进行设置或准备下一个工序k所需要的延迟时间。 $C_{i (j - 1) k l}$ 表示在同一机台l上，前一个工件j − 1的同一工序k的完成时间。 $p_{i j k l}$ 表示工件j的工序k在生产阶段i的机台l上的加工时间。 $S_{i j k l w}$ 表示工件j的工序k在生产阶段i的机台l上第w次重入所需时间。 $e_{i j k (l ’ - 1)}$ 表示工件j的工序k在生产阶段i的机台i − 1上的结束时间。 $t_{i j k (l - 1) l}$ 表示工件j的工序k从生产阶段i的机台l − 1转移到机台l所需的时间 $d_{i j k (l - 1) l}$ 表示工件j在i阶段完成k − 1工序后的延迟时间。 $q_{i (j - 1) k l}$ 表示工件j − 1的工序k与工件j的工序k在机台l上的队列等待时间。 $g_{i j k l}$ 工件j的工序k在生产阶段i的机台l上因优先级或截止时间调整而引入的时间间隔。 $W_{j k}$ 表示工件j的工序k需要在机台上重入的次数。

$r_{i j k l}$ 时表示工件 $O_{i j}$ 在加工段i机器l上加工，否则等于0确保任何操作都可以在相应的加工段的一台机器上处理。并确保任何工位中的每台机器最多只能同时处理一项操作。

$\forall l, \forall k, \sum_{i, j} x_{i j l k} \leq 1$ (3)

$\forall l, \forall t, m_{l t} = 1 \Rightarrow \sum_{i, j} x_{i j l t} = 0$ (4)

$m_{l t}$ 来表示在时间t和机器l是否处在维护或故障状态。如果机器l在时间t正在维护或故障，则 $m_{l t} = 1$ ；否则为0。 $x_{i j l t}$ 是一个决策变量，表示在时间t工件是否在加工段i机器l上进行工序j的加工，如果是则等于1，否则为0。如果已知机器的维护计划可以将这些时间点的 $m_{l t}$ 设为1。基于机器使用历史和故障率，可以预测机器可能出现故障的时间，据此安排维护，将相应的 $m_{l t}$ 设为1。

$f_{i k} + t_{i k} \leq w_{i (k + 1)} + M (1 - x_{i (k + 1) j})$ (5)

确保了如果工件在一个工序完成后不能立即在下个工序的机台上进行加工(因为机台不可用)，它可以在缓冲区等待，直到机台可用这种约束通常在有连续加工需求的生产系统中使用，如流水线生产。M为足够大的常数，保证当 $x_{i (k + 1) j} = 0$ 时约束不起作用。机器的实际处理时间由以下公式计算。

$T_{i j k l} = {\bar{T}}_{i j k l} \times (1 + δ) + t_{ω}$ (6)

式中 $T_{i j l k}$ 是 $O_{i j}$ 的实际处理时间， $T_{i j l k}$ 是 $O_{i j}$ 的标准处理时间， $t_{ω}$ 是处理 $O_{i j}$ 前的等待时间， $δ$ 是退化因子。假设每个工位具有相同序列号的机器的退化因子相同。

上述公式保证了工件在每个生产阶段的连续性和时间约束，同时也考虑了不同工序间的衔接问题。工件的完工时间不仅受到当前工序加工时间的影响，还受到前一工序完成时间以及生产阶段切换所需的准备时间的制约。因此，公式中的变量不仅反映了工件在单一阶段的加工状态，还综合考虑了跨阶段的时间协调。

3.2. 可重入混合流水晶圆车间设备维护模型

在实际生产应用中，倾向于用双参数威布尔分布描述机器的失效规律，双参数威布尔分布的公式由密度函数(PDF)和累积分布函数(CDF)如下所示：

$\begin{array}{l} f (t; β, η) = \frac{β}{η} {(\frac{t}{η})}^{β - 1} e^{- {(t / η)}^{β}}, t \geq 0 \\ F (t; β, η) = 1 - e^{- {(t / η)}^{β}}, t \geq 0 \end{array}$ (7)

式中t表示时间， $β$ 表示形状参数，决定了分布的形状； $η$ 表示尺度参数，决定了分布的尺度。故障率函数(hazard function)可以从PDF和CDF导出，表示在时间t的瞬时故障率：

$h (t; β, η) = \frac{f (t; β, η)}{1 - F (t; β, η)} = \frac{β}{η} {(\frac{t}{η})}^{β - 1}$ (8)

在这个表达式中，可靠性随时间的减少速度取决于 $β$ 和 $η$ 的值。

设备在时间区间 $([0, T])$ 内的期望故障次数可以通过积分故障率函数获得：

$E [N (T)] = \int_{0}^{T} h (t; β; η) d t$ (9)

考虑使用频率和性能退化的维护时间表达式：

${t^{'}}_{m} = t_{m} \times (1 - δ)$ (10)

${t^{'}}_{m}$ 是考虑性能退化后的调整维护时间点， $δ$ 是性能退化因子，其值根据设备的具体情况而定。

本文计划采取非完美性维护的方式对设备进行预维护。本文的预防性机会维护策略可描述为：当有设备完工时，将此时该设备可靠度与预防性维护可靠度阈值进行对比，设备可靠度小于或等于设定的预防性维护可靠度阈值时进行维护操作，同时，其他设备停机并与设定的机会维护可靠度阈值进行对比，判定是否一同进行维护操作。在某个工序完工时刻，有 $R_{j l} (t) \leq R^{p t}$ ，则有调度的决策变量 $β_{l t} = 1$ 。

$β_{t l} = {\begin{cases} 1 R_{l} (t_{l}) \leq R^{o t} \\ 0 R_{l} (t_{l}) > R^{o t} \end{cases} \forall y$ (11)

$R^{p t}$ 是决策变量，表示设备预防性维护阈值； $R^{o t}$ 设备机会维护阈值。 $β_{l t}$ 为设备的状态因子，表示机台l在t时刻是否进行维护；设备状态因子 $β_{l t}$ 表示系统第n次停机维护时，设备l是否进行维护活动。

在对系统进行第n次停机维护后，根据设备状态因子更新第n次维护后，当 $β_{l t} = 0$ ，即第n次系统维护时，设备l不进行维护；当 $β_{l t} = 1$ ，即第n次系统维护时，设备l进行维护操作：

$t_{l}^{a g e} = T_{l}^{a g e}$ $t_{l}^{a g e} = ε_{x} T_{l}^{a g e}$ (12)

$t_{l}^{a g e}$ 表示机台l在t时刻的役龄， $ε_{x}$ 为设备的役龄改善因子，用来描述设备非完美维护后的可靠度变换情况，同工序内设备的 $ε_{x}$ 相同且为定值， $0 < ε_{x} < 1$ 。

在原生产调度计划中加入设备预防性维护策略后，每次系统停机维护后都需要对工序开始时间 $S_{i j k l}$ 与工序完成时间 $C_{i j k l}$ 进行更新。

$\begin{array}{l} S_{i j k l} = {\begin{array}{l} S_{i j k l} + T^{m} & if T_{n} \leq S_{i j k l} \\ S_{i j k l} & 其他情 � \end{array} \\ C_{i j k l} = {\begin{array}{l} C_{i j k l} + T^{m} & if T_{n} < C_{i j k l} \\ C_{i j k l} & 其他情 � \end{array} \end{array}$ (13)

T^m表示设备平均维护时间，T_n表示系统第n次预防性维护的时刻。

3.3. 联合优化模型构建

本文旨在研究可重入晶圆生产车间的最大完工时间最小化、总维修成本最小、和总能耗最小，优化目标为 $\min (f_{T}, f_{C}, f_{E})$ 其中 $f_{T}$ 为完工时间， $f_{C}$ 为总维护成本， $f_{E}$ 为总维护能耗。

$f_{T} = \sum_{j = 1}^{n} C_{j}$ (14)

$C_{j} = \max (r_{j}, \min_{i = 1}^{m} {\sum_{k = 1 w = 1}^{o} \sum_{j (k - 1) w}^{W_{j}} + s_{i l} + e_{j k w} + τ_{j k w} + {τ^{'}}_{j k w}})$ (15)

对于每个工件j的每个工序k，其重入次数需要满足：

$\sum_{w = 1}^{W_{j}} w e_{j k w} = w_{j k}, \forall k \in O_{j}, \forall j \in M$ (16)

$r_{j}$ ：工件j的到达时间或可以开始加工的最早时间。m：机器的总数。O：每个工件需要经过的工序总数。 $W_{j}$ ：工件j的工序需要重入的次数。 $C_{j (k - 1) w}$ ：工件j的第k − 1个工序在第w次重入的完成时间。 $S_{i l}$ ：在生产阶段i的机器l上进行切换所需的设置时间。 $e_{j k w}$ ：工件j的第k个工序在第w次重入的加工时间。 $τ_{j k w}$ ：工件j在工序k的第w次重入后的传输时间。 ${τ^{'}}_{j k w}$ ：工件j在工序k的第w次重入前的等待时间。 $w e_{j k l}$ ：表示工件j在工序k的第l次是否需要在机器上重入加工，如果需要则为1，否则为0。 $w_{j k}$ ：工件j在工序k需要重入的总次数。M：代表所有机器的集合。

$f_{E} = \sum_{k = 1}^{m} (P_{i d l e} \cdot T_{i d l e, l} + P_{r u m} \cdot \sum_{i = 1}^{n} \sum_{j = 1}^{N_{i}} (T_{i j k} \cdot (1 + A_{k} (t)) \cdot w_{j k}))$ (17)

其中 $P_{i d l e}$ 表示设备空转时的功率， $P_{r u n}$ 表示设备运行时的功率。 $T_{i j k}$ 工件i在工序j上由设备k加工所需时间。 $T_{i d l e, k}$ 表示设备k的空转时间， $w_{j k}$ 工件j在k设备上的可重入次数。 $A_{l} (t)$ 表示设备l在时间t的役龄。

考虑到设备役龄更新、设备退化和设备空转对能耗的影响，需满足以下公式：

$A_{l} (t + 1) = A_{l} (t) + \sum_{j = 1}^{n} \sum_{i = 1}^{s} \sum_{k = 1}^{N_{j}} T_{i j k l} + T_{i d l e, l}$ (18)

缓冲区不可超过阈值，其中缓冲区阈值为25片晶圆，即 $W_{\max}$ 为25。

$W_{i j k} \leq W_{\max} \forall j, i, k$ (19)

$f_{c} = C_{d m} + C_{p m} + C_{t o t a l}$ (20)

总维护成本由故障后维修成本( $C_{d m}$ )和预防性维护成本( $C_{p m}$ )两部分组成。故障后维修成本包括设备维修费和紧急调度费，表示为：

$C_{d m} = \sum_{x = 1}^{m} \sum_{y = 1}^{n_{x}} n_{x y} (c_{x}^{r} + c_{u s})$ (21)

$C_{p m} = n_{s} c_{s} + \sum_{j = 1}^{n_{s}} \sum_{x = 1}^{m} \sum_{y = 1}^{n_{x}} β_{j, x y} c_{x}^{m}$ (22)

式中： $n_{s}$ 为系统总停机数； $c_{s}$ 为单词维护调度费用；m为所在机台上的检测点的总数； $n_{x}$ 对于特定点x的维护活动数量； $β_{l x y}$ 表示是否在机台l的监测点x进行维护活动y，如果是则为1，否则为0； $c_{x}^{m}$ 表示在检测点x进行维护活动的成本； $c_{u s}$ 为单位停机成本； $c_{x}^{r}$ 为在检测点x进行维护活动的成本。

$C_{t o t a l}$ 代表总的惩罚成本，可以表示为：

$C_{t o t a l} = \sum_{x = 1 y = 1}^{m} \sum_{x = 1}^{n_{x}} (α \times p e \times E D_{x y} + β \times p m \times M D_{x y} + γ \times E_{x y})$ (23)

$α$ 和 $β$ 是加工和维护偏离惩罚的调整系数； $γ$ 是一个新引入的系数，用于衡量可重入特性对生产效率的影响 $p e$ 和 $p m$ 代表惩罚因子，分别对应于加工和维护活动。它们与偏差数量相乘，以计算由于这些活动的偏差而产生的惩罚成本。 $E D_{x y}$ 和 $M D_{x y}$ 这些代表对应于设备x和工序y的加工偏差量和维护偏差量。它们反映了实际加工或维护与计划之间的差异。 $E_{x y}$ 代表工件j在k工序上的重入次数与惩罚因子的乘积。公考虑了在可重入晶圆生产中的特殊情况，如同一工件在不同阶段的重复加工。

在多目标联合优化中，双Q算法将完工时间、维护成本和能源消耗三目标结合，形成协同优化的决策模型。首先，最小化完工时间提升生产效率，但可能增加设备负荷，需兼顾设备健康；其次，总维护成本最小化通过合理的维护策略平衡生产效率；最后，优化能耗不仅响应节能需求，还可降低生产成本，但可能延长生产时间。因此，模型在优化一个目标时同时考虑其他目标的影响，避免局部优化引发整体性能下降。通过双Q学习的动态权重调整机制，模型根据实时数据平衡各目标，确保在多变的生产条件下获得更优的整体性能。

4. 模型求解

4.1. 双Q学习算法

机器学习一般可以分为监督学习、无监督学习和强化学习三种。而Q学习就是一种基于值函数的强化学习算法，旨在通过与环境的交互来学习最优的动作策略。它适用于解决马尔可夫决策过程问题。它主要由状态、动作、奖励、策略四个因素来进行学习决策。在Q学习中，首先初始化所有状态-动作对的Q值(通常设为0或小随机值)。然后，根据当前Q值和策略(例如 $ϵ$ -贪心策略)选择动作 $a_{t}$ 。在状态 $s_{t}$ 下执行动作 $a_{t}$ ，并获得奖励 $r_{t + 1}$ 和下一个状态 $s_{t + 1}$ 。接下来，使用更新公式更新Q值。重复选择动作、执行动作、获得奖励和更新Q值的步骤，直到满足停止条件(如达到最大迭代次数或Q值收敛)。这一过程使得智能体不断优化其策略，最终学会如何在不同状态下选择最优动作。一般来说Q学习算法通过完全贪婪策略以及依照Q表中的期望来决定下一步所采取的动作策略，也就是随机贪婪策略，两种方法来进行动作决策。Q表在东侧做决策完成后都会实时更新，具体更新方法依据贝尔曼(Bellman)方程：

$Q (s_{t}, a_{t}) = (1 - α) Q (s_{t}, a_{t}) + α (R_{t + 1} + γ \max Q (S_{t + 1}, a))$ (24)

双Q学习和传统的Q学习算法在更新Q值的方式上有所不同。双Q学习算法是对Q学习算法的一种改进，双Q学习算法核心创新在于引入两个独立的Q表(Q1和Q2)，有效避免了传统Q学习中因单一Q表导致的过高估计问题。这使得算法在处理多目标优化时，能更精准地平衡完工时间、维护成本和能耗，尤其在面对复杂生产环境时，表现出更高的稳定性和准确性。在Q学习中，我们使用同一个Q表来选择和更新动作，可能会导致对Q值的过高估计。一般来说，Q学习方法导致过高估计主要归结于其更新过程，其表达为：

$Q_{t + 1} (s_{t}, a_{t}) = Q_{t} (s_{t}, a_{t}) + α_{t} (s_{t}, a_{t}) (r_{t} + γ \max_{a} Q_{t} (s_{t + 1}, a) - Q_{t} (s_{t}, a_{t}))$ (25)

其中 ${max}_{a}$ 表示为最大化动作价值函数，而更新最优化过程如下

$\forall s, a : Q^{*} (s, a) = \sum_{s^{'}} P_{s a}^{s^{'}} (R_{s a}^{s^{'}} + γ \max_{a} Q^{*} (s^{'}, a))$ (26)

对于任意的S和a来说，最优值函数的更新依赖于。从公式中可以看出将N个Q值先通过取max操作之后，然后求平均值，会较先计算出N个Q值取期望之后再取最大值，这就是Q学习过高估计的原因。

4.2. 模型求解流程

为了克服传统工序在t时所选择的机器并不能直接决定后续时刻工序的排布这一局限，本文融入随机生成的、符合约束条件的工序编码作为先验知识，旨在优化三个关键指标：最小化最大完工时间、维修能源消耗及总成本。基于此提出了一种融合双Q学习算法的车间调度与维护协同决策优化策略，算法流程见图2。其设计过程主要为以下几步：

1) 随机生成工序编码：为解决传统双Q学习在工序序列决定上的局限性，本文引入了一种基于随机算法生成的、符合实际生产约束的工序编码作为先验知识。这一编码在算法初始化时生成，并作为Agent状态转移的依据，有效引导了调度过程的初始路径，增强了算法对复杂调度问题的适应能力。

2) 多目标函数权重分配：首先，将最小化完工时间、最小维护成本以及最小能源消耗通过加权求和法构建一个综合目标函数Z。

$Z = v_{1} \times f_{T} + v_{2} \times f_{E} + v_{3} \times f_{C}$ (27)

其中 $v_{1}$ 、 $v_{2}$ 、 $v_{3}$ 分别为三个目标函数的权重值。在系统的初始状态下，根据实际生产的优先级和历史数据，设定初始权重为 $v_{1} = 0.5$ $v_{2} = 0.3$ $v_{3} = 0.2$ 。在生产过程中，改权重初始值会随生产情况的改变而做出动态调整。在对模型优化过程中双Q学习算法也会通过持续的学习和反馈来进行调整，能够动态感知生产环境的变化并做出相应的权重调整。这种调整通过系统实时监控各个目标的表现来调整权重和双Q学习算法的自适应学习机制来调整

3) 状态定义与初始化：在双Q学习算法中，状态空间s₁表示工件的序号，s₂表示工序的序号。在初始化阶段，需要初始化两个Q表(Q1和Q2)。初始时，Q1和Q2表中的每个状态–动作对应的值设为零。这两个表将独立更新，用来分别评估不同动作的价值。针对调度决策过程，Agent依据当前状态(即待加工工序与可用机器状态)从有限的机器集合 $M (M_{1}, M_{2}, \dots, M_{m})$ 中选择最合适的加工设备。

4) 动作空间与动作选择：在每个状态S下，算法需要选择一个动作a来执行。针对调度决策过程，Agent依据当前状态(即待加工工序与可用机器状态)从有限的机器集合 $M (M_{1}, M_{2}, \dots, M_{m})$ 中选择最合适的加工设备。这一动作空间的定义直接反映了车间资源的实际配置情况。在决策过程中，Agent采用ε-贪心策略平衡探索与利用，即在大多数情况下选择当前状态下Q值最高的动作以利用已知信息，同时以一定概率ε随机选择动作以探索未知领域，从而避免局部最优陷阱。

5) 执行动作并获得奖励：执行选定的动作a后，系统进入新的状态s′，并根据多目标函数计算即时奖励r：

$r = - (v_{1} \times f_{T} (s^{'}, a) + v_{2} \times f_{E} (s^{'}, a) + v_{3} \times f_{C} (s^{'}, a)$ (28)

这里的 $f_{T} (s^{'}, a)$ 、 $f_{E} (s^{'}, a)$ 、 $f_{C} (s^{'}, a)$ 分别表示在新状态s′下，对应的完工时间、能源消耗、维护成本。因为优化目标是最小化这些值，所以奖励为负值。

6) 更新Q表：根据所采取的动作a和新的状态s′，更新Q表。双Q学习算法中，更新过程见上文3.1部分

7) 合并Q表并输出最优策略：在算法的最终阶段，两个Q表合并，输出最优策略 $π^{*} (s)$ ：

(29)

该策略将根据两个Q表的综合价值，选择在每个状态下最优的动作，即最能平衡多目标优化的调度和维护策略。

Figure 2. Algorithm flowchart

图2. 算法流程图

5. 算例分析

5.1. 实验环境

算法程序采用Python编程开发，Python版本为3.12。为了评估所提算法的有效性，本文使用来自Brandimarte的经典车间调度问题进行测试和验证。该基准由10个问题组成，其中工件数量的范围是10~20个，机器数量的范围是6~15个，每个工件的工序数量范围是5~15个，每个工序的操作需要考虑工序间的优先级以及设备的状态，机器的选择和调度求动态应对工序的重入和设备的维护需求。设备维护以设备役龄以及状态更新为基础，综合考虑了完工时间、维护计划对系统维护成本的影响以及对总能耗产生的影响，具体考虑因素及参数如表1所示。机器负载时的能源消耗为2 kWh，空载时的能源消耗为1 kWh。在成本方面考虑了调度成本、维护成本以及惩罚成本等因素，具体参数设置如表1所示。其中所有时间以小时为单位，能耗以kWh (千瓦时)为单位，成本以万元为单位，设备的退化因子 $δ$ 为0.018。同时设定算法种群规模为100，迭代次数最大为350，强化学习算法的学习率 $α$ 为1，奖励性衰变系数 $γ$ 为0.8。

Table 1. Equipment parameter table

表1. 设备参数表

工序	$β$	$η$	$c_{x}^{m}$	$c_{x}^{r}$	$ε_{x}$	$c_{s}$	$c_{u s}$	$T^{m}$	w
工序1	1.2	0.01	0.08	0.31	0.25	0.03	0.06
工序2	2.5	0.01	0.05	0.25	0.35
工序3	1.5	0.01	0.07	0.35	0.38
工序4	2.0	0.02	0.06	0.2	0.3			1	5
工序5	1.9	0.02	0.05	0.3	0.4
工序6	2.3	0.02	0.05	0.32	0.29

5.2. 结果分析

本文主要通过甘特图以及调度结果表来体现模型优化算例的最终结果。以MK01算例为例，通过对参数进行调整，优化结果如图3所示：

Figure 3. The Gantt chart for collaborative decision-making

图3. 联合决策甘特图

通过图3可以看出，首先，生产系统总完工时间为47。其次，从数据中可以看出，例如工件1在设备1上的工序于时间5结束，而在设备2上的下一道工序于时间7开始，中间存在2时间单位的等待时间。整体来看，工件的等待时间较短，说明算法在减少工件等待时间方面表现良好。最后，设备在时间0到40时间段内几乎一直被利用，仅在个别时段空闲，这表明设备的利用率很高。总体上，设备的利用率较高表明双Q学习算法能够有效地提高设备利用效率，减少设备空闲时间。

5.3. 结果比较

为了验证算法在优化可重入混合流水晶圆车间调度与维护联合决策问题上的优越性，本文选取了Q学习算法以及NSGA-II、灰狼优化算法GWO和粒子群算法PSO四种算法来进行比较，基于MK数据集，每个数据集通过算法运算10次，取最优值。比较结果如表2、表3和表4所示。

Table 2. Comparison table of algorithm completion time results

表2. 算法完成时间结果比较表

MK算例	NSGA-II	灰狼算法GWO	粒子群算法PSO	Q学习	双Q学习算法
MK01	64	58	66	53	47
MK02	53	43	51	36	33
MK03	243	223	243	216	201
MK04	71	64	67	60	54
MK05	185	180	191	177	166
MK06	77	71	86	58	53
MK07	173	149	178	143	128
MK08	555	539	552	527	510
MK09	372	332	367	313	297
MK10	296	246	313	228	211

Table 3. Comparison table of algorithm energy consumption results

表3. 算法能源消耗结果比较表

MK算例	NSGA-II	灰狼算法GWO	粒子群算法PSO	Q学习	双Q学习算法
MK01	552	472	638	449	391
MK02	409	387	412	340	334
MK03	1289	1106	1242	1032	986
MK04	1352	1006	1188	733	625
MK05	983	914	831	747	721
MK06	1276	926	1036	834	796
MK07	650	637	665	594	611
MK08	1485	1348	1427	1219	842
MK09	1453	1159	1222	1125	1083
MK10	1535	1263	1311	1077	1039

Table 4. Comparison table of algorithm maintenance cost results

表4. 算法维护成本结果比较表

MK算例	NSGA-II	灰狼算法GWO	粒子群算法PSO	Q学习	双Q学习算法
MK01	39.24	35.44	40.2	32.7	29.67
MK02	40.53	32.8	41.69	25.17	23.92
MK03	74.64	67.26	71.9	63.33	61.49
MK04	66.17	62.7	64.52	55.35	47.5
MK05	60.54	57.11	56.25	52.62	49.46
MK06	65.87	60.73	61.55	56.6	53.32
MK07	33.37	31.34	33.01	27.51	25.33
MK08	76.38	72.25	74.18	70.13	66.89
MK09	76.22	72.13	73.76	70.73	71.54
MK10	87.11	81.72	84.59	77.55	73.61

首先，在完工时间方面3，双Q学习算法表现最为优异，其完工时间明显优于其他算法。具体而言，双Q学习算法能够有效减少设备的等待时间，从而加快生产进度。相比之下，其他算法如NSGA-II和灰狼算法GWO的表现则略显不足。双Q学习算法通过强化学习中的自适应策略，能够动态调整调度和维护计划，使生产系统中的工件能够以更高的效率完成。其次，从能源消耗的角度来看4，双Q学习算法同样展现了显著的优势。该算法不仅能够优化调度过程中的设备使用时间，还能通过精准的维护计划减少设备的空转和不必要的能耗。在表中可以看出，双Q学习算法的能源消耗远低于其他对比算法。灰狼算法GWO和粒子群算法PSO在能源消耗优化上也取得了一定的成绩，但相较于双Q学习算法，它们的效果仍有提升空间。最后，在维护成本的对比中5，双Q学习算法通过引入设备役龄更新机制，能够有效减少设备的维护频次，并通过合理的预防性维护计划降低维护成本。表中数据显示，双Q学习算法的维护成本最为低廉，而传统的遗传算法和粒子群算法由于缺乏对设备状态的全面考虑，导致维护成本偏高。

综上所述，通过对三张表格的综合分析可以看出，双Q学习算法在完工时间、能源消耗和维护成本三个目标上均取得了较为显著的优化效果。相比传统启发式算法，双Q学习算法在应对复杂的晶圆生产车间调度与维护问题时，表现出了更高的鲁棒性和适应性，证明了其在多目标优化问题中的优越性。

此外，本文通过调整不同权重，使用各类算法来逼近多目标优化问题的帕累托前沿，并对比各算法在优化完工时间、维护成本和能源消耗等目标上的表现。权重调整数值为(完工时间，能源消耗，维护成本)：(1, 0, 0)、(0.7, 0.1, 0.2)、(0.5, 0.2, 0.3)、(0.3, 0.3, 0.4)、(0.1, 0.4, 0.5)。

由图4可以看出，双Q学习算法表现最优，尤其在维护成本和能源消耗的优化上优势显著，数据点集中在较低的数值区间，表明该算法能够在降低维护成本的同时显著减少能耗。此外，双Q学习在完工时间的优化上也表现出色，数据点分布于较低完工时间区域，实现了生产效率的提升和成本控制的平衡。相比之下，Q学习算法虽在完工时间上有所优化，但整体表现分散，难以在复杂多目标环境中实现稳定的平衡性。其他传统算法如NSGA-II和粒子群算法(PSO)在某些单目标优化上具备竞争力，但难以在能源消耗和完工时间优化上与双Q学习媲美。灰狼算法(GWO)在能源消耗上表现较好，但在完工时间和维护成本优化方面不及双Q学习。总体而言，双Q学习算法凭借两个Q表交替更新的机制，能够动态调整各目标权重，实现更优的多目标平衡，展现出在晶圆生产调度与维护联合优化中的显著优势。

Figure 4. Algorithm Pareto frontier chart

图4. 算法Pareto前沿图

最后，本文对比了以MK01数据集为为例的双Q学习与Q学习在收敛过程中的迭代过程，结果如图5~7所示。

以MK01为例，图5分别展示了双Q学习算法和Q学习算法在设备维护能耗优化过程中的迭代图。从图中可以看出，双Q学习算法的能耗优化过程在迭代初期快速下降，并在迭代中期趋于稳定，最终能耗优化结果为391 KWh。而Q学习算法收敛速度较慢，最终能耗优化结果为449 KWh。

(a) 双Q学习维护能耗迭代图 (b) Q学习维护能耗迭代图

Figure 5. Maintenance energy consumption iteration chart of double Q-Learning vs. Q-Learning

图5. 双Q学习与Q学习维护能耗迭代图

图6展示了双Q学习算法和Q学习算法在完工时间优化过程中的迭代图。双Q学习算法在初期迭代中快速收敛，最终的最大完工时间优化结果为47小时。而Q学习算法的优化过程相对较慢，最终完工时间为53小时。

(a) 双Q学习完工时间迭代图 (b) Q学习完工时间迭代图

Figure 6. Completion time iteration chart of double Q-Learning vs. Q-Learning

图6. 双Q学习与Q学习完工时间迭代图

图7展示了双Q学习算法和Q学习算法在维护成本优化过程中的迭代图。双Q学习算法在维护成本优化中同样表现出较快的收敛速度，最终的总维护成本为29.67万元。相比之下，Q学习算法的最终维护成本为32.7万元。可以看出，双Q学习算法在降低总维护成本方面也优于Q学习算法。

(a) 双Q学习维护成本迭代图 (b) Q学习维护成本迭代图

Figure 7. Maintenance cost iteration chart of double Q-Learning vs. Q-Learning

图7. 双Q学习与Q学习维护成本迭代图

以上实验结果表明，双Q学习算法在求解混合流水车间这种复杂的生产环境问题上相较于只有单Q表的Q学习算法具有一定的优势，在求解多目标联合优化问题上，双Q学习算法展现出来较强的鲁棒性，能够得到预期中的实验结果。

5.4. 灵敏度分析

为评估设备役龄对系统性能的影响，本文通过调整设备役龄因子，进行多次仿真，分析其对最大完工时间、总维护成本和总能源消耗三个优化目标的影响。

5.4.1. 实验参数设置

以MK01数据集为例，设备运行功率和空转功率分别为2 KW和1 KW。在实验中调整了设备役龄，调整幅度为在原有役龄标准上±10%，以此作为标准来评算法在生产条件变化下的鲁棒性。

5.4.2. 结果分析

通过对设备役龄改善因子的灵敏度分析，可以看出，双Q学习算法在所有目标上均表现出优于Q学习算法的优化能力。这表明在复杂的生产系统中，采用双Q学习算法能够更有效地优化调度和维护决策，从而提升系统的整体性能和可靠性。系统在多目标优化中的表现不仅稳定且鲁棒，还能在不同参数条件下保持较优的性能，这表明基于双Q学习算法的调度与维护决策方法具有较强的实际应用价值。

(a) 维护能耗对设备役龄的灵敏度 (b) 完工时间对设备役龄的灵敏度

Figure 8. Sensitivity of energy consumption, completion time, and maintenance cost to equipment service life

图8. 维护能耗、完工时间以及维护成本对设备役龄的灵敏度

通过分析设备役龄改善因子变化对系统性能的影响，图8分别展示了双Q学习算法和Q学习算法在总维护成本、总能耗和最大完工时间上的表现。结果表明，随着役龄改善因子的增加，总维护成本和总能耗有下降趋势，最大完工时间也逐渐减少，这是由于设备役龄因子改善程度的加强提高了设备维护的效率，使得机器进行维护的频次减少，生产过程更加连贯，在效率更高的同时成本和能耗也有所降低。双Q学习算法在所测试项目上的表现均优于Q学习算法，且在外部因素变化的情况下表现得更为平稳，显示出更强的鲁棒性。这表明双Q学习算法在优化调度和维护决策方面更为有效，能够提升系统的整体性能和可靠性，为实际生产中的设备维护和调度优化提供了参考。

6. 结论

本文针对可重入混合流水晶圆车间的调度与维护联合优化问题，提出了基于双Q学习算法的联合优化模型，旨在最小化完工时间、总能耗和总维护成本。结果表明：

1) 该算法能够较为明显地减少完工时间、总能耗和维护成本，优化了系统性能和设备利用率，尤其在减少设备空闲时间和应对生产不确定性方面表现出色。实验结果表明，双Q学习算法能动态调整调度和维护策略，实现生产效率的提升。

2) 相比传统方法，双Q学习算法表现出更高的适应性，能根据生产情况的变化灵活调整维护和调度策略，达到更优的多目标平衡。

本方法提高了生产效率，降低了生产成本，为半导体制造中的调度与维护提供了切实可行的优化方案。

基金项目

国家自然科学基金资助项目(71632008，71840003)；上海市2021度“科技创新行动计划”宝山转型发展科技专项项目(21SQBS01404)；上海理工大学科技发展项目(2020KJFZ038)。

NOTES

^*通讯作者。

参考文献

[1]	吴秀丽, 李雨馨, 匡源, 等. 改进迭代贪婪算法求解可重入流水车间调度问题[J]. 计算机集成制造系统, 2024, 30(7): 2364-2380.
[2]	董君, 叶春明. 具有学习效应的半导体晶圆制造绿色车间调度问题研究[J]. 运筹与管理, 2021, 30(4): 217-223.
[3]	雷德明, 刘敬裕. 基于协作蛙跳算法的可重入混合流水车间调度[J]. 华中科技大学学报(自然科学版), 2023, 51(5): 125-130.
[4]	Siraskar, R., Kumar, S., Patil, S., Bongale, A. and Kotecha, K. (2023) Reinforcement Learning for Predictive Maintenance: A Systematic Technical Review. Artificial Intelligence Review, 56, 12885-12947. https://doi.org/10.1007/s10462-023-10468-6
[5]	Chen, Y., Liu, Y. and Xiahou, T. (2022) A Deep Reinforcement Learning Approach to Dynamic Loading Strategy of Repairable Multistate Systems. IEEE Transactions on Reliability, 71, 484-499. https://doi.org/10.1109/tr.2020.3044596
[6]	赵子夜, 陈晓慧, 安友军, 等. 刚柔混合约束下柔性流水车间生产调度与设备维护集成优化[J]. 计算机集成制造系统, 2024: 1-20.
[7]	江雨燕, 马宁, 李艳, 等. 考虑动态预维护与绿色调度的协同优化问题[J]. 系统仿真学报, 2024: 1-16.
[8]	Li, X., Ran, Y., Zhang, G., et al. (2023) Sequential Preventive Maintenance Strategy Considering Difference of Maintenance Effect. Journal of Shanghai Jiaotong University, 57, 1522.
[9]	Yu, M., Li, T. and Ma, J. (2022) Joint Optimization Method of Production Scheduling for Prefabricated Components Based on Preventive Maintenance. 2022 41st Chinese Control Conference (CCC), Hefei, 25-27 July 2022, 1940-1944. https://doi.org/10.23919/ccc55666.2022.9901757
[10]	Kung, L. and Liao, Z. (2022) Optimization for a Joint Predictive Maintenance and Job Scheduling Problem with Endogenous Yield Rates. IEEE Transactions on Automation Science and Engineering, 19, 1555-1566. https://doi.org/10.1109/tase.2022.3173822

为你推荐

友情链接