1. 引言
在全球范围内推进工业4.0、智能制造等国家战略的背景下,生产计划与控制成为制造业的核心环节[1],其效能依赖于准确的产能预测。现有产能预测研究多集中于能源、化工等流程工业[2]-[4],对离散制造业关注相对不足[5] [6]。在烟草行业,现有智能化研究多偏向于制丝工艺优化与质量预测[7] [8],对卷包机等核心设备的产能预测研究较少。卷烟行业产能预测面临三大特殊挑战:1) 多品牌频繁切换,单台卷包机需生产数十种牌号,每次切换导致产能剧烈波动;2) 时序数据非连续性,受订单驱动影响,生产活动呈“班次–机台–牌号”的碎片化结构,形成业务逻辑驱动的结构性缺失,这与标准时序数据集的随机缺失模式存在本质区别;3) 设备老化与原料差异,设备性能衰减和烟叶特性波动进一步增加预测复杂性。这些特征使得通用时序预测方法难以直接应用。近年来,深度学习方法在时序预测领域取得进展,但也面临挑战[9]:LSTM等循环网络擅长捕捉时序依赖但难以处理长期模式;Transformer、Informer等注意力模型在长序列上表现优异,但参数量大、计算复杂度高,在工业小样本场景和边缘设备部署时受限。因此,需要在预测精度与计算效率间取得平衡的方法。
针对上述问题,本研究提出一种适配卷烟行业的轻量化LSTM-Attention预测框架。主要贡献包括:
1) 提出基于班次分组的时序重构方法,通过业务驱动的分段线性插值解决数据非连续性问题,并量化分析了插值误差对预测性能的影响;
2) 设计轻量化LSTM-Attention模型,通过精简的注意力机制在保持预测精度的同时降低计算复杂度,适配工业现场实时预测需求;
3) 通过与LSTM等多种方法对比,以及系统化消融实验,验证了方法的有效性。基于某卷烟厂四年真实数据的实验表明,单步预测MAPE可控制在7.36%,相比标准LSTM提升5.0%,为生产计划制定、原料采购和设备维护提供数据支持。
2. 基本原理
2.1. LSTM循环神经网络模型架构
鉴于卷烟产能预测作为一个相对细分的研究领域,相关的深度学习应用研究较为有限[10] [11],而LSTM作为处理时序预测任务的经典深度学习模型,已在众多领域中得到广泛应用与验证[12]。因此,本文选择LSTM作为基础模型来处理卷烟产能时序预测任务。LSTM是一种改进的循环神经网络,通过门控机制有效解决了传统RNN的梯度消失问题,增强了对长时序列数据的处理能力,更适合处理产能数据的时序特征。LSTM网络的基本神经元如图1(a)所示。
2.2. 注意力机制
为实现卷烟产能的预测,本研究采用一种基于注意力机制的网络结构,以适应动态产能预测的输出要求。其核心在于聚焦相关信息区域,同时降低对无关信息的关注程度,从而增强模型的准确性。注意力机制通过采用概率分布赋予关键信息足够的关注度,有效补偿了LSTM因序列过长而造成的信息损失[13]。此外,该机制以概率分配的方式取代了随机赋予权重的做法。图1(b)展示了注意力机制的结构。
Figure 1. Architecture of the LSTM-Attention model
图1. 长短期记忆网络-注意力机制模型结构
2.3. 损失函数
为实现卷烟产能的预测,本研究采用一种基于注意力机制的网络结构,以适应动态产能预测的输出要求。其核心在于聚焦相关信息区域,同时降低对无关信息的关注程度,从而增强模型的准确性。注意力机制通过采用概率分布赋予关键信息足够的关注度,有效补偿了LSTM因序列过长而造成的信息损失[13]。此外,该机制以概率分配的方式取代了随机赋予权重的做法。图2展示了注意力机制的结构。
在卷烟产量预测任务中,为平衡模型对正常数据分布的敏感性与异常值的鲁棒性,本文采用Huber损失函数作为训练目标。其数学表达式为:
(1)
式中,
为模型输出的卷烟产量预测值,
为实际生产记录值,为区分误差量级的阈值。该损失函数有效缓解了工业数据噪声对深度学习模型泛化能力的负面影响,为稳定、高精度的卷烟产量预测提供了保障。
2.4. 早停策略
研究采用LSTM-Attention模型进行工业产能预测,且原始数据经过必要的层级分类处理后,部分子类别的样本规模显著缩减,模型更容易在小样本场景下出现过拟合的现象。由于深度学习模型可以无限迭代下去,其在训练过程中极易过度适应训练数据的特定模式,导致泛化能力下降。为有效抑制这一现象,本研究引入了早停(Early Stopping)策略。该策略通过持续监控模型在独立验证集上的性能表现,在验证性能不再提升或开始下降时及时终止训练过程,从而有效减少不必要的训练时间和计算资源消耗。
3. 实验与分析
本研究实验环境为Windows 11;CPU为Intel i7-1065G7;GPU为Intel Iris Plus Graphics;Python 3.7;Pytorch 1.13。
3.1. 数据预处理
本研究采用某卷烟厂卷包机2019年1月2日至2023年2月28日的多层级生产数据集,其原始数据包含日期、班别、机台、牌号等11个特征维度,按整体层面、机台层面、机台–牌号层面、机台–牌号–班别层面四维度组织。研究发现粗粒度层级存在同一时间点多条记录的数据冗余问题,当数据粒度细化至机台–牌号–班别维度时,时间戳字段的缺失率呈现显著升高趋势,经量化分析其缺失比例达到17.3%。基于冗余率与数据完整性的平衡,最终选取机台–牌号层级作为建模基准。在机台60#中筛选出1835条有效样本,涵盖三类卷烟牌号。其中高频牌号“钻石(软红)”占比72.5%,符合行业主牌号集中生产规律,故优先建立其独立预测模型。
由于选定的“机台–牌号”层级数据在时间维度上存在不连续性,无法直接用于时间序列建模,本研究采用基于班次分组的线性插值方法对缺失时间节点进行数据重构。具体而言,首先依据数据起止时间构建完整的连续日期索引序列。随后,将原始数据按班别分组,并将每组数据分别与完整的日期序列进行左连接,从而识别出缺失的时间点。对于识别出的缺失点,采用线性插值方法对产量数值型变量进行插值估计,并通过前向填充和后向填充方法处理序列端点的缺失值。经过处理,数据集在时间维度上实现了完整重构,数据规模显著增加,各班次记录得以补全。
在完成核心的时序重构后,本研究采用系统化数据预处理框架,按照规范化流程依次执行数据清洗、特征工程与数据标准化。首先对缺失时序数据采用线性插值法填充,随后基于四分位距准则(IQR系数1.5)检测并剔除异常值,确保数据质量。针对离散型生产班别变量进行独热编码处理,将分类信息转换为数值特征,结果如表1所示。然后对时间序列数据进行系统性特征工程。具体构建的特征类型及方法如表2所示。经特征工程衍生的缺失值采用后向填充法处理以保持时间连续性,剩余缺失值采用零值填充策略。最后对连续型数值特征采用Z-score标准化实现量纲统一,并将数据集按照8:2的比例划分为训练集和测试集,其中训练集包含前80%的时间序列数据,测试集包含后20%的数据。进一步地,从训练集中分离出10%的数据作为验证集,用于模型训练过程中的性能监控和早停机制。
Table 1. One-Hot encoding results (First 5 samples as example)
表1. 独热编码处理结果(以前5个样本为例)
Sample ID |
Original Shift |
Shift_Class A |
Shift_Class B |
Shift_Class C |
0 |
Class A |
1 |
0 |
0 |
1 |
Class B |
0 |
1 |
0 |
2 |
Class C |
0 |
0 |
1 |
3 |
Class A |
1 |
0 |
0 |
4 |
Class B |
0 |
1 |
0 |
Table 2. Feature construction results
表2. 特征构建结果
Feature Type |
Specific Method |
Feature Name |
Purpose |
Temporal Features |
Date Decomposition |
Year, month, day of week |
Capture periodic and seasonal patterns |
Lag Features |
Historical Value
Extraction |
Production_lag_1, Production_lag_2, Production_lag_3 |
Model temporal dependencies and
autocorrelation |
Trend Features |
Moving Average |
Production_ma_3, Production_ma_7 |
Smooth short-term fluctuations and extract medium-term trends |
Volatility Features |
Rolling Standard Deviation |
Production_std_3, Production_std_7 |
Quantify sequence volatility and uncertainty |
3.2. 模型的训练与验证
本研究构建了基于LSTM-Attention的深度学习模型,该模型结合了LSTM的时序建模能力和注意力机制的特征选择优势。模型采用双层LSTM网络,隐藏单元数设为256,层间dropout率为0.6,用于提取时间序列的长短期依赖关系。在此基础上,引入基于全连接层的注意力机制,通过学习各时间步的重要性权重,动态聚合LSTM输出的隐藏状态,增强模型对关键时序信息的捕获能力。模型的输出层采用两层全连接网络,中间层应用ReLU激活函数和Dropout正则化,最终输出预测结果,所有预测结果均通过相应的标准化器进行逆变换,恢复至原始数据尺度进行评估,确保评估结果的实际意义和可解释性。
考虑到实际数据中可能存在异常值,本研究选用Huber损失函数(δ = 1.0)作为训练目标,该损失函数对异常值具有更强的鲁棒性。优化器采用Adam算法,初始学习率设为0.001,权重衰减系数为1 × 10−5,以防止过拟合现象。训练过程中实施ReduceLROnPlateau学习率调度策略,当验证集R²指标在5个epoch内无改善时,学习率按0.5的因子进行衰减,最小学习率限制为1 × 10−6。同时,应用梯度裁剪技术(最大范数为1.0)防止梯度爆炸问题,并采用基于验证集R²指标的早停机制,当验证集R2在连续15个epoch内未出现改善时,终止训练过程并保存性能最优的模型参数。训练过程最大epoch数设为256。除基本的训练–验证–测试划分外,本研究还采用时间序列交叉验证(Time Series Split, k = 5)对模型的泛化性能进行进一步验证,确保模型的稳定性和可靠性。该验证策略充分考虑了时间序列数据的时序依赖特性,避免了传统交叉验证可能导致的数据泄露问题。
3.3. 预测模型评价指标
实验使用4个关键性能指标对模型进行评估,包括均方误差(Mean Squared Error, MSE)、平均绝对误差(Mean Absolute Error, MAE)、平均绝对百分比误差(Mean Absolute Percentage Error, MAPE)及决定系数(Coefficient of Determination, R2)。计算公式如下:
(2)
(3)
(4)
(5)
其中,n是样本数,
是第i个样本的真实值,
是第i个样本的预测值,
为真实值的样本均
值。MSE、MAE、MAPE都表示预测值与真实值之间的误差,值越小,表示模型的预测能力越好,精度越高。MSE与MAE侧重绝对误差的分布特性,MAPE揭示相对误差趋势,R2衡量模型对目标变量变异性的解释能力,值越接近1表明拟合优度越好。四者共同为模型优化提供全面参考。
3.4. 消融实验
为验证所提方法中各组件的有效性,本研究设计了系统性消融实验,通过逐步移除或添加关键组件来量化其对模型性能的贡献。消融实验结构如表3所示。
引入特征工程后,模型的MSE从1134.47大幅降低至705.65,降幅达37.8%;MAE从27.85降至20.34,改善幅度为27.0%;MAPE从10.17%优化至7.75%,提升23.8%;R2从0.3017提升至0.5656,解释方差能力显著增强。这一结果验证了时间序列特征工程的重要作用。通过构建滞后特征、统计特征和时间特征等多维度信息,模型能够更好地捕捉卷烟产量等时间序列中的潜在规律和依赖关系,从而显著提升预测精度。
在特征工程基础上,对比LSTM模型与LSTM-Attention模型的性能差异,结果显示注意力机制带来了进一步的性能提升。引入注意力机制后,MSE从705.65进一步降低至624.13,改善11.6%;MAE从20.34优化至19.90,提升2.2%;MAPE从7.75%降至7.36%,改善5.0%;R2从0.5656提升至0.6158,模型拟合能力持续增强。注意力机制的有效性在于其能够动态分配时序信息的权重,使模型在预测过程中重点关注与当前预测目标最相关的历史时刻,从而提高预测的准确性和稳定性。
Table 3. Ablation experiment results
表3. 消融实验结果
Model |
MSE |
MAE |
MAPE% |
R2 |
LSTM without Constructed Features |
1134.47 |
27.85 |
10.17 |
0.3017 |
LSTM |
705.65 |
20.34 |
7.75 |
0.5656 |
LSTM-Attention |
624.13 |
19.90 |
7.36 |
0.6158 |
3.5. 模型预测对比分析
全面评估所提LSTM-Attention模型的性能优势,本研究选择了两类具有代表性的对比方法:1) 复杂深度学习模型ResNet-LSTM-Attention,用于验证模型复杂度的适配性;2) 传统统计与深度学习混合模型ARIMA-LSTM,用于对比不同建模范式的有效性。所有对比模型均采用相同的特征工程策略和实验设置,确保结果的公平性和可比性。预测结果如图2所示,远超传统经验计算方式(如图3所示),性能结果如表4所示。
对比实验结果显示,ResNet-LSTM-Attention模型的MSE上升至772.03,增长23.7%。其性能下降的根本原因在于模型复杂度与数据规模的不匹配。ResNet的深层网络结构在相对简单的卷烟产量预测任务中引入了过多参数,在有限的训练数据下容易发生过拟合现象,额外的网络深度未能带来性能增益反而
Figure 2. Single-step prediction results
图2. 单步预测结果
Figure 3. Traditional empirical calculation method
图3. 传统经验计算方式
Table 4. Single-step prediction: comparative experimental results of different models
表4. 单步预测:不同模型的对比实验结果
Model |
MSE |
MAE |
MAPE% |
R2 |
LSTM-Attention |
624.13 |
19.90 |
7.36 |
0.6158 |
ResNet-LSTM-Attention |
772.03 |
20.21 |
7.75 |
0.5248 |
ARIMA-LSTM |
952.04 |
52.63 |
20.23 |
0.2348 |
降低了模型泛化能力。ARIMA-LSTM混合模型表现最差,MSE高达952.04,相比LSTM-Attention模型劣化52.5%。其性能劣化源于两种建模范式的根本性冲突。ARIMA基于线性自回归假设,适用于平稳时间序列的建模,而LSTM专长于捕捉非线性时序模式。在卷烟生产这一复杂非线性系统中,ARIMA的线性假设与实际生产过程的非线性特性存在根本性冲突,导致混合模型的性能劣化。对比实验结果表明,所提LSTM-Attention模型在所有评价指标上均取得最优性能,验证了模型复杂度与任务匹配度的重要性,以及统一建模范式在时间序列预测中的优越性。
3.6. 模型泛化能力测试
为验证所构建预测模型的普适性,本研究设计了跨机台、跨牌号的泛化能力测试实验。验证数据集选取62#、63#机台的“钻石(软红)”牌号样本以及60#机台的其他类牌号样本,采用与训练数据相同的预处理流程,确保数据处理的一致性。结果如表5所示。
Table 5. Model generalization performance results
表5. 模型泛化能力结果
Testing Scenario |
MSE |
MAE |
MAPE% |
R2 |
60#–Diamond |
624.13 |
19.90 |
7.36 |
0.6158 |
60#–Hongjinlong |
911.67 |
39.32 |
25.43 |
0.2730 |
62#–Diamond |
823.24 |
35.03 |
21.57 |
0.3339 |
63#–Diamond |
892.69 |
36.73 |
20.59 |
0.3743 |
模型在62#、63#机台上的性能衰减反映了设备间的本质差异对预测模型的影响。从系统工程角度分析,不同机台的机械精度、传动系统特性、控制算法参数等硬件差异导致了相同工艺条件下产量响应的系统性偏移。更深层次的原因在于设备老化程度的差异。生产设备在长期运行过程中,关键部件(如切丝刀具、滤棒传送带、成形器等)的磨损程度不同,导致设备的动态响应特性发生漂移。这种设备状态的非线性演化过程在训练数据中难以完全覆盖,造成了模型在新设备上的泛化能力下降。从数据分布角度分析,不同机台的数据分布存在协变量偏移现象。即使输入特征的统计特性相似,但特征与目标变量间的映射关系在不同设备上存在差异,这种域适应问题是深度学习模型在工业应用中面临的普遍挑战。
60#机台在“红金龙(软精品)”牌号上的性能衰减揭示了原料物性差异对生产过程的深层影响。不同牌号卷烟的叶丝配方、含水率、填充密度等物理参数存在显著差异,这些差异通过复杂的物理化学过程影响生产效率。具体而言,“红金龙”牌号的高含水率特性会增加物料的黏附性,影响传送带的运行效率;其较低的填充密度要求更精确的计量控制,对设备的响应速度提出了更高要求。这些物理特性的变化改变了设备的动态响应特征,而模型在训练过程中主要学习了“钻石(软红)”牌号的生产规律,难以适应新的物理约束条件。从控制系统角度分析,不同牌号的生产往往需要调整设备的运行参数,这些参数调整会改变系统的传递函数特性,导致原有的输入–输出映射关系失效。模型的泛化能力衰减本质上反映了静态学习模型在动态工业系统中的适应性限制。
针对上述泛化能力衰减问题,可从算法层面采取以下改进策略:一是基于设备嵌入的特征增强方法,将机台标识作为可学习的嵌入向量引入模型,与原始特征拼接后输入LSTM网络,使模型能够自动学习不同机台的隐式特征表示,捕捉设备磨损程度、机械精度偏差等难以直接量化的隐性因素;二是基于迁移学习的跨设备适应方法,采用“预训练–微调”范式,首先利用数据充足的源机台训练基础模型,随后在目标机台的少量样本上微调参数,实现跨设备迁移;三是基于领域自适应的分布对齐方法,通过对抗训练策略学习到领域不变的特征表示,降低数据分布差异对预测的影响。上述策略可根据实际应用场景灵活或组合使用,其具体实现与验证作为后续研究的重点方向。
3.7. 多步预测
为满足生产管理中的前瞻性决策需求,本研究采用递归预测策略进行多步预测,即将前一步的预测值作为下一步的输入特征。多步预测能够提供更长时间窗口的生产状态预估,为生产调度优化、维护计划制定等提供重要参考。基于多步预测实验结果(表6),多步预测性能随步长增加呈系统性衰减,主要源于迭代过程中的误差累积放大、设备状态长程依赖建模不足以及超越训练工况覆盖的数据稀疏性制约。尽管15步预测的MAPE增至9.51%,5步预测仍保持8.95%的实用精度,可为短期生产调度提供有效参考。这一结果为管理者确定了预测时效边界。在实际应用中,可以5步预测作为可靠预测的时间限度,用于排产的精细化调度,超过该时限的结果预测仅作为趋势性参考,用于日常的粗粒度规划。
Table 6. Multi-step prediction results
表6. 多步预测结果
Prediction Steps |
MSE |
MAE |
MAPE% |
|
5 |
897.42 |
23.53 |
8.95 |
0.4620 |
10 |
958.76 |
24.93 |
9.36 |
0.4209 |
15 |
991.93 |
25.25 |
9.51 |
0.3907 |
4. 结论
1) 本研究构建的工业产能预测模型结构简洁、易于部署,能够有效利用MES系统中记录的多机台、多牌号历史生产数据,为智能制造环境下的生产决策提供重要支撑。在生产优化层面,模型可预测不同机台生产各牌号卷烟的产量表现。这为管理者制定高效的生产安排策略提供了科学依据。在供应链管理方面,模型的前瞻性预测能力有助于物流中心优化原材料储备策略,避免因材料储备不足导致的停机问题。就企业数字化转型而言,本研究为推进企业数字化进程、加快智慧工厂建设提供了技术支撑。模型具有良好的工程使用性和预测精度,验证了深度学习方法在复杂制造环境中的应用潜力,为后续的生产智能化改造奠定了理论基础和实践经验。尽管模型在跨机台、跨牌号场景下存在一定的泛化性能衰减,但在单步预测任务中表现出的优异性能,以及在短期多步预测中的实用精度,充分证明了该方法在实际生产环境中的有效性和可靠性,此外,本研究已从算法层面提出了设备嵌入、迁移学习和领域自适应等改进策略,为后续提升模型泛化能力指明了方向。
2) 决定系数(R2)用于评估模型对因变量变异性的解释程度,其值越接近1,表明模型解释力越强。然而,本研究中构建的模型R2值最高为0.6,表明所建模型仅能解释约60%的目标变量变异。尽管本研究已充分利用卷烟厂提供的所有特征,并通过系统化特征工程构建了新的预测变量,但仍有约40%的变异无法被现有特征解释。这一结果揭示了工业数字化转型过程中的关键问题:数据采集质量与生产管理流程的协同不足。为进一步提升模型性能,实现数据驱动决策的循环,管理层面应优化生产排班制度,强制操作人员通过MES等系统记录设备异常细节,实现跨部门数据完整性核查机制;技术层面需在关键设备加装多源状态传感器,通过振动频谱分析捕捉磨损特征,利用声发射技术监测故障信号,并将高频传感数据与MES工单信息实时关联。
NOTES
*通讯作者。