1. 引言
断纸故障检测作为造纸工业中一个不可或缺的环节之一,能够减少生产中断和停机时间,提高设备的可靠性,帮助企业提升生产效率,保证产品质量。在造纸工业中,断纸作为一种常见故障,频繁出现易导致原材料的浪费、增加能源消耗与人工成本。因此,开发准确、高效的断纸故障诊断模型具有重要意义[1]。
多年来,造纸企业生产线所应用的传统断纸检测多属于故障后处理,依赖经验判断和简单的统计方法,很难完成对断纸的监测以及断纸原因的分析。随着各类传感器的开发落地,大量的断纸故障数据(如纸张的张力、宽度、厚度等)通过传感器被采集,数据驱动检测断纸预测的方法被提出。目前,造纸企业多采用深度学习的方法来实现断纸预测,预防断纸发生。杜建等采用GMM-MD组合算法对工业故障进行预测,构建健康指标,以评估生产过程的健康程度,较好地跟踪造纸过程设备运行状态的变化过程,起到过程工业故障预测作用[2]。李远华等采用偏最小二乘法建立了一套用于预测纸张抗张强度的数学模型,提取出6个与纸张抗张强度的影响因素[3]。运用深度学习的相关方法,建立一种高精度的断纸预测模型,以实现对造纸过程中的断纸进行实时监测和预警,提高生产效率,降低生产成本。
LSTM从循环神经网络(RNN)演变而来,可以学习长期依赖信息,通过门控机制来去除或者增加信息到细胞状态的能力,能够有效捕捉时间序列中的长期依赖关系。RF是一种集成学习算法,主要用于解决分类和回归问题,相比单一的决策树,随机森林采用多棵决策树并结合其预测结果提升模型的鲁棒性[4]。本文基于LSTM和RF提出一种LSTM-RF算法进行断纸类别预测,结合了LSTM (用于捕捉时序模式)和随机森林特征(提供统计特征),利用全连接层融合两类特征,并采用SMOTE解决断纸类别数据较少问题。该算法充分利用了时序数据的时空特性,混合模型架构兼具特征提取能力和统计学习优势,适合工业场景下的断纸预测任务。
本文主要使用随机森林、LSTM、支持向量机、Transform和LSTM-RF五种算法进行预测造纸过程中的断纸概率。通过实验结果的对照比较,LSTM-RF的预测值较其他四种算法更高,预测模型更为优越。同时,本文对模型的优化方向和预期结果也进行了相关讨论。
2. 数据集及特征选择
本文数据集为某造纸厂的造纸系统每日数据采集获得。在工业造纸过程中,断纸特征主要来源于次数统计和断纸发生时传感器信号模式。断纸特征在统计次数方面可以考虑时间窗口统计、累计断纸次数、断纸间隔统计和断纸持续时间四个方面进行筛选,在信号模式方面可以捕捉断纸发生时各类传感器特征变化,如张力传感器张力急剧下降,温度传感器温度异常波动,压力传感器压力骤增或骤降等。通过以上方法处理数据集,筛选出合适的断纸特征作为备选特征。
本文用于实现LSTM-RF断纸预测模型的数据集由27,674个时间点和6个特征组成。
2.1. 初步预处理与特征选择
对造纸生产过程中的断纸故障进行研究与分析,需要从采集的数据中选取生产过程中与断纸故障相关且影响较大的状态特征参数,构建特征向量,添加未来特征列。对占比较少的异常或缺失数据直接剔除。
目前,主成分分析是较为常用的相关性分析方法,也称主分量分析或矩阵数据分析。通过变量变换把相关变量变为若干不相关的综合指标变量,实现对数据集的降维[5]。
将x、y两个变量的相关系数定义为rxy,按公式(1)计算皮尔逊相关系数:
(1)
在公式(1)中,n代表样本数量;xi代表第个x变量;yi代表第i个y变量,代表x的平均值,代表y的平均值。rxy取值范围为[−1, 1],变量x和变量y之间的相关性与rxy的绝对值成正比。经筛选,影响造纸系统关键参数共有20多种,将20种特征采用主成分分析的方法,观察相关系数图,并根据以往的生产经验,影响该造纸生产线出现断纸故障原因主要有主蒸汽流量,流浆箱和后烘管道三大部分,确定如下六种特征,特征参数如表1所示[6]。
Table 1. Input features
表1. 输入特征
特征 |
单位 |
取值范围 |
7.2bar主蒸汽31634P1003压力指示 |
Bar |
682.1984~963.8132 |
蒸汽总管路压力指示 |
MPa |
696.6926~970.7198 |
31634P1076车间进蒸气压力 |
bar |
705.7717~992.1531 |
后烘干部 |
KPa |
−47.1498~53.5246 |
后烘管道抽风真空度 |
% |
−4.6431~−2.6684 |
流浆箱 |
KPa |
−1.0863~142.8097 |
2.2. 特征提取与特征分析
纸张制造过程中,造成断纸的原因较为复杂:当主蒸汽流量温度过高,流浆箱成形,后烘管道成形纸张过分干燥,容易断裂;流浆箱成形不够标准,着网点选择不准确等均会导致机器卡纸或断纸。造纸系统的各个部位相互影响[7],传统方法依赖于经验判断和简单的统计方法,难以对断纸情况进行准确预测。
主蒸汽压力直接影响纸张的干燥程度、质量和生产效率。在造纸过程中,蒸汽用于加热纸浆溶液和干燥纸张。蒸汽压力的高低决定了纸张在干燥过程中的受热程度和水分蒸发速度,进而影响纸张的湿度、干燥度、硬度和耐磨性等物理特性[8]。此外,蒸汽压力还影响纸张的纤维结构,进而影响纸张的强度和韧性。
主蒸汽压力系统包括蒸汽管道布局(影响局部温度);蒸汽控制阀门(影响整体温度);疏水器(影响纸张湿度);蒸汽喷射器(影响横向水分);压力传感器(系统误判蒸汽需求)。
因此主蒸汽压力的变化受多种因素影响,包括汽轮机负荷、锅炉煤量与风量、给水泵转速、汽机调门和高压旁路调门的开度和造纸机运行状态等。汽轮机负荷的变化会直接影响蒸汽的流量和压力[9];煤量和风量的调整会影响锅炉的燃烧效率和蒸汽的产生量,进而影响蒸汽压力;给水泵的转速变化会影响蒸汽的供给量和压力;调门的开度变化会直接影响蒸汽的流量和压力;造纸机的运行速度、纸张的克重和厚度等也会影响蒸汽的消耗量和压力[10]。
流浆箱的运行稳定性是影响断纸的关键因素,其核心参数失衡直接导致纸幅强度缺陷和局部应力集中。浆网速比偏差会显著降低纸张裂断长和撕裂度;唇板开度异常引发着网点偏移——前移时胸辊积浆堵塞网孔,后移时纤维分散不均形成条痕;湍流控制失效造成纤维絮聚,在纸幅中形成定量薄弱区。这些因素通过破坏纤维均匀分布、降低局部强度、干扰脱水均匀性,最终在干燥部收缩应力或网部张力作用下诱发断纸。
影响断纸的核心流浆箱参数有唇板开度、浆网速比、着网点位置、湍流发生器状态、稀释水系统稳定性[11]。下唇板开度异常(如热变形导致间距变化)会改变浆料喷射角度和速度,影响着网点位置,造成胸辊积浆,导致断纸;浆网速比偏差直接影响纤维取向(MD/CD)和纸张强度(如裂断长、撕裂度);影响湍流发生器状态变化因素有湍流发生器故障、稀释水系统异常和薄片使用问题;
后烘管道抽风真空度主要影响纸张的干燥程度和脱水效果。在造纸过程中,纸张经过压榨后,仍然含有一定的水分。后烘管道通过抽风作用,将纸张表面的水分蒸发掉,使纸张达到所需的干燥程度。如果后烘管道的抽风真空度不足,纸张的干燥程度就会受到影响,可能导致纸张含水量过高,影响纸张的质量和后续加工[12]。
影响后烘管道抽风真空度的因素有真空泵的性能、管道系统的密封性、纸张的材质和厚度和生产环境。真空泵是产生真空度的关键设备,其性能直接影响后烘管道的抽风真空度;管道系统存在泄漏或密封不严的情况导致真空度下降;不同材质和厚度的纸张对后烘管道抽风真空度的要求也不同;生产环境中的温度、湿度等因素也可能对后烘管道抽风真空度产生影响[13]。
2.3. 归一化和评估指标
本文采用某造纸厂研究数据,通过滑动窗口的形式,每五分钟一组进行对未来五分钟的断纸预测。采用三秒钟间隔采样,共收集27,600组原始数据,在数据预处理后,建立了断纸预测模型,包括随机森林,长短期记忆神经网络(LSTM)、支持向量机(SVM)、Transform、LSTM-RF五种算法。评估这些模型对断纸预测的性能。
模型预测效果的指标确定为预测断纸成功率(Precision),预测断纸的回召率(Recall),总的预测效果(AUC)。
(2)
公式(2)中,TP为真正例,FP为假正例。
(3)
公式(3)中,FN是假反例。
(4)
公式(4)中,X1为正例预测分数,X0是负例预测分数。
3. 结果和讨论
3.1. 随机森林
随机森林分类器通过集成多棵决策树的预测结果实现高鲁棒性和预测性的分类算法。在节点处选择样本特征的随机子集,从多个分支中选择最佳分支作为划分基础,这一特点赋予了该模型高抗过拟合以及并行化的能力。RF模型采用滑动窗口统计特征与时间特征相结合的方式捕捉设备运行状态,将分类模型转换成对未来的预测模型,通过GridSearch算法优化模型超参数。图1展示了模型的预测概率分布与真实标签的对比情况。
结果表明,该模型在整体预测方面表现较为显著。通过模型在测试集的评价指标中对断纸事件召回率达96%,AUC达0.95,可以实现提前100个时间步的故障预判;但断纸类别的预测精度仅为44%,该算法具有的样本与特征随机性影响了对具有时序性数据的学习,断纸类别的预测精度(44%)显示存在误报偏高问题,对时间序列的预测效果不理想,需要进一步研究。
Figure 1. Confusion matrix (left) and ROC curve (right) of the random forest prediction
图1. 随机森林预测的混淆矩阵(左)和ROC曲线(右)
3.2. 长短期记忆神经网络
Figure 2. LSTM control structure diagram
图2. LSTM控制结构图
长短期记忆网络(LSTM)是一种基于门控机制的循环神经网络(RNN),传统循环神经网络(RNN)在处理长序列时,因需跨时间步连乘梯度,易引发梯度消失和梯度爆炸[14],LSTM引入细胞状态和三个门控单元(遗忘门、输入门、输出门,如下图2所示)来解决传统RNN的长期依赖问题。在学习过程中,LSTM通过前向传播逐步更新细胞状态和隐藏状态,并根据输出误差进行反向传播调整权重。模型在验证集上展示了良好的预测性能,使用验证集的一些预测如图3所示。
结果表明,该模型在整体预测方面表现较为显著。通过模型在测试集的评价指标中对断纸事件召回率达94%,AUC达0.95,可以实现提前100个时间步的故障预判;但断纸类别的预测精度仅49%,较RF与RNN有略微提高。
图中Ct是细胞状态(记忆状态),Xt是输入的信息,ht−1是隐藏状态(基于Ct得到的)。
Figure 3. Confusion matrix (left) and ROC curve (right) of the LSTM prediction
图3. LSTM预测的混淆矩阵(左)和ROC曲线(右)
3.3. 支持向量机
Figure 4. Confusion matrix (left) and ROC curve (right) of SVM prediction
图4. SVM预测的混淆矩阵(左)和ROC曲线(右)
支持向量机(Support Vector Machine, SVM)是一种监督学习模型,主要用于二分类任务,也可扩展至回归、多分类及异常检测。其核心思想是通过寻找最优分割平面,最大化不同类别数据之间的分类间隔(Margin),从而提升模型的泛化能力。模型在验证集上展示了良好的预测性能,使用验证集的一些预测如图4所示。
结果表明,该模型在整体预测方面较为显著。通过模型在测试集的评价指标中对断纸类别预测精度达74%,断纸事件召回率达98%,AUC达0.96,可以实现提前100个时间步的故障预判。该模型加入管道和核函数,保障了分类精度,效果明显优于其他三种模型,且预测精度较高。
3.4. Transform
Transformer是一种基于自注意力机制(Self-Attention)的深度神经网络架构,彻底摆脱了传统RNN和LSTM的依赖顺序计算的限制。其核心思想是利用多头注意力(Multi-Head Attention)和前馈神经网络层堆叠实现特征提取,通过位置编码(Positional Encoding)注入序列顺序信息。训练过程采用残差连接和层归一化优化梯度流动,并通过掩码注意力实现解码器的自回归预测。模型在验证集上展示了良好的预测性能,使用验证集的一些预测如图5所示。
结果表明,该模型回召率达100%,优于其他模型,对断纸类别的预测率为67%,效果较好,仅次于SVM,整体预测方面AUC达0.88,低于其余五种模型。这种高召回、低精度和整体AUC偏低的组合,可能源于Transformer的自注意力机制对工业时序数据中正常波动与噪声的过度敏感。过度拟合了断纸发生时的极端信号模式,未能充分学习正常生产状态下多样的数据分布,导致将许多正常波动误判为断纸征兆。该算法适用于不考虑人力物力,对断纸类别预测要求较高,不允许断纸发生的情况。
Figure 5. Confusion matrix (left) and ROC curve (right) of the Transform model's predictions
图5. Transform预测的混淆矩阵(左)和ROC曲线(右)
3.5. LSTM-RF
LSTM-RF (长短期记忆–随机森林混合模型)是一种结合序列建模能力与集成学习优势的混合机器学习架构。该模型通过LSTM网络深度提取时序数据的动态特征,并利用随机森林(RF)对高维特征进行鲁棒性分类或回归。在前向计算过程中,原始时序信号先经LSTM层捕获长期依赖关系和时序模式,输出的隐状态特征再输入随机森林进行多决策树集成推理。
这种混合结构兼具神经网络的特征抽象能力和随机森林的抗过拟合特性:LSTM解决传统RF无法处理的序列依赖性,而RF则弥补了LSTM在小样本场景下泛化性不足的缺陷。训练过程采用两阶段策略,先优化LSTM参数再固定特征输入训练RF,或通过端到端联合训练实现协同优化。
将原始数据通过滑动窗口(窗口大小60)构建时间序列样本,采用分层抽样(test_size = 0.2)划分训练集和测试集,确保断纸事件(正类)的分布一致性。模型创新性地融合了改进的双向LSTM和随机森林的优势:LSTM分支采用三层双向结构(128→64→32单元)处理时序特征,新增层归一化和4头注意力机制增强特征提取能力,通过差分、二阶差分和累积值等增强特征工程;随机森林分支则集成多尺度统计特征(10/30/60/100时间窗的均值、极值等)。训练过程中采用鲁棒标准化(RobustScaler)处理LSTM输入,标准化(StandardScaler)处理RF特征,引入焦点损失函数(gamma = 2.0)并创新性使用SMOTE在特征空间联合过采样处理不平衡。模型在验证集上展示了良好的预测性能,使用验证集的一些预测如图6所示。
结果表明,该模型在测试集的评价结果为断纸类别的预测精度达86%,断纸事件召回率达89%,AUC达0.96,可以实现提前100个时间步的故障预判;该模型断纸类别预测精度高,牺牲部分整体预测概率,但模型整体的鲁棒性,以及断纸预测性能更加优秀,减少断纸误报,可以达到造纸厂的要求。
Figure 6. Confusion matrix (left) and ROC curve (right) of the LSTM-RF prediction
图6. LSTM-RF预测的混淆矩阵(左)和ROC曲线(右)
3.6. 模型预测结果对比分析
Figure 7. LSTM-RF predicted sequence curve
图7. LSTM-RF预测序列曲线
以某造纸厂七月份的造纸工艺生产数据作为训练集,前十五日作为训练集,后十五日作为测试集,共计30日数据,采样间隔为3 s。对五种模型的预测结果对比进行评价,如表2所示,结果表明,RF对断纸事件的检测能力强,鲁棒性好,适合并行化处理,低精度(44%)表明模型对非断纸样本的误判率高,RF适合作为基准模型,但需优化特征工程以减少误报。高召回和AUC表明LSTM能有效学习序列模式,但精度49%仍不理想,性能略优于RF,需要结合其他技术来提高精度。SVM整体表现最佳,泛化能力强,但SVM计算复杂度高,在大数据中变慢。Transform具有高召回率和精度(67%)表明对断纸事件敏感,低AUC表明整体泛化能力弱,适合不允许遗漏的场景。LSTM-RF高精度(86%)显示混合模型有效减少误报,鲁棒性强,是断纸预测的理想选择。
测试过程中显示SVM整体最优(AUC 0.96),LSTM-RF断纸精度最高(87%),RF和LSTM召回高但精度低,Transformer召回完美但AUC弱。LSTM-RF和SVM最适合实际应用,如图7所示,LSTM-RF可以提前十分钟对断纸进行预警,可以达到造纸厂造纸系统的预测要求。在研究中,将在线学习方法与静态模型相结合,提高该模型的自主学习能力,动态地调整阈值,从而提高预测效果。
Table 2. Comparison of model prediction results
表2. 模型预测结果对比
模型 |
Precision |
Recall |
AUC |
RF |
0.44 |
0.96 |
0.95 |
LSTM |
0.49 |
0.94 |
0.95 |
SVM |
0.74 |
0.98 |
0.96 |
Transform |
0.67 |
1 |
0.88 |
LSTM-RF |
0.87 |
0.89 |
0.96 |
在模型检验结果要求断纸类别预测准确减少误报的情况下,通过在造纸厂设置上述模型,在平均每天80次的断纸情况下,可以达到90余次提前五分钟进行断纸提醒,可以有效避免断纸产生的频次,足够车间现场工作人员做出及时响应。
4. 结论
本文系统构建了随机森林(RF)、长短期记忆神经网络(LSTM)、支持向量机(SVM)、Transformer及LSTM-RF混合模型五种数据驱动的断纸监测算法,并基于国内造纸厂实时生产数据进行了实证验证。通过对模型预测性能的综合对比分析,SVM和LSTM-RF模型被确定为结果更接近期望应用效果的预测模型。
LSTM-RF混合模型在工业断纸预测任务中展现出显著优势:其断纸类别预测精确率达86%,召回率达89% (AUC = 0.96),较单一模型性能提升40%以上(如RF精确率仅44%)。该模型通过双向LSTM层捕获蒸汽压力、流浆箱状态和后烘管道真空度等时序特征的长期依赖关系,同时利用随机森林集成多尺度统计特征,有效解决了传统方法对突发性断纸事件响应滞后的问题。
SVM模型虽在召回率(98%)和整体性能(AUC = 0.96)上表现优异,但其74%的精确率表明误报率较高,且计算复杂度限制了其在资源受限的工业嵌入式系统中的实时部署。未来可通过遗传算法优化核函数参数,或采用特征空间压缩技术提升其实用性。而Transformer模型虽实现100%召回率(零漏报),但0.76的AUC暴露其对非断纸类别的误判缺陷,仅适用于对断纸容忍度极低的特种纸生产线。
在工业场景下,若生产流程对断纸(漏报)的容忍度极低,一次断纸可能导致生产线长时间停机、原材料大量浪费及高额重启成本,那么优先选择高召回率的SVM是合理的,即使它会带来一些不必要的检查操作。反之,如果频繁的误报警(误报)代价高昂,例如会反复触发不必要的减速或停机检查,严重干扰生产节奏并消耗人力,那么选择高精度的LSTM-RF更为合适,它能有效降低误报干扰。实际应用中,LSTM-RF被验证可以提前5分钟进行有效预警,在日均80次断纸的情况下可实现90余次提前提醒,显著降低了断纸频次,这种平衡性是许多追求稳定生产的造纸厂的理想选择。
本文介绍基于数据驱动的五种断纸监测方法的研究,采用静态阈值难以适应生产环境动态变化,下一步可以考虑和在线学习方法融合,在建立静态模型的过程中,可以自学习阈值以评估生产过程的状况。实现自确定阈值,提高预测概率,达到准确,稳定对车间工厂的断纸预测。
当预测模型达到预期效果,系统可以稳定地对造纸厂的机器即将发生断纸的情况作出准确的预测,通过预测断纸,可较好地跟踪造纸生产过程中设备的运行状态,起到造纸工业故障提前预警作用。
NOTES
*第一作者。
#通讯作者。