1. 引言
制丝工艺是烟草加工的核心环节,其质量控制直接决定了卷烟产品的感官特性、燃烧性能及市场竞争力。在制丝过程中,烘丝工序作为关键环节之一,通过热风干燥调控烟丝水分,对烟丝物理特性、加工效率及成品品质具有决定性作用。其中,烘丝出料水分作为工艺参数链中的关键控制节点[1],其稳定性与精确性贯穿于原料处理、加工优化到成品储存的卷烟加工全生命周期。烘丝出料水分的微小波动即可显著改变烟丝的柔韧性、填充值及吸味特性,水分过高易导致烟丝粘连、霉变风险增加,同时降低燃烧效率;水分过低则会造成烟丝脆化、香气损失,甚至影响卷制的成品率。另外,烘丝出料水分的不均匀性还会导致后续掺配、加香工序的工艺偏差放大效应。
当前研究多采用最小二乘回归分析工艺参数或外部因素对出料水分的影响[2]-[4],然而实际生产数据显示,烘丝过程稳态参数呈现出非正态分布的特征[5]。这种数据特性导致基于条件均值的最小二乘法(OLS)估计存在以下局限:其一,对异常值敏感;其二,无法揭示工艺参数对水分分布不同分位点的差异化影响;其三,当误差项存在异方差性时,回归参数估计的有效性显著降低。相较而言,分位数回归通过最小化加权绝对偏差,可全面刻画自变量对因变量条件分布形态(包括中位数、四分位数等)的影响,其估计结果具有分布稳健性,已在金融经济[6] [7]、运输管理[8] [9]、环境卫生[10] [11]等领域得到广泛的应用。为此,本研究以烘丝出料水分的精准控制为目标,利用制丝过程烘丝段稳态数据构建分位数回归模型,系统分析工艺参数对出料水分条件分布的差异化影响,弥补OLS方法只能衡量某因素“平均”影响效果的不足,为卷烟加工实现水分控制的三个精准(精准诊断、精准调控、精准预测)提供理论支撑,推动质量控制模式从“均值管理”向“分布管理”范式转变。
2. 数据与方法
2.1. 数据来源
数据来源于某卷烟厂MES系统采集的某牌号卷烟2024年制丝过程全批次数据,共计219批。为了确保分析结果能够准确反映生产过程的稳态特性,数据预处理步骤为:首先,剔除停机断料批次数据,将生产过程中某一工序入口流量降至0 kg/h且持续时间超过90 s的批次判定为停机断料批次。其次,按照行业常用的稳态截取规则对原始数据进行稳态数据截取,剔除批次起始和结束阶段的非稳态数据。最后,制丝滚筒类设备混合加工的特性造成参数和出料水分的实时数据无法一一对应,根据制丝正常生产过程标识物(纯白卷烟纸)工序停留时间的实测值,按8 min的时间间隔进行数据分组并计算稳态数据的均值,最终形成稳态数据样本,样本量为2286个。
2.2. 变量选取
选取烘丝段出料水分为模型因变量,根据现有烘丝机控制流程和原理,从物料、蒸汽、温度以及相关的参数等几个方面选取自变量,其中,包括切叶丝水分、工艺流量、膨胀单元蒸汽体积流量、膨胀单元蒸汽质量流量、筒壁温度、工艺气速度、负压和热风温度等8个工艺参数。切叶丝水分是经过切丝机处理后的叶丝所含的水分含量,作为烘丝段的外生输入变量,其不仅直接影响到烘丝段的稳定性且不可控;工艺流量是单位时间内通过烘丝机入口电子秤的烟丝质量流量;膨胀单元蒸汽体积流量和膨胀单元蒸汽质量流量是单位时间内通过烘丝机膨胀单元的蒸汽体积和质量;筒壁温度是烘丝机筒壁上温度传感器检测到的温度值,筒壁温度越高,烘丝机干燥能力就越强;热风温度是通过烘丝机热风风管上的温度传感器检测到的温度值,热风温度波动过大可能导致烟丝干燥不均匀;工艺气速度是干燥介质(如热风、热气流等)在烘丝机中的流动速度;负压是烘丝机内部的气体压力低于外部环境的大气压力,防止热风的溢出。因变量和自变量描述性统计见表1。
Table 1. Descriptive statistics of main variables
表1. 主要变量描述性统计
参数 |
变量 |
平均值 |
标准差 |
最小值 |
最大值 |
备注 |
出料水分 |
Y |
13.86 |
0.20 |
12.93 |
14.64 |
因变量 |
切叶丝水分 |
X1 |
20.63 |
0.30 |
19.80 |
21.41 |
自变量 |
工艺流量 |
X2 |
2499.94 |
1.20 |
2458.22 |
2500.29 |
膨胀单元蒸汽体积流量 |
X3 |
126.51 |
0.96 |
119.64 |
129.88 |
膨胀单元蒸汽质量流量 |
X4 |
619.99 |
0.40 |
616.22 |
621.68 |
负压 |
X5 |
−4.78 |
1.58 |
−25.31 |
−1.26 |
工艺气速度 |
X6 |
0.15 |
0.01 |
0.13 |
0.23 |
筒壁温度 |
X7 |
130.04 |
3.73 |
117.41 |
140.32 |
热风温度 |
X8 |
120.01 |
0.43 |
118.95 |
121.28 |
2.3. 正态分布检验
采用Shapiro-Wilk检验、Kolmogorov-Smirnov检验和Anderson-Darling检验三种方法[12]对出料水分(Y)及其对数变换ln (Y)进行正态性检验,检验结果如表2所示。统计检验结果表明,在1%的显著性水平下,Shapiro-Wilk检验、Kolmogorov-Smirnov检验和Anderson-Darling检验均显著拒绝样本服从正态分布的原假设,这表明因变量出料水分具有显著的非正态分布特征。进一步通过样本分布形态分析发现,出料水分的峰度为2.117,偏度为0.035,说明该变量呈现右偏分布特征,且具有尖峰态分布的特点。
Table 2. Normality test of the explained variable
表2. 因变量正态性检验
变量 |
方法 |
统计量W |
统计量D |
统计量A |
P值 |
Y |
Shapiro-Wilk |
0.951 |
—— |
—— |
0.000 |
Kolmogorov-Smirnov |
—— |
0.107 |
—— |
0.000 |
Anderson-Darling |
—— |
—— |
38.623 |
0.000 |
Ln (Y) |
Shapiro-Wilk |
0.951 |
—— |
—— |
0.000 |
Kolmogorov-Smirnov |
—— |
0.106 |
—— |
0.000 |
Anderson-Darling |
—— |
—— |
38.364 |
0.000 |
2.4. 分位数回归方法
2.4.1. 模型简介
Koenker和Bassett [13]在最小绝对偏差估计理论的基础上首次提出了分位数回归的概念,它依据因变量的条件分位数对自变量进行回归。假设因变量为Y,P个自变量为
,满足如下线性分位数回归模型:
(1)
其中,与误差项的条件
分位数等于0,即
,
;回归系数依赖分位点
的变化,表示为自变量对因变量在分位点的边际效应。
记自变量向量为
,回归系数向量为
,样本为
,
,模型(1)中的参数
估计值的求解公式为:
(2)
其中,函数
,式(2)等价于求解一个线性规划问题。
分位数回归采用加权残差绝对值之和的方法进行参数估计,其优势主要体现在以下几个方面:首先,该方法对模型中的随机扰动项无需进行任何分布假设,从而增强了模型的稳健性;其次,分位数回归不依赖于连接函数来描述因变量的均值与方差之间的关系,因此具有较好的弹性性质;第三,由于分位数回归是对所有分位数进行估计,因此对数据中的异常值具有较强的耐抗性;第四,与普通最小二乘回归不同,分位数回归具有对被解散变量的单调变换不变性;最后,分位数回归估计的参数在大样本理论下具有渐进优良性[13]。
2.4.2. 回归系数估计及检验
目前,式(2)中系数
的估计算法主要包括单纯形法(Simplex Method)、内点法(Interior Point Method)和平滑法(Smoothing Method)。其中,单纯形算法由Koenker提出,其估计结果具有较高的稳定性,但在处理大规模数据时,计算效率显著下降。针对单纯形算法在处理大规模数据时效率低下的问题,Karmarker提出了内点算法。Portnoy和Koenker将内点算法应用于分位数回归中,并得出在处理大规模数据时,内点算法的计算速度显著优于单纯形算法的结论。然而,单纯形算法和内点算法各有其优点与局限性。相比之下,有限平滑算法是一种在计算效率和计算速度之间取得平衡的方法。Madsen和Nielsen将该算法应用于最小一乘回归(即中位数回归),而Chen则将其进一步推广到回归分位数的计算中。相比较之下,本文采用单纯形算法进行参数估计,主要基于以下考虑:首先,尽管单纯形法在处理大规模数据集时存在计算效率较低的局限性,但其在参数估计的稳定性方面具有显著优势。其次,当数据存在大量杠杆点和离群值时,单纯形法能够有效克服这些数据异常带来的估计偏差,确保参数估计的稳健性。最后,结合梯度下降法和遗传算法的特点,单纯形法在参数搜索过程中不易陷入局部最优解,这为获得全局最优解提供了可靠保障。
分位数回归的系数
显著性检验在功能上与传统回归分析中的t检验类似,旨在检验回归系数是否显著不为零。然而,由于分位数回归估计量的抽样分布通常不服从正态分布,传统的参数检验方法不再适用。因此,学者普遍采用非参数方法构建置信区间并进行假设检验,主要包括自助法(Bootstrap)和基于渐近分布理论的方法。在参数显著性检验方法的选择上,本研究采用X-Y成对Bootstrap方法,主要基于以下考虑:X-Y成对Bootstrap作为最常用的重抽样技术之一,其通过对原始样本进行有放回的重抽样(样本量可小于或等于原始样本量),计算每次抽样的分位数回归系数估计值,经过B次重复抽样后获得B个系数估计值序列,进而构建参数的渐近分布协方差矩阵。虽然He和Hu (2002)提出的马尔可夫链边际Bootstrap方法(Markov Chain Marginal Bootstrap, MCMB)通过将多维线性规划问题降维转化,在计算效率方面具有明显优势[14],但X-Y成对Bootstrap方法因其原理直观、实现简单且具有较好的统计特性,在实证研究中得到更广泛的应用。
2.4.3. 模型检验
普通最小二乘回归(Ordinary Least Squares, OLS)模型的整体显著性检验旨在评估模型中所有自变量是否共同对因变量产生显著影响,通常通过F检验实现。然而,由于分位数回归的估计量不依赖于误差项的正态分布假设,传统的F检验不再适用。针对这一问题,Koenker和Basset提出了拟似然比(Quasi-Likelihood Ratio, QLR)检验用于分位数回归模型的整体显著性检验。
该检验的原假设为模型中所有回归系数均为零,即
,检验统计量基于分位数回归的目标函数构造,具体形式为:
其中,
,为无约束分位数回归模型的目标函数值;
,为在原假设下(仅包含截距项)的目标函数值。
Koenker与Machado (1999)依据最小二乘回归中拟合优度
的计算思想,提出了分位数回归中拟合优度的计算方法,定义为
。其中,
,
,
。最小二乘回归中的
依据残差平方和度量了回归平方和占总离差平方和的比重,而
则按照残差绝对值的加权和,度量了在某个分位数下分位数回归的拟合效果。因此,不像
反映的是整个分布的拟合情况,
描述的是在某个分位数下的局部拟合效果。
3. 实证分析结果
3.1. 模型整体显著性检验
为了深入分析烘丝工艺参数对出料水分的影响,即5%、25%、50%、75%和95%,并基于以上分位点构建分位数回归模型。其中,5%分位点代表出料水分的技术标准中心值,50%分位点则对应出料水分的样本中心值,而95%分位点则反映了出料水分的样本高值点。以普通最小二乘回归作为对比,模型检验结果见表3。由表3可知,在1%的显著性水平下,所有回归模型均通过整体显著性检验,表明自变量对因变量具有显著的解释能力。普通最小二乘回归的F统计量为39.80,说明至少有一个自变量对因变量的条件均值产生显著影响。而在分位数回归方面,中高分位点(τ = 0.5、0.75)的统计量相对较高,表明自变量在这些分位点的联合效应更强,但模型整体拟合效果较差。相比之下,极端分位点(τ =0.05、0.95)的QLR统计量则相对较低,表明自变量在这些分位点的联合效应更弱,但模型的整体拟合效果较好。
Table 3. Testing for ordinary least squares and quantile regression models
表3. 普通最小二乘和分位数回归模型检验
模型 |
F/QLR统计量 |
P值 |
拟合优度 |
普通最小二乘回归 |
39.80 |
0.00 |
0.12 |
分位数回归(
) |
176.26 |
0.00 |
0.15 |
分位数回归(
) |
270.75 |
0.00 |
0.09 |
分位数回归(
) |
273.80 |
0.00 |
0.07 |
分位数回归(
) |
291.53 |
0.00 |
0.07 |
分位数回归(
) |
116.37 |
0.00 |
0.10 |
3.2. 回归系数估计及检验
普通最小二乘回归和分位数回归的系数估计结果见表4。由表4可知,切叶丝水分和工艺气速度在所有分位点均与出料水分的条件分位数呈显著正相关,而筒壁温度在各分位点的回归系数均显著为负。其中,膨胀单元蒸汽体积流量仅在低分位点(
)呈现显著影响,负压则在极端分位点(τ = 0.05、0.95)表现出显著性。相比之下,工艺流量、膨胀单元蒸汽质量流量和热风温度在所有分位点均未呈现显著影响。
比较普通最小二乘回归模型与分位数回归模型的结果,中高分位点(τ = 0.5、0.75)的分位数回归结果与普通最小二乘回归结果更为接近,这一现象与正态性检验中出料水分样本呈现右偏分布的结论相吻合。进一步分析各变量的分位数回归系数变化特征发现:(1) 切叶丝水分的回归系数随分位点τ的增大呈现“U”型变化趋势,表明其对出料水分的边际效应具有先减小后增加的非线性特征;(2) 工艺气速度的回归系数随分位点τ的增大而递减,说明其对低水分物料的出料水分具有更为显著的边际效应;(3) 筒壁温度的回归系数绝对值随分位点τ的增大而减小,且显著性水平逐渐降低,这表明其对低水分物料的出料水分影响更为显著。
Table 4. The results of ordinary least squares and quantile regression
表4. 普通最小二乘和分位数回归结果
变量 |
普通最小二乘
回归 |
分位数回归 |
|
|
|
|
|
常数项 |
30.000*** (0.003) |
67.875** (0.011) |
32.070 (0.127) |
29.625** (0.034) |
30.751*** (0.010) |
12.356 (0.558) |
切叶丝水分 |
0.202*** (0.000) |
0.403*** (0.000) |
0.233*** (0.000) |
0.137*** (0.000) |
0.067*** (0.000) |
0.424*** (0.000) |
工艺流量 |
−0.005 (0.128) |
−0.010 (0.106) |
−0.006 (0.413) |
−0.006 (0.264) |
−0.005 (0.309) |
0.0002 (0.964) |
膨胀单元蒸汽体积流量 |
−0.009** (0.029) |
−0.013 (0.265) |
−0.011** (0.024) |
−0.005 (0.125) |
−0.004 (0.275) |
−0.008 (0.420) |
膨胀单元蒸汽质量流量 |
−0.008 (0.399) |
−0.051 (0.149) |
−0.006 (0.672) |
−0.005 (0.533) |
−0.009 (0.162) |
−0.010 (0.718) |
负压 |
−0.006** (0.028) |
−0.010***
(0.000) |
−0.003 (0.125) |
−0.002 (0.226) |
−0.004 (0.286) |
−0.012* (0.041) |
续表
工艺气速度 |
4.184*** (0.000) |
6.570*** (0.000) |
4.829*** (0.000) |
4.167*** (0.000) |
3.361*** (0.000) |
1.546*** (0.000) |
筒壁温度 |
−0.014*** (0.000) |
−0.043***
(0.000) |
−0.024***
(0.000) |
−0.012***
(0.000) |
−0.001 (0.422) |
−0.011***
(0.000) |
热风温度 |
−0.002 (0.840) |
−0.008 (0.775) |
−0.003 (0.794) |
0.003 (0.676) |
−0.004 (0.552) |
0.005 (0.874) |
注:***表示P < 0.01,**表示P < 0.05,P < 0.1;括号里面的数字为参数检验的P值。
3.3. 重要分位点的工艺参数影响分析
各自变量随分位点τ变化的系数趋势见图1。由图1可知,图中长虚线为各分位点的自变量回归系数,阴影部分为其95%置信区间。红色长实线为最小二乘回归系数,红色短虚线为其95%置信区间。通过对比分析发现,切叶丝水分、工艺气速度和筒壁温度等关键变量对出料水分的边际影响随分位点变化呈现显著的非线性特征,这种非线性特征本质上反映了卷烟加工烘丝过程中多相流态转变(从毛细流转变为蒸汽扩散)、热质传递模式转换(从表面蒸发转换为内部沸腾)等复杂机理的协同作用。由于最小二乘回归模型仅能估计条件均值回归系数,无法全面反映变量影响程度的异质性特征,而分位数回归模型则能够更好地捕捉这种变化趋势。本研究采用5%分位点的分位数回归模型表征出料水分在生产过程技术标准中心附近各变量的影响程度,回归方程如下:
注:纵坐标为自变量的回归系数,横坐标为分位点。
Figure 1. Quantile plot of regression coefficients
图1. 回归系数的分位图
根据回归系数估计结果,各变量对出料水分的影响程度如下:当切叶丝水分每提高1%,出料水分提高0.403%;工艺流量每提高1 kg/h,出料水分降低0.01%;膨胀单元蒸汽体积流量每提高1 L/h,出料水分降低0.013%;膨胀单元蒸汽质量流量每提高1 kg/h,出料水分降低0.051%;负压每提高1 Pa,出料水分降低0.01%;工艺气速度每提高1 m³/h,出料水分提高6.57%;筒壁温度每提高1℃,出料水分降低0.043%;热风温度每提高1℃,出料水分降低0.008%;以上分析为出料水分趋近于标准中心值控制的参数设置提供了重要的理论依据。
采用95%分位点的分位数回归模型表征出料水分在高值点附近各变量的影响程度,回归方程如下:
根据回归系数估计结果,各变量对出料水分的影响程度如下:当切叶丝水分每提高1%,出料水分提高0.424%;工艺流量每提高1 kg/h,出料水分提高0.0002%;膨胀单元蒸汽体积流量每提高1 L/h,出料水分降低0.008%;膨胀单元蒸汽质量流量每提高1 kg/h,出料水分降低0.01%;负压每提高1 Pa,出料水分降低0.012%;工艺气速度每提高1 m³/h,出料水分提高1.546%;筒壁温度每提高1℃,出料水分降低0.011%;热风温度每提高1℃,出料水分提高0.005%;以上分析为高水分物料的出料水分控制的参数设置提供了重要的理论依据。
4. 结论
① 烘丝出料水分的样本数据不符合正态分布,且呈现右偏分布特征;② 切叶丝水分、工艺气速度和筒壁温度等关键变量对出料水分的边际影响随分位点变化呈现显著的非线性特征,切叶丝水分的影响随分位点增高呈现“U”型变化趋势,工艺气速度的影响随分位点增高有明显的下降趋势,而筒壁温度的影响随分位点增高而上升;③ 5%分位点的分位数回归模型可表征出料水分在生产过程技术标准中心附近各变量的影响程度,为出料水分精准控制的参数设置提供了重要的理论依据。