1. 引言
钢材的成型有多种方式,如轧制、挤压、拉拔和锻造等,用轧制方式生产的钢材具有生产率高、产品质量好、品种规格多、生产连续性强,易于实现机械化和自动化等优点[1]。冷轧带钢作为钢铁工业中至关重要的产品,在汽车、家电、建筑、机械等众多领域都有着广泛的应用[2]。近年来,随着市场需求的持续不断增长,各个领域对冷轧带钢产品的性能和质量提出了愈发严格的更高要求。
仅针对冷轧过程机理进行分析来构建模型的难度较大,并且生产过程的复杂性使得机理模型难以对其准确描述。为此,一些专家学者对冷轧带钢工艺过程进行了研究,通过建立数据模型的方式实现对冷轧过程的分析及预测。杨静等[3]通过构建并行异构极限学习机模型实现对轧制过程轧制力的预测,进而控制带钢的实际厚度,并采用对模型进行优化;杨利坡等[4]建立了基于极限学习机的神经网络板形预报模型,并且引入了差分进化法优化网络初始输入权值和偏置值,模型具有更高的精度,稳定性也得到了提高;赵志挺等[5]通过建立深度神经网络模型预测带钢板凸度,采用主成分分析获得组合变量,改善后的模型运行时间得到减少的同时模型的准确率也有所提高;
由于冷连轧后的带钢需要连续退火来消除因冷轧产生的内应力并提高其机械性能,而连续退火工序中各阶段的工艺参数之间存在耦合性(加热炉的温度设定会影响后续均热与冷却温度的设定,以及带钢穿行速度),导致难以建立该工序的机理模型,从而为在线的产品质量控制与优化带来挑战。
针对上述问题,本文将影响带钢质量的参数分为工艺参数和带钢机械性能参数两类,其中:带钢规格数据包括厚度、宽度、碳含量、硅含量,控制工艺参数包括带钢速度、加热炉温度、均热炉温度、缓冷炉温度、过时效炉温度、快冷炉温度、淬火温度、平整机张力。并按顺序记为
。
首先通过相关性分析,提取真正对带钢硬度有较大影响的参数。接下来将提取出的有效参数进行主成分分析,得到各参数的特征值和累计贡献率,然后列出各主成分的成分矩阵,进而求出综合主成分与各主成分的关系和各特征参数的关系。最后通过最小二乘估计法求出拟合方程。数据取自于某钢铁厂。
2. 影响带钢硬度主要参数的确定
2.1. 相关性分析
1) 显著性,又称统计显著性,是指零假设为真的情况下拒绝零假设所要承担的风险水平,也叫概率水平或显著水平。
在统计假设检验中,公认的小概率事件的概率值被称为统计假设检验的显著性水平,对同一物理量进行多次测量,并算出平均值。对于偏离评价值的正负差值,就是不确定度,如果不确定度越大,对于具有特定的发生概率的随机变量,其特定的价值区间,即一个确定的数值范围就越大[6]。
当求出的零假设为真的情况下拒绝零假设所要承担的风险水平即p,p值的不同所代表的含义见表1:
Table 1. Reference value of p value size
表1. p值大小的参考价值
p < 0.05 |
有统计学差异 |
p < 0.01 |
有显著统计学差异 |
p < 0.001 |
有极其显著统计学差异 |
2) 斯皮尔曼相关系数:
Spearman等级相关系数法是一种非参数检验方法,可以度量变量之间的强弱关系[7],适用于非正态或非线性数据。
(1)
其中
指的是第i个数据对应的位次值之差,n为总的观测样本数。一般相关系数的绝对值小于1。
2.2. 变量相关强度
变量相关强度,根据所求出的相关系数的大小,可以直接判断变量的相关程度,评判标准见表2:
Table 2. Variable correlation strength
表2. 变量相关强度
相关程度 |
极强相关 |
强相关 |
中等程度相关 |
弱相关 |
极弱相关或无相关 |
相关系数绝对值 |
0.8~1 |
0.6~0.8 |
0.4~0.6 |
0.2~0.4 |
0~0.2 |
根据表格可知当相关系数的绝对值越趋近于1,变量的相关程度越强,随着相关系数的绝对值逐渐减小,变量的相关程度变弱,当相关系数等于0的时候,变量处于无相关。
2.3. 带钢硬度影响参数的确定
根据斯皮尔曼相关系数公式,将十二组数据分别带入,应用MATLAB和SPSS进行相关性与显著性的检验,并根据所求出的十二个相关系数,来判断变量相关程度和显著性。应用软件所求出的结果见表3:
Table 3. Test results
表3. 检验结果
各变量 |
相关系数 |
显著水平 |
相关性检验 |
带钢厚度 |
0.53 |
0.95 |
无相关性 |
带钢宽度 |
0.57 |
0.70 |
无相关性 |
续表
碳含量 |
0.314 |
<0.001 |
弱相关性 |
硅含量 |
0.040 |
0.203 |
无相关性 |
带钢速度 |
0.125 |
<0.001 |
极弱相关性 |
加热炉温度 |
−0.211 |
<0.001 |
弱相关性 |
均热炉温度 |
−0.458 |
<0.001 |
中相关性 |
缓冷炉温度 |
0.013 |
0.693 |
无相关性 |
过时效炉温度 |
0.001 |
0.967 |
无相关性 |
快冷炉温度 |
−0.329 |
<0.001 |
弱相关性 |
淬火炉温度 |
0.328 |
<0.001 |
弱相关性 |
平整机张力 |
−0.001 |
0.979 |
无相关性 |
根据求出来的相关系数和显著水平以及表1、表2的原则,统计得知均热炉温度对带钢性能呈中相关性;碳含量、加热炉温度、快冷炉温度、淬火炉温度对带钢性能呈弱相关性;带钢速度对带钢性能呈极弱相关性;带钢厚度、带钢宽度、硅含量、缓冷炉温度、过时效炉温度、平整机张力等六个因素对带钢性能呈无相关性。
综上所述,均热炉温度对钢的机械性能影响最大;碳含量、加热炉温度、快冷炉温度、淬火炉温度对钢的机械性能有一定影响;带钢速度对钢的机械性能有较小影响;其他指标对钢的性能影响几乎可忽略不计。
3. 带钢产品质量在线检测模型的建立
3.1. 主成分分析法
主成分分析(principal component analysis, PCA)又称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标[8],其目的是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。一般是选出比原始变量个数少,并且能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。主成分分析计算一般包括6个步骤:数据标准化处理;求相关系数矩阵;计算相关系数矩阵特征值及特征向量;计算主成分贡献率及累积贡献率;得出主成分表达式;计算加权综合评价值[9]。
1) 首先,对原始数据进行标准化处理:假设主成分分析指标有m个,
,共有n个评价对象,其中第
个评价对象的第
个指标的取值为
,记
为标准化指标。
(2)
(3)
(4)
其中,
和
分别称为样本均值和样本标准差。
2) 计算相关系数矩阵R
其中相关系数矩阵
(5)
其中
,
,
是第
个指标与第
个指标的相关系数。
3) 计算特征值与特征向量
计算相关系数矩阵R的特征值
,对应的特征向量为,
,
,并组成m个新的指标向量。
(6)
其中
称为第一主成分,
称为第二主成分
称为第m主成分。
4) 选择
个主成分
计算特征值为
的信息贡献率
和累积贡献率
:
(7)
(8)
当
接近于1时,则选择前
个指标变量作为
个主成分,代替原来的m个指标变量。
3.2. 综合主成分与主成分估计法
3.2.1. 综合主成分
对于经过主成分分析法分析出来的主成分,也存在有两个或两个以上的主成分的累积贡献率达到百分之九十以上,主成分分析效果很好,需要进行综合主成分分析,求出各主成分贡献率的权重,综合主成分等于各权重分别乘以各个主成分。
(9)
3.2.2. 主成分估计法
主成分估计法是一种改进最小二乘估计的有偏估计[10],它使用少数重要的主成分经过标准化处理后作为公共因素。该方法是主轴因素法的特例,旨在通过降维技术,将原始数据中的多个变量综合为少数的几个主成分,这些主成分能够反映原始数据的大部分信息,同时彼此之间相互独立,从而简化了数据分析的过程。主成分估计法的应用不仅限于因素分析,还在多个领域中发挥着重要作用,包括但不限于数据降维、特征提取、以及数据可视化等。
3.3. 检测模型的建立
先提取所有数据列出矩阵,取所有自变量构成的995 × 6的矩阵
,对因变量硬度列出995 × 1的矩阵
。计算
的相关系数矩阵,对矩阵
、
进行标准化处理,应用MATLAB直接对矩阵
标准化后的矩阵
进行主成分分析得到特征值和累积贡献率见表4。
用相关系数矩阵求主成分时,Kaiser主张将特征值小于1的主成分予以放弃,并且在实际研究中,由于主成分的目的是为了降维,减少变量的个数,故一般选取少量的主成分(不超过5或6个),只要它们
Table 4. Eigenvalues and cumulative contribution rate of each parameter
表4. 各参数的特征值与累积贡献率
参数 |
特征值 |
累计贡献率 |
|
2.29010005567920 |
0.381683342613200 |
|
1.58683760163305 |
0.646156276218709 |
|
1.02837761577350 |
0.817552545514293 |
|
0.589266996579824 |
0.915763711610930 |
|
0.440967791634163 |
0.989258343549957 |
|
0.0644499387002581 |
1 |
能解释变异的70%~80% (称累积贡献率)就行了[11]。综上表所述,选取当特征值大于1和累积贡献率大于0.7时的主成分,上表中可以选出三个主成分,分别为
,进而列出三个主成分的成分矩阵见表5:
Table 5. Component matrix of principal components
表5. 主成分的成分矩阵
指标变量 |
|
|
|
|
−0.381813235230005 |
0.409969680451218 |
0.189814332305228 |
|
−0.132184232537552 |
0.458996616467034 |
0.643884780749347 |
|
0.554032134737950 |
0.373714119865666 |
−0.0263256608249118 |
|
0.631443612290581 |
0.0775532295984464 |
−0.0701784452894798 |
|
0.357604982105486 |
−0.212210298344388 |
0.65797782785108 |
|
0.0564979381935498 |
0.656153190688728 |
−0.332925371173362 |
通过上述表格可以读出综合主成分与主成分的关系:
(10)
进而可以读出综合主成分与所有自变量的关系:
(11)
为了更直观的表现综合主成分与各自变量的关系,可以绘制出饼状图,如图1:
Figure 1. Pie chart of the proportion of each variable
图1. 各自变量占比饼状图
根据MATLAB编程并绘制各自变量权重散点图,可以根据散点图的位置判断参数对带钢机械性能的影响,当权重越趋近于0时,则参数对带钢的机械性能影响越小;当权重的绝对值约趋近于1时,参数对带钢的机械性能影响越大,绘出的散点图如图2:
Figure 2. Scatter plot of weight distribution of independent variables
图2. 自变量的权重分配散点图
由图2可知,
即碳含量、快冷炉温度、淬火炉温度对机械性能影响较大。
舍弃综合主成分中所占权重低的影响因素,即
,将剩下的五个影响因数与硬度应用最小二乘估计法建立拟合方程:
(12)
其次,再通过MATLAB对数据编程求解式子中的系数如表6:
Table 6. Equation coefficients solved by principal component estimation method
表6. 主成分估计法求解出的方程系数
|
639.027382231754 |
|
0.0760468177121674 |
|
0.0237874825450161 |
|
−0.130967224376795 |
|
−0.640128135087790 |
|
0.859579508432079 |
4. 模型结果检验
4.1. 剩余标准差与决定系数
4.1.1. 剩余标准差
又称为均方根误差、标准误差、回归系统的拟合标准差,简称为RMSE,用以反映数据的离散化程度。主要在回归分析中的分布回归分析中作为变量引入和剔出的标准,也可以通过剩余标准差进行性能分析,剩余标准差越小,拟合预测效果越好。
(13)
4.1.2. 决定系数
也称为测定系数或可决指数,是一个统计指标,简称为R2用于衡量回归模型中自变量与因变量之间的关系强度。它表示自变量能解释的因变量的变差与因变量总变差的比值。在回归分析中,决定系数用来评估模型的拟合效果,即自变量能解释的因变量的方差的比例。
(14)
一般来说,R2的取值范围是:0 ≤ R2 ≤ 1,R2越大,表示预测效果越好,当R2 = 1时,说明模型结果无错误;当R2 = 0时,说明模型拟合效果很差。
4.2. 结果检验
对所求出的解应用MATLAB进行编程处理,分别解出剩余标准差和决定系数。其中,剩余标准差越小的,模型的性能越好;决定系数越趋近于1的,模型的性能越好。计算结果如表7:
Table 7. Test results
表7. 检验结果
剩余标准差 |
20.1717069483825 |
决定系数 |
0.719901700072737 |
结果表明,该模型可用于数据驱动的带钢产品质量在线检测,且模型检测的结果具有参考价值,模型的性能良好,可以供操作人员使用。
5. 结论
本文利用相关性分析和主成分分析法对带钢硬度有影响的参数进行确定,进而建立带钢硬度检测模型,得出结论:
1) 均热炉温度、碳含量、加热炉温度、快冷炉温度、淬火炉温度以及带钢速度对钢的硬度有一定影响。
2) 通过主成分分析法和综合主成分可以求出各主成分对带钢硬度的影响比例,可以建立一个数据驱动的带钢质量检测模型。
3) 采用剩余标准差检验和决定系数检验表明该模型有一定参考价值。
NOTES
*通讯作者。