1. 引言
在全球葡萄酒产业规模扩大、竞争加剧的背景下,消费者对其品质的关注度也日益提升,而传统依靠感官品鉴与经验判断的质量评估方式,已经难以满足现代红酒产业标准化、科学化发展的需求[1] [2]。深入研究红酒质量的影响机制,对酒庄优化流程、消费者理性选购以及行业技术创新均具有重要意义。
2013年王强和汪丹丹[3]、朱家明[4] [5]、朱存斌和朱家明等[6]、陈欣[7]运用主成分分析、模糊聚类模型、多元线性回归模型研究了葡萄酒理化指标对葡萄酒质量的影响;程相和陈家旭等[8]应用偏最小二乘回归模型和逐步回归模型研究了酿酒葡萄和葡萄酒的成分与葡萄酒质量的关系;刘令和熊奕达等[9]、董莹和崔瑞雪等[10]运用因子分析法研究了葡萄理化指标对葡萄酒质量的影响;2014年,方壮和向华艳[11]等建立多元非线性回归模型,通过对模型的解与原始值的比较,验证了多元非线性回归模型评价葡萄酒质量的合理性;刘兵兵和宋帝[12]运用逼近理想解排序法(Technique for Order of Preference by Similarity to Ideal Solution, TOPSIS)根据葡萄酒的理化指标将葡萄酒质量分为三个等级;2022年裴文华[13]、刘婷[14]运用支持向量机、决策树、朴素贝叶斯分类器和逻辑回归对葡萄酒质量影响机制进行研究。
酿酒葡萄和葡萄酒的理化指标较多,传统的多元线性回归模型忽略了指标之间的非线性交互作用,并且保留所有变量,模型的解释性较差,而且在实际工作中样本检测与数据采集的工作量剧增。而分类模型只能提供等级分类概率,在实际操作中,可能将5分、6分的葡萄酒分为同一等级,而6分、7分被分为不同级别,这种硬边界感不符合感官评价的连续性本质,对葡萄酒质量的影响因素只给出定性评价,没有量化自变量对红酒质量评分的实际影响程度。为解决上述问题,文章首先用正则化变量选择技术从影响红酒质量的众多因素中选取出关键因素,并构建红酒质量评分(因变量)与其关键因素的线性模型,为研究红酒质量影响机制提供了清晰的框架,模型具有更强的解释性。
2. 正则化变量选择方法介绍
正则化变量选择方法通过在优化过程中对参数施加约束,使部分参数变为零或接近零,从而实现变量筛选。常用的正则化方法有岭回归[15] (Ridge Regression)、最小绝对收缩和选择算子[16] (Least Absolute Shrinkage and Selection Operator, LASSO)、弹性网[17] (Elastic Net)等。
2.1. 岭回归方法
当自变量之间存在高度相关性时(即多重共线性),变量的线性组合可能导致模型的不稳定。岭回归是一种用于处理这类问题并防止过度拟合的正则化方法,属于线性回归的改进版。其核心思想是在传统最小二乘损失函数中添加L2正则化项
,对参数
进行惩罚来降低模型复杂度,其目标函数为
(1)
其中
是正则化参数,可以通过交叉验证(Cross Validation, CV)、广义交叉验证(Generalized Cross Validation, GCV)、赤池信息准则(Akaike Information Criterion, AIC)或贝叶斯信息准则(Bayesian Information Criterion, BIC)来确定。
的大小决定了回归系数
被压缩的程度,
越大模型参数
被压缩趋于0的强度越大,从而减少多重共线性和过度拟合,但
不会被严格压缩为0,因此岭回归不直接剔除变量,而是通过削弱无关变量的系数来降低其影响。当
时,岭回归退化为最小二乘回归。由岭回归方法得到的回归系数的估计值
只能满足连续性,不满足无偏性和稀疏性[15]。
2.2. LASSO方法
Tibshirani在1996年提出了LASSO方法,该方法通过在最小二乘损失函数的基础上引入L1正则化项
迫使部分参数被严格压缩为零来实现变量筛选,从而简化模型并提高模型的精准度。其目标函数为
(2)
其中
是正则化参数,控制惩罚强度,
为L1范数,是LASSO实现变量选择的关键。L1正则化项通过将部分变量的系数压缩为零,从而剔除无关变量,仅保留对目标函数有显著影响的变量,实现变量的自动选择,由LASSO方法得到的回归系数的估计值
满足稀疏性和连续性,不满足无偏性[16]。
2.3. 弹性网方法
Zou Hui和Trevor Hastie在2005年提出了弹性网方法,该方法在最小二乘的基础上引入L1和L2正则化项,同时具有LASSO方法和岭回归方法的优点,既能产生稀疏解又使模型更加稳定,并能够使模型更好地适应不同数据情况。弹性网的核心思想是在最小二乘目标函数基础上同时对系数施加L1和L2惩罚,其目标函数为
(3)
其中
是正则化参数,控制惩罚强度,
是混合比例参数,当
时,弹性网方法退化为LASSO方法,当
时,弹性网方法退化为岭回归方法。
表示L1正则化项与L2正则化项等权重。
3. 红酒质量影响因素分析及建模
3.1. 数据来源
选取来自Kaggle网站(https://www.kaggle.com/)公开的红酒质量数据集来研究红酒质量的影响机制。该数据集包含了1599条样本,每条样本包含12个变量,其中前11列为物理化学特征属性,分别为X1:固定酸度(Fixed Acidity)、X2:挥发性酸度(Volatile Acidity)、X3:柠檬酸(Citric Acid)、X4:残余糖(Residual Sugar)、X5:氯化物(Chlorides)、X6:游离二氧化硫(Free Sulfur Dioxide)、X7:二氧化硫总量(Total Sulfur Dioxide)、X8:密度(Density)、X9:pH值(pH)、X10:硫酸盐(Sulfates)、X11:酒精(Alcohol),所有理化特征均为连续型数值变量,第12列为质量评分,质量评分为有序分类变量,分值范围为0~10分(数据集中实际样本评分集中在3~8分)。其中前5行数据见表1。
Table 1. Top five rows of red wine quality data
表1. 红葡萄酒质量前五行数据
Fixed acidity |
Volatile acidity |
Citric acid |
Residual sugar |
Chlorides |
Free
sulfur
dioxide |
Total
sulfur
dioxide |
Density |
pH |
Sulphates |
Alcohol |
Quality |
7.4 |
0.7 |
0 |
1.9 |
0.076 |
11 |
34 |
0.9978 |
3.51 |
0.56 |
9.4 |
5 |
7.8 |
0.88 |
0 |
2.6 |
0.098 |
25 |
67 |
0.9968 |
3.2 |
0.68 |
9.8 |
5 |
7.8 |
0.76 |
0.04 |
2.3 |
0.092 |
15 |
54 |
0.997 |
3.26 |
0.65 |
9.8 |
5 |
11.2 |
0.28 |
0.56 |
1.9 |
0.075 |
17 |
60 |
0.998 |
3.16 |
0.58 |
9.8 |
6 |
7.4 |
0.7 |
0 |
1.9 |
0.076 |
11 |
34 |
0.9978 |
3.51 |
0.56 |
9.4 |
5 |
3.2. 数据描述性分析及标准化处理
该数据集中11个理化特征变量的基本数字特征见表2。
Table 2. Basic numerical characteristics of 11 variables
表2. 11个变量基本数字特征
变量名称 |
均值 |
标准差 |
最小值 |
中位数 |
最大值 |
固定酸度X1 (g/dm3) |
8.3196 |
1.7410 |
4.600 |
8.100 |
15.900 |
挥发性酸度X2 (g/dm3) |
0.5278 |
0.1597 |
0.120 |
0.520 |
1.580 |
柠檬酸X3 (g/dm3) |
0.2709 |
0.1901 |
0.000 |
0.260 |
1.000 |
残余糖X4 (g/dm3) |
2.5389 |
1.4095 |
0.900 |
2.200 |
15.500 |
氯化物X5 (g/dm3) |
0.0457 |
0.0164 |
0.012 |
0.043 |
0.340 |
游离二氧化硫X6 (mg/dm3) |
15.8747 |
10.4677 |
1.000 |
13.000 |
72.000 |
二氧化硫总量X7 (mg/dm3) |
46.4677 |
32.8953 |
6.000 |
38.000 |
289.000 |
密度X8 (g/cm3) |
0.9968 |
0.0017 |
0.990 |
0.997 |
1.004 |
pH值X9 |
3.3112 |
0.1280 |
2.720 |
3.310 |
4.010 |
硫酸盐X10 (g/dm3) |
0.6581 |
0.1342 |
0.330 |
0.660 |
1.280 |
酒精X11 (%vol) |
10.4229 |
1.0656 |
8.400 |
10.200 |
14.900 |
由表1和表2可以看出红酒样本的11个理化特征变量的量纲不同、数值差异比较大,其中挥发性酸度X2、柠檬酸X3、氯化物X5、硫酸盐X10的均值都在1以内,固定酸度X1、游离二氧化硫X6、酒精X11均值都在10左右,而二氧化硫总量X7均值达到46.5,最大值高达289。为消除不同理化指标量纲差异对模型的影响,应用Z-score方法对12个变量进行标准化处理,其计算公式如下:
(4)
从而将数据转换为服从均值为0、标准差为1的分布,并能确保各变量在建模时具有同等权重。标准化后的12个变量的数据直方图见图1。
Figure 1. Histogram of 12 variables after standardization
图1. 标准化后12个变量的直方图
图1显示固定酸度、挥发性酸度、密度、PH值比较接近正态分布,其余理化特征变量呈左偏分布。
3.3. 共线性检验
自变量间高度相关会导致参数估计不稳定、符号异常、假设检验失效,模型解释力和预测精度下降。通常可以通过计算变量之间的相关系数矩阵和方差膨胀因子(Variance Inflation Factor, VIF)来检验变量之间是否存在多重共线性。
变量
与
的相关系数计算公式为
(5)
当
时,可能存在显著共线性;当
时,存在强共线性。红酒质量数据集中标准化后的12个变量之间相关系数矩阵对应的热力图见图2。
Figure 2. Correlation coefficient matrix heat map
图2. 相关系数矩阵热力图
从图2可以看出仅少数变量间存在中等强度线性关联,其中X1与X3相关系数为0.672 (正相关),X1与X8为0.668 (正相关),X1与X9为−0.683 (负相关),其余变量间相关系数均较低,表明整体变量独立性较好。
方差膨胀因子VIF计算公式为
(6)
其中
是以Xi为因变量,其他变量为自变量建立回归模型的拟合优度,
越接近1,VIF值越大。当
时,说明变量之间存在弱共线性(可接受);当
时,变量之间存在中等共线性;当
时,变量之间存在严重共线性。11个自变量的方差膨胀因子VIF值见表3。
Table 3. VIF values of 11 variables
表3. 11个变量的VIF值
变量 |
VIF |
变量 |
VIF |
X1 |
7.7675 |
X7 |
2.1868 |
X2 |
1.7893 |
X8 |
6.3438 |
X3 |
3.1280 |
X9 |
3.3297 |
X4 |
1.7026 |
X10 |
1.4294 |
X5 |
1.4819 |
X11 |
3.0311 |
X6 |
1.9630 |
|
|
从表3可以看出仅X1的方差膨胀因子VIF值为7.76,接近但未超过严重多重共线性阈值(10),其余变量VIF值均较小,说明仅X1可能与其他变量存在中等程度的共线性,整体数据集的多重共线性风险较低。
3.4. 基于岭回归、LASSO、弹性网方法的变量选择
为了保证实验的可复现性以及实验结果的准确性,采用随机抽样策略按8:2的比例将数据集随机划分为训练集(1300条)与测试集(299条),此划分方式既保证了模型训练样本的充足性,又能通过测试集验证模型的可靠性。
用R软件进行实验,并设置种子为123,应用LASSO、岭回归、弹性网方法(
)三种方法在训练集上进行变量选择并构建红酒质量评分的多元线性回归模型。各方法的正则化参数λ通过10折交叉验证法进行优化筛选,以避免过度拟合并提升模型的准确度,得到的系数路径图和交叉验证图见图3。
图3可以看出在岭回归方法中由交叉验证选出的最优λ为0.039371,LASSO中选出的最优λ为0.008374,弹性网方法中选出的最优λ值为0.0116;系数路径图可以看出随着λ增大,三种方法都将系数压缩至0附近。分别使用最优λ进行建模,得到的模型系数、拟合优度R2和均方根误差RMSE见表4。
Figure 3. Coefficient path diagram and cross-validation diagram of three methods
图3. 3种方法系数路径图和交叉验证图
Table 4. Comparison of model coefficients and results obtained by three methods
表4. 三种方法所得模型系数与结果比较
变量 |
岭回归 |
LASSO |
弹性网 |
X1 |
0.0534 |
0.0347 |
0.0160 |
X2 |
−0.1814 |
−0.1903 |
−0.1581 |
X3 |
−0.0111 |
- |
- |
X4 |
0.0144 |
- |
- |
X5 |
−0.0855 |
−0.0676 |
−0.0151 |
X6 |
0.0286 |
0.0320 |
- |
X7 |
−0.1077 |
−0.0783 |
−0.0322 |
X8 |
−0.0496 |
- |
- |
X9 |
−0.0302 |
−0.0376 |
- |
X10 |
0.1474 |
0.1393 |
0.0793 |
X11 |
0.2760 |
0.2997 |
0.2706 |
训练集R2 |
0.3055 |
0.6703 |
0.3815 |
训练集RMSE |
0.6674 |
0.3188 |
0.6392 |
即由三种方法得到红酒质量与理化指标的多元线性回归模型分别为:
(7)
(8)
(9)
从表4可以看出岭回归得到的模型将所有变量保留在模型中,筛选出挥发性酸度(X2)、二氧化硫总量(X7)、硫酸盐(X10)、酒精(X11)这四个变量系数较大,说明这四个变量对红酒质量有较大的影响,其余变量的回归系数接近0,说明其余变量对红酒质量影响较小或者没有影响。LASSO回归模型,共得到8个系数非零的变量,分别为固定酸度(X1),挥发性酸度(X2),氯化物(X5),游离二氧化硫(X6),二氧化硫总量(X7),pH值(X9),硫酸盐(X10),酒精(X11)。弹性网模型,共得到6个系数非零的变量,分别为固定酸度(X1),挥发性酸度(X2),氯化物(X5),二氧化硫总量(X7),硫酸盐(X10),酒精(X11)。三种方法选出的共同变量有挥发性酸度(X2)、二氧化硫总量(X7)、硫酸盐(X10)和酒精(X11)这四个变量,且系数比较大,说明这四个变量对红酒质量影响比较大,这与裴文华在文献[13]中所得结论一致。可以看出LASSO方法不仅能将不显著变量系数压缩至0,而且模型的拟合优度R2最大、均方根误差RMSE最小。
在测试集上应用岭回归、LASSO、弹性网三种方法进行模型检验,得到的结果见表5。
Table 5. Comparison of test set results of three methods
表5. 三种方法测试集结果比较
|
岭回归 |
LASSO |
弹性网 |
测试集R2 |
0.3417 |
0.7093 |
0.3740 |
测试集RMSE |
0.6598 |
0.2605 |
0.6415 |
综合表4和表5可以看出,无论是训练集还是测试集,LASSO的拟合优度最高,RMSE最小,说明LASSO模型不仅在预测精度上更优,且对红酒质量的离散特性具有更强的适应性,在红酒质量预测中展现出显著优势,其筛选的特征变量可为酿酒工艺优化提供科学依据。
4. 总结与展望
LASSO方法筛选出8个对红酒质量有显著影响的因素,并精确识别出挥发性酸度、二氧化硫总量、硫酸盐、酒精等核心变量,清晰给出影响红酒质量的关键因素,且具有较高的模型精度,为酿酒工艺优化提供了直观且可操作的量化依据。弹性网方法筛选出6个变量,尽管在模型预测精度上较LASSO方法略有不足,但也成功识别出4个核心变量,该方法凭借变量筛选数量较少的显著优势,有效降低了红酒质量检测实际工作中的样本检测与数据采集的工作量。
面向未来,研究可从以下几个方面深入拓展:其一,探索自适应LASSO、平滑削边绝对偏离(Smoothly Clipped Absolute Deviation, SCAD)等非凸惩罚函数,借助其更灵活的参数约束机制,进一步提升变量筛选的精准度;其二,可以通过引入交互项,深度挖掘变量间的协同效应,例如剖析酒精与pH值对红酒风味的联合影响。其三,采用更强大的非线性模型(如极端梯度提升XGBoost监督学习集成模型、神经网络)来捕捉指标间复杂的相互作用,提高模型的精确度和解释性。
基金项目
新疆维吾尔自治区自然科学基金项目(2023D01A37)。
NOTES
*通讯作者。