1. 引言
近年来,我国社会保持了和谐稳定的发展局面,为蔬菜行业的发展创造了良好的社会条件。居民健康意识和营养需求不断增强。随着我国社会不断进步,居民对健康和营养的关注度和需求度不断提高。由于商超销售的蔬菜品种众多、产地不尽相同,为此商家须在不确切知道具体单品和进货价格的情况下,做出当日各蔬菜品类的补货决策。可靠的市场需求分析,对补货决策和定价决策尤为重要。现在有一家生鲜超市从2020年7月初到2023年6月末的各商品的相关数据,包含了6个蔬菜品类的商品信息、销售流水明细数据、蔬菜类商品的批发价格和蔬菜类商品的近期损耗率。蔬菜的定价一般采用“成本加成定价”方法,商超对运损和品相变差的商品通常进行打折销售。可靠的市场需求分析,对补货决策和定价决策尤为重要。从需求侧来看,蔬菜类商品的销售量与时间往往存在一定的关联关系;从供给侧来看,蔬菜的供应品种在4月至10月较为丰富,商超销售空间的限制使得合理的销售组合变得极为重要 [1] 。
2. 模型假设
1) 假设各品类售价与其本身及相关性较高的品类的批发价和时间相关。
2) 假设各品类批发价变化仅与时间有关。
3) 假设每个聚类中的每个单品的6~8月每周的销售量与此类中其他单品的批发价和时间(周数)有关。
4) 假设该超市为了保证新鲜程度,每天进货的蔬菜不会保留至第二天。
3. 蔬菜各品类及各单品销售量的分布规律
3.1. 数据预处理
销售数据包含销售菜品流水明细中的销售日期、扫码销售时间、单品编码、销量(千克)、销售单价(元/千克)、销售类型、是否打折销售的基本信息。由于数据数量过于庞大,故采用excel的数据透视表整理数据。先将数据分为2020-7至2021-6、2021-7至2022-6、2022-7至2023-6三组,分别生成数据透视表。其中将时间(月)作为列,单品编码为行,销量(kg)为值,生成表格,统计出每个单品在每个月的总销售量以及每大类的总销售量。
其中,因为考虑到打折销售会对产品销售量产生影响,故将正常销售的销售量按1倍计入,打折销售量按0.5倍计入。
经过统计,发现了有5种蔬菜2年内无出售记录,故删去(102900005116042藕、102900005116776本地菠菜、102900011016909花茄子、102900011023648芜湖青椒(2)、102900011032145芜湖青椒(份))。
花叶类批发价格有两周存在异常值,使用插值替换后提高准确率。
茄类有四周无出售记录,我们将异常指删去以提高拟合准确率。
水生根茎类销售价格浮动过大,我们去除了销售价格远大于或远小于正常值范围的样本 [2] 。
3.2. 数据可视化
首先,我们将销售量数据经过excel表格中数据透视表处理后的统计数据建立图表,观察蔬菜各品类销售量的分布规律。
图1表示了蔬菜各品类销售量分布规律,由图得出规律:1) 花菜类和花叶类相关性较高;2) 花叶类和花菜类、水生根茎类相关性较高;3) 食用菌类和花叶类、水生根茎类、辣椒类相关性较高;4) 辣椒类和食用菌相关性较高;5) 茄类水和生根茎类相关性较高;6) 水生根茎类和食用菌类、花叶类、茄类相关性较高。

Figure 1. Sales line chart for each category
图1. 各品类销售折线图
3.3. 相关性分析
鉴于以上分析,我们首先进行斯皮尔曼相关性分析每品类每年销量的数据。利用SPSSPRO对花叶类,花菜类,水生根茎类,茄类,辣椒类,食用菌进行相关性检验,数据分别取于一整年与四个季度,得到结果见表1、表2、图2和图3。
表1为使用Spearman相关性分析得到的一整年内各品类蔬菜销售量的相关系数表。
图2为Spearman相关性分析优化后的相关系数热力图。
表2为使用Pearson相关性分析得到的一整年内各品类蔬菜销售量的相关系数表。
图3为Pearson相关性分析优化后的相关系数热力图。
在一整年的跨度中进行分析,初步判定其中辣椒类和食用菌、食用菌和花叶类、食用菌和水生根茎类、花菜类和花叶类的销售量两两正相关。
由于蔬菜具有季节性,不同季节内蔬菜的销售情况往往不尽相同。我们将一年划分四个季度:3至5月为春季,6至8月为夏季,9至11月为秋季,12至次年2月为冬季。将一年内的蔬菜销售量按季节划

Table 1. Spearman correlation coefficient table for sales volume of various categories of vegetables
表1. 各品类蔬菜销售量Spearman相关系数表

Figure 2. Heat map of Spearman correlation coefficient for sales volume of various categories of vegetables
图2. 各品类蔬菜销售量Spearman相关系数热力图

Table 2. Pearson correlation coefficient table for sales volume of various categories of vegetables
表2. 各品类蔬菜销售量Pearson相关系数表
分。由图2和图3对比得知Spearman分析与Pearson分析结果近似。使用同样的方法得到各季节内各蔬菜品类之间的相关性,对比发现各季节内两种分析法呈现的相关性也近似,故下文只展示Spearman相关性分析的结果。

Figure 3. Heat map of Pearson correlation coefficient for sales volume of various categories of vegetables
图3. 各品类蔬菜销售量Pearson相关系数热力图
图4为春季各品类蔬菜Spearman相关性分析优化后的相关系数热力图。
图5为夏季各品类蔬菜Spearman相关性分析优化后的相关系数热力图。
图6为秋季各品类蔬菜Spearman相关性分析优化后的相关系数热力图。
图7为冬季各品类蔬菜Spearman相关性分析优化后的相关系数热力图。

Figure 4. Heat map of Spearman correlation coefficient for sales volume of various categories of vegetables in spring
图4. 春季各品类蔬菜销售量Spearman相关系数热力图

Figure 5. Heat map of Spearman correlation coefficient for sales volume of various categories of vegetables in summer
图5. 夏季各品类蔬菜销售量Spearman相关系数热力图

Figure 6. Heat map of Pearson correlation coefficient for sales volume of various categories of vegetables in autumn
图6. 秋季各品类蔬菜销售量Spearman相关系数热力图

Figure 7. Heat map of Pearson correlation coefficient for sales volume of various categories of vegetables in winter
图7. 冬季各品类蔬菜销售量Spearman相关系数热力图
综上所述:蔬菜各品类销售量之间的相关性在不同季节有较大差异,其中春季食用菌类和花叶、辣椒类正相关;辣椒类和食用菌、花叶类正相关;茄类和水生根茎类负相关;花菜类和花叶类正相关;花叶类与花菜类、食用菌类正相关。夏季食用菌类和辣椒、花叶、水生根茎类正相关;辣椒类和食用菌类正相关;茄类和水生根茎类负相关;水生根茎类和花叶、食用菌类正相关,与茄类负相关;花菜类和花叶类正相关;花叶类和花菜、水生根茎、食用菌类正相关。秋季食用菌类和花叶、花菜、辣椒类正相关;辣椒类和花叶、食用菌类正相关,与茄类负相关;茄类与辣椒类负相关;花菜类和花叶类、食用菌类正相关;花叶类与花菜类、食用菌类、辣椒类正相关。冬季食用菌类和花叶类、花菜类、水生根茎类正相关;辣椒类和花菜类正相关;茄类和花菜类正相关;水生根茎类和食用菌、花菜、花叶类正相关;花菜类和花叶、水生根茎、茄类、辣椒类、食用菌类正相关;花叶类和花菜类、水生根茎类、食用菌类正相关 [3] 。
3.4. 模型建立
我们发现各品类的售价不仅与其本身的批发价和销售量有关,还和与该品类相关性较强的其他品类的批发价和销售量有关。因此,我们准备建立各品类的售价与该品类及其相关品类的批发价和销售量的关系函数。
首先,统计出3年内每品类每周的平均售价和3年内每品类每周的总销售量。然后计算出各品类的售价与该品类及其相关品类的批发价和销售量的关系函数。对同一品种蔬菜的销售量,由于不仅可能受到本类产品的批发价格和销售价格的影响,还可能受到其他品类产品的批发价格和销售价格的影响。需要建立各品类蔬菜成本加成定价关于每一品类蔬菜的批发价格和销售量的预测模型。采用偏最小二乘回归(PLSR)模型对各类品种成本加成定价进行预测 [4] [5] [6] 。结果如下:
1) 花菜类
算法:线性回归(最小二乘法) R2 = 0.801
变量:自变量X:{花菜类平均批发价格,花叶类平均批发价格,花菜类周销售量,花叶类周销售量};因变量Y:{花菜类周平均销售价}
模型的公式如下:
y = 1.565 + 1.324*花菜类平均批发价格 + 0.005*花叶类平均批发价格 − 0.001*花菜类周销售量 + 0.0*花叶类周销售量。
图8展示了该模型的原始数据图、模型预测值。可以发现拟合结果较好。
2) 花叶类:
算法:线性回归(最小二乘法) R2 = 0.892
变量:自变量X:{花叶类平均批发价格,花菜类平均批发价格,水生根茎类平均批发价格,食用菌类平均批发价格,花叶类周销售量,花菜类周销售量,水生根茎类周销售量,食用菌类周销售量};
因变量Y:{花叶类周平均销售价}
模型的公式如下:
y = 1.654 + 1.347*花叶类平均批发价格 − 0.006*花菜类平均批发价格 − 0.038*水生根茎类平均批发价格 + 0.046*食用菌类平均批发价格 + 0.0*花叶类周销售量 + 0.0*花菜类周销售量 − 0.0*水生根茎类周销售量 − 0.001*食用菌类周销售量。
图9展示了该模型的原始数据图、模型预测值。可以发现拟合结果较好。
3) 食用菌类:
算法:线性回归(最小二乘法) R2 = 0.745
变量:自变量X:{食用菌平均批发价格,辣椒类平均批发价格,花叶类周销售量,花叶类平均批发价格,水生根茎类平均批发价格,水生根茎类周销售量,食用菌类周销售量,辣椒类周销售量};
因变量Y:{食用菌周平均销售价}
模型的公式如下:
y = −0.672 + 1.396*食用菌平均批发价格 + 0.032*辣椒类平均批发价格 + 0.002*花叶类周销售量 − 0.012*花叶类平均批发价格 − 0.037*水生根茎类平均批发价格 − 0.005*水生根茎类周销售量 + 0.001*食用菌类周销售量 − 0.001*辣椒类周销售量。
图10展示了该模型的原始数据图、模型预测值。可以发现拟合结果较好。
4) 辣椒类:
变量:自变量X:{辣椒类平均批发价格,辣椒类周销售量,食用菌平均批发价格,食用菌类周销售量};
因变量Y:{辣椒周平均销售价}
算法:线性回归(最小二乘法) R2 = 0.882
模型的公式如下:
y = 0.629 + 1.364*辣椒类平均批发价格 − 0.001*辣椒类周销售量 + 0.158*食用菌平均批发价格 + 0.002*食用菌类周销售量。
图11展示了该模型的原始数据图、模型预测值。可以发现拟合结果较好。
5) 茄类:
变量:自变量X:{茄类平均批发价格,水生根茎类平均批发价格,茄类周销售量,水生根茎类周销售量};
因变量Y:{茄类周平均销售价}
算法:线性回归(最小二乘法) R2 = 0.853
模型的公式如下:
y = 1.219 + 1.306*茄类平均批发价格 + 0.049*水生根茎类平均批发价格 − 0.001*茄类周销售量 + 0.001*水生根茎类周销售量。
图12展示了该模型的原始数据图、模型预测值。可以发现拟合结果较好。
6) 水生根茎类:
变量:自变量X:{食用菌类平均批发价格,花叶类平均批发价格,水生根茎类平均批发价格,茄类平均批发价格,水生根茎类周销售量,花叶类周销售量,食用菌类周销售量,茄类周销售量};
因变量Y:{水生根茎类周平均销售价}
算法:线性回归(最小二乘法) R2 = 0.744
模型的公式如下:
y = 6.827 − 0.151*食用菌类平均批发价格 − 0.002*花叶类平均批发价格 + 0.838*水生根茎类平均批发价格 − 0.241*茄类平均批发价格 − 0.003*水生根茎类周销售量 + 0.0*花叶类周销售量 + 0.0*食用菌类周销售量 + 0.006*茄类周销售量。
图13展示了该模型的原始数据图、模型预测值。可以发现拟合结果较好。
4. 蔬菜补货与定价决策模型构建
4.1. 偏最小二乘法构建销售量预测模型
我们发现,各品类的销售量对于周数来说有周期关系,与其本身和相关性强的品类的批发价有线性关系。此外,我们还发现了各品类的批发价近与日期有关。因此,统计每年各品类每周的批发价,使用一周的平均批发价代替本周的批发价。
图14显示过去3年内以周为单位,每个品类的批发价存在周期关系,周期为一年。
采用过去3年的平均值预测今年7月1日到7日的各品类批发价。并通过过去3年的统计数据建立各品类的周销量与包括自己在内的6大品类的批发价、周数的预测函数,结果如下:
算法:偏最小二乘法(PLSR)
变量:变量Y:{食用菌类周销售量,水生根茎类周销售量,辣椒类周销售量,茄类周销售量,花菜类周销售量,花叶类周销售量};变量X:{周数,食用菌平均批发价格,辣椒类平均批发价格,花菜类平均批发价格,花叶类平均批发价格,茄类平均批发价格,水生根茎类平均批发价格}
表3是经过偏最小二乘法模型计算后得到的模型系数。

Table 3. Model coefficient result table
表3. 模型系数结果表
模型的标准化公式为:
食用菌类周销售量 = 221.443 − 1.169*周数 + 47.073*食用菌平均批发价格 − 0.057*辣椒类平均批发价格 − 2.094*花菜类平均批发价格 + 57.305*花叶类平均批发价格 + 8.705*茄类平均批发价格 − 24.002*水生根茎类平均批发价格
水生根茎类周销售量 = 185.27 − 2.069*周数 − 8.772*食用菌平均批发价格 + 5.377*辣椒类平均批发价格 + 0.87*花菜类平均批发价格 + 3.428*花叶类平均批发价格 + 17.507*茄类平均批发价格 + 19.148*水生根茎类平均批发价格
辣椒类周销售量 = − 470.701 + 27.247*周数 − 11.863*食用菌平均批发价格 − 33.835*辣椒类平均批发价格 − 16.787*花菜类平均批发价格 + 51.125*花叶类平均批发价格 + 57.289*茄类平均批发价格 + 34.427*水生根茎类平均批发价格
茄类周销售量 = − 131.655 − 0.046*周数 − 5.228*食用菌平均批发价格 + 2.149*辣椒类平均批发价格 − 10.773*花菜类平均批发价格 + 3.347*花叶类平均批发价格 + 25.601*茄类平均批发价格 + 19.746*水生根茎类平均批发价格
花菜类周销售量 = 89.953 + 4.059*周数 + 8.619*食用菌平均批发价格 + 5.188*辣椒类平均批发价格 − 14.343*花菜类平均批发价格 + 6.573*花叶类平均批发价格 + 15.001*茄类平均批发价格 − 15.137*水生根茎类平均批发价格
花叶类周销售量 = 997.274 + 6.155*周数 + 49.574*食用菌平均批发价格 + 5.447*辣椒类平均批发价格 − 44.202*花菜类平均批发价格 + 144.666*花叶类平均批发价格 − 75.359*茄类平均批发价格 − 38.456*水生根茎类平均批发价格
在以上模型中输入周数为26.5,并输入采用过去3年的平均值预测出的今年7月1日到7日的各品类预测批发价,便可预测出各品类的7月1~7日的预测周销售量。将各品类的7月1~7日的预测周销售量再次输入问题2.1得出的各品类的定价与销量的关系模型中,得出各品类的预测定价。由此来制定未来一周(2023年7月1~7日)的日补货总量和定价策略(补货量 = 销售量/(1 − 损耗率))。
图15以图表形式清晰的展示了未来一周(2023年7月1~7日)的日补货总量和定价策略。
4.2. 构建销售价格模型
首先,选出2023年6月24日~30日的出售单品,为了缩小可售商品种类,我们删去其中在每年7月1日统计单品批发价时从没有出现的单品,同时删去其中平均日销售量小于1.5 kg的单品,最终筛选出以下单品,作为7月1日预计出售商品,共29种。其次,使用聚类分析(K-Means)以上单品历年6~8月每天的销售量,由此得出6大类。
图16显示聚类汇总图,可直观的看出各组份占比。
图17显示各聚类下的组成成分。
由于上述各聚类中的每个单品都属于各大品类,所以我们认为这些单品的周销售量与定价规律近似的符合4.1所建立的预测模型得出的预测函数。为了使用4.1结果中得出的单品的周销售量与定价预测函数,我们做出以下规定:
一、预测a单品的周销售量与定价时,a在过去3年的7月1日数据的平均值代替a所属公式中A品类的数据。若a、b属于A品类,依然只使用a的数据代替A品类数据。
二、预测a单品的周销售量与定价时,需要b、c各单品的数据。a属于A品类;b、c属于B品类。若b,c和a属于同一聚类中的单品,用b、c数据的平均值代替公式中B品类的数据。
三、预测a单品的周销售量与定价时,若需要C品类数据,而该聚合大类中并没有出现属于C品类的单品,则使用问题2得出的各大类的数据。
图18显示经过预测计算得到的结果,为最佳定价采购策略。
5. 补充影响因素
我们认为无论是销售量和批发价格都会受到天气气温和降水量的影响。天气因素,例如天气状况、风力等级、空气质量指数等隐变量也会影响运输成本和消费者消费意愿从而对销量产生间接的影响。天气气温和降水量会影响农产品的生长质量和保质期,气温还会改变顾客的食欲和选择倾向 [7] 。
同时,电商平台的好评率也是重要参考依据之一。消费者为减少购物过程中的不确定性,往往会参考电商平台提供的在线评论。由于蔬菜类农产品本身保质期短,易在运输或储存过程中受到损坏,因此与其他商品相比,在线评论在降低消费者感知风险、提高消费者购买意愿方面发挥了更重要的作用 [8] 。
6. 结论
本文基于销量和批发价数据分析对蔬菜类商品对预期销量和成本加成定价进行研究,并针对不同时节不同品类的蔬菜进行销售策略的制定。结合蔬菜类产品具有时令性的销售特性,按季节划分数据,研究不同季节下的产品的相关性和销售量预测。进行线性相关性检验后,采用Spearman与Pearson相关性检测通过分析各蔬菜品类的月平均销量,分析每个季节下的各蔬菜品类间的相关性。同时采用线性回归模型对各蔬菜品类的周销售量进行预测。建立各品类蔬菜成本加成定价关于每一品类蔬菜的批发价格和销售量的预测模型。采用偏最小二乘回归(PLSR)模型对各类品种成本加成定价进行预测。