1. 引言
随着中国全面推进社会主义现代化建设,无论是城市还是乡村的居民,都能通过网购这一便捷方式获取自己心仪的商品。特别是在后疫情时代,都市快节奏生活的人群更加追求快速、方便且营养美味的食品,预制菜因此成为他们的首选。在网络电商平台的快速崛起下,消费者只需通过智能通讯设备下单,即可获得预先配好的调料包、食材包和烹饪指南。经过简单的加工,即刻便能享受到美味佳肴。
线上购买预制菜的流行,不单得益于互联网技术的飞速发展,更源于其在市场上的迅速扩张。如图1所示,近三年来中国预制菜市场规模稳步增长,2023年中国预制菜市场[1]规模达5165亿元,同比增长23.1%。如图1所示,预计未来2~4年,中国预制菜市场规模有望以20%左右的高增长率逐年上升,在2024年达到6972亿元,在2026年达10,720亿;在过去的十年间,预制菜企业的注册数量呈现逐年递增的显著趋势。
截至2022年,现存的预制菜企业数量已超过7万家,如图2所示,凸显了预制菜行业的蓬勃兴盛,揭示了消费者对于便捷、多样化食品选择的日益增长的需求。因此对于企业而言,深刻理解和把握个体偏好在预制菜购买决策中的影响至关重要。然而,每个个体在购买预制菜时的决策却受到诸多因素的影响,如电商软环境、消费者特征[2]、网络舆论[3]、价格竞争等多个方面,其中最为重要的之一便是个体的独特偏好,个体偏好不仅反映了个体对于口味、风格和食材的独特喜好,也深刻地影响了其在食品市场中的选择。消费者通过网购获得预制菜现象,符合中国预制菜行业从B端向C端倾斜的趋势[4],推动消费者网购预制菜是激活C端预制菜“消费蓝海”的关键。
Figure 1. Market size and forecast of China’s prepared dishes industry (2019~2026)
图1. 2019~2026年中国预制菜行业市场规模及预测
Figure 2. Number of newly registered prefabricated vegetable enterprises from 2011 to 2022
图2. 2011~2022年预制菜企业新增注册数量
研究表明,预制菜的便捷性和快速烹饪特性是其受到消费者青睐的主要原因。徐浩洋[5]等通过KANO模型分析发现,消费者对预制菜的期望型需求包括制作环境、信息透明、口味选择和操作过程等方面。此外,节约时间是消费者购买预制菜的主要动机之一。Xu [6]等指出,预制菜的定制化消费中,味道、烹饪方法和食物分量对消费者购买意愿影响较大。消费者对预制菜的购买决策受到多种因素的影响。张倩琳[7]基于SOR-SEM模型的研究发现,口味包装、质量安全、产品定价、便利性和品牌服务等因素显著影响消费者的感知和购买意愿。黄梓熙[8]等进一步指出,食品质量、口味类型、食品安全和包装技术对消费者购买意愿具有显著的正向影响。此外,Luo [9]等的研究表明,预制菜的品牌价值、品质价值、方便价值和经济价值对消费者的品牌定位心态有显著影响。刘玉林[10]等通过文本情感分析发现,电商在线评论能够有效反映消费者的情感倾向和满意度。孙瑾[11]等的研究表明,普通消费者的评论更能体现品牌评价和购买意愿;王可山[12]等指出,性价比和服务是促使消费者选择网购食品的主要因素。
大多数现有研究依赖于问卷调查或单一电商平台的数据分析,缺乏对多平台数据的综合挖掘。此外,部分研究未能充分考虑消费者评论中的情感因素,导致对消费者真实需求的把握不够准确。预制菜市场处于快速发展阶段,消费者行为和偏好也在不断变化。然而,现有研究多为静态分析,未能动态追踪消费者行为的变化趋势。
为此本研究通过文本挖掘技术,综合分析了京东、淘宝、拼多多等多个电商平台的消费者评论数据。基于情感分析和随机森林模型,动态追踪消费者行为的变化趋势,为理解预制菜消费者行为提供了更全面的视角。将AP聚类算法与随机森林模型相结合,提升了文本挖掘和情感分析的准确性。此外,通过构建综合情感词典,进一步提高了情感分析的可靠性,为文本挖掘在消费者行为研究中的应用提供了新的思路。不仅分析了影响消费者满意度的关键因素,还从供应链优化的角度提出了针对性建议,如加速产品创新、加强服务质量、合理定价等。这为预制菜企业提升市场竞争力提供了理论支持和实践指导。
2. 研究方法
基于文本挖掘在线消费者对预制菜的需求研究,本文将从以下三点对研究方法如图3所示。
(1) 数据来源:对各大电商平台进行Python爬虫操作获取部分预制菜品牌的评价,对获得的评价进行分词与去停用词的数据清洗操作。
(2) 数据特征抽取:对获得的评论先进行特征词抽取,再对特征词进行聚类,最后生成了预制菜的重要特征词表。
(3) 针对步骤2获得的特征词表,利用情感分析模型对预制菜评论的特征词进行感情打分制定成数据集,最后采用随机森林模型计算出预制菜影响因素的重要程度。
Figure 3. An empirical analysis of the technology roadmap
图3. 实证分析技术路线图
2.1. 数据来源
本研究的数据来源于国内主流电商平台京东、淘宝和拼多多,涵盖了2024年1月至12月期间销量排名前100的预制菜品牌及其产品评论。选择这些平台是因为它们在中国电商市场中占据主导地位,拥有庞大的用户基础和丰富的评论数据,能够为研究提供广泛的消费者反馈。数据采集采用Python爬虫技术,通过模拟用户行为合法抓取评论信息,确保数据的完整性和合法性。每条评论数据包含用户ID、评论内容、评分、时间戳和产品信息等关键字段,共采集到有效评论13,586条。在数据采集过程中,严格遵循平台使用条款,并保护用户隐私,确保研究的合规性。此外,为了提高数据的代表性和多样性,研究还特别关注了不同季节和促销活动期间的评论数据,以捕捉消费者行为的动态变化。
其数据预处理步骤如图4所示:(1) 清洗无效评论:剔除长度少于5个字符的评论,因为这些评论通常缺乏足够的信息价值。(2) 去除乱码和重复数据:删除包含乱码的评论以及完全重复的评论内容,无论它们是来自同一用户还是不同用户。(3) 分词处理:使用Python的jieba分词库对评论文本进行分词操作,将句子分解为单独的词汇单元。(4) 去除停用词:引入预定义的停用词表,删除诸如“的”“是”“在”等常见但无实际语义价值的词汇,以减少噪声数据对分析结果的干扰。(5) 词性标注与筛选:对分词结果进行词性标注,仅保留名词、形容词和动词等具有实际语义价值的词汇,进一步精简数据集。
Figure 4. Data preprocessing steps
图4. 数据预处理步骤
2.2. AP聚类的预制菜评论特征词挖掘
本文采用了Affinity Propagation (简称AP)聚类算法,旨在对在线评论文本中的特征词汇进行有效聚类,进而提取出对消费者评价预制菜至关重要的评价特征类别,并据此构建预制菜的评价特征词表。AP聚类是一种先进的聚类技术,它依赖于数据点之间的信息交换来自然形成聚类,而无需事先确定聚类数目,这与传统的中心点基础聚类算法形成鲜明对比。AP聚类在处理同义候选属性和属性集合获取方面表现出色,尤其在抵抗噪声和异常值干扰方面具有显著优势。它能够细致地识别出更多维度的属性,这使得AP聚类算法非常适合用于本文,即从海量文本数据中提取出特征类别。通过AP聚类,能够更全面地理解消费者对预制菜的评价特征,为预制菜的市场分析和产品改进提供有力的数据支持。
本文在运用AP聚类算法抽取预制菜评论特征的具体步骤包括预制菜评论特征词抽取、预制菜评论特征词聚类、预制菜评论特征词表生成三部分。
(1) 预制菜评论特征词抽取。使用python中的jieba库对抓取到的所有评论进行分词和去停用词后进行词性标注,抽取出所有名词并对其进行词频统计,筛选出词频大于10的名词作为候选词特征词,然后人工筛选去除与预制菜商品无关的候选特征词,将剩余候选特征词作为预制菜评论特征词。
(2) 预制菜评论特征词聚类。使用Word2vec模型的Skip-gram方法构建评论文本中所有词语的词向量,从中抽取出预制菜评论特征词对应的词向量,将其输入AP聚类算法中,利用余弦相似度计算词间语义相似度,实现对预制菜评论特征词的近邻传播聚类。
(3) 预制菜评论特征词表生成。设聚类得到的类别数为m,则预制菜评论特征类别总数也为m,设类别i中包含的预制菜评论特征词总数为ni (1 ≤ i ≤ m),将类别i中的特征词表示为ti1,tiz,…,tini (1 ≤ i ≤ m),按聚类中心及类内特征词的含义对类别进行命名,将预制菜评论特征类别表示为t1,t2,…,tm。
2.3. 情感词典融合深度学习的情感分析模型
本文采用了Boson NLP情感词典,并融合了知网情感极词词典和大连理工大学情感词典,以此构建了专用于情感分析的词典。在实施情感分析之前,首先对预处理的数据应用jieba分词工具执行分词操作。随后,从初始停用词列表中移除与情感分析相关的情感词,创建了定制化的停用词表,并对评论文本执行了去停用词处理。接下来,利用Boson NLP词典对分词结果进行匹配,以识别出的情感词为中心,扩展其前后各三个词来构建情感词组。情感词组的得分由情感词本身的分数与修饰副词的权重相乘得出,而句子的总情感得分则是所有情感词组得分的累加。在权重分配上,主要参考张小艳和白瑜[13]等学者对程度副词范围的界定进行等级划分,对于最高等级的修饰词赋予了2的权重,而对于其他修饰词,则根据一个递减的权重梯度(0.5至0.1)进行赋值。对于情感得分,若其为正值,则将相应句子分类为正面评论;若为负值,则归类为负面评论。最终,对正面和负面评论的情感得分执行z-score标准化处理,以确保数据符合标准正态分布,从而增强分类结果的精确度。
2.4. 随机森林模型建立
随机森林法(Random Forest, RF) 20世纪80年代Breiman等[14]基于bagging的思想提出了分类树的算法,通过数据的多次分类与回归,计算量得到降低。随机森林采用自助采样法(Bootstrap Sampling)对训练数据进行随机抽样,得到多个不同的训练集,用于构建每个决策树。并将所有决策树的预测结果综合起来进行分类或回归。随机森林不仅可以用于二分类,还可以用于多分类问题,其泛化能力好[15],一般不会出现过拟合,在有噪声的数据上,随机森林也能够获得较好的效果,随机森林算法具有更好的分类精度,且不会产生过拟合问题,故选择随机森林作为分类模型,其建立过程如图5所示:
Figure 5. Random forest model
图5. 随机森林模型
自助采样是一种有放回的随机抽样方法,用于从给定的数据集中生成具有相同大小的新数据集。假设原始数据集包含N个样本,那么自助采样就是从中随机选择一个样本并将其放回原始数据集,然后再进行下一次的随机选择,重复这个过程共N次,最终得到一个具有N个样本的新数据集。由于每次选择都是独立的,因此一些样本可能被选择多次,而另一些样本可能根本没有被选择。
随机森林是由很多决策树构成的,不同决策树之间没有关联。决策树是一种基于树状结构进行决策的模型,用于解决分类和回归问题。它通过对输入数据进行逐步分割,形成一棵树状结构,使得每个叶子节点代表一个特定的类别。在决策树的节点分裂过程中,通常使用基尼不纯度(Gini Impurity)作为分裂条件的指标。对于某一节点来说其基尼不纯度公式是:
(1)
其中,k是类别的数量,
是在节点上属于类别的样本占比。
在基于基尼不纯度选择最佳分裂特征和分裂点后,将节点的样本划分到不同的子节点中。划分的基本公式是:
(2)
其中,X1是划分到子节点的样本特征,yi是相应的目标变量。
决策树的生长是指通过递归地选择最优的特征和分割点,不断地分割数据集,构建整个决策树的过程。利用基尼不纯度评估每个特征的分割效果,选择使得指标最优的特征作为当前节点的分割特征,当某个节点的基尼不纯度小于一定阈值时停止分割。在递归过程中,不断生成新的节点,最终形成一棵完整的决策树,每个叶子节点代表一个最终的输出或决策。
对于分类问题,采用投票法:每颗决策树投票给某个类别,最终选择得票最多的类别作为随机森林的整体预测结果。多个决策树的投票结果能够相互平衡,对噪声和异常值的敏感性相对较低,有助于减小过拟合的风险。
(3)
其中N是随机森林种的决策树数量,Cij是j棵树对样本的预测结果,表示类别i是否被选中,Cij是
指示函数,当括号内的条件为真时取值为1,否则为0,argmaxi表示即使得后面表达式最大得类别。
3. 结果与分析
3.1. 数据预处理结果
本文借助Python中强大的网络请求库与解析库,编写了高效且灵活的爬虫脚本,这些脚本能够模拟用户行为,安全、合法地访问京东商城的网页,并准确地抓取到目标商品的在线评论信息。本文通过Python技术,抓取京东、淘宝、拼多多等主流电商平台上消费者对预制菜的在线评论数据。下表1为爬取的部分商品评价数据。
通过对数据质量的全面评估,本文的数据具有以下特点:(1) 完整性:数据缺失值比例低于1%,且已通过合理方式处理。(2) 一致性:评论内容与评分的一致性比例达到95%以上,表明数据具有较高的可信度。(3) 多样性:样本覆盖了100个预制菜品牌和500多种产品,用户分布广泛,能够有效反映市场的真实情况。
3.2. 特征词筛选
在本研究中,为了深入挖掘预制菜在线评论中的关键特征词,我们采用了先进的AP聚类算法,聚合了具有相似特征的词汇,从而构建了一个全面的特征词表。
其参数设置如下表2所示。
Table 1. Evaluation and rating of some prepared vegetables
表1. 部分预制菜商品评价与评级
用户 |
评价 |
评级 |
1 |
酸菜鱼不错,价格实惠,味道鲜美,操作简单,放水里一煮就行,给个好评。 |
5☆ |
2 |
正品,质量好,价格低,性比价高,物美价廉,物有所值,朋友看了都说好。客服服务热情都到。物流很给力 |
5☆ |
3 |
物流很快,下单的第二天就到了,服务挺好,送货上门。买到的玉米吃起来味道超棒的,包装很好,性价比也挺高的,值得推荐和购买。 |
5☆ |
4 |
送货速度慢。有几个摸上去感觉可以压扁的,那种不是硬的。客服不理人回复的很慢,看了配料表感觉一点营养都没有,价格还很贵 |
1☆ |
5 |
这次买的感觉不新鲜,口感也不好,肉很老,很咸很咸,咸味太重把甜辣都盖过了 |
3☆ |
6 |
大品牌值得信赖,物流超快,物美价廉,肉质细腻,口感不错份量很足,冷冻包装,存储方便,很适合平时忙的时候的工薪族,下次还会买 |
5☆ |
Table 2. Parameter setting of AP clustering algorithm
表2. AP聚类算法参数设置
参数名称 |
设置值 |
偏好值(Preference) |
6 |
阻尼系数(Damping Factor) |
0.9 |
最大迭代次数(Max Iterations) |
200 |
收敛迭代次数(Convergence Iterations) |
15 |
相似度度量(Similarity Measure) |
余弦相似度 |
将处理好的数据输入到AP聚类算法中在这一阶段,算法通过计算词与词之间的相似度,自动形成了若干个特征词聚类。每个聚类代表了消费者评论中的一个特定主题,如“口味”、“包装”、“便利性”等部分共词矩阵,如表3所示:
Table 3. Co-word matrix of some prefabricated food product feature words
表3. 部分预制菜商品特征词共词矩阵
|
味道 |
方便 |
包装 |
服务 |
物流 |
性价比 |
品牌 |
味道 |
—— |
1511 |
770 |
856 |
700 |
770 |
452 |
方便 |
1511 |
—— |
755 |
758 |
639 |
603 |
483 |
包装 |
770 |
755 |
—— |
586 |
962 |
875 |
358 |
服务 |
856 |
758 |
586 |
—— |
761 |
589 |
477 |
物流 |
700 |
639 |
962 |
761 |
—— |
853 |
568 |
性价比 |
770 |
603 |
875 |
589 |
853 |
—— |
359 |
品牌 |
452 |
483 |
358 |
477 |
568 |
359 |
—— |
通过特征共词矩阵表,绘制了语义网络图,在图6中,每个节点代表一个特征词,节点之间的连线表示词汇之间的共现关系,在这张图中,每个节点代表一个特征词,节点之间的连线表示词汇之间的共现关系,此外,网络图还揭示了一些之前未被注意到的潜在联系,例如“价格”与“性价比”之间的强关联,这提示在制定产品定价策略时需要综合考虑消费者的性价比感知。
Figure 6. Prepared dish reviews feature word correlation graph
图6. 预制菜评论特征词关联图
3.3. 情感打分
在完成特征词的提取和语义网络图的构建之后,进一步对预制菜在线评论进行了情感分析,以量化消费者的情感倾向。情感打分是通过将消费者评论中的情感倾向转化为数值,从而为分析消费者满意度和产品改进提供依据。采用了深度学习技术,结合情感词典,构建了一个综合的情感分析模型。该模型能够识别评论中的积极、中立和消极情感词汇,并根据情感词典中预设的情感值进行打分。
在情感打分过程中,首先对评论文本进行分词处理,其次检测预制菜特征词,针对预制菜后面的词汇使用情感词典匹配进行情感值计算。如表1所示为部分预制菜商品评价与评级,利用深度学习的情感分析模型进行打分,如“价格实惠”则分成“价格”与“实惠”,因此情感分析模型会对“价格”这个影响因素评分为最高分“5分”,对应于表4所示。
3.4. 预制菜线上消费特征重要性分析
在预制菜线上消费行为的研究中,采用了随机森林模型,输入变量包括品牌认知度、卫生标准、营养价值、新鲜度、包装、性价比、物流效率、售后服务、便利性和口味满意度等。通过算法的迭代训练,每个变量的重要性得分被计算出来,以评估它们在消费者决策中的作用。其设置参数如下表5所示:
Table 4. Some prepared food product reviews correspond to sentiment scores
表4. 部分预制菜商品评论对应感情得分
用户评价 |
商品评论感情得分 |
品牌 |
价格 |
营养 |
新鲜 |
包装 |
物流 |
售后 |
方便 |
口味 |
1 |
3 |
5 |
3 |
5 |
3 |
3 |
3 |
5 |
5 |
2 |
5 |
5 |
3 |
3 |
3 |
5 |
5 |
3 |
5 |
3 |
3 |
5 |
3 |
3 |
5 |
5 |
5 |
5 |
5 |
4 |
3 |
1 |
1 |
3 |
3 |
1 |
1 |
3 |
3 |
5 |
3 |
3 |
3 |
1 |
3 |
3 |
3 |
3 |
1 |
6 |
5 |
5 |
3 |
5 |
3 |
5 |
3 |
5 |
5 |
Table 5. Parameter setting of AP clustering algorithm
表5. AP聚类算法参数设置
参数名称 |
设置值 |
决策树数量 |
500 |
最大特征数 |
特征总数的平方根 |
最大深度 |
None |
最小样本分割 |
2 |
最小样本叶节点 |
1 |
自助采样 |
True |
随机种子 |
42 |
类别权重 |
Balanced |
预制菜线上消费影响因素结果如图7所示,其中,口味满意度以22.39占比成为最主要的影响因素,这表明消费者在购买预制菜时,口味是最重要的考量因素,口味的多样性和满足度直接影响消费者的重复购买意愿和品牌忠诚度。紧随其后的是便利性(占比18.53)和售后服务(占比15.58),这表明在快节奏的现代生活中,消费者倾向于选择那些能够提供快速、便捷服务和良好售后支持的预制菜产品。此外,包装(占比10.3)和性价比(占比11.17)也显示出对消费者选择具有一定影响,包装的吸引力和实用性对消费者的购买决策有一定影响。环保和创新的包装设计可以提升产品的市场竞争力。而品牌认知度、卫生标准和营养价值的评分相对较低,表明在预制菜的购买决策中,它们的影响力有限。这可能是因为消费者对预制菜的期望已经包含了这些基本要求。
随机森林算法的分析结果为预制菜行业提供了深入的洞察,有助于企业优化产品特性,提升消费者满意度,并在竞争激烈的市场中获得优势。
4. 结论与建议
4.1. 研究结论与展望
本文基于线上评论研究消费者对购买预制菜的影响因素,从各项数据可以得出以下结论:口味和方便的高评分表明,消费者在选择预制菜时,首要考虑的是味道和使用的便捷性。这提示生产商和零售商应着重提升产品的口感和简化烹饪过程。售后服务和物流的较高评分强调了服务质量的重要性。优化
Figure 7. Influencing factors of online consumption of prepared dishes
图7. 预制菜线上消费影响因素
客户服务和提高物流效率可以显著提升消费者的满意度和忠诚度。性价比、新鲜度和包装的评分显示,消费者在意产品的经济性、新鲜度和外观。这要求企业在定价策略、供应链管理和包装设计上做出相应的调整。尽管营养、干净和品牌的评分相对较低,但这些因素仍然是消费者考虑的一部分,特别是在食品安全和健康趋势日益重要的今天。
在未来的研究中,将深入分析不同消费者群体如不同年龄段、地域和消费水平对预制菜的偏好差异,通过引入消费者画像技术和动态分析方法,进一步细分市场并追踪消费者行为的变化趋势。同时,将重点关注消费场景对预制菜需求的影响,以及新兴技术如冷链物流和智能包装对消费者满意度的作用。
4.2. 研究建议
企业应重点关注提升产品的口味和方便性,同时加强售后服务和物流体系,以确保消费者获得最佳的购物体验。此外,合理的定价、保证食品的新鲜度和优化包装设计也是提升市场竞争力的关键。虽然品牌影响力较低,但通过提升其他因素的表现,品牌认知度和信誉自然会随之提升。具体来说:
(1) 加速预制菜企业自我革新
为了提升产品的口味和方便性,企业可以不断研发新口味的产品,以满足不同消费者的口味需求。同时,可以考虑推出一些便携式、易于携带的产品,以满足消费者在外出时的需求。合理的定价是吸引消费者的重要因素之一。企业可以通过市场调研,了解竞争对手的定价策略,结合自身成本和市场需求,制定合理的价格策略。在加强售后服务方面,企业可以建立完善的客户服务体系,提供及时、专业的售后服务,以解决消费者在使用产品过程中遇到的问题。此外,企业还可以通过定期回访客户,了解客户需求和反馈,以便不断改进产品和服务,形成完整的客户回溯系统。
(2) 加强预制菜企业外部合作
在物流体系方面,企业可以与可靠的物流公司合作,确保产品能够快速、安全地送达消费者手中。同时,企业还可以优化物流配送流程,提高配送效率,降低物流成本。保证食品的新鲜度对于提升市场竞争力至关重要。企业可以与研究所、食品学院合作,采用先进的保鲜技术,确保产品在运输和储存过程中保持新鲜。此外,企业还可以加强对供应链的管理,确保原材料的质量和新鲜度。
(3) 提升预制菜产品的附加影响力
优化包装设计可以提高产品的附加值,吸引消费者的注意力。企业可以聘请专业的设计师,根据产品特点和目标消费群体,设计独特、美观的包装。同时,企业还可以关注环保理念,采用可降解或可循环利用的包装材料,以满足消费者对环保的需求。