基于文本挖掘的代餐产品消费预测研究
Research on Consumption Prediction of Meal Replacement Products Based on Text Mining
DOI: 10.12677/orf.2024.142204, PDF, HTML, XML, 下载: 33  浏览: 48  科研立项经费支持
作者: 陈嘉玮:江南大学商学院,江苏 无锡
关键词: 代餐食品市场营销客户细分结构方程大数据文本分析Meal Replacement Food Marketing Customer Segmentation Structural Equation Big Data Text Analysis
摘要: 研究背景:代餐食品作为新时代功能性食品发展下的衍生物,近几年市场规模急剧增长。作为功能性食品的代餐食品的形式、种类、功能不断丰富化,研究代餐食品消费者的购买关注点与消费者特征对于代餐企业找准市场定位,进行精准化的电商营销具有重要的借鉴意义。研究思路:首先通过爬取淘宝和京东的热销代餐产品的消费者评论,利用词频分析、词网络分析和对应分析对消费者购买的影响因素进行文本挖掘,为下一步的结构方程的问卷设计和模型假设提供理论支撑。利用结构方程补充分析了影响因素之间的因果关系和影响因素之间的影响强度关系。最后,基于RapidMiner软件建立了9种机器学习预测模型,进行消费者画像的特征挖掘,分析消费者特征对于购买意愿的影响。研究结论:代餐产品表现出明显的明星效应;消费者的购买影响因素存在多样性强交互关系,但价格属性是其主导因素;学历是消费者画像中最为重要的特征,其中大专到硕士学历的购买意愿最强。
Abstract: Research background: As a derivative of the development of functional food in the new era, the market size of meal replacement food has increased dramatically in recent years. As a functional food, meal replacement food is constantly enriched in form, type and function, and it is important to study the needs of meal replacement food consumers and consumer characteristics to find the market positioning and accurate e-commerce marketing. Research Idea: Firstly, we crawled through the consumer reviews of popular meal replacement products in Taobao and Jingdong, and used word frequency analysis, word network analysis and correspondence analysis to conduct text mining on the factors influencing consumers’ purchase, which provided theoretical support for the next step of questionnaire design and model hypothesis of structural equation system. The causal relationship between the influencing factors and the influence strength relationship between the influencing factors were analyzed using the structural equation system supplement. Finally, nine machine learning prediction models based on RapidMiner software were established for feature mining of consumer portraits to analyze the influence of consumer characteristics on purchase intention. Conclusion: Meal replacement products show an obvious star effect; there is a diversity of strong interactive relationships among consumers’ purchase influencing factors, but the price attribute is the dominant factor; education is the most important characteristic in the consumer portrait, among which the purchase intention of college to master degree is the strongest.
文章引用:陈嘉玮. 基于文本挖掘的代餐产品消费预测研究[J]. 运筹与模糊学, 2024, 14(2): 1045-1057. https://doi.org/10.12677/orf.2024.142204

1. 引言

伴随着电子商务和物流的快速发展,代餐食品作为代替正常膳食的一种进食方式,逐渐演变成“代餐食品”的缩略代称。随着人们生活方式、思维习惯的变化逐步带来膳食习惯的转变,代餐慢慢得到了大众的青睐,其起初面向的消费人群是无法正常用餐或者是追求方便的群体,但随着代餐概念的普及,代餐逐渐被排斥高热量、高脂肪或热爱健身塑形的人群接受。近些年,代餐食品的市场规模迅速扩大。这一新的消费行为习惯使得相关产品的重要性日益凸显。

面对代餐概念的逐渐普及与市场渗入,再加上近几年代餐市场规模的快速扩大,本文对代餐消费群体的需求关注的研究和潜在消费者特征的挖掘,通过识别消费者的消费需求,分析影响消费者需求因素之间的作用关系。爬取电商平台代餐热销产品的文本评论进行文本挖掘,基于文本挖掘结论,设计问卷和建立结构方程模型,分析代餐产品需求影响因素之间的因果关系,探索潜在消费者的特征,并分析这些特征对购买意愿的影响强度。

近年来,随着数据挖掘技术的快速发展,学术界利用结构方程模型对相关产品的消费预测和分析也在不断深入。李中东等 [1] 基于扎根理论建立结构方程,发现食品企业管理者对可追溯信息的重视程度、企业规模、品牌声誉的提升对企业可追溯信息意愿存在积极作用。杨浩雄等 [2] 将生鲜食品消费者购买决策因素分为消费者个人因素、平台因素、生鲜食品因素,再在此基础上进行细分建立结构方程模型进行影响因素排序。陈从军等 [3] 利用结构方程识别消费者对转基因食品风险认知的影响因素,发现消费者对健康的关心对正向因素,而对转基因食品的认知、社会信任、食品安全的知识等因素为负向因素。刘永胜等 [4] 运用结构方程模型从食品企业的人力资源、食品、设施与设备、信息、成本5个要素来衡量建立评价指标体系分析食品冷链透明度。张瑞娟等 [5] 基于消费对转基因技术的了解的相关信息建立了结构方程模型考察消费者认知对消费者购买决策的影响路径和判断作用。周伟杰等 [6] 提出具有可重复性的RFGM模型,将分子将分数阶累加算子与时间幂模型相结合,利用文化算法对超参数进行优化,使其拥有更强的灵活性。张红霞等 [7] 基于结构方程模型研究网站因素、环境因素、商家因素、消费者信任倾向四个维度对消费者在网购时食品安全信任的影响,并发现网站和环境因素对食品安全信任的影响比较显著。除此之外,诸多学者也将结构方程模型与其他方法技术相结合来进行细致研究。如马颖等 [8] 将结构方程模型与系统动力学模型相结合考察消费者信息搜寻对消费者的食品安全信任感知产生的影响及其机理与实质。卢素兰等 [9] 利用实地调查数据,将结构方程模型与中介效应相结合分析居民的食品健康理念对他们绿色食品消费行为的影响。王建华等 [10] 以Fishbein模型为理论支撑,运用结构方程对调查数据进行分析,透析农户施药行为与行为态度、食品安全认知、农户风险感知等因素的作用关系。

综上所述,现今的研究基本都在聚焦在消费决策方面的研究,而利用数据挖掘对代餐食品的客户细分群体进行刨析的研究更是稀少,为此,本文在前人理论研究的基础上,利用大数据文本挖掘技术,挖掘消费者购买的关注点,通过文本数据挖掘结果及其研究,设计问卷和并开展问卷调查,利用结构方程模型分析其影响购买者决策的影响因素之间的因果关系和影响力大小。之后,再根据问卷数据,进行数据挖掘,精准刻画潜在用户画像,为企业的产品发展和营销战略提供有益的决策借鉴。

2. 基于结构方程的客户细分模型构建

2.1. 模型假设

基于文本挖掘的两个缺陷和大数据文本挖掘的研究成果,本研究建立了六个影响因素和八个假设的结构方程模型。假设见图1

H1:明星效应对价格属性有正向影响。

H2:食品属性对价格属性有正向影响。

H3:物流属性对价格属性有正向影响。

H4:食品属性对明星效应有正向影响。

H5:减肥效果对价格属性有正向影响。

H6:售后服务对价格属性有正向影响。

H7:减肥效果对食品属性有正向影响。

H8:售后服务对物流属性有正向影响。

Figure 1. Model assumptions

图1. 模型假设

2.2. 路径分析

本文利用IBM SPSS Amos 24软件构建结构方程模型,通过拟合指数检验并修正结构模型的内容,用极大似然估计估计路径系数。依据拟合规则经过反复的修正后,模型通过了拟合检验,见表1

Table 1. Model fit judgment

表1. 模型适配度判断

和适配标准进行对比,除去卡方自由度比值,其他统计加检验量的拟合指数均达到理想值。Lefcheck等 [11] 学者在进行适配度判断时做出相关说明:在样本量很大、而其他指标满足标准的情况下,卡方自由度比小于5为拟合良好,小于10为可接受。因此,综合来看,模型的拟合程度是可以接受的。假设模型对样本数据具有较好的拟合能力,可基于拟合后的结构方程模型对潜变量进行分析。模型假设检验的结果见表2。由此可知,假设H1、H2、H3、H4、H5和H6通过检验,假设H7和H8未通过检验。即在本次研究中,明星效应、食品属性、物流属性、减肥效果以及售后服务都可以增强价格属性对消费者购买决策的影响;对明星效应敏感的消费者对食品属性存在负向影响关系,且影响力度较弱;而减肥效果不能增强食品属性对消费者购买决策的影响;售后服务也不能增强物流属性对消费者购买决策的影响。

Table 2. Path hypothesis test

表2. 路径假设检验

注:表格中***代表显著性P值 ≤ 0.001,−代表未通过检验。

对通过检验的路径进行标准化路径系数估计,见表3,并结合前面假设和系数,可得到如下分析结论:对价格敏感的消费者对明星效应、食品属性、物流属性、减肥效果和售后服务也同样敏感,尤其是在食品属性和售后服务方面,可以看出,消费者关注代餐食品价格的同时会更关注代餐食品的口感以及多种口味,也会更加关注售后服务。由于路径价格因素–食品属性–减肥效果、低价因素–物流属性–售后服务中,后半部分路径不显著,所以食品属性对减肥效果不具备中介作用,物流属性对售后服务同样也不具备中介作用;而在路径价格因素–明星效应–食品属性中,后半部分的路径系数估计值为−0.283,这说明了对明星效应敏感的消费者对食品属性影响度比较低,这在一定程度上反映了代餐食品的相关消费者并非是盲目追星的。

Table 3. Estimates of standardized path coefficients

表3. 标准化路径系数估计

3. 实证分析

3.1. 特征词提取

本研究使用python爬取了2019~2022年淘宝和京东平台的热销代餐产品评论,共计40,126条,并运用python的jieba词库进行分词。通过实验,现有的停用词表无法对代餐食品评论进行有效排除,所以本文采用自定义停用词表和词库统计词频,来获取用户关注的重点词汇。python分词后再利用词频分析、KH Coder软件进行文本分析。

3.2. 词频分析

使用jieba分词后,提取频数排名前15的词语并进行分析,见图2。综合分析四家企业评论关键词,先取前三名的分词来分析大多数代餐食品的消费者的特征,分别是“好吃”、“味道”和“口感”,可以看出消费者最关注代餐食品的口味。因此,代餐食品的口味是影响消费者购买选择的主要原因之一;其次,从代餐的功能性来看,消费者比较关注的依次是“方便”、“减肥”、“营养”、“饱腹”,由此可以看出消费者对代餐食品具有不同需求,“方便”是大多数消费者选择代餐食品的主要原因之一;

Figure 2. High frequency words in meal replacement reviews

图2. 代餐评论高频词

再者,根据“价格”在消费者评论提及次数占比情况来看,价格也是大多数代餐食品相关消费者较为关注的点,最后,从其它分词中也可以抓取消费者的一些特征,譬如“早餐”一词可以看出大多数消费者会将代餐食品作为早餐食用;“物流”、“包装”两词相结合可以看出消费者较为关注代餐产品的物流运输效率以及其过程中的包装是否完好等等。

3.3. 词网络分析

此部分对分词的结果进行网络分析,所得到的词频由TF-IDF算法得到,图网络由KH coder内置的NLTK软件包和R语言得到。估计系数由KH coder软件内置的Jaccard算法估算得到。取词频500以上,排名前60绘制全体分词网络拓扑图见图3,分析消费者评论,得到以下结论:

Figure 3. Word segmentation network topology

图3. 分词网络拓扑图

代餐食品消费者关注“物流”和“速度”,且“物流”和“速度”之间还具有0.11的共现度。围绕“物流”,消费者关注物流的“质量”、“包装”、“服务”和“京东服务”,形成核心圈层,其中消费者关注最多的为“京东服务”;围绕“速度”,消费者关注“送发货”、“品质”、“态度”、“快递”和“京东服务”,形成核心圈层,其中消费者关注最多的为“送货速度”;可见京东的快递服务是吸引代餐食品消费者前往购买的原因之一。

同时,消费者会关注代餐食品的口感是否“好吃”及其成分选择:牛奶、酸奶和麦片。其中“牛奶”块成分获得的关注度最高,与之共现受到较多关注度的是“早餐”和“酸奶”,分别具有0.13和0.19的共现度。并且,消费者会关注代餐食品的“价格”是否实惠,并更关注搞活动时的价格。围绕代餐食品的“价格”,消费者追求性价比,侧重于关心“实惠”“便宜”“活动”“优惠”“贵”这些因素,并认为搞“活动”时购买代餐较为划算。

最后发现,以“薏米粉”、“红豆”、“芝麻”、“核桃”、“黑芝麻”为主要成分的“五谷磨房”产品获得的关注度更高,这与品牌定位有关。

3.4. 对应分析

对应分析,也称为R-Q型因子分析或相应分析,是一种多元统计方法,通过分析由定性变量构成的列联表来揭示变量之间的关联。本研究将分词后的共现矩阵作为列联表,进行对应分析,以探索词与词之间的典型对应关系。由于分词后的词语较多,本文选取出现词频500以上的词语作为分析目标,得到的对应分析图见图4

Figure 4. Corresponds to the analysis diagram

图4. 对应分析图

图4中,明显远离原点(0, 0)的点有四类。其中,最明显的是“摩托姐姐”、“王一博”、“支持”这些词语,可以证明在代餐食品购买人群中,出现了较为明显的明星效应。其次,“商品”、“质量”、“速度”、“性价比”、“物流”、“优惠”、“便宜”等词语也较为明显,可以发现人们对代餐的要求普遍是具有较高的性价比,物美价廉、物流速度快、质量好等,由此也能看出。此外,另外两个象限分别体现了代餐食品的口味特性和功能特性,表现出消费者偏好的异质性。

3.5. 问卷设计

本文采用网络问卷调研的方法,在问卷网发放有奖问卷2500份,剔除答题时间较短、不符合逻辑和答题数据缺失的问卷,有效回收2476份,有效问卷比例为99%,在年龄、学历、职业等方面均覆盖较广,见表4。一般而言,结构方程模型的每个显变量要至少有10个样本来衡量,本研究的2476份有效样本满足建模要求。

Table 4. Questionnaire sample coverage

表4. 问卷样本覆盖

3.6. 问卷的信度效度检验

信度分析的结果反应问卷的可信度和可靠性,主要的评价指标为克朗巴哈系数(Cronbach’s α),该系数在0.7~0.8时表示量表具有相当的信度,达到0.8~0.9时说明量表信度非常好。本问卷总体量表的克朗巴哈系数为0.959,5个分量表的克朗巴哈系数均大于0.7,表明它们具备内部一致性。

分析表5可知,非标准化和估计结果的P值均显著,证明题目应被纳入模型中。标准化因素荷载Std.一般要求在0.6~0.95之间,在自创量表中,0.45为最低接受值,题目信度SMC在0.2以上表示可接受。本研究的问卷中,包含自创的有关代餐购买影响因素量表效果显著,因此综合来看本问卷的结果拟合良好。

Table 5. Table of factor load coefficients

表5. 因子载荷系数表

注:******分别代表1%、5%、10%的显著性水平。

表6,题目的组成信度CR值大于0.7证明有良好的内部一致性;AVE值大于0.36为可以被接受。本研究的结果均通过检验,证明题目具有收敛效度。将潜变量的AVE的平方根和与其他潜变量的皮尔逊相关系数进行比较,结果表明模型整体潜变量之间具有良好的区别效度。

Table 6. Model evaluation

表6. 模型评价

3.7. 客户群体特征挖掘

此部分研究使用RapidMiner软件进行数据挖掘,进行潜在消费者研究,主要研究潜在消费的消息特征、消费特征的重要程度等。使用的数据集仍是通过问卷网收集的2476份问卷,以是否愿意购买代餐产品作为预测变量,学历。年龄、性别、收入、身高、体重、职业、运动习惯、饮食习惯作为特征变量进行预测。利用RapidMiner进行常规的机器学习模型预测,其预测精度见图5。其中朴素贝叶斯模型的精度最高,为78%。所以本文接下来的研究以朴素贝叶斯模型为基础而展开。通过RapidMiner的仿真模拟器,对朴素贝叶斯预测模型的进行模型解释,并得到各特征影响程度的内部排序。

Figure 5. Prediction accuracy of the model

图5. 模型预测精度

3.8. 潜在用户特征的重要程度

Figure 6. Ranking of importance of predictor variables

图6. 预测变量重要性排序

通过朴素贝叶斯算法,可以得到潜在用户特征的重要程度排序见图6。在学历、饮食习惯、性别、运动概率、体重、年龄、职业、身高、收入这八个潜在用户特征里面,学历的重要程度排名第一,达到0.227,说明代餐消费的潜在人群学历特征最为显著,学历较高的(大专、本科、硕士)消费者人群对代餐的接受度较高;而收入和身高这两个特征的重要程度分为只有0.038和0.040,相比之下与其他指标的差距较大,说明代餐产品在进行市场定位时无需过多关注消费者的收入或者身高特性;其余指标的差异性并不突出,可以结合具体产品进行定位。

由于学历是最重要的特征变量,为此,本研究进行了更为细致的模型解释和挖掘工作,首先通过模拟器进行模型的最优化,得到最优化的特征变量,见表7

Table 7. Optimal characteristic variables

表7. 最优特征变量

在进行模型最优化后,分析各个学历的购买意愿,见表8,分别计算了初中、高中、大专、本科、硕士、博士的代餐购买意愿。

Table 8. Purchase intention of people with different educational backgrounds

表8. 不同学历人群的购买意愿

首先,从总体上来看,各个学历群体对于代餐的购买态度均是愿意居多,说明目前大众对代餐的接受度良好,代餐产业具有可观的发展前景;其次,学历从初中至博士,对于代餐的购买意愿呈“两端低,中间高”的特征,大专至硕士学历对于代餐的购买意愿最高,而至博士出现骤降;最后,“不愿意”的比例虽远不及接受代餐的用户,但是在庞大的基数下,约30%的比例也不容忽视,大众不接受代餐的原因多种多样,“30%”中不乏对于代餐的无知与偏见。“30%”是阻力,也是动力,找准原因对症下药,也许会开拓新的市场。

4. 研究结论

本文以代餐产品为关注点,从消费者购买决策的影响因素出发,通过大数据文本分析、结构方程、潜在消费者画像的数据挖掘可以得到,代餐产品的明星效应明显。众多“追星女孩”会因为自家“爱豆”的代言选购代餐。除此之外,大众对代餐的要求普遍是性价比高、物流速度快、质量好。代餐的食品属性、明星效应、减肥效果、物流属性、价格属性、售后服务这六个属性之间影响效果明显。消费者对于代餐的关注点并不唯一,价格属性对其他因素的影响最为显著。学历是潜在消费者画像中最为重要的个人特征。专科、本科、硕士对于代餐的接受度均较高,博士的接受度最低。

根据关键词和用户画像提升搜索流量。在文本分析中,减肥、饱腹、好吃、好喝、早餐等关键词频率较高,在消费者画像的数据挖掘上,权重从高到低依次为学历、饮食习惯、性别、运动频率、体重、年龄、职业、身高、收入。从产品流量获取的角度来说,在代餐电商产品关键词的提取中,可以以词语作为产品副词,提高产品的搜索排名和推荐流量,在代餐的产品标签的上,代餐电商企业首先要第一选择学历的产品标签,尤其是在本科和大专及以上学历的标签是提升产品推荐流量的关键。

大量的文本数据和问卷数据是本文研究的基础,但由于客户信息和市场数据等方面的局限性,仍存在许多不足:第一,本文爬取的文本评论来自于各大电商平台,可能存在粉丝刷评、商家造假等影响评论真实性的情形,影响了结论的可信度。第二,本文更多地关注了消费者更关注于代餐的哪些特性以及愿意购买代餐的消费者的特性,之后的研究可以挖掘部分消费者拒绝代餐的深层原因,对于代餐市场的拓宽更具参考价值。

基金项目

江苏省研究生科研与实践创新计划项目(KYCX23_2544)。

参考文献

[1] 李中东, 张玉龙. 食品可追溯信息传递意愿及行为分析——基于284家食品生产企业的调研[J]. 企业经济, 2018, 37(11): 161-168.
[2] 杨浩雄, 王浩. 生鲜食品网络购买决策的关键因素研究[J]. 管理现代化, 2018, 38(4): 64-66.
[3] 陈从军, 孙养学, 刘军弟. 消费者对转基因食品感知风险影响因素分析[J]. 西北农林科技大学学报(社会科学版), 2015, 15(4): 105-110.
[4] 刘永胜, 王荷丽, 徐广姝. 基于结构方程的食品冷链透明度评价指标体系研究[J]. 科技管理研究, 2018, 38(10): 83-89.
[5] 张瑞娟, 许菲. 消费者转基因食品购买决策研究——转基因制度认知视角[J]. 农业技术经济, 2022(10): 69-82.
[6] 周伟杰, 姜慧敏, 成雨珂, 等. 基于可重复性分数阶灰色时间幂模型的中国水电消费预测研究[J]. 中国管理科学, 2023, 31(5): 279-286.
[7] 张红霞. 消费者对网购食品安全信任的影响因素分析[J]. 软科学, 2018, 32(5): 116-119.
[8] 马颖, 吴陈, 胡晶晶, 罗健初, 刘嘉. 基于SD-SEM模型的消费者食品安全风险感知的信息搜寻行为[J]. 系统工程理论与实践, 2017, 37(4): 962-971.
[9] 卢素兰, 刘伟平. 自媒体时代: 健康信念与绿色农产品消费行为研究——基于中介效应及结构方程模型[J]. 福建论坛(人文社会科学版), 2017(2): 59-67.
[10] 王建华, 邓远远, 吴林海. 意向选择、行为表达与农产品质量安全——基于Fishbein模型和结构方程模型的农户施药行为研究[J]. 软科学, 2016, 30(10): 136-140.
[11] Lefcheck, J.S. (2016) piecewiseSEM: Piecewise Structural Equation Modelling in R for Ecology, Evolution, and Systematics. Methods in Ecology and Evolution, 7, 573-579.
https://doi.org/10.1111/2041-210X.12512