1. 引言
随着教育技术的不断发展,教育机器人作为一种新兴的教育工具,其市场需求呈现出逐年增长的趋势[1]。通过提供互动式学习体验,教育机器人不仅能够激发学生的学习兴趣,还能够帮助他们在科学、技术、工程和数学(STEM)等领域获得更深入的理解。然而,随着教育机器人品牌和型号的日益增多,消费者在网络购物平台购得产品后所反馈的满意度差异日益明显。因此,对消费者购买教育机器人满意度影响因素的研究,对生产商和销售商而言具有重要的市场策略意义。
本研究旨在通过分析京东网上商城的消费者评论,探讨影响消费者购买教育机器人满意度的关键因素。通过应用LDA模型和IPA模型,本研究不仅能够识别出消费者关注的主要因素,还能够评估这些因素对消费者满意度的具体影响。研究结果将为教育机器人的生产商和销售商提供针对性的市场策略和产品改进建议,从而提高消费者满意度,促进教育机器人市场的健康发展。
2. 研究方法
2.1. 研究思路
本研究综合运用了定性分析与定量分析的混合研究方法,以全面分析影响教育机器人购买满意度的关键因素。研究流程如图1所示,主要包括以下几个核心步骤:首先,通过网络爬虫技术自动采集京东商城上关于教育机器人的消费者在线评论;其次,运用数据预处理技术清洗和整理所收集的原始数据;接着,采用LDA模型对预处理后的文本数据进行主题挖掘,以识别消费者讨论中的关键主题;最后,通过IPA模型评估这些主题对消费者满意度的重要性和实际表现。
2.2. 数据收集
本研究采用Python网络爬虫技术,利用Selenium浏览器库,从京东商城收集了大量关于教育机器人的在线评论数据。爬虫技术能够自动化地访问网页、解析网页内容,并提取所需数据。Selenium浏览器库则提供了丰富的接口,可以模拟浏览器操作,实现精准定位目标商品和抓取评论内容的功能。收集到的原始评论数据将进行预处理,以确保数据质量和分析结果的准确性。
Figure 1. Research framework
图1. 研究思路
2.3. 主题挖掘
本研究运用LDA模型对处理后的文本数据进行主题挖掘。隐含狄利克雷分布(LDA, Latent Dirichlet Allocation)模型是一种广泛应用于自然语言处理领域的无监督机器学习技术,它能够从大量的文本数据中自动地发现潜在的主题分布。如图2所示,LDA模型基于概率生成模型,它假设每个文档都是由多个主题混合生成的,而每个主题又是由多个单词按照一定的概率分布生成的。
Figure 2. LDA model
图2. LDA模型
通过此方法,LDA模型将文档和单词映射至同一隐含主题空间,揭示文本数据的内在结构和主题[2]。LDA模型揭示了消费者评论中最常讨论的主题类别及其内部词汇分布,从而得到消费者对教育机器人的关注点。在情感分析部分,本研究计算了每条评论的情感倾向,从而分析消费者评分与情感倾向之间的相关性。
2.4. 重要性–满意度分析
重要性–满意度分析(IPA, Importance-Performance Analysis)是一种广泛应用于旅游、服务管理和市场研究领域的方法,用于评估和优化产品或服务的质量和性能。IPA通过将产品或服务的各项指标按照其重要性和表现进行分类,帮助企业和组织识别关键改进领域,从而提高顾客满意度和市场竞争力[3]。通过IPA模型,本研究将识别出的主题按其在消费者心中的重要性和产品实际表现的满意度进行定位,形成四个象限,以此来指导产品优化和市场策略的制定。
3. 数据收集
3.1. 网络爬虫
本研究运用了Python网络爬虫技术,借助Selenium浏览器库,利用“教育机器人”和“学习机器人”作为关键词,从京东在线商城精确定位目标商品,并自动抓取相关商品的全部评论内容[4]。经过一段时间的运行,爬虫共收集到了1470件商品的63,369条评论信息。如表1所示,这些评论信息涵盖了评论ID、评论内容、评分星级和时间等多个维度。
Table 1. Review Data
表1. 评论数据
id |
评论内容 |
评分星级 |
时间 |
165**694 |
货收到了太惊喜了,功能特别多,既可以早教,还可以给学生学习, 声音音质也不错还可以唱歌,孩子特别喜欢。 |
5 |
2023/11/5 |
205**833 |
内容蛮多的,但是拿到手太廉价感了,主要是它的声音巨小,最大的声音都 很小,也没灯光,没啥意思,懒得退了,考虑清楚再买反正,很廉价的感觉。 |
3 |
2023/5/21 |
204**099 |
很好玩的一个机器猫,会跳舞,会唱歌,直接充电款很方便,很适合 给宝宝玩,宝宝会跟着跳舞唱歌,非常有趣。适合拿去送人,很耐玩! |
5 |
2022/4/8 |
在数据收集过程中,严格遵守相关法律法规和京东在线商城的相关规定,对网络爬虫的运行频率和并发量进行了严格控制,以确保数据的合法获取和有效性。所收集的数据仅供学术研究之用,不作其他用途[5]。通过这种方式,获取了大量原始数据,并确保了数据的真实性和可靠性,为后续的数据分析和研究结论提供了坚实的基础。
3.2. 数据预处理
数据预处理是提高数据质量和便于后续分析的重要步骤。首先,利用Python的Pandas库将原始评论数据导入至数据处理环境中。接着,对数据集进行去重处理,以消除重复条目,避免分析结果的重复偏差。随后,针对数据中的缺失值,采取相应的策略,包括删除或填充这些值,以完善数据集的完整性。此外,进行了深入的文本清洗操作,包括移除无关字符、统一文本的编码和大小写格式、以及剔除停用词,从而提纯文本数据。同时,对文本中的误差进行校正,并执行数据一致性检查,确保数据的格式和内容上的统一。清洗和预处理后的数据被存储为新的数据集,以支持后续的数据分析和模型构建工作。通过这些步骤,原始评论数据得以转化为高质量、适于深入分析的文本数据[6]。
经过一系列数据预处理步骤,本研究整理并标注了58,068条评论数据,显著提升了数据的适用性,为后续的主题建模和情感分析等任务打下了坚实基础。
3.3. 数据统计
为了进一步理解和可视化清洗后的数据,进行数据统计和词云展示。首先,对评论数据进行统计分析,计算各个评分星级的数量和占比,以及不同时间段的评论分布情况。如表2所示,这有助于了解消费者对教育机器人的整体满意度以及市场趋势。
Table 2. Rating star count
表2. 评分星级数量
1星评论 |
2星评论 |
3星评论 |
4星评论 |
5星评论 |
总计 |
1477 |
437 |
1069 |
802 |
54283 |
58068 |
Figure 3. Word cloud of online reviews
图3. 在线评论的词云
接着,利用词云工具WordCloud库,将评论中的关键词汇以可视化的方式展示出来。如图3所示,词云中的字体大小代表词汇在评论中出现的频率,从而突出消费者关注的热点和关键特征。通过数据统计和词云展示,可以更直观地了解消费者对教育机器人的态度和需求,为相关企业和研究机构提供有价值的参考[7]。
4. 主题挖掘
4.1. 困惑度计算
在LDA模型的主题数量选择过程中,困惑度计算是一个关键的步骤。困惑度(Perplexity)是评估概率模型泛化能力的一种重要指标,尤其在自然语言处理领域中被广泛使用,能够评估不同主题数量对模型性能的影响[8]。本研究使用困惑度来评估LDA模型在消费者评论数据上的表现。困惑度计算基于信息理论,它衡量了模型对未见数据的预测能力。具体来说,困惑度是一个概率模型预测一个样本时的不确定性的量化指标。在LDA模型中,困惑度可以通过以下公式(1)计算:
(1)
其中,D表示语料库中的测试集,共M篇文档,Nd表示每篇文档d中的单词数,wd表示文档d中的词,p(wd)即文档中词wd产生的概率[9]。
在实验中,随着主题数量的增加,模型的复杂度也会增加。当主题数量较少时,模型可能无法充分捕捉到数据中的所有重要信息,导致困惑度较高。随着主题数量的增加,模型能够更好地描述数据的内在结构,困惑度开始下降。然而,当主题数量过多时,模型可能会开始捕捉到噪声和无关的信息,导致过拟合,从而使困惑度再次上升。
Figure 4. Perplexity variation with changes in number of topics
图4. 困惑度随着主题数量的变化情况
如图4所示,通过比较2到12个主题数量下的困惑度值,发现当主题数量为8时,困惑度达到了最低点。值得注意的是,在8之后,困惑度并没有出现预期的上升趋势,而是呈现出缓慢下降的趋势。尽管如此,8个主题的模型已经在较低的主题数量下提供了最低的困惑度,这表明它能够有效地捕捉到消费者评论中的主题分布,同时避免了过拟合的风险。因此,基于困惑度计算的结果,最终选择了8作为LDA模型的主题数,这个选择为后续的主题分析提供了一个合适的模型复杂度,使得分析结果既准确又有洞察力。
4.2. 情感计算
在情感分析部分,本研究采用了基于Python的自然语言处理工具SnowNLP库,该库专门面向中文文本处理,包括情感分析功能[10]。为了探索消费者评分与情感分析结果之间的相关性,本研究对每个评分星级的评论进行了情感值计算。首先,利用SnowNLP库对每个评论文本进行情感分析并归一化,得到一个介于0和1之间的情感值,其中1表示正面情感,0表示负面情感。
如图5所示,评分星级与情感值之间显示出显著的正相关性。即评分越高,情感值也越高,表明消费者对教育机器人的正面情感越强烈;反之,评分越低,情感值也越低,表明消费者的负面情感越明显。这验证了情感计算在评估教育机器人消费者评论中的有效性和可靠性。
4.3. 主题提取
本研究采用LDA模型对收集到的消费者评论进行分析。首先,将经过清洗和预处理后的评论文本转化为词频向量,作为LDA模型的输入。然后,LDA模型经过训练可以识别出评论数据中的潜在主题,并计算出每个评论和每个主题之间的关联强度。如表3所示,这些主题代表了消费者在评论中共同关注的影响因素。
Figure 5. Relationship between rating stars and sentiment scores
图5. 评分星级与情感得分
Table 3. Top 8 dominant themes by percentage distribution
表3. 占比前8的主题
主题 |
主题关键词 |
主题占比 |
情感得分 |
目标受众洞察 |
孩子,朋友,宝贝,礼物,女儿,儿童节…… |
12.94% |
0.58 |
儿童启蒙教育 |
故事,绘本,资源,启蒙,对话,熏陶…… |
10.29% |
0.59 |
用户互动体验 |
效果,屏幕,护眼,模式,智能,体验…… |
9.78% |
0.65 |
外观设计美学 |
外观,质感,包装,设计,材质,颜色…… |
9.41% |
0.61 |
产品功能特性 |
功能,编程,兴趣,想象,特色,玩法…… |
8.68% |
0.54 |
客户关怀服务 |
客服,价格,服务,态度,商家,售后…… |
8.58% |
0.61 |
优质产品保证 |
质量,预期,速度,性能,材质,结实…… |
8.34% |
0.62 |
电商平台体验 |
正品,物流,购物,活动,性价比,实惠…… |
7.38% |
0.57 |
5. 重要性–满意度分析
5.1. 建立模型
在建立模型的过程中,首先收集了关于教育机器人的消费者评论数据,并利用LDA模型对评论进行主题提取,得到了一系列潜在的主题。然后,通过情感分析技术,计算每个主题的满意度得分,该得分介于0和1之间,其中1表示正面情感,0表示负面情感。
如图6所示,研究根据消费者对每个主题的满意度得分和主题重要性进行排序和分类。将情感得分作为横轴,主题重要性作为纵轴,绘制IPA象限图。
5.2. 模型解释
在IPA象限图中,第一象限代表高重要性与高满意度,即卓越表现区域。研究结果显示,用户互动
Figure 6. Quadrant distribution of importance-satisfaction
图6. 重要性–满意度的象限分布
体验与外观设计美学均归入此象限,揭示消费者极为重视教育机器人的直观互动与视觉吸引力。用户互动体验得分为0.65,外观设计美学得分为0.61,均位于积极情感的高分段。这表明,消费者对于那些提供流畅、直观的互动和具有吸引力设计的教育机器人有积极的情感反应。因此,教育机器人制造商应将这两个领域视为产品开发的核心,确保满足消费者的基本期望与偏好。
第二象限代表高重要性与低满意度,意味着改进空间。此象限包括儿童启蒙教育和目标受众洞察两个方面,尽管在消费者心中十分重要,其满意度却低于第一象限。儿童启蒙教育得分为0.59,目标受众洞察得分为0.58,显示消费者认为这些方面对教育机器人的整体价值至关重要,但实际体验可能有所不足。故此,制造商应关注如何提升教育内容质量及针对特定年龄段的适用性,并更好地理解及满足目标受众需求。
第三象限表示低重要性但低满意度。产品功能特性得分为0.54,电商平台体验得分为0.57,显示这些方面的满意度相对较低。教育机器人提供商应认识到,尽管这些方面不是市场主要的竞争差异化因素,但对建立消费者信任与忠诚度极为重要。因此,维持良好的电商平台体验和提供有效的产品功能特性是确保长期客户满意度的关键。
第四象限代表低重要性但高满意度,即过度满足区域。其中包括优质产品保证与客户关怀服务,这两个方面虽然在消费者心中重要性不高,但满意度得分较高。优质产品保证得分为0.62,客户关怀服务得分为0.61,表明尽管这些方面不是消费者最关注的焦点,一旦提供,便能使消费者感到满意。
6. 总结与建议
6.1. 总结
本研究通过对京东在线商城教育机器人消费者评论的深入分析,运用LDA模型和IPA模型,系统地探究了影响消费者购买教育机器人满意度的关键因素。
通过LDA模型的主题提取,本研究识别出了消费者8个主要影响因素,包括用户互动体验、优质产品保证、目标受众洞察、客户关怀服务、产品功能特性、儿童启蒙教育、外观设计美学和电商平台体验。情感计算方面,本研究借助SnowNLP库进行情感分析,证实了消费者评分与情感分析结果间存在着显著的正相关关系,即消费者对教育机器人的满意度与其给出的评分星级一致。
结合IPA模型,本研究构建了一个二维坐标体系,将各主题的重要性和满意度得分分别作为横纵坐标,划分出四个象限,揭示了各因素在满意度形成过程中的作用特点。其中,用户互动体验和外观设计美学被归入高重要性和高满意度的第一象限,这意味着企业在保持和增强这两方面优势的同时,还需要重点关注那些位于第二象限如儿童启蒙教育和目标受众洞察等重要但满意度有待提高的因素,投入更多精力改进,以缩小消费者期望与产品实际表现间的差距。
6.2. 建议
6.2.1. 优化用户体验与设计创新
教育机器人制造商应将优化用户互动体验作为产品研发的核心,致力于提升产品的智能互动功能,不仅要强化语音识别、人机对话等智能交互技术,还要关注用户界面设计的友好性与易用性,确保各种年龄层用户都能轻松操作。同时,在外观设计上追求独特性和吸引力,结合当下审美趋势,创造出富有童趣和科技感的外观,从而迎合消费者对于高品质教育机器人产品日益提升的期待。
6.2.2. 深化教育内容定制与课程多元化
针对儿童启蒙教育内容的丰富度和适用性,厂家需坚持实施教育资源的定期更新与迭代战略,创建具有高度针对性和趣味性的学习内容库,确保教育机器人可以根据不同年龄阶段孩子的认知特点和学习需求灵活调整内容。这要求企业在研发过程中充分考虑不同年龄段儿童的发展规律,打造一套可扩展、多维度的教育资源体系。
6.2.3. 精细化市场调研与用户画像塑造
为了更贴近目标用户群体的实际应用场景和需求,企业应加大市场调研力度,系统地分析消费者心理,细致描绘目标受众的个性化需求和痛点,通过深入研究市场趋势和用户行为模式,指导产品的功能开发与用户体验优化。通过这样的方式,教育机器人不仅能更好地满足现有市场的需求,也能预见并适应未来的消费变化,进而提升整体购买满意度。
6.2.4. 坚守服务质量与强化全程保障
尽管客户关怀服务和电商平台体验在情感分析中显示满意度较高,但企业仍须坚持不懈地提供优质服务,从售前咨询阶段就确保消费者能够获取充足的产品信息和支持,直至售后维护阶段都保持高水平的服务标准。特别强调要在产品质量把控、物流配送效率等方面保持甚至超越行业标杆,即使这些方面并非消费者直接诉求的重点,但它们对于维护品牌形象、增强消费者信任、提高整体满意度起到至关重要的支撑作用。通过全方位优化购买流程,确保消费者在整个购物流程中获得无缝衔接的良好体验。
基金项目
南京邮电大学教育科学“十三五”规划课题,教育大数据背景下基于可视化工具的个性化学习服务模式研究(项目编号:GJS-XKT2012);江苏省研究生科研创新计划项目,基于DAO构建现代化教育治理体系的路径研究(项目编号:KYCX23_0928)。
NOTES
*第一作者。
#通讯作者。