1. 引言
情感分析也称“意见挖掘”,指通过计算机技术对含有特定情感色彩的文本作出分类判断,并计算、分析其中的情感极性值。随着互联网技术的飞速进步,电影评论已成为用户表达个人情感和观点的重要平台,这些评论数据蕴含着观众对电影内容的丰富反馈,为电影研究和市场决策提供了宝贵的参考信息。近年来,基于Python的情感分析技术在电影影评研究领域的应用日益广泛,研究者们借助先进的自然语言处理技术和机器学习算法,深入挖掘影评中的情感倾向,为电影行业的持续发展贡献力量。
本文旨在通过Python对电影《抓娃娃》的影评进行情感分析,探究观众对该电影的情感倾向。电影《抓娃娃》作为一部备受关注的作品,其影评数据在豆瓣电影平台上数量庞大且类型多样,这为我们的研究提供了丰富的素材。通过对这些影评数据进行科学的处理和分析,我们可以揭示观众对电影的整体情感倾向,以及不同情感倾向下影评的具体内容和特点。这不仅有助于我们深入理解观众对类似电影的喜好和评价标准,也为电影制作方和市场决策者提供了有益的参考。
2. 文献综述
随着互联网的快速发展,电影评论作为用户表达情感和观点的重要渠道,逐渐成为研究者关注的热点。近年来,基于Python的情感分析技术在电影影评的研究中得到了广泛应用。本文综述了相关文献,探讨了不同学者在影评情感分析方面的研究方法和成果。
学者霸元钰(2024)在其研究中设计并构建了一个基于预训练语言模型的深度神经网络情感分析模型[1]。该模型利用RoBERTa进行词向量转换,并通过双向门控循环单元(BiGRU)提取文本特征。为了增强模型对上下文信息的关注,研究者在BiGRU输出后引入了自注意力机制。通过残差连接和归一化层的设计,模型有效防止了梯度消失和过大问题。实验结果表明,该模型在三个公开数据集上表现出色,验证了其有效性。
学者黄蓉和毛红霞(2020)基于Python程序设计实现了对豆瓣网《小时代》系列电影影评的爬取与可视化分析[2]。研究者通过数据清洗和可视化展示,分析了观众对电影的态度及其特色。这一研究不仅为理解观众评价提供了直观的视角,也为后续的电影研究奠定了基础。
学者邓慈云和马孝杰(2022)在《Python电影数据采集和可视化系统研究》中,基于Python技术设计了一个数据爬取、清洗和可视化分析系统,专注于《长津湖》电影的影评数据[3]。通过使用Pandas进行数据清洗和Matplotlib进行可视化,研究者展示了影评数据的变化情况,为中国电影的发展提供了参考。
学者徐圣方和王金阳(2024)对豆瓣电影《我不是药神》的影评数据进行了采集和可视化分析[4]。他们详细介绍了数据收集、清洗和预处理的方法,并通过多种可视化手段探讨了影评的词云图、评分分布等。这一研究不仅揭示了该电影在豆瓣上的受欢迎程度,也为制片方和电影市场提供了重要的参考意见。
综上所述,基于Python的影评情感分析研究在方法和应用上不断创新,研究者们通过结合深度学习模型和数据可视化技术,深入挖掘了观众的情感态度。这些研究不仅丰富了电影研究的理论基础,也为电影市场的决策提供了数据支持。未来,随着技术的进一步发展,影评情感分析的研究将更加深入,助力电影行业的持续发展。
3. 研究方法
3.1. 文本数据获取
影评是观众情感态度与价值认同的重要载体,能够直观反映观影者对影片的个人感受与评价。豆瓣电影作为我国最大的电影影评平台之一,电影评论数量庞大,涵盖了各种类型的电影。凭借其庞大的用户基数和高度的社群活跃度,使得其评分与评论系统具有广泛的代表性和较高的公信力。本研究的数据选用了豆瓣电影《抓娃娃》的影评数据。首先,通过编写Python爬虫程序,模拟用户登录、搜索电影、获取影评等操作,提取所需的影评数据。其次,将获取到的数据以csv文本格式进行保存,并进行初步的数据清洗和处理,去除无效数据和重复数据。
3.2. TextBlob情感分析
TextBlob是Python中专门用来处理英语语料的自然语言处理库,通过调用其中文本情感分析的模块并自定义运行代码,可快速地得到所有评论语料的初步情感极性得分[5]。情感得分取值范围为[−1, 1],其中位于[0, 1]区间的文本属于正向积极情感,位于[−1, 0]区间的文本属于负向消极情感,0视为完全中性。
4. 研究结果与分析
4.1. 数据可视化分析
1) 分析《抓娃娃》的影评词云图
Figure 1. Word cloud diagram of movie reviews
图1. 影评词云图
通过图1影评词云图可以看出,观众对这部电影的情感倾向是复杂的,既有正面的评价,也有负面的反馈。具体分析如下:
① 题材分析:从图1可以看出,首先,《抓娃娃》这部电影的题材与《楚门的世界》非常相似,许多观众在影评中都提到了这一点。两部电影都深入探讨了主角在面对虚幻世界时的挣扎与追求。其次,父母、教育、价值观和亲情等词的出现,表明该电影主要是关于教育方式的探讨。
② 角色分析:词云图数据中沈腾、马丽等演员以及二人组合简称“沈马”的出现频率较高,“演技”一词的出现频率也较高,表明观众对二人的关注度较高,较为认可二人的演技。
③ 表达情感:中式恐怖片、恐怖片、讽刺、荒诞、不好看、pua、死不认错、没苦硬吃和为你好等词频较高,表明该电影通过荒诞与讽刺的手法,揭示了当下社会中家庭教育的极端现象,尤其是父母对孩子的过度控制和PUA行为,以及“没苦硬吃”的教育理念,引发了观众对这类行为的反感,甚至上升到了电影本身。
2) 分析《抓娃娃》的评分分布饼图
Figure 2. Distribution of Douban ratings for “Successor”
图2. 《抓娃娃》豆瓣评分分数分布
从图2《抓娃娃》的电影评分分布中可以看出,《抓娃娃》这部电影的评分分布呈现出“两头小、中间大”的特点。极少数观众给出了非常不满意(“1星”)或非常满意(“5星”)的评价,而大多数观众则给出了中等偏上(“4星”)或中等(“2星”)的评价。这表明电影在整体上取得了一定的成功,但仍有改进的空间。对于电影制作方来说,可以针对观众提出的不满意之处进行改进,以提升电影的整体质量。
4.2. 情感态度分析
本文对3823条有效的电影《抓娃娃》影评进行TextBlob情感分析和统计,结果如下表1所示。
Table 1. “Successor” review sentiments: Count and percentage
表1. 《抓娃娃》影评情感:数量与百分比
|
条数 |
占比 |
积极 |
810 |
21.1% |
消极 |
2506 |
65.6% |
中性 |
507 |
13.3% |
如表1所示,《抓娃娃》影评中积极情感评论占比21.1%,消极情感评论占比65.6%,消极、积极情感比率为3.12:1。情感评论数量的差别可以说明以下两个方面:观众的情感反应强烈程度和影片的争议性和话题性。首先,消极情感评论数量远高于积极情感评论,表明观众对影片的负面反应更为强烈。这意味着影片在某些方面未能满足观众的期望,或者其内容引发了观众的强烈不满。其次,大量的消极评论表明影片引发了广泛的讨论和争议,观众对《抓娃娃》中的某些主题、情节或角色表现出强烈的情感反应。结合上述的词云图,可知争议点在于教育理念、亲子相处和贫富形象塑造方面。
5. 结论
通过对电影《抓娃娃》的影评数据进行情感分析,我们揭示了观众对该电影的情感倾向及其背后的原因。研究发现,观众对电影的情感评价呈现出多样性,既有积极评价也有消极评价,但整体上积极评价占据一定比例。然而,消极情感评论的数量远高于积极情感评论,这表明观众对影片的某些方面存在较为强烈的不满和争议。结合影评词云图和评分分布饼图的分析,我们发现这些争议点主要集中在教育理念、亲子相处以及贫富形象塑造等方面。
通过分析电影《抓娃娃》的观众反馈,可以看出当代中国电影批评话语的价值转向,即观众对作品的评判标准已超越传统审美维度,转向对社会议题的价值共鸣与伦理审视。这一发现为理解中国电影观众审美趣味的变迁提供了新视角:影视作品的接受过程正成为社会观念交锋的现场,观众通过评价行为参与对家庭伦理、教育公平等议题的公共协商。影片引发的争议恰是转型期中国社会价值观念重构的微观映照,展现了文化消费与社会意识塑造之间的双向互动。在理论层面,这一研究突破了传统文本中心主义的局限,通过情感分析技术构建起连接银幕叙事与社会语境的观察路径,为探讨影视作品在社会观念演变中的中介作用提供了方法论启示。
本研究采用Python编程语言,结合自然语言处理技术和机器学习算法,构建了一个有效的情感分析模型。该模型能够准确地对影评进行积极、消极和中性情感的分类,为情感分析的深入研究提供了可靠的技术支持。本研究在方法路径上与文献综述中提到的研究一脉相承,但在分析深度上有所推进。既有研究多聚焦于单一平台的数据采集与可视化分析,或致力于构建更复杂的深度学习模型。本研究则整合了这两类研究方向,不仅完成了从数据采集到情感建模的全流程分析,还通过词云图与评分分布的多维度交叉验证,揭示了《抓娃娃》影评中独特的“积极评价占比与消极评论数量并存”的矛盾情感结构。这一发现超越了单纯的情感分布统计,将观众争议具体定位至教育理念、亲子关系等社会性议题层面,为理解当代电影引发的社会讨论提供了新的分析视角。
尽管本研究取得了一定的发现,但仍存在若干局限性。首先,本研究的样本数据仅来源于豆瓣平台,无法涵盖来自其他渠道的观众意见,因此研究结论可能无法完全代表全体观众的多样性与复杂性。其次,所采用的情感分析算法虽经有效构建与验证,但仍可能受训练数据分布及模型本身局限性的影响,例如对反讽、隐喻等复杂语言现象的识别能力有限,从而可能引入一定的分类偏差。未来研究可纳入多源数据,并尝试融合更先进的自然语言处理模型,以提升模型的鲁棒性与结论的普适性。