1. 引言
1.1. 研究背景
在新媒体时代,弹幕互动作为一种独特的互动形式,已在全球范围内尤其是年轻群体中流行开来。弹幕起源于日本,其发展不仅反映了技术的进步,也映射了观众参与度和互动性的增强。在学术研究领域和实际应用场景,情感分析技术的应用已成为理解社交媒体文本的关键工具,它通过解析用户生成内容中的情绪倾向,为品牌和内容创作者提供了宝贵的用户反馈。
情感分析的重要性在于其能够揭示用户对特定话题或产品的态度和情感反应,这对于社交媒体文本分析尤为重要。通过深度学习和自然语言处理技术,情感分析能够从大量的社交媒体数据中提取出有价值的信息,帮助研究者和实践者更好地理解公众情绪和市场趋势。此外,情感分析在心理健康、公共安全和政策制定等领域也展现出其独特的应用价值。
1.2. 研究意义
情感分析在游戏行业的应用展现了其在用户偏好理解、用户体验优化和市场趋势预测方面的重要价值。本研究通过对《王者荣耀》职业比赛直播弹幕的分析,探讨了在实时交互环境下,大规模用户如何通过碎片化、口语化的语言符号进行情感表达与意义构建。直播弹幕的情感倾向是衡量比赛精彩程度、解说质量及观众满意度的重要指标。通过情感分析技术,赛事运营方与直播平台能够实时监测观众对特定赛事节点、选手表现或实时互动的反馈。这种基于真实语料的洞察力,有助于平台优化弹幕过滤算法、改进解说引导策略,并针对性地策划更具共鸣的互动环节,从而提升受众的观赛沉浸感与社群归属感。
1.3. 研究目标
本研究聚焦于王者荣耀职业比赛直播中的弹幕文本,旨在通过自然语言处理技术揭示观众在观赛过程中的情感倾向与讨论焦点。通过对弹幕文本的分析,识别观众对比赛进程、战队表现、关键事件以及整体观赛体验的情感态度。研究成果为赛事主办方、直播平台优化直播内容、提升观众参与度和满意度提供了数据支持和决策参考。
2. 相关文献综述
2.1. 情感分析理论基础与应用价值
情感分析,作为自然语言处理(NLP)的核心子领域,旨在通过计算手段识别、提取和量化文本中的主观情感信息[1]。随着社交媒体和在线平台的爆炸式增长,情感分析已成为洞察公众舆论、理解用户反馈、指导商业决策和政治分析的关键工具。在商业领域,通过分析客户评论和社交媒体讨论,企业可以精准把握用户对产品或服务的情感倾向,从而优化体验、提升品牌声誉;在政治和社会研究中,情感分析有助于追踪公众对政策的态度和情绪波动[2]。情感分析的任务通常遵循一个标准流程框架,包括数据收集与标准化、数据预处理、特征提取、情感分类/预测以及整体情感总结等模块。这一框架为各类情感分析研究提供了方法论基础。然而,情感分析面临的挑战众多,包括文本的语境依赖性、讽刺性表达的识别,以及跨领域、跨语言的情感泛化问题[3]。这些挑战在处理像弹幕这类非正式、短小且富含网络俚语的文本时尤为突出。
2.2. 情感分析及其技术演进
文本情感分析(Sentiment Analysis)专注于挖掘文本中蕴含的情感倾向、观点和情绪,旨在对主观文本的情感倾向进行量化。著作《Sentiment Analysis: Mining Opinions, Sentiments, and Emotions》为我们提供了这一领域的全面视角,从理论基础到实际应用的各个方面均有涉及[4]。情感分析的核心目标在于识别和提取文本中的情感倾向,这对于理解消费者对产品或服务的真实感受至关重要,情感分析能够揭示消费者的心声,对企业决策具有重要价值[5]。情感分析面临的挑战之一是处理语境依赖性,即同一词汇在不同上下文中可能具有不同的情感色彩。Kim和Hovy提出了一种基于情感词典的方法,通过计算情感词与目标实体的关联强度来确定情感倾向[6]。机器学习和数据挖掘技术也被广泛应用于情感分析中,以提高情感分类的准确性[7]。
随着全球化的发展,跨语言的情感分析变得越来越重要。Wan研究了如何利用英语的情感资源来分析中文文本的情感,通过机器翻译和情感词典的方法,实现了跨语言的情感分析[8]。跨领域的情感分析则是另一个挑战,因为它需要模型能够适应不同领域中情感表达的差异。
情感分析的未来发展中,提高算法的适应性和泛化能力,以及更好地理解和处理复杂的情感表达,如讽刺和比较,是重要的研究方向。此外,情感分析的质量评估也是一个重要的研究领域,它涉及到如何评估情感分析结果的准确性和可靠性[9]。
该领域的技术路径主要经历了三个阶段。
基于情感词典与规则的方法阶段。这种方法依赖预先构建的情感词典,词典为词汇标注情感极性(如积极、消极、中性)及强度,通过文本词汇与词典匹配,累加情感得分来判断文本情感倾向。优点是无需训练数据,可解释性强,适用于无标注文本,但缺点在于依赖词典覆盖的范围和质量,难以处理新词、领域术语、反讽等复杂语言现象。
基于传统机器学习的方法阶段。随着统计学应用的发展,支持向量机(SVM)、逻辑回归等算法成为主流。这类方法通过TF-IDF或词袋模型提取特征,在处理中等规模数据集时具有良好的鲁棒性。尽管深度学习兴起,但传统机器学习在特定垂直领域的实证研究中,依然凭借其较低的计算复杂度与稳定的分类精度,具有显著的实用价值[10]。
基于深度学习的方法阶段。深度学习是人工神经网络在使用多层网络进行任务学习中的应用,随着深度学习在图像和语音处理方面取得重大进展,它在情感分析领域也开始被广泛应用,目前深度学习模型包括卷积神经网络(Convolutional Neural Networks, CNN)、循环神经网络(Recurrent Neural Networks, RNN)、LSTM、BiLSTM (Bidirectional Long Short-Term Memory)、门控循环单元(Gated Recurrent Unit, GRU)和注意力机制等。
2.3. 面向游戏直播弹幕的情感分析
将情感分析应用于游戏直播弹幕这一特定场景,面临着独特的挑战与发展机遇。首先,弹幕文本具有实时性、强交互性、长度极短的特点,导致其语境信息不完整、特征稀疏,这对传统基于词典和机器学习的方法构成了挑战。其次,弹幕充斥着高度领域特定的术语和网络流行语,通用情感词典和在大规模通用语料上训练的模型难以直接适用,必须引入领域知识[11]。
然而,这一领域也展现出巨大潜力。观众的情感会随着比赛进程(如团战胜负、推掉水晶)而剧烈波动,这为研究动态、实时的群体情感变化提供了绝佳样本。同时,弹幕中蕴含的强烈集体认同感和团队荣誉感(如高频词“我们”、“冠军”),是研究虚拟社群文化与情感认同的宝贵资源。
综上所述,虽然情感分析技术已相当成熟,但在王者荣耀职业比赛直播弹幕这一具体场景下,仍需解决短文本、领域用语和实时分析等一系列特殊问题。现有研究对此的系统性探索尚不充分。因此,本研究旨在通过构建一个结合领域自定义词典的NLP分析流程(采用TF-IDF特征提取与SVM分类器),实证检验经典机器学习方法在该场景下的有效性,以填补这一空白,并为理解直播观众的情感动态提供实证依据。
3. 研究方法
3.1. 数据收集
本研究从Bilibili视频网站收集了《王者荣耀》游戏比赛直播视频的弹幕数据。数据通过编写Python脚本,利用Bilibili提供的API接口获取,并保存至本地txt文件中,一共收集了20704条弹幕。后续因个人更加偏向使用Excel文件查阅数据,故手动将数据复制到了Excel文件(wzry.xlsx)中存放。
在数据预处理之后,使用SnowNLP库对每条弹幕进行情感分析,并自动打上情感标签,将情感标签标注结果保存到新的Excel文件“wzry_with_sentiment.xlsx”中,为后续的情感分析模型训练和评估提供了标注好的数据集。
3.2. 数据预处理
数据预处理包括去除NaN值、使用正则表达式清洗文本(去除标点符号和数字),以及使用jieba进行中文分词。此外,还加载了自定义词典(王者荣耀不常见英雄名和KPL选手名)以提高分词准确性,并去除了停用词(哈工大停用词表)以减少噪音数据。
3.3. 特征提取与模型选择
特征提取采用TF-IDF方法将文本数据转换为数值特征。考虑到模型的效率和效果,选择了支持向量机(SVM)作为分类模型。
3.4. 实验设计
实验中,数据被划分为训练集、验证集和测试集,比例为70%、15%、15%。使用交叉验证和网格搜索对模型参数进行了调优,并使用逻辑回归作为基线模型进行比较。
4. 结果与分析
4.1. 实验结果
在实验中,使用支持向量机(SVM)模型对王者荣耀弹幕数据集进行了情感分类。以下是模型的性能评估结果(见表1)。
Table 1. Results of the model performance evaluation
表1. 模型性能评估结果
指标 |
训练集 |
验证集 |
测试集 |
描述 |
AUC |
0.9495 |
0.8797 |
0.8783 |
接收者操作特征曲线下面积,衡量分类模型性能 |
KS |
0.8305 |
0.6949 |
0.7016 |
Kolmogorov-Smirnov Statistic,衡量正负样本区分能力 |
实验首先对模型进行了训练,其中使用了TF-IDF向量化技术处理过的文本数据。训练过程中,观察到jieba分词库成功构建了前缀字典,并从缓存中加载了模型,加载过程耗时约0.596秒。
模型在训练集上的AUC (Area Under the Curve)值为0.9495,验证集上的AUC值为0.8797,测试集上的AUC值为0.8783。AUC值是评估分类模型性能的重要指标,值越接近1表示模型的分类能力越强。我们的模型在训练集、验证集和测试集上均展现出了较高的AUC值,说明模型具有良好的区分不同情感类别的能力。
此外,实验还计算了KS值(Kolmogorov-Smirnov Statistic),它衡量的是模型对正负样本的区分能力。训练集上的KS值为0.8305,验证集上的KS值为0.6949,测试集上的KS值为0.7016。这些值表明模型在不同数据集上均具有较强的区分能力,尤其是在训练集上表现最佳。
为了验证模型的实际应用能力,我用新的弹幕进行了情感预测测试。测试弹幕内容为:“这款游戏非常好玩,画面精美,操作流畅。”模型成功地将这条弹幕分类为积极情感(positive)。这表明模型不仅在统计指标上表现良好,而且在实际应用中也能准确地识别和分类情感。
4.2. 情感倾向分析
通过对弹幕数据集进行情感分析,我们得到了以下情感倾向的分布情况(见表2)。
Table 2. Distribution of sentiment orientation
表2. 情感倾向分布表
情感类别 |
数量 |
占比(%) |
积极 |
13,351 |
64.49 |
消极 |
3756 |
18.14 |
中性 |
3596 |
17.37 |
从表2中可以看出,积极情感的弹幕数量最多,占比达到64.49%,表明观众对《王者荣耀》直播内容的整体感受是积极的。中性情感的弹幕数量为3596条,占比17.37%,而消极情感的弹幕数量为3756条,占比18.14%。
4.3. 情感倾向与内容关联
通过对王者荣耀直播弹幕数据的高频词汇分析,揭示了观众的情感倾向和讨论焦点。通过对弹幕文本的分词和词频统计,结合停用词过滤,我们得到了以下高频词汇表(见表3)。该表展示了弹幕中出现频率最高的词汇,为进一步的情感分析提供了数据支持。
Table 3. High-frequency word list of bullet comments
表3. 弹幕高频词表
排名 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
频次 |
3713 |
3701 |
2197 |
2172 |
2172 |
745 |
441 |
413 |
384 |
373 |
词汇 |
我们 |
冠军 |
荣耀 |
心怀 |
勇往直前 |
上岸 |
哈哈哈 |
就是 |
这个 |
心率 |
词汇“我们”和“冠军”的高频出现表明观众在直播中展现出强烈的集体认同感和对胜利的渴望。这种现象反映了观众对比赛结果的情感投入,以及对团队荣誉的重视。
词汇如“荣耀”、“心怀”、“勇往直前”和“上岸”等,可能与游戏的核心价值观和激励性口号相关,显示了观众对游戏精神的共鸣和情感上的认同。
“哈哈哈”作为高频词汇的出现,揭示了直播中幽默和轻松氛围的存在。这表明观众在享受竞技刺激的同时,也对轻松幽默的弹幕内容做出积极响应。
词汇“就是”、“不是”、“真的”等的高频出现,可能与观众对比赛事件的直接反应和讨论有关。这些词汇的频繁使用显示了观众对比赛的积极参与和情感投入。
“模式”、“心率”、“ag”等词汇的高频出现,表明观众对游戏的专业术语和特定关注点有着较高的关注度。这些词汇可能与游戏策略、玩家表现和比赛结果紧密相关。
为了更直观地展示这些高频词汇,笔者生成了一个词云图(见图1所示)。词云图中词汇的大小与其
Figure 1. Word cloud of bullet comment
图1. 弹幕主题词云图
频率成正比,这使得我们能够一眼看出哪些词汇是观众讨论的焦点。通过词云图,我们可以观察到观众情感的集体表达,以及他们对比赛的不同方面的兴趣和反应。
通过对弹幕高频词的分析,研究发现观众的情感倾向主要以积极为主,他们对比赛的热情、对胜利的期待以及对游戏内容的兴趣都在弹幕中得到了体现。这些高频词汇不仅为我们提供了观众情感的直接证据,也为进一步的文本分析和情感分析提供了丰富的上下文信息。
5. 结论与不足
5.1. 研究结论
本研究通过自然语言处理技术对《王者荣耀》游戏比赛直播视频的弹幕进行了情感分析。研究发现,使用的支持向量机(SVM)模型在测试集上取得了较高的AUC值(0.8783)和KS值(0.7016),显示出模型具有较好的分类性能和区分能力。情感倾向分析结果显示,积极情感的弹幕占比最高(64.49%),表明观众普遍对直播内容持正面态度。通过高频词表和词云图的分析,我们进一步揭示了观众的情感倾向与讨论焦点,如对比赛结果的关注、对游戏精神的共鸣以及对轻松幽默时刻的反应。
5.2. 研究不足
尽管本研究取得了一定的成果,但也存在一些局限性。首先,数据集可能存在偏差,由于弹幕数据的随机性和观众群体的特定性,可能无法完全代表所有观众的情感反应。其次,本研究的模型训练依赖于SnowNLP的自动标注结果,虽效率较高,但未进行大规模人工校验,可能对模型性能的评估产生一定影响。此外,模型的泛化能力尚未在更广泛的数据集上进行测试,这可能限制了模型在不同情境下的适用性。
5.3. 未来工作
未来的研究可以从以下几个方面进行拓展和深化:一是结合视频内容和弹幕文本,进行多模态情感分析,以获得更全面的情感理解。二是考虑比赛的具体情境,如比赛阶段、比分等,将这些上下文信息融入情感分析模型,提高分析的准确性。三是在更多样化的数据集上测试模型的泛化能力,包括不同游戏、不同赛事的弹幕数据。