1. 引言
在信息时代下,越来越多的人在网络上抒发对一些人物和事物的情绪,表达不同的观点。特别是随着网络技术的不断发展,出现博客、微博、论坛等众多的网络平台为网络用户提供了更宽阔的平台来交流信息、表达意见。往往这些在线评论的文本信息不仅蕴含着用户的情感态度,也蕴含着巨大的商业价值,其反应了社会集体的情感状态,与此同时情感在人类决策时扮演着重要地位 [1] 。因此,在线评论不仅成为商家识别用户对产品需求、喜好的重要信息来源和提高市场竞争力的有效信息,而且也为其他用户提供了有效了解产品的手段和反应产品好坏的“晴雨表”。
而在影视产业上,影视评价是电影艺术与观众的桥梁,是实现电影价值的有效手段 [2] 。豆瓣网作为中国最大,最具有权威的评论网站之一,他对电影的评价对一部电影的好坏以及人们对这部电影的选择与认知起着非常重要的最用。豆瓣评分直接反应了豆瓣网对电影的评价信息,但豆瓣评分往往只关注了用户对电影的评分评价情况,而忽略的用户的评论信息,使得最终的人们看到的评分无法反应这部电影的真实情况。
本文将用户评论信息与评分评价信息相结合,使用文本情感分析的方法,以两部电影的豆瓣网用评论为语料源,通过用户与评论特征构建的二分网络,分析用户参与电影的评论中评论倾向,将评论用户与评论特征进行点线连接的方式构建网络联系,进一步提炼用户评论的评论特诊信息以及用户偏好;结合情感分析得到的单句情感得分,得到用户的特征情感得分;利用进一步结合评分评价得分建立新的评分模型,将得到更新的评分与原豆瓣评分作比较,提升了用户影评挖掘的层次和效果以及电影评分的有效性和可信性。
2. 文献综述
情感分析(sentiment analysis),又称倾向性分析、评论挖掘(review mining)、情感挖掘或主观分析,是用户对商品、服务等评论内容的分析、处理、归纳和推理,对评论中表达的观点和情感进行分类,主要包括情感表达的主体、客体和内容 [3] 。情感分析的研究主要集中情感分析方法以其应用两大方面。
情感分析主要针对文本信息,目前的研究主要集中在针对不同领域的用户评论进行分类、有效性、预测等,预测等方面。在旅游业领域,郭宇、王晰巍等人使用情感分析的方法,通过同程旅游网中的评论信息,构建了情感分析的用户影响力模型并绘制了评论信息的情感雷达图、用户影响力的幂律图和情感词的标签云图 [4] ;在网络社交领域,王伟军、黄英辉等人通过爬取微博评论信息,利用《同义词词林》及word2vec等工具构建新的情感字典,进一步通过分析公众情感对新产品市场进行了预测研究 [5] ;在新闻领域,潘云仙等 [6] 使用JST模型对新闻文本进行分析,避免了与情感无关的语句对分析的影响。近些年,情感分析也逐渐应用在电影行业,黄昭婷等通过对电影的评论进行文本情感分析和建模,分析出每一部电影的情感特征,并使用这一情感特征来进行影片聚类分析 [7] ;周敬一、郭燕等使用双向长短期记模型提高影评情感分类的准确率 [8] 。
目前对在线评论主要集中在数据挖掘,可视化,文本分类等方面,相关学者已经取得了较多研究成果。早在上个世纪,就已经有学者对产品评论进行对消费者影响的研究 [9] 。随着互联网的发展,人们更倾向于在网络平台上发表对产品评价,在线评论已经成为大众评论的主要形式。周纯洁等 [10] 通过机器学习的方式,分析了网络在线评论文本中网民的立场和观点信息;卢伟聪等 [1] 对手机市场的评论进行分析,并结合二分网络分析探究了产品特征与用户评论之间的联系与用户的情感倾向。
但不是所有的用户评论都是有效的,只有含有有效信息并得到浏览用户认可的评论才具有实际价值。G. Ipeirotis和A. Ghose [11] 通过研究评论中的主观和客观成分,分析其对用户评论有效性的影响;国内学者郝媛媛等 [12] 基于用户评论数建立了评论有效性模型,并进一步对评论有用性进行了预测;刘志明 [13] 基于说服双过程模型通过IMDB和豆瓣网的影评数据分析了在跨文化视角下的评论有效性。上述研究通过研究评论本身及其相关因素,探究了用户评论的实际价值,但是并没有讨论打分评价与评论之间的关系。马松岳、许鑫 [14] ,使用ROSTEA工具进行情感分析得到评论评价的综合情绪值,将其与打分评价进行相关分析;M. E. Basiri等 [15] 基于心理发现和消极偏见的理论,利用评论历史改善情感分析,在细粒度的评论内容层面上通过评论等级评分来预测整体等级。这些研究表明打分评价与评论之间有着紧密的联系,所以本文尝试使用情感分析的方法,建立新的打分评价模型,与原有的打分评价进行对比,分析二者的差异性与相似性。
3. 模型概述
评价一部电影有多种角度,对于不同题材的电影评论者注重的角度也是不一样的。本文的研究对象选取了“题材相同风格不同的电影”,以便进行对比、分析。为了研究不同电影的评论情感倾向以及得到新评分与原始评分之间的异同点,本文提出结合基于情感分析的电影得分模型,如图所示。该模型共分为5个模块,包括数据获取与预处理模块、数据库构建模块、情感分析模块、二分网络模块以及打分与对比模块,如图1。
3.1. 数据获取及预处理与数据构建模块
首先是数据获取与预处理模块用于爬取网络相关影评文本,包括有每条评论有关的信息,并对爬取的信息进行人工识别和筛选无效信息。数据库构建模块采用中国科学院计算机技术研究所汉语词法系统进行词性标注,该系统的分词精度达到98.45%。通过分词得到分词数据,过滤出动词、名词和动词,筛选出高频词汇以及有关专业词汇,最后通过人工核查得到不同特征的特征词表。进而结合原始数据,对影评进行特征分类,建立影评特征–用户评论–用户–星级数据库。
3.2. 情感分析与二分网络模块
通过情感分析模块调用短评文本对语句进行情感分析,并给出单句的情感得分。本文使用BosonNLP情感字典作为词汇本体,对其进行词表扩充。同时使用否定词词典、程度副词词典和停用词词典作为情感分析的基础计算单句情感得分的计算,如公式(1)

Figure 1. Movie scoring evaluation model based on emotional analysis
图1. 基于情感分析的电影评分评价模型
(1)
其中,
代表第i个情感词,
代表第i个情感词的权重,
代表否定词的额个数,
代表i个情感词的第j个程度副词。可以看出,由于程度副词v取值均为正,所以情感得分的正负一方面取决于情感词,如果是积极情感词,那么
,如果为消极情感词,那么
,而当中性词的
接近于0;另一方面则取决于否定词的个数。由于每条评论的字数与内容没有进行限制,所以该计算方法的取值范围为正无穷到负无穷,即如果评论的正面评价越多则得分越高,负面评价越多则得分越低。所以为使得分便于下文的讨论,将得分进行归一化处理,并保证所有得分在0~5分之间,如公式(2)
(2)
其中
代表所有得分中的最小值,
代表所以得分的最大值。并将所有得分划分为0~1.5分、1.5~3.5分和3.5~5分三个区间,分别表示消极情感评论,中性情感评论以及积极情感评论。
进一步在二分网络模块中,本文结合复杂网络分析,构建用户评论与评论特征的二分网络,并通过网络可视化处理,分析二者之间的联系以及评论用户的情感倾向。由于不同评论者的评论内容不同,所以每条评论信息对评论特征也不相同,通过构架用户评论与评论特征的单顶点二分网络,分析评论特征对电影评分评价的影响,进而对不同的评论设置不同的权重
,综合单句情感得分,得到电影的情感评价评分,如公式(3)
(3)
其中,
代表第i个单句情感得分的第j个影评特征的权重。
由于电影情感评价评分只考虑的了评论者的短评文本信息,而忽略了其评分信息,所以进一步通过评论者的评分信息计算电影得分,即用户评价评分,计算公式(4)如下
(4)
其中,
代表的用户对电影的评分,分为1~5分五个整数分数;
代表了分数i占所有打分人数的百分比。
3.3. 得分与对比模块
最后在得分与比较模块中,该模块主要基于上述的情感分析与网络分析,通过得分的形式将分析结果具体表现出来,对实际研究对象进行阐述。不论是电影情感总得分,还是电影星级评分均使用五分制,本文并假定两者在得分占有同样的地位,将两个得分直接相加得到最终电影评分,并将最终得分与豆瓣网原始评分进行比较,分析原始豆瓣得分与本文建立的评分模型之间的联系与差异,得到情感角度下的多维度影评信息。
4. 实例分析
4.1. 数据来源
本文使用八爪鱼爬虫软件,爬取了同为战争题材的《战狼2》与《红海行动》两部电影的豆瓣网用户影评信息。由于豆瓣网内部对拥有自动识别“垃圾”评论和电脑自动留言的清理功能,所以只需要通过人工识别,删除重复评论以及不含有影评特征的信息。最终得到豆瓣网的《战狼2》影评信息1346条,《红海行动》的影评信息1120条。
通过对用户评论文本进行分词分句,提取出使用中国科学院计算机技术研究所汉语词法系统对每条影评进行分句,并统计词频储存,筛选出有影评方面的特征以及特征词,形成影评特征词表。共筛选出5个影评特征,分别为电影主题、演员演技、人物、剧情以及其他方面。由于《战狼2》与《红海行动》两部电影数据同种题材电影,所以将二者可以使用同一影评特征词关联表。其中电影主题特征提取11个特征词,演员演技提取12个特征词,人物提取12个特征词、剧情提取14个特征词,其他方面共提取20个特征词,如表1,通过表中的特征词,标记每条评论所包含的影评特征。

Table 1. Characteristic words of film review
表1. 影评特征词表
4.2. 情感分析
基于python3.5对《战狼2》与《红海行动》的影评文本进行情感分析,结合式(1)和(2)计算得到两部电影的单句情感得分,同时将所有的影评按照0~1.5分、1.5~3.5分和3.5~5分分为消极情感评论,中性情感评论以及积极情感评论,并根据不同的影评特征分别计算不同特征下的评论情感的比例,如图2和图3。

Figure 2. Wolf Warriors 2 emotional tendency map
图2. 《战狼2》情感倾向图

Figure 3. OPERATION RED SEA emotional tendency map
图3. 《红海行动》情感倾向图
两部电影相比,不论从哪个特征方面,对两部电影的中等情感都占了到了所有影评的一半以上,说明大部分评论者对两部电影的评价都是较为客观,多角度的。《战狼2》的影评情感相对集中,大部分影评集中再中等情感上,积极与消极情感相对较少;而《红海行动》的影评情感比较分散,积极与消极情感在所有影评中占据了较高的成分。从积极情感和消极情感来看,《战狼2》影评中的消极情感明显多于积极情感,尤其是人物和剧情两个特征,影评中的消极情感均比积极情感高15%以上,而且消极情感在所有影评中也占到四分之一以上;而《红海行动》影评中的积极情感明显高于消极情感,尤其是演员演技和人物两个特征,同时他们的积极情感在所有影评中占到了37.4%和36.3%,可以看出《红海行动》的评价要好于《战狼2》的评价,这也与外界媒体的评论相符。
4.3. 构建二分网络
由上述过程建立的特征词表,将用户影评与影评特征进行对应,形成用户影评—影评特征的出初始二分网络数据集。将该数据集导入Gephi复杂网络分析软件,绘制基于用户影评和影评特征的二分网络。网络布局选用ForceAtlas;对节点及边的颜色按照“度”进行颜色渐变的排序,并对节点大小按照数据频率进行排序,得到基于《战狼2》与《红海行动》两部电影的豆瓣网用户影评信息的二分网络图,如图4,其中周边标注的点,代表用户评论。

Figure 4. Wolf Warriors 2 (left) and OPERATION RED SEA (right) bipartite network diagram
图4. 《战狼2》(左)与《红海行动》(右)二分网络图
该二分网络描述了用户影评与影评特征之间的评论者与电影之间的关系。节点的大小与颜色深浅反映了影评特征的被评论的次数;节点的位置反应了其在网络的中的重要性,越靠近中心位置,其重要性越强;用户影评与影评特征之间的连线代表用户的影评中出现的影评特征;影评特征之间的连线反应二者被共同提及的次数,共线越多被共同提及的次数越多。
两部电影的二分网络图的网络节点有着明显的共同点。主题节点与剧情节点都是两部电影最大的节点。剧情对于一部电影是重中之重,自然是评论者最关注的方面;而两部电影作为战争题材的同时,也是两部经典的爱国主义电影,所以主题方面也受到了影评论者的关注。同时两部电影的二分网络图也有着很大差异。除了主题节点与剧情节点,《红海行动》最大的节点为人物节点与其他节点;而《战狼2》最大节点为演技节点。说明两部电影虽然题材相同,但评论者对电影的评论方面有着不同的落脚点。
4.4. 计算电影特征权重
二分网络主要反应了用户影评与影评特征之间的联系,但不能反应这些影评的情感倾向。所以需要进一步对每条影评进行情感分析,通过网络分析与情感分析结合的方式,找到用户影评特征与情感倾向的直接联系,有助于挖掘电影的评价情感倾向,从而得到电影的客观全面的情感得分。通过二分网网络图,可以直观看出不同电影之间特征重要程度的大小与差异,由于节点的大小有评论数量的多少直接决定,通过数据集可以得到,《战狼2》中不同影评特征涉及主题特征的评论有506条,演员演技特征的评论有408条,人物特征的评论有161条,剧情特征的评论有352条,其他特征的评论有261条;而《红海行动》中不同影评特征涉及主题特征的评论有446条,演员演技特征的评论有176条,人物特征的评论有198条,剧情特征的评论有360条,其他特征的评论有211条,根据评论人数的比例得到电影评分的特征权重,如表2。

Table 2. Film characterization right
表2. 电影评分特征权重表
表2显示对于不同影评特征之间有着较大的差异,即评论用户对不同影评特征的关注度有着较大差异,所以不同影评特征对于电影评分重要程度也不同。
4.5. 计算综合电影评分与比较
上文已经计算得到的用户单句情感得分以及电影评分特征权重,结合公式(3)计算得到《战狼2》与《红海行动》两部电影的情感评价评分为2.83和3.12;进一步结合公式(4),通过用户评分评价数据计算得到两部电影的用户评价评分为3.38和3.93;最终,计算得到两部电影的综合电影评分分别为6.21和7.05。并整理得到本文得到的电影综合评价评分与原豆瓣评分的对比表,如表3。

Table 3. Film score comparison table
表3. 电影评分对比表
在得分与对比模块中,由于豆瓣评分的计算方式与用户评价评分的计算方式相同,即式(4),但为了将最终评分转为十分制,所以豆瓣网显示的评分为通过式(4)计算的两倍,为方便比较,这里计算了1/2的豆瓣评分。通过上表可以看出,由于豆瓣评分与用户评价评分的计算方式相同,两者只有样本量的差距,所以不论是《战狼2》还是《红海行动》豆瓣评分与用户评价评分都相差较小。
所以本文得到的电影综合评价评分与原豆瓣评分的主要差异来源于通过情感分析计算的情感评价评分。通过比较,《战狼2》的情感评价评分要高于用户评价评分;而《红海行动》的情感评价评分均低于用户评价评分,这也导致了他的综合评分要低于豆瓣评分;而《战狼2》的综合评分则略高于豆瓣评分。说明在考虑评论信息后,豆瓣网对《战狼2》的评价低估;而对《红海行动》的评价高估。但总体来看,《战狼2》的电影评价还是要低于《红海行动》。两部电影作为中国战争题材的代表作,他们从不同角度展示了中国电影的魅力,虽然大部分舆论都对《红海行动》给予了高度评价,而在一定程度上上批评了《战狼2》,就如豆瓣评分所展示的一样,但通过加入评论用户的影评信息后可以看出,两部电影的口碑差距比外界展示给大众的要小;《南方日报》 [16] 在对两部电影的评价中,都赞扬了他们从不同角度展现了中国军人的风采,表明两部电影都应该是优秀的影视作品。
5. 结语
本文以情感分析为基础结合网络分析,提出了新的电影评价模型。通过构建用户影评与影评特征的二分网络,同时将其可视化,分析了二者之间的结构关系,分别计算了情感评价评分,用户评价评分,最终得到了电影综合评价评分。实验表明,评论用户的文本信息对电影的评价有着重要影响,通过该模型能辅助只包含的单一打分规则的影评网站更加全面对电影进行评分评价,并且有利于形成有效精准有效的推荐;另外,可以帮助用户更全面的了解电影的评价以及电影用户影评的情感倾向和其中的内容特征,帮助浏览用户浏览其感兴趣的内同,而不必没有目的浏览大量的文本信息。
本文的不足之处在于分析的电影量较少,没有足够的普遍性。未来可以建立更多类型的电影特征词表与对应的二分网络进行影评文本的情感分析,来进一步验证该模型的有效性。
致谢
感谢2018年上海市大学生创新创业训练计划项目(项目编号201810273118,项目名称“基于网络二分算法的影评类情感分析研究”)的资助。
参考文献