1. 引言
在信息化和全球化的背景下,社交媒体已成为公众表达意见、传播信息和参与社会讨论的重要平台。2025年1月17日,中国互联网络信息中心(CNNIC)发布第五十五次《中国互联网络发展状况统计报告》显示,我国网民规模从1997年的62万人增长至2024年的11.08亿人,互联网普及率升至78.6% [1]。作为中国最具影响力的社交媒体之一,微博凭借其即时性、互动性和广泛传播性,成为网络舆情生成和发酵的主要场所。截至2024年9月,微博的月活跃用户数为5.87亿,日活跃用户数为2.57亿,日均发布内容超2亿条,覆盖政治、经济、民生等多个领域,其开放性和即时性使得热点事件在短时间内迅速发酵,形成复杂的网络舆情生态。
近年来,食品安全问题频发,尤其是食品添加剂的使用及其对健康的影响,引发了社会各界的广泛关注。食品添加剂是现代食品工业中不可或缺的一部分,它们能够延长食品的保质期、改善食品的口感和外观[2]。脱氢乙酸钠作为一种高效广谱防腐剂,长期应用于烘焙食品、腌渍蔬菜等加工产品[3]。随着消费者对食品安全健康的重视程度与日俱增,食品添加剂的安全性成为民众关注的焦点。2024年3月,国家卫健委发布新版《食品安全国家标准 食品添加剂使用标准》(GB2760-2024),明确自2025年2月8日起禁止在面包、糕点等食品中使用脱氢乙酸钠,并将腌渍蔬菜中的最大添加量从1克/千克降至0.3克/千克[4]。这一政策调整迅速引发社交媒体热议,微博话题如“毒面包”“脱氢乙酸钠禁用”阅读量累计超10亿次,成为典型的舆情事件。
网络舆情对社会稳定和经济发展具有不可忽视的影响,对网络舆情进行监测成为重要的研究内容。
2. 文献综述
网络舆情监测包括对网络文本进行计算机表示、特征提取、内容总结、分类、语义分析及趋势预测等[5]。
国外的舆情分析技术主要集中在话题监测与追踪(topic detection and tracking, TDT),TDT是一项综合的技术,可以对网络信息流中的具体事件进行识别和持续跟踪[6]。Cantini等利用TDT技术在美国总统选举、冠状病毒病疫情有关的真实世界案例研究中进行评估,验证了该方法的有效性[7]。Tran等提出了一种使用Pearson积矩相关系数来解决关键词之间关系的方法,该方法在舆情预测准确性等方面表现出色[8]。Mamo等结合了来自Twitter的事件前流和维基百科的信息,在TDT系统识别事件开始前检测事件的参与者,提高了机器对事件的理解[9]。Kuttschreuter等人对获取与食品安全监管相关的公共信息的方法进行了分析,他们的研究表明,包括社交媒体账户在内的新媒体可以补充信息渠道,但不能取代传统互联网平台内的官方媒体来源[10]。
国内学者们的研究主要聚焦于指定领域舆情分析。Su等人设计了一个专门针对产品质量和食品安全的在线舆论监测系统[11],这个创新的系统集成了垂直搜索引擎技术和网络信息挖掘,它有效地收集和处理网络内容,过滤和提取相关信息,并生成全面的舆论简报和分析报告,这些报告是决策者的基础资源,使他们能够理解和影响公众舆论的轨迹。Li等人阐述了食品安全在线舆情监测的三个关键方面:建立健全的监测框架,完善处理食品安全在线舆论的常规程序[12],以及在食品安全突发事件中严格执行响应协议。Li等人构建了一个融合微博和新闻指标的反向传播神经网络模型[13],他们采用层次分析法(AHP-BP)来分配权重,并建立了四个预警级别,综合指标和数据分别作为BP神经网络的输入和输出,该模型在食品安全领域得到了应用。Zheng等人采用BP神经网络算法构建了在线舆情传播的预测模型[14],他们通过分析影响网络舆论传播的因素来实现这一目标。Zhang等构建了网络舆情传播系统的动态模型[15],该模型是基于对重大流行病期间舆论传播的分析而开发的,探讨了舆论事件、网络媒体、媒体互动以及互联网上的舆论传播、政府和流行病之间错综复杂的相互作用。杨维东[16]等设计了基于多水平模型整合教育舆情监测分析系统,帮助相关人员从全局角度分析舆情事件产生原因。傅丽芳[17]等采用改进的元胞自动机模型构建了农产品安全网络舆情演化分析与导控框架,实现了对该事件网民情感倾向变化及舆情发展的合理预测。Li等[18]构建了一个突发公共卫生网络舆情信息系统,实现了对公共卫生舆情通信网络中的关键节点进行识别和分析。李双[19]等构建了基于大数据的职工舆情监测分析系统,以进行职工舆情引导和干预,能够为构建中国和谐劳资关系和劳工环境提供支持。
为了更好地利用微博,产生有益社会价值,消除潜在危害,本文提出融合MA-CapsNet的微博情感模型,该模型是融合了注意力机制和胶囊网络的深度学习模型,有利于分析群体情感倾向,提高舆情分析、引导的准确率。
3. 研究设计
3.1. 研究架构
传统的胶囊网络(capsule network, CapsNet)主要由卷积层、初始胶囊层、数字胶囊层构成[20]。本研究构建“双流–三阶”社交媒体短文本情感分析框架,如图1所示,针对食品安全舆情特性设计多粒度特征融合机制:
Figure 1. Emotion analysis framework
图1. 情感分析框架
该框架核心组件:
(1) 输入表示层:动态词向量生成;
(2) 多粒度注意力层:三重特征提取机制;
(3) 胶囊特征编码层:语义组合建模;
(4) 双任务输出层:情感分类与强度预测。
与CapsNet相比,模型MA-CapsNet具有以下优势:(1) 通过引入池化操作加深网络层数,解决了网络深度语义信息缺乏的问题;(2) 引入最大池化和平均池化减少了参数数量,某种程度上能够缓解过拟合问题;(3) 较少的路由迭代次数能够有效降低计算代价。因此,模型MA-CapsNet具有更好的鲁棒性和泛化性。
MA-CapsNet模型的核心思想在于利用多尺度卷积提取不同粒度的文本局部特征,通过注意力机制动态强化对情感分类贡献度高的特征,并利用胶囊网络建模特征之间的空间层次关系及整体–部分关系,最终实现更鲁棒的情感分类。
3.1.1. 输入表示层优化
针对社交媒体短文本特性,设计混合嵌入表示:
(1)
其中,
为预训练中文BERT向量,
为位置编码向量,
为食品安全领域特征向量。领域特征向量通过领域词典增强:
,
为领域词典匹配函数,覆盖1247个食品安全术语。
3.1.2. 多粒度注意力机制
多粒度注意力机制的作用是模拟人类阅读时关注不同层次信息的能力(如关键词、短语、句子) [21]。为克服传统单粒度模型的局限性,本设计构建三级特征提取结构,分别为字符级、词汇级和句子级。
三级特征提取结构:
字符级:
(2)
词汇级:
(3)
句子级:
(4)
其中字符级捕捉局部形态特征,词汇级建模上下文依赖,句子级理解全局语义。
多头注意力计算(8头):
(5)
(6)
(7)
特征融合门控:
(8)
门控融合机制实现特征自适应加权,该设计能显著提升对食品安全领域特有表达(如“零添加”“非法添加剂”)的识别能力。
3.1.3. 胶囊网络建模
传统神经网络难以有效建模部分–整体关系,本研究引入胶囊网络解决此问题,初级胶囊生成:
(9)
其中C = 128个胶囊,维度p = 8;
动态路由算法:
初始化:
,迭代
:
(10)
(11)
(12)
(13)
胶囊网络的核心优势在于:
(1) 姿态不变性:有效处理微博文本的灵活表达;
(2) 层次化建模:精确识别如“不是不安全”等复杂否定结构;
(3) 几何关系保持:胶囊方向编码语义关联强度。
3.1.4. 情感强度感知输出
为突破传统分类模型的局限,解决本研究中的相关问题,本设计采用了情感强度量化这一有效技术:
情感分类:
(14)
强度预测:
(15)
联合损失函数:
(16)
其中,
为间隔损失函数,
为强度回归损失函数,具体计算公式如下:
(17)
(18)
其中,超参数
,
,
,联合损失函数设计体现多任务协同。
3.2. 针对食品安全舆情的优化设计
3.2.1. 领域自适应机制
鉴于食品安全舆情鲜明的领域特定属性,本文设计并融入了两项领域自适应机制:
主题感知注意力:
(19)
该模块利用当前文本的主题分布向量
,动态计算词汇与主题间的相关性权重,此机制显著增强如“脱氢乙酸钠”等核心术语的特征表达。
否定句处理模块:
(20)
模块定义了一个覆盖“不”“非”等12类常见否定标记的位置掩码
,通过双向GRU网络建模否定词的作用域,该模块能够准确解析类似“并非不安全”的复杂否定逻辑结构。
3.2.2. 模型训练策略
在模型训练过程中,为提升模型整体效果,本文采用渐进式训练、对抗训练以及调整焦点损失函数等方法对模型进行训练:
渐进式训练:
阶段1:固定BERT参数,专注于训练胶囊网络组件;
阶段2:联合微调全模型参数。
对抗训练:
(21)
在训练过程中引入基于梯度的扰动噪声,以提升模型对输入扰动的鲁棒性。
焦点损失调整:
(22)
采用焦点损失函数,针对性缓解训练数据中存在的类别分布不均衡问题。
3.3. 模型评估指标
在模型评估方面,本研究采用内在评估和外在评估相结合的方法,确保模型性能评估的全面性和准确性。性能指标采用准确率、精确率、召回率和F1分数的标准组合,计算公式为:
(23)
(24)
(25)
(26)
情感强度评估指标专门针对情感强度预测任务设计,包括平均绝对误差MAE和均方根误差RMSE:
(27)
(28)
以及皮尔逊相关系数评估预测值与真实值的线性相关性:
(29)
建立多维度的评估标准体系,设定各指标的评判阈值。情感强度MAE < 1.0、RMSE < 1.5为良好,相关系数r > 0.7为良好,具体评估指标见表1。
Table 1. Overview of the evaluation index system
表1. 评估指标体系总览
评估任务 |
具体指标 |
计算方法 |
优秀标准 |
良好标准 |
情感分类 |
准确率 |
正确分类比例 |
>0.85 |
>0.8 |
情感强度 |
MAE |
平均绝对误差 |
<1.0 |
<1.5 |
情感强度 |
相关系数 |
皮尔逊相关 |
>0.7 |
>0.6 |
此外,还引入时间一致性指标评估模型在时间序列数据上的稳定性,计算相邻时间窗口输出结果的相关系数。时间一致性指标通过将数据按时间顺序划分为多个窗口,比较模型在连续时间段内的输出表现,评估模型对时间变化的适应性和预测稳定性。该指标对于舆情分析尤为重要,因为食品安全事件往往具有时间演化特性,模型需要在不同时间段内保持一致的分析能力。
4. 食品安全网络舆情实验设计与结果分析
4.1. 实验环境与数据集构建
4.1.1. 实验环境配置
为确保模型训练与评估任务的高效执行,本研究构建了专用的深度学习计算平台。该平台的核心计算节点由配备256 GB DDR4内存的Intel Xeon Gold 6248R处理器(24核心,3.0 GHz)担当,并搭载1块NVIDIA RTX 4090 GPU提供加速能力。存储体系则由2 TB NVMe SSD与10TB机械硬盘协同构成,兼顾高速读写性能与大容量数据存储需求,具体实验环境配置如表2。
软件环境选择Ubuntu 22.04 LTS操作系统,Python 3.10.12作为开发语言,PyTorch 2.0.1作为深度学习框架,配合CUDA 11.8实现GPU加速。此外还集成了jieba 0.42.1用于中文分词,transformers 4.33.0用于预训练模型调用,scikit-learn 1.3.0提供机器学习算法支持。为保证实验可重现性,所有随机种子设置为固定值42,并建立详细的实验日志记录机制。
4.1.2. 数据集构建与标注
本研究基于新浪微博平台构建食品安全舆情数据集,采集时间跨度为2024年6月至2025年3月。使用分布式爬虫技术,以关键词匹配策略获取相关微博内容。建立以“脱氢乙酸钠”为核心关键词的查询词库。采集程序每小时运行一次,通过微博开放API获取实时数据,并实施去重和初步质量过滤。原始数据集共包含39,775条微博记录,涵盖了该时期核心关键词安全事件和日常讨论内容。
本工作采集的数据集为微博内容,具体包含以下要素:用户名、原始微博内容、发文时间、转发量、评论量与点赞量。具体信息见表2:
Table 2. Crawl the weibo information table
表2. 爬取微博信息表
字段名 |
说明 |
用户名 |
该微博发布账号昵称 |
微博内容 |
微博文本内容 |
发文时间 |
微博发文时间 |
转发量 |
该微博转发量 |
评论量 |
该微博评论量 |
点赞量 |
该微博评论量 |
原始数据经过严格的多步骤清洗流程以确保数据质量。数据筛选首先基于内容相关性进行,通过关键词匹配和语义相似度计算,剔除与食品安全主题无关的微博内容。使用TF-IDF和余弦相似度方法,设定相似度阈值为0.3,过滤掉主题相关性较低的数据。
数据清洗的目的是提升数据集质量,最终获得有效条目30,987条,保留率为77.9%。清洗过程包含去重、广告过滤、长度筛选、格式标准化。这一系列操作确保了最终数据的唯一性、纯净度和可用性,具体清洗结果见表3。
Table 3. Data cleaning statistics results
表3. 数据清洗统计结果
处理步骤 |
处理前数量 |
删除数量 |
处理后数量 |
删除率 |
筛选标准 |
原始数据 |
39,775 |
- |
39,775 |
- |
- |
相关性筛选 |
39,775 |
3892 |
35,883 |
9.78% |
语义相似度 < 0.3 |
去除重复 |
35,883 |
3921 |
31,962 |
10.93% |
文本相似度 > 0.9 |
过滤广告 |
31,962 |
2127 |
29,835 |
6.65% |
商业推广内容 |
长度过滤 |
29,835 |
1632 |
28,203 |
5.47% |
<10字符或>500字符 |
编码修复 |
28,203 |
195 |
28,008 |
0.69% |
特殊字符和格式 |
质量验证 |
28,008 |
1021 |
30,987 |
3.64% |
人工抽检验证 |
最终保留 |
39,775 |
8788 |
30,987 |
77.9% |
综合质量控制 |
数据预处理包括中文分词、词性标注和停用词过滤。使用jieba分词工具进行中文分词,并结合食品安全领域专业词典提高分词准确性,涵盖食品名称、添加剂名称、监管术语等。采用综合停用词表过滤无意义词汇,该停用词表融合了哈工大停用词表、百度停用词表和自定义停用词,共包含2341个停用词。最终形成平均长度为73.6个字符的标准化文本数据。
数据标注采用二层体系:主题标注和情感标注。主题标注采用层级分类体系,设定8个一级主题:食品污染、食品添加剂、政府监管、企业责任、消费者权益、媒体报道、技术创新、国际比较。情感标注采用五分类体系:非常消极(−2)、消极(−1)、中性(0)、积极(+1)、非常积极(+2),同时提供1~10分的情感强度评分。
为确保标注质量,建立严格的质量控制机制。标注前进行两周集中培训统一标准,每条数据由两名标注者独立标注,分歧样本由专家最终裁决。定期计算标注者间一致性,主题标注Kappa系数为0.834,情感标注Kappa系数为0.802,均达到良好水平,具体标注分布见表4。
Table 4. Data annotation distribution statistics
表4. 数据标注分布统计
主题类别 |
样本数量 |
占比 |
情感分布(消极/中性/积极) |
食品污染 |
7421 |
23.95% |
68.4%/24.1%/7.5% |
政府监管 |
6198 |
20.01% |
52.3%/31.2%/16.5% |
企业责任 |
5087 |
16.42% |
71.8%/21.3%/6.9% |
食品添加剂 |
4234 |
13.67% |
64.2%/28.7%/7.1% |
消费者权益 |
3456 |
11.16% |
73.9%/19.4%/6.7% |
媒体报道 |
2789 |
9.00% |
35.8%/49.2%/15.0% |
技术创新 |
1123 |
3.63% |
28.4%/41.6%/30.0% |
国际比较 |
679 |
2.19% |
45.2%/38.9%/15.9% |
最终标注数据集包含23,195条完整标注样本,按照7:1.5:1.5比例划分为训练集16,237条、验证集3479条、测试集3479条。数据集命名为FoodSafety-Weibo-2024,为后续模型训练和评估提供可靠的基础数据支撑。
4.2. 信效度分析
4.2.1. 信度分析
信度分析旨在评估数据标注的一致性和稳定性,确保研究结果的可靠性。本研究从内部一致性信度、评价者间信度和重测信度三个维度进行全面分析。
进行内部一致性信度分析时采用Cronbach’s α系数评估量表,分别计算主题标注和情感标注的信度系数。对于主题标注,将8个一级主题作为测量维度,计算各维度间的内部一致性。情感标注则将5个情感类别作为测量维度进行分析。
主题标注的Cronbach’s α系数为0.887,超过0.8的良好标准,表明主题分类体系具有较高的内部一致性。各个主题维度间的相关性适中,既保持了主题的独立性,又体现了食品安全舆情的整体性特征。情感标注的Cronbach’s α系数为0.823,同样达到良好水平,说明情感分类标准设置合理,各情感类别界限清晰,具体结果见表5。
Table 5. Results of internal consistency reliability analysis
表5. 内部一致性信度分析结果
标注维度 |
项目数量 |
Cronbach’s α |
标准化α |
评价等级 |
情感极性 |
5 |
0.823 |
0.827 |
良好 |
情感强度 |
10 |
0.794 |
0.798 |
可接受 |
综合标注 |
15 |
0.856 |
0.859 |
良好 |
评价者间信度通过计算不同标注者之间的一致性程度来评估标注质量的客观性。采用Cohen’s Kappa系数和Pearson相关系数进行量化分析。
在情感极性标注方面,标注者A与标注者B的Kappa系数为0.798,标注者A与标注者C的Kappa系数为0.812,标注者B与标注者C的Kappa系数为0.795。三组标注者之间的平均Kappa系数为0.802,达到0.8以上的优秀标准,表明情感极性标注具有很高的客观性和可重复性,具体结果如表6。
Table 6. The results of inter-evaluator reliability analysis
表6. 评价者间信度分析结果
标注任务 |
标注者对 |
Kappa系数 |
相关系数 |
一致性水平 |
情感极性 |
A-B |
0.798 |
0.845 |
良好 |
情感极性 |
A-C |
0.812 |
0.867 |
良好 |
情感极性 |
B-C |
0.795 |
0.832 |
良好 |
情感强度 |
A-B |
- |
0.745 |
良好 |
情感强度 |
A-C |
- |
0.739 |
良好 |
情感强度 |
B-C |
- |
0.758 |
良好 |
重测信度通过让相同标注者在不同时间对相同样本进行重复标注来评估标注的稳定性。选择500个样本作为重测样本,间隔4周后由原标注者重新进行标注。
主题标注的重测信度系数为0.876,情感极性标注的重测信度系数为0.843,情感强度标注的重测相关系数为0.759。所有指标均超过0.7的可接受标准,表明标注标准具有较好的时间稳定性,标注者对标准的理解和执行保持一致。
4.2.2. 效度分析
效度分析从内容效度、构念效度和准则效度三个方面评估标注体系的有效性,确保测量结果能够真实反映食品安全舆情的本质特征。
内容效度通过专家评议法进行评估,邀请5名食品安全领域专家和3名计算机科学专家进行评价。专家评议包括标注体系的理论基础、分类标准的科学性、标注内容的代表性等方面。
情感标注体系的内容效度评分平均为4.4分,专家认为五分类情感体系结合强度评分的设计能够较好地反映公众对食品安全问题的复杂情感态度,具体结果见表7。
Table 7. The evaluation results of expert content validity
表7. 专家内容效度评价结果
评价维度 |
专家1 |
专家2 |
专家3 |
专家4 |
专家5 |
平均分 |
标准差 |
情感体系合理性 |
4.5 |
4.3 |
4.4 |
4.6 |
4.2 |
4.40 |
0.15 |
强度评分有效性 |
4.4 |
4.2 |
4.3 |
4.5 |
4.1 |
4.30 |
0.15 |
整体适用性 |
4.6 |
4.4 |
4.5 |
4.7 |
4.4 |
4.52 |
0.12 |
构念效度通过探索性因子分析(EFA)和验证性因子分析(CFA)进行评估。首先对标注数据进行探索性因子分析,检验主题和情感维度的因子结构是否与理论预期一致,具体结果见表8。
Table 8. Results of construction validity analysis
表8. 构念效度分析结果
分析方法 |
评价指标 |
数值 |
标准 |
结果评价 |
EFA |
KMO值 |
0.856 |
>0.7 |
良好 |
EFA |
Bartlett检验 |
P < 0.001 |
P < 0.05 |
显著 |
EFA |
方差解释率 |
76.8% |
>60% |
良好 |
CFA |
χ2/df |
2.34 |
<3 |
可接受 |
CFA |
CFI |
0.923 |
>0.9 |
良好 |
CFA |
TLI |
0.914 |
>0.9 |
良好 |
CFA |
RMSEA |
0.048 |
<0.08 |
良好 |
CFA |
SRMR |
0.052 |
<0.08 |
良好 |
准则效度通过与外部标准进行比较来评估标注体系的有效性。选择已有的食品安全事件分类标准和情感分析基准数据集作为外部准则,计算相关系数来评估准则效度。
与标准情感分析数据集NLPCC2014相比,本研究的情感标注结果相关系数为0.789,达到较好水平。考虑到食品安全领域的特殊性,这一结果表明情感标注体系能够有效捕捉该领域的情感特征,具体结果见表9。
Table 9. The results of the criterion validity analysis
表9. 准则效度分析结果
效度类型 |
外部准则 |
样本数量 |
相关系数 |
显著性 |
效度评价 |
同时效度 |
官方事件分类 |
1200 |
0.834 |
P < 0.001 |
良好 |
同时效度 |
NLPCC2014情感数据 |
800 |
0.789 |
P < 0.001 |
良好 |
预测效度 |
专家预测结果 |
500 |
0.756 |
P < 0.001 |
可接受 |
4.3. MA-CapsNet模型实验分析
4.3.1. 情感分类性能评估
MA-CapsNet模型在情感分类任务上展现出卓越的性能。选择SVM、TextCNN、BiLSTM、BERT、RoBERTa等方法作为对比基准,在五分类情感分析任务中,MA-CapsNet模型取得了最高的准确率87.6%,相比BERT的84.2%和RoBERTa的85.3%有明显提升。
详细的分类报告显示,MA-CapsNet模型在各个情感类别上的表现都比较均衡。“非常消极”类别的F1分数达到86.3%,“消极”类别达到88.1%,“中性”类别达到89.4%,“积极”类别达到86.7%,“非常积极”类别达到84.9%。相比之下,传统的BERT模型在极端情感类别上的表现相对较差,具体结果见表10。
Table 10. Comparison results of emotion classification performance
表10. 情感分类性能对比结果
模型方法 |
准确率 |
宏平均F1 |
微平均F1 |
精确率 |
召回率 |
训练时间(h) |
SVM |
0.721 |
0.698 |
0.721 |
0.724 |
0.721 |
0.3 |
TextCNN |
0.789 |
0.765 |
0.789 |
0.792 |
0.789 |
2.1 |
BiLSTM |
0.812 |
0.791 |
0.812 |
0.815 |
0.812 |
3.8 |
BERT |
0.842 |
0.823 |
0.842 |
0.845 |
0.842 |
6.2 |
RoBERTa |
0.853 |
0.834 |
0.853 |
0.856 |
0.853 |
7.1 |
MA-CapsNet |
0.876 |
0.857 |
0.876 |
0.879 |
0.876 |
4.9 |
4.3.2. 各情感类别详细分析
通过混淆矩阵分析发现,MA-CapsNet模型最容易混淆的是相邻情感类别,如“消极”和“非常消极”之间的混淆率为8.7%,这在一定程度上是可以理解的。跨度较大的情感类别之间的混淆率很低,如“非常消极”和“积极”之间的混淆率仅为0.3%,说明模型能够很好地区分情感极性,具体结果见表11。
Table 11. Detailed classification results of each emotional category
表11. 各情感类别分类详细结果
情感类别 |
样本数量 |
精确率 |
召回率 |
F1分数 |
支持度 |
非常消极 |
542 |
0.863 |
0.863 |
0.863 |
542 |
消极 |
974 |
0.881 |
0.883 |
0.882 |
974 |
中性 |
905 |
0.894 |
0.894 |
0.894 |
905 |
积极 |
627 |
0.867 |
0.865 |
0.866 |
627 |
非常积极 |
431 |
0.849 |
0.851 |
0.850 |
431 |
宏平均 |
3479 |
0.871 |
0.871 |
0.871 |
3479 |
加权平均 |
3479 |
0.876 |
0.876 |
0.876 |
3479 |
图2展示了模型在训练集和测试集上的分类表现。从混淆矩阵可以看出,MA-CapsNet模型在五个情感类别上都实现了较高的分类准确率,对角线上的数值普遍较高,表明模型能够准确识别各情感类别。
训练集混淆矩阵显示,模型对“中性”情感的识别准确率最高,达到93%,这可能是因为中性情感的特征相对稳定且容易区分。“非常积极”情感的识别准确率为92%,说明极端正面情感具有明显的语言特征标记。相比之下,“消极”和“积极”情感之间存在轻微的混淆现象,这符合情感分析中相邻类别容易混淆的一般规律。测试集的表现虽然略有下降,但仍保持了良好的分类效果,各类别的识别准确率均超过86%。特别值得注意的是,跨极性的误分类(如“非常消极”被误分为“积极”)几乎不存在,说明模型能够有效区分情感的基本极性,这对实际应用具有重要意义。
Figure 2. The confusion matrix for sentiment classification of the MA-CapsNet model
图2. MA-CapsNet模型情感分类混淆矩阵
4.3.3. 情感强度建模效果
MA-CapsNet模型的重要创新是将情感分析扩展为强度感知的任务,不仅识别情感的极性,还量化情感的强度。在情感强度预测任务上,模型取得了令人满意的结果。平均绝对误差(MAE)为0.73 (10分制),均方根误差(RMSE)为1.24,显著优于对比方法。
情感强度建模的有效性通过与人工标注强度的一致性检验得到验证。选择1000条测试样本,由专家进行情感强度评分,模型预测与人工标注的平均相关系数达到0.82,说明模型能够较好地捕获人类对情感强度的主观感知,具体结果见表12。
Table 12. Comparison of emotional intensity prediction performance
表12. 情感强度预测性能对比
模型方法 |
MAE |
RMSE |
皮尔逊相关系数 |
Spearman相关系数 |
强度分类准确率 |
TextCNN |
1.23 |
1.87 |
0.654 |
0.641 |
0.732 |
BiLSTM |
1.08 |
1.65 |
0.698 |
0.687 |
0.756 |
BERT |
0.89 |
1.43 |
0.745 |
0.738 |
0.801 |
RoBERTa |
0.82 |
1.35 |
0.768 |
0.762 |
0.823 |
MA-CapsNet |
0.73 |
1.24 |
0.820 |
0.815 |
0.867 |
4.3.4. 胶囊网络机制有效性验证
为验证胶囊网络架构的优势,设计了对比实验,将胶囊网络替换为同等参数量的全连接网络和卷积网络。实验结果显示,胶囊网络版本在所有指标上都取得了最佳表现。胶囊网络版本的准确率为87.6%,而全连接网络版本仅为82.3%,卷积网络版本为84.7%。
胶囊激活向量的分析揭示了模型的内在表示机制。胶囊向量的模长与情感强度表现出强相关性,皮尔逊相关系数达到0.78,验证了胶囊网络设计的合理性。动态路由算法在3~4次迭代后收敛到稳定状态,在性能和计算效率之间取得了良好的平衡,具体结果见表13。
Table 13. Performance comparison of different network architectures
表13. 不同网络架构性能对比
网络架构 |
准确率 |
F1分数 |
参数量(M) |
推理时间(ms) |
收敛轮数 |
全连接网络 |
0.823 |
0.804 |
15.2 |
12.3 |
89 |
卷积网络 |
0.847 |
0.829 |
12.8 |
15.7 |
67 |
胶囊网络 |
0.876 |
0.857 |
11.4 |
18.2 |
52 |
多粒度注意力机制的消融实验表明,字符级、词汇级和句子级注意力都对模型性能有重要贡献。移除字符级注意力后F1分数下降5.2%,移除词汇级注意力后下降7.8%,移除句子级注意力的影响最大,导致F1分数下降9.3%,说明句子级的语义理解对于准确的情感分析至关重要,具体结果见表14。
Table 14. Experimental results of multi-granularity attention ablation
表14. 多粒度注意力消融实验结果
注意力配置 |
准确率 |
F1分数 |
性能下降 |
重要性排名 |
完整MA-CapsNet |
0.876 |
0.857 |
- |
- |
移除句子级注意力 |
0.793 |
0.778 |
−9.3% |
1 |
移除词汇级注意力 |
0.807 |
0.790 |
−7.8% |
2 |
移除字符级注意力 |
0.832 |
0.812 |
−5.2% |
3 |
仅单粒度注意力 |
0.784 |
0.765 |
−10.7% |
- |
MA-CapsNet模型创新性地融合了多粒度注意力机制与胶囊网络架构。实验验证,该模型在食品安全舆情情感分析任务中表现优异,不仅精准判别了情感极性,还实现了情感强度的有效量化,显著提升了舆情情感理解的精细度。
5. 结论
本文通过严谨的实验设计与深入分析,系统验证了MA-CapsNet融合模型在食品安全网络舆情情感分析任务中的高效性与优越性。该模型在情感分析,特别是情感强度建模上表现突出:情感分类准确率高达87.6%,情感强度预测的平均绝对误差(MAE)低至0.73,F1分数达88.5%。
基于消融研究、鲁棒性评估及综合性能分析,该模型设计的合理性与实用价值得到了充分证实。尽管存在一定局限,但本文在技术创新、性能突破和应用潜力上均实现了预期目标,为食品安全网络舆情分析领域提供了有力支持。
评估显示,MA-CapsNet在技术性能、实用性能和创新性能三个关键维度均表现优异,较现有方法优势显著。模型展现出良好的稳定性与可复现性,为其实际应用奠定了基础。后续研究将聚焦于克服现有不足,着力提升模型的泛化能力、计算效率及鲁棒性,以促进食品安全舆情分析技术的持续进步。