融合MA-CapsNet的社交媒体短文本情感分类研究——基于脱氢乙酸钠微博数据
Research on Sentiment Classification of Social Media Short Texts Integrating MA-CapsNet—Based on the Weibo Data of Sodium Dehydroacetate
摘要: 针对传统情感分类模型在短文本语义捕捉、领域特异性处理及情感强度量化上的不足,本文提出融合多粒度注意力机制与胶囊网络的MA-CapsNet模型,用于社交媒体短文本情感分类研究。模型构建“双流–三阶”分析框架:输入表示层采用混合嵌入策略,融合预训练BERT向量和位置编码;多粒度注意力层通过字符级、词汇级、句子级三重特征提取与门控融合,增强对“零添加”等领域表达的识别;胶囊网络层利用动态路由算法建模特征间的层次关系,有效处理“并非不安全”等复杂否定结构;输出层实现情感五分类(非常消极至非常积极)与强度量化(1~10分),并采用联合损失函数来优化双任务性能。结果表明,MA-CapsNet在情感分类任务上准确率达87.6%,宏平均F1值0.857,显著优于SVM (72.1%)、TextCNN (78.9%)、BERT (84.2%)等模型;情感强度预测MAE为0.73,皮尔逊相关系数0.82,体现出对情感细微差异的精准捕捉能力。研究表明,MA-CapsNet能有效提升食品安全舆情的情感分析精度,为舆情监测与引导提供技术支撑,其领域自适应设计对其他专业领域的短文本分析具有借鉴意义。
Abstract: In view of the deficiencies of traditional sentiment classification models in semantic capture of short texts, domain-specific processing and quantification of sentiment intensity, this paper proposes the MA-CapsNet model integrating multi-granularity attention mechanism and capsule network for the research of sentiment classification of short texts in social media. Model constructs “dual-stream-third-order” analysis framework: The input representation layer adopts a hybrid embedding strategy, fusing pre-trained BERT vectors and position encodings; The multi-granularity attention layer enhances the recognition of expressions in fields such as “zero addition” through the fusion of triple feature extraction at the character level, vocabulary level, and sentence level with gating. The capsule network layer uses dynamic routing algorithms to model the hierarchical relationship between features, effectively handling complex negative structures such as “not insecure”. The output layer implements five-classification of emotions (from very negative to very positive) and intensity quantification (1~10 points), and a joint loss function is adopted to optimize the performance of the dual tasks. The results show that the accuracy rate of MA-CapsNet in the emotion classification task reaches 87.6%, and the macro average F1 value is 0.857, which is significantly better than models such as SVM (72.1%), TextCNN (78.9%), and BERT (84.2%). The MAE for emotional intensity prediction is 0.73, and the Pearson correlation coefficient is 0.82, demonstrating the precise ability to capture the subtle differences in emotions. Studies show that MA-CapsNet can effectively improve the accuracy of sentiment analysis of food safety public opinions, provide technical support for public opinion monitoring and guidance, and its domain adaptive design has reference significance for short text analysis in other professional fields.
文章引用:崔培东. 融合MA-CapsNet的社交媒体短文本情感分类研究——基于脱氢乙酸钠微博数据[J]. 应用数学进展, 2025, 14(9): 198-212. https://doi.org/10.12677/aam.2025.149413

1. 引言

在信息化和全球化的背景下,社交媒体已成为公众表达意见、传播信息和参与社会讨论的重要平台。2025年1月17日,中国互联网络信息中心(CNNIC)发布第五十五次《中国互联网络发展状况统计报告》显示,我国网民规模从1997年的62万人增长至2024年的11.08亿人,互联网普及率升至78.6% [1]。作为中国最具影响力的社交媒体之一,微博凭借其即时性、互动性和广泛传播性,成为网络舆情生成和发酵的主要场所。截至2024年9月,微博的月活跃用户数为5.87亿,日活跃用户数为2.57亿,日均发布内容超2亿条,覆盖政治、经济、民生等多个领域,其开放性和即时性使得热点事件在短时间内迅速发酵,形成复杂的网络舆情生态。

近年来,食品安全问题频发,尤其是食品添加剂的使用及其对健康的影响,引发了社会各界的广泛关注。食品添加剂是现代食品工业中不可或缺的一部分,它们能够延长食品的保质期、改善食品的口感和外观[2]。脱氢乙酸钠作为一种高效广谱防腐剂,长期应用于烘焙食品、腌渍蔬菜等加工产品[3]。随着消费者对食品安全健康的重视程度与日俱增,食品添加剂的安全性成为民众关注的焦点。2024年3月,国家卫健委发布新版《食品安全国家标准 食品添加剂使用标准》(GB2760-2024),明确自2025年2月8日起禁止在面包、糕点等食品中使用脱氢乙酸钠,并将腌渍蔬菜中的最大添加量从1克/千克降至0.3克/千克[4]。这一政策调整迅速引发社交媒体热议,微博话题如“毒面包”“脱氢乙酸钠禁用”阅读量累计超10亿次,成为典型的舆情事件。

网络舆情对社会稳定和经济发展具有不可忽视的影响,对网络舆情进行监测成为重要的研究内容。

2. 文献综述

网络舆情监测包括对网络文本进行计算机表示、特征提取、内容总结、分类、语义分析及趋势预测等[5]

国外的舆情分析技术主要集中在话题监测与追踪(topic detection and tracking, TDT),TDT是一项综合的技术,可以对网络信息流中的具体事件进行识别和持续跟踪[6]。Cantini等利用TDT技术在美国总统选举、冠状病毒病疫情有关的真实世界案例研究中进行评估,验证了该方法的有效性[7]。Tran等提出了一种使用Pearson积矩相关系数来解决关键词之间关系的方法,该方法在舆情预测准确性等方面表现出色[8]。Mamo等结合了来自Twitter的事件前流和维基百科的信息,在TDT系统识别事件开始前检测事件的参与者,提高了机器对事件的理解[9]。Kuttschreuter等人对获取与食品安全监管相关的公共信息的方法进行了分析,他们的研究表明,包括社交媒体账户在内的新媒体可以补充信息渠道,但不能取代传统互联网平台内的官方媒体来源[10]

国内学者们的研究主要聚焦于指定领域舆情分析。Su等人设计了一个专门针对产品质量和食品安全的在线舆论监测系统[11],这个创新的系统集成了垂直搜索引擎技术和网络信息挖掘,它有效地收集和处理网络内容,过滤和提取相关信息,并生成全面的舆论简报和分析报告,这些报告是决策者的基础资源,使他们能够理解和影响公众舆论的轨迹。Li等人阐述了食品安全在线舆情监测的三个关键方面:建立健全的监测框架,完善处理食品安全在线舆论的常规程序[12],以及在食品安全突发事件中严格执行响应协议。Li等人构建了一个融合微博和新闻指标的反向传播神经网络模型[13],他们采用层次分析法(AHP-BP)来分配权重,并建立了四个预警级别,综合指标和数据分别作为BP神经网络的输入和输出,该模型在食品安全领域得到了应用。Zheng等人采用BP神经网络算法构建了在线舆情传播的预测模型[14],他们通过分析影响网络舆论传播的因素来实现这一目标。Zhang等构建了网络舆情传播系统的动态模型[15],该模型是基于对重大流行病期间舆论传播的分析而开发的,探讨了舆论事件、网络媒体、媒体互动以及互联网上的舆论传播、政府和流行病之间错综复杂的相互作用。杨维东[16]等设计了基于多水平模型整合教育舆情监测分析系统,帮助相关人员从全局角度分析舆情事件产生原因。傅丽芳[17]等采用改进的元胞自动机模型构建了农产品安全网络舆情演化分析与导控框架,实现了对该事件网民情感倾向变化及舆情发展的合理预测。Li等[18]构建了一个突发公共卫生网络舆情信息系统,实现了对公共卫生舆情通信网络中的关键节点进行识别和分析。李双[19]等构建了基于大数据的职工舆情监测分析系统,以进行职工舆情引导和干预,能够为构建中国和谐劳资关系和劳工环境提供支持。

为了更好地利用微博,产生有益社会价值,消除潜在危害,本文提出融合MA-CapsNet的微博情感模型,该模型是融合了注意力机制和胶囊网络的深度学习模型,有利于分析群体情感倾向,提高舆情分析、引导的准确率。

3. 研究设计

3.1. 研究架构

传统的胶囊网络(capsule network, CapsNet)主要由卷积层、初始胶囊层、数字胶囊层构成[20]。本研究构建“双流–三阶”社交媒体短文本情感分析框架,如图1所示,针对食品安全舆情特性设计多粒度特征融合机制:

Figure 1. Emotion analysis framework

1. 情感分析框架

该框架核心组件:

(1) 输入表示层:动态词向量生成;

(2) 多粒度注意力层:三重特征提取机制;

(3) 胶囊特征编码层:语义组合建模;

(4) 双任务输出层:情感分类与强度预测。

与CapsNet相比,模型MA-CapsNet具有以下优势:(1) 通过引入池化操作加深网络层数,解决了网络深度语义信息缺乏的问题;(2) 引入最大池化和平均池化减少了参数数量,某种程度上能够缓解过拟合问题;(3) 较少的路由迭代次数能够有效降低计算代价。因此,模型MA-CapsNet具有更好的鲁棒性和泛化性。

MA-CapsNet模型的核心思想在于利用多尺度卷积提取不同粒度的文本局部特征,通过注意力机制动态强化对情感分类贡献度高的特征,并利用胶囊网络建模特征之间的空间层次关系及整体–部分关系,最终实现更鲁棒的情感分类。

3.1.1. 输入表示层优化

针对社交媒体短文本特性,设计混合嵌入表示:

E=Concat( E BERT , E pos , E domain ) (1)

其中, E BERT R n×768 为预训练中文BERT向量, E pos R n×32 为位置编码向量, E domain R n×64 为食品安全领域特征向量。领域特征向量通过领域词典增强: E domain ReLU( W d D( w i )+ b d ) D( w ) 为领域词典匹配函数,覆盖1247个食品安全术语。

3.1.2. 多粒度注意力机制

多粒度注意力机制的作用是模拟人类阅读时关注不同层次信息的能力(如关键词、短语、句子) [21]。为克服传统单粒度模型的局限性,本设计构建三级特征提取结构,分别为字符级、词汇级和句子级。

三级特征提取结构:

字符级:

F char = CNN 3×3 ( E ) (2)

词汇级:

F word =MultiheadAtten( E ) (3)

句子级:

F sent =BiGRU( E ) (4)

其中字符级捕捉局部形态特征,词汇级建模上下文依赖,句子级理解全局语义。

多头注意力计算(8头):

Q i =E W i Q , K i =E W i K , V i =E W i V (5)

hea d i =Softmax( Q i K i T d k ) V i (6)

F word =Concat( hea d 1 ,,hea d 8 ) W O (7)

特征融合门控:

G=σ( W g [ F char ; F word F sent ] )Z=GReLU( W f [ F char ; F word F sent ] ) (8)

门控融合机制实现特征自适应加权,该设计能显著提升对食品安全领域特有表达(如“零添加”“非法添加剂”)的识别能力。

3.1.3. 胶囊网络建模

传统神经网络难以有效建模部分–整体关系,本研究引入胶囊网络解决此问题,初级胶囊生成:

u i =conv1D( Z ) R c×p ,i=1,,c (9)

其中C = 128个胶囊,维度p = 8;

动态路由算法:

初始化: b ij =0 ,迭代 r=1,2,3

c ij = exp( b ij ) k exp( b ik ) (10)

s j = i c ij u ^ j|i , u ^ j|i = W ij u i (11)

v j = s j 2 1+ s j 2 s j s j (12)

b ij b ij + u ^ j|i v j (13)

胶囊网络的核心优势在于:

(1) 姿态不变性:有效处理微博文本的灵活表达;

(2) 层次化建模:精确识别如“不是不安全”等复杂否定结构;

(3) 几何关系保持:胶囊方向编码语义关联强度。

3.1.4. 情感强度感知输出

为突破传统分类模型的局限,解决本研究中的相关问题,本设计采用了情感强度量化这一有效技术:

情感分类:

P( y c =j|x )= v j ,j{ 2,1,0,+1,+2 } (14)

强度预测:

Intensity= 10 1+exp( γ v j ) ,γ=1.5 (15)

联合损失函数:

L= L margin +λ L MSE (16)

其中, L margin 为间隔损失函数, L MSE 为强度回归损失函数,具体计算公式如下:

L margin = j [ T j max ( 0, m + v j ) 2 +λ( 1 T j )max ( 0, v j m ) 2 ] (17)

L MSE = 1 N i=1 N ( y i Intensit y i ) 2 (18)

其中,超参数 m + =0.9 m =0.1 λ=0.5 ,联合损失函数设计体现多任务协同。

3.2. 针对食品安全舆情的优化设计

3.2.1. 领域自适应机制

鉴于食品安全舆情鲜明的领域特定属性,本文设计并融入了两项领域自适应机制:

主题感知注意力:

β i =softmax( q topic T tanh( W t h i ) ) (19)

该模块利用当前文本的主题分布向量 q topic ,动态计算词汇与主题间的相关性权重,此机制显著增强如“脱氢乙酸钠”等核心术语的特征表达。

否定句处理模块:

h neg =BiGRU( [ h; m neg ] ) (20)

模块定义了一个覆盖“不”“非”等12类常见否定标记的位置掩码 m neg ,通过双向GRU网络建模否定词的作用域,该模块能够准确解析类似“并非不安全”的复杂否定逻辑结构。

3.2.2. 模型训练策略

在模型训练过程中,为提升模型整体效果,本文采用渐进式训练、对抗训练以及调整焦点损失函数等方法对模型进行训练:

渐进式训练:

阶段1:固定BERT参数,专注于训练胶囊网络组件;

阶段2:联合微调全模型参数。

对抗训练:

x adv =x+ g g 2 ,g= x L (21)

在训练过程中引入基于梯度的扰动噪声,以提升模型对输入扰动的鲁棒性。

焦点损失调整:

L focal = ( 1 p t ) γ log( p t ),γ=2 (22)

采用焦点损失函数,针对性缓解训练数据中存在的类别分布不均衡问题。

3.3. 模型评估指标

在模型评估方面,本研究采用内在评估和外在评估相结合的方法,确保模型性能评估的全面性和准确性。性能指标采用准确率、精确率、召回率和F1分数的标准组合,计算公式为:

Accuracy= TP+TN TP+TN+FP+FN (23)

Precision= TP TP+FP (24)

Recall= TP TP+FN (25)

F1=2× Precision×Recall Precision+Recall (26)

情感强度评估指标专门针对情感强度预测任务设计,包括平均绝对误差MAE和均方根误差RMSE:

MAE= 1 n i=1 n | y i y ^ i | (27)

RMSE= 1 n i=1 n ( y i y ^ i ) 2 (28)

以及皮尔逊相关系数评估预测值与真实值的线性相关性:

r= i=1 n ( y i y ¯ )( y ^ i y ^ ¯ ) i=1 n ( y i y ¯ ) 2 i=1 n ( y ^ i y ^ ¯ ) 2 (29)

建立多维度的评估标准体系,设定各指标的评判阈值。情感强度MAE < 1.0、RMSE < 1.5为良好,相关系数r > 0.7为良好,具体评估指标见表1

Table 1. Overview of the evaluation index system

1. 评估指标体系总览

评估任务

具体指标

计算方法

优秀标准

良好标准

情感分类

准确率

正确分类比例

>0.85

>0.8

情感强度

MAE

平均绝对误差

<1.0

<1.5

情感强度

相关系数

皮尔逊相关

>0.7

>0.6

此外,还引入时间一致性指标评估模型在时间序列数据上的稳定性,计算相邻时间窗口输出结果的相关系数。时间一致性指标通过将数据按时间顺序划分为多个窗口,比较模型在连续时间段内的输出表现,评估模型对时间变化的适应性和预测稳定性。该指标对于舆情分析尤为重要,因为食品安全事件往往具有时间演化特性,模型需要在不同时间段内保持一致的分析能力。

4. 食品安全网络舆情实验设计与结果分析

4.1. 实验环境与数据集构建

4.1.1. 实验环境配置

为确保模型训练与评估任务的高效执行,本研究构建了专用的深度学习计算平台。该平台的核心计算节点由配备256 GB DDR4内存的Intel Xeon Gold 6248R处理器(24核心,3.0 GHz)担当,并搭载1块NVIDIA RTX 4090 GPU提供加速能力。存储体系则由2 TB NVMe SSD与10TB机械硬盘协同构成,兼顾高速读写性能与大容量数据存储需求,具体实验环境配置如表2

软件环境选择Ubuntu 22.04 LTS操作系统,Python 3.10.12作为开发语言,PyTorch 2.0.1作为深度学习框架,配合CUDA 11.8实现GPU加速。此外还集成了jieba 0.42.1用于中文分词,transformers 4.33.0用于预训练模型调用,scikit-learn 1.3.0提供机器学习算法支持。为保证实验可重现性,所有随机种子设置为固定值42,并建立详细的实验日志记录机制。

4.1.2. 数据集构建与标注

本研究基于新浪微博平台构建食品安全舆情数据集,采集时间跨度为2024年6月至2025年3月。使用分布式爬虫技术,以关键词匹配策略获取相关微博内容。建立以“脱氢乙酸钠”为核心关键词的查询词库。采集程序每小时运行一次,通过微博开放API获取实时数据,并实施去重和初步质量过滤。原始数据集共包含39,775条微博记录,涵盖了该时期核心关键词安全事件和日常讨论内容。

本工作采集的数据集为微博内容,具体包含以下要素:用户名、原始微博内容、发文时间、转发量、评论量与点赞量。具体信息见表2

Table 2. Crawl the weibo information table

2. 爬取微博信息表

字段名

说明

用户名

该微博发布账号昵称

微博内容

微博文本内容

发文时间

微博发文时间

转发量

该微博转发量

评论量

该微博评论量

点赞量

该微博评论量

原始数据经过严格的多步骤清洗流程以确保数据质量。数据筛选首先基于内容相关性进行,通过关键词匹配和语义相似度计算,剔除与食品安全主题无关的微博内容。使用TF-IDF和余弦相似度方法,设定相似度阈值为0.3,过滤掉主题相关性较低的数据。

数据清洗的目的是提升数据集质量,最终获得有效条目30,987条,保留率为77.9%。清洗过程包含去重、广告过滤、长度筛选、格式标准化。这一系列操作确保了最终数据的唯一性、纯净度和可用性,具体清洗结果见表3

Table 3. Data cleaning statistics results

3. 数据清洗统计结果

处理步骤

处理前数量

删除数量

处理后数量

删除率

筛选标准

原始数据

39,775

-

39,775

-

-

相关性筛选

39,775

3892

35,883

9.78%

语义相似度 < 0.3

去除重复

35,883

3921

31,962

10.93%

文本相似度 > 0.9

过滤广告

31,962

2127

29,835

6.65%

商业推广内容

长度过滤

29,835

1632

28,203

5.47%

<10字符或>500字符

编码修复

28,203

195

28,008

0.69%

特殊字符和格式

质量验证

28,008

1021

30,987

3.64%

人工抽检验证

最终保留

39,775

8788

30,987

77.9%

综合质量控制

数据预处理包括中文分词、词性标注和停用词过滤。使用jieba分词工具进行中文分词,并结合食品安全领域专业词典提高分词准确性,涵盖食品名称、添加剂名称、监管术语等。采用综合停用词表过滤无意义词汇,该停用词表融合了哈工大停用词表、百度停用词表和自定义停用词,共包含2341个停用词。最终形成平均长度为73.6个字符的标准化文本数据。

数据标注采用二层体系:主题标注和情感标注。主题标注采用层级分类体系,设定8个一级主题:食品污染、食品添加剂、政府监管、企业责任、消费者权益、媒体报道、技术创新、国际比较。情感标注采用五分类体系:非常消极(−2)、消极(−1)、中性(0)、积极(+1)、非常积极(+2),同时提供1~10分的情感强度评分。

为确保标注质量,建立严格的质量控制机制。标注前进行两周集中培训统一标准,每条数据由两名标注者独立标注,分歧样本由专家最终裁决。定期计算标注者间一致性,主题标注Kappa系数为0.834,情感标注Kappa系数为0.802,均达到良好水平,具体标注分布见表4

Table 4. Data annotation distribution statistics

4. 数据标注分布统计

主题类别

样本数量

占比

情感分布(消极/中性/积极)

食品污染

7421

23.95%

68.4%/24.1%/7.5%

政府监管

6198

20.01%

52.3%/31.2%/16.5%

企业责任

5087

16.42%

71.8%/21.3%/6.9%

食品添加剂

4234

13.67%

64.2%/28.7%/7.1%

消费者权益

3456

11.16%

73.9%/19.4%/6.7%

媒体报道

2789

9.00%

35.8%/49.2%/15.0%

技术创新

1123

3.63%

28.4%/41.6%/30.0%

国际比较

679

2.19%

45.2%/38.9%/15.9%

最终标注数据集包含23,195条完整标注样本,按照7:1.5:1.5比例划分为训练集16,237条、验证集3479条、测试集3479条。数据集命名为FoodSafety-Weibo-2024,为后续模型训练和评估提供可靠的基础数据支撑。

4.2. 信效度分析

4.2.1. 信度分析

信度分析旨在评估数据标注的一致性和稳定性,确保研究结果的可靠性。本研究从内部一致性信度、评价者间信度和重测信度三个维度进行全面分析。

进行内部一致性信度分析时采用Cronbach’s α系数评估量表,分别计算主题标注和情感标注的信度系数。对于主题标注,将8个一级主题作为测量维度,计算各维度间的内部一致性。情感标注则将5个情感类别作为测量维度进行分析。

主题标注的Cronbach’s α系数为0.887,超过0.8的良好标准,表明主题分类体系具有较高的内部一致性。各个主题维度间的相关性适中,既保持了主题的独立性,又体现了食品安全舆情的整体性特征。情感标注的Cronbach’s α系数为0.823,同样达到良好水平,说明情感分类标准设置合理,各情感类别界限清晰,具体结果见表5

Table 5. Results of internal consistency reliability analysis

5. 内部一致性信度分析结果

标注维度

项目数量

Cronbach’s α

标准化α

评价等级

情感极性

5

0.823

0.827

良好

情感强度

10

0.794

0.798

可接受

综合标注

15

0.856

0.859

良好

评价者间信度通过计算不同标注者之间的一致性程度来评估标注质量的客观性。采用Cohen’s Kappa系数和Pearson相关系数进行量化分析。

在情感极性标注方面,标注者A与标注者B的Kappa系数为0.798,标注者A与标注者C的Kappa系数为0.812,标注者B与标注者C的Kappa系数为0.795。三组标注者之间的平均Kappa系数为0.802,达到0.8以上的优秀标准,表明情感极性标注具有很高的客观性和可重复性,具体结果如表6

Table 6. The results of inter-evaluator reliability analysis

6. 评价者间信度分析结果

标注任务

标注者对

Kappa系数

相关系数

一致性水平

情感极性

A-B

0.798

0.845

良好

情感极性

A-C

0.812

0.867

良好

情感极性

B-C

0.795

0.832

良好

情感强度

A-B

-

0.745

良好

情感强度

A-C

-

0.739

良好

情感强度

B-C

-

0.758

良好

重测信度通过让相同标注者在不同时间对相同样本进行重复标注来评估标注的稳定性。选择500个样本作为重测样本,间隔4周后由原标注者重新进行标注。

主题标注的重测信度系数为0.876,情感极性标注的重测信度系数为0.843,情感强度标注的重测相关系数为0.759。所有指标均超过0.7的可接受标准,表明标注标准具有较好的时间稳定性,标注者对标准的理解和执行保持一致。

4.2.2. 效度分析

效度分析从内容效度、构念效度和准则效度三个方面评估标注体系的有效性,确保测量结果能够真实反映食品安全舆情的本质特征。

内容效度通过专家评议法进行评估,邀请5名食品安全领域专家和3名计算机科学专家进行评价。专家评议包括标注体系的理论基础、分类标准的科学性、标注内容的代表性等方面。

情感标注体系的内容效度评分平均为4.4分,专家认为五分类情感体系结合强度评分的设计能够较好地反映公众对食品安全问题的复杂情感态度,具体结果见表7

Table 7. The evaluation results of expert content validity

7. 专家内容效度评价结果

评价维度

专家1

专家2

专家3

专家4

专家5

平均分

标准差

情感体系合理性

4.5

4.3

4.4

4.6

4.2

4.40

0.15

强度评分有效性

4.4

4.2

4.3

4.5

4.1

4.30

0.15

整体适用性

4.6

4.4

4.5

4.7

4.4

4.52

0.12

构念效度通过探索性因子分析(EFA)和验证性因子分析(CFA)进行评估。首先对标注数据进行探索性因子分析,检验主题和情感维度的因子结构是否与理论预期一致,具体结果见表8

Table 8. Results of construction validity analysis

8. 构念效度分析结果

分析方法

评价指标

数值

标准

结果评价

EFA

KMO值

0.856

>0.7

良好

EFA

Bartlett检验

P < 0.001

P < 0.05

显著

EFA

方差解释率

76.8%

>60%

良好

CFA

χ2/df

2.34

<3

可接受

CFA

CFI

0.923

>0.9

良好

CFA

TLI

0.914

>0.9

良好

CFA

RMSEA

0.048

<0.08

良好

CFA

SRMR

0.052

<0.08

良好

准则效度通过与外部标准进行比较来评估标注体系的有效性。选择已有的食品安全事件分类标准和情感分析基准数据集作为外部准则,计算相关系数来评估准则效度。

与标准情感分析数据集NLPCC2014相比,本研究的情感标注结果相关系数为0.789,达到较好水平。考虑到食品安全领域的特殊性,这一结果表明情感标注体系能够有效捕捉该领域的情感特征,具体结果见表9

Table 9. The results of the criterion validity analysis

9. 准则效度分析结果

效度类型

外部准则

样本数量

相关系数

显著性

效度评价

同时效度

官方事件分类

1200

0.834

P < 0.001

良好

同时效度

NLPCC2014情感数据

800

0.789

P < 0.001

良好

预测效度

专家预测结果

500

0.756

P < 0.001

可接受

4.3. MA-CapsNet模型实验分析

4.3.1. 情感分类性能评估

MA-CapsNet模型在情感分类任务上展现出卓越的性能。选择SVM、TextCNN、BiLSTM、BERT、RoBERTa等方法作为对比基准,在五分类情感分析任务中,MA-CapsNet模型取得了最高的准确率87.6%,相比BERT的84.2%和RoBERTa的85.3%有明显提升。

详细的分类报告显示,MA-CapsNet模型在各个情感类别上的表现都比较均衡。“非常消极”类别的F1分数达到86.3%,“消极”类别达到88.1%,“中性”类别达到89.4%,“积极”类别达到86.7%,“非常积极”类别达到84.9%。相比之下,传统的BERT模型在极端情感类别上的表现相对较差,具体结果见表10

Table 10. Comparison results of emotion classification performance

10. 情感分类性能对比结果

模型方法

准确率

宏平均F1

微平均F1

精确率

召回率

训练时间(h)

SVM

0.721

0.698

0.721

0.724

0.721

0.3

TextCNN

0.789

0.765

0.789

0.792

0.789

2.1

BiLSTM

0.812

0.791

0.812

0.815

0.812

3.8

BERT

0.842

0.823

0.842

0.845

0.842

6.2

RoBERTa

0.853

0.834

0.853

0.856

0.853

7.1

MA-CapsNet

0.876

0.857

0.876

0.879

0.876

4.9

4.3.2. 各情感类别详细分析

通过混淆矩阵分析发现,MA-CapsNet模型最容易混淆的是相邻情感类别,如“消极”和“非常消极”之间的混淆率为8.7%,这在一定程度上是可以理解的。跨度较大的情感类别之间的混淆率很低,如“非常消极”和“积极”之间的混淆率仅为0.3%,说明模型能够很好地区分情感极性,具体结果见表11

Table 11. Detailed classification results of each emotional category

11. 各情感类别分类详细结果

情感类别

样本数量

精确率

召回率

F1分数

支持度

非常消极

542

0.863

0.863

0.863

542

消极

974

0.881

0.883

0.882

974

中性

905

0.894

0.894

0.894

905

积极

627

0.867

0.865

0.866

627

非常积极

431

0.849

0.851

0.850

431

宏平均

3479

0.871

0.871

0.871

3479

加权平均

3479

0.876

0.876

0.876

3479

图2展示了模型在训练集和测试集上的分类表现。从混淆矩阵可以看出,MA-CapsNet模型在五个情感类别上都实现了较高的分类准确率,对角线上的数值普遍较高,表明模型能够准确识别各情感类别。

训练集混淆矩阵显示,模型对“中性”情感的识别准确率最高,达到93%,这可能是因为中性情感的特征相对稳定且容易区分。“非常积极”情感的识别准确率为92%,说明极端正面情感具有明显的语言特征标记。相比之下,“消极”和“积极”情感之间存在轻微的混淆现象,这符合情感分析中相邻类别容易混淆的一般规律。测试集的表现虽然略有下降,但仍保持了良好的分类效果,各类别的识别准确率均超过86%。特别值得注意的是,跨极性的误分类(如“非常消极”被误分为“积极”)几乎不存在,说明模型能够有效区分情感的基本极性,这对实际应用具有重要意义。

Figure 2. The confusion matrix for sentiment classification of the MA-CapsNet model

2. MA-CapsNet模型情感分类混淆矩阵

4.3.3. 情感强度建模效果

MA-CapsNet模型的重要创新是将情感分析扩展为强度感知的任务,不仅识别情感的极性,还量化情感的强度。在情感强度预测任务上,模型取得了令人满意的结果。平均绝对误差(MAE)为0.73 (10分制),均方根误差(RMSE)为1.24,显著优于对比方法。

情感强度建模的有效性通过与人工标注强度的一致性检验得到验证。选择1000条测试样本,由专家进行情感强度评分,模型预测与人工标注的平均相关系数达到0.82,说明模型能够较好地捕获人类对情感强度的主观感知,具体结果见表12

Table 12. Comparison of emotional intensity prediction performance

12. 情感强度预测性能对比

模型方法

MAE

RMSE

皮尔逊相关系数

Spearman相关系数

强度分类准确率

TextCNN

1.23

1.87

0.654

0.641

0.732

BiLSTM

1.08

1.65

0.698

0.687

0.756

BERT

0.89

1.43

0.745

0.738

0.801

RoBERTa

0.82

1.35

0.768

0.762

0.823

MA-CapsNet

0.73

1.24

0.820

0.815

0.867

4.3.4. 胶囊网络机制有效性验证

为验证胶囊网络架构的优势,设计了对比实验,将胶囊网络替换为同等参数量的全连接网络和卷积网络。实验结果显示,胶囊网络版本在所有指标上都取得了最佳表现。胶囊网络版本的准确率为87.6%,而全连接网络版本仅为82.3%,卷积网络版本为84.7%。

胶囊激活向量的分析揭示了模型的内在表示机制。胶囊向量的模长与情感强度表现出强相关性,皮尔逊相关系数达到0.78,验证了胶囊网络设计的合理性。动态路由算法在3~4次迭代后收敛到稳定状态,在性能和计算效率之间取得了良好的平衡,具体结果见表13

Table 13. Performance comparison of different network architectures

13. 不同网络架构性能对比

网络架构

准确率

F1分数

参数量(M)

推理时间(ms)

收敛轮数

全连接网络

0.823

0.804

15.2

12.3

89

卷积网络

0.847

0.829

12.8

15.7

67

胶囊网络

0.876

0.857

11.4

18.2

52

多粒度注意力机制的消融实验表明,字符级、词汇级和句子级注意力都对模型性能有重要贡献。移除字符级注意力后F1分数下降5.2%,移除词汇级注意力后下降7.8%,移除句子级注意力的影响最大,导致F1分数下降9.3%,说明句子级的语义理解对于准确的情感分析至关重要,具体结果见表14

Table 14. Experimental results of multi-granularity attention ablation

14. 多粒度注意力消融实验结果

注意力配置

准确率

F1分数

性能下降

重要性排名

完整MA-CapsNet

0.876

0.857

-

-

移除句子级注意力

0.793

0.778

−9.3%

1

移除词汇级注意力

0.807

0.790

−7.8%

2

移除字符级注意力

0.832

0.812

−5.2%

3

仅单粒度注意力

0.784

0.765

−10.7%

-

MA-CapsNet模型创新性地融合了多粒度注意力机制与胶囊网络架构。实验验证,该模型在食品安全舆情情感分析任务中表现优异,不仅精准判别了情感极性,还实现了情感强度的有效量化,显著提升了舆情情感理解的精细度。

5. 结论

本文通过严谨的实验设计与深入分析,系统验证了MA-CapsNet融合模型在食品安全网络舆情情感分析任务中的高效性与优越性。该模型在情感分析,特别是情感强度建模上表现突出:情感分类准确率高达87.6%,情感强度预测的平均绝对误差(MAE)低至0.73,F1分数达88.5%。

基于消融研究、鲁棒性评估及综合性能分析,该模型设计的合理性与实用价值得到了充分证实。尽管存在一定局限,但本文在技术创新、性能突破和应用潜力上均实现了预期目标,为食品安全网络舆情分析领域提供了有力支持。

评估显示,MA-CapsNet在技术性能、实用性能和创新性能三个关键维度均表现优异,较现有方法优势显著。模型展现出良好的稳定性与可复现性,为其实际应用奠定了基础。后续研究将聚焦于克服现有不足,着力提升模型的泛化能力、计算效率及鲁棒性,以促进食品安全舆情分析技术的持续进步。

参考文献

[1] 第55次《中国互联网络发展状况统计报告》发布[J]. 传媒论坛, 2025, 9(2): 121.
[2] 张辉, 贾敬敦, 王文月, 等. 国内食品添加剂研究进展及发展趋势[J]. 食品与生物技术学报, 2016, 35(3): 225-233.
[3] 徐彦英, 汪晓鹏, 吴亮. 食品添加剂的应用及安全性探究[J]. 农产品加工, 2022(1): 70-72.
[4] 关于发布《食品安全国家标准食品添加剂使用标准》(GB2760-2014)等37项食品安全国家标准的公告[J]. 中国食品添加剂, 2015(2): 186-187.
[5] 黄晓斌, 谭颖骞. 网络信息挖掘方法的效果评价[J]. 情报理论与实践, 2011, 34(6): 97-101.
[6] 张仰森, 段宇翔, 黄改娟, 等. 社交媒体话题检测与追踪技术研究综述[J]. 中文信息学报, 2019, 33(7): 1-10+30.
[7] Cantini, R. and Marozzo, F. (2023) Topic Detection and Tracking in Social Media Platforms. In: International Conference on Pervasive-Knowledge and Collective Intelligence on Web and Social Media, Springer, 41-56.
https://doi.org/10.1007/978-3-031-31469-8_3
[8] Tran, T., Le, T. and Tran, T. (2019) A Machine Learning Approach for Hot Topic Detection in News. In: Proceedings of the 7th International Conference on FICTA, Springer, 179-188.
https://doi.org/10.1007/978-981-32-9186-7_20
[9] Mamo, N., Azzopardi, J. and Layfield, C. (2021) An Automatic Participant Detection Framework for Event Tracking on Twitter. Algorithms, 14, Article No. 92.
https://doi.org/10.3390/a14030092
[10] Kuttschreuter, M., Rutsaert, P., Hilverda, F., Regan, Á., Barnett, J. and Verbeke, W. (2014) Seeking Information about Food-Related Risks: The Contribution of Social Media. Food Quality and Preference, 37, 10-18.
https://doi.org/10.1016/j.foodqual.2014.04.006
[11] Wang, S., Liang, M.Y., Gao, T. and Du, J.P. (2010) Realization of Product Quality and Food Security Internet Public Opinion Supervision System. 2010 8th World Congress on Intelligent Control and Automation, Jinan, 7-9 July 2010, 2735-2740.
https://doi.org/10.1109/wcica.2010.5554839
[12] Li, C. and Li, L. (2016). Study on the Monitoring and Intervention of Network Public Opinions of Food Safety. In: Proceedings of the 2nd International Conference on Electronics, Network and Computer Engineering (ICENCE 2016), Atlantis Press, 955-958.
https://doi.org/10.2991/icence-16.2016.178
[13] Li, S., Xu, Y., He, Y., Geng, Z., Jiang, Z. and Zhu, Q. (2017) Research on Public Opinion Warning Based on Analytic Hierarchy Process Integrated Back Propagation Neural Network. 2017 Chinese Automation Congress (CAC), Jinan, 20-22 October 2017, 2440-2445.
https://doi.org/10.1109/cac.2017.8243185
[14] Zheng, C., Song, Y. and Ma, Y. (2020) Public Opinion Prediction Model of Food Safety Events Network Based on BP Neural Network. IOP Conference Series: Materials Science and Engineering, 719, Article ID: 012078.
https://doi.org/10.1088/1757-899x/719/1/012078
[15] Zhang, D., Zhang, T., Liu, S., Sun, D., Ding, S., Cheng, X., et al. (2020) SARS2020: An Integrated Platform for Identification of Novel Coronavirus by a Consensus Sequence-Function Model. Bioinformatics, 37, 1182-1183.
https://doi.org/10.1093/bioinformatics/btaa767
[16] 杨维东, 董小玉. 基于多水平模型的教育舆情决策支持系统设计[J]. 教育研究, 2020, 41(8): 133-141.
[17] 傅丽芳, 裴城妍, 郭永瑞. 农产品安全网络舆情演化分析与导控策略[J]. 科学技术与工程, 2020, 20(7): 2801-2809.
[18] Li, H., Luo, J., Li, H., Han, S., Fang, S., Li, L., et al. (2022) Consumer Cognition Analysis of Food Additives Based on Internet Public Opinion in China. Foods, 11, Article No. 2070.
https://doi.org/10.3390/foods11142070
[19] 李双, 张才明. 大数据时代的职工舆情监测分析——以网络大数据监测分析系统的构建与应用为中心[J]. 新视野, 2020(3): 94-100.
[20] Pande, S. and Chetty, M.S.R. (2018) Analysis of Capsule Network (Capsnet) Architectures and Applications. Journal of Advanced Research in Dynamical and Control Systems, 10, 2765-2771.
[21] 陈洁, 王思雨, 赵姝, 等. 基于多粒度用户偏好的文档级情感分析[J]. 中文信息学报, 2023, 37(7): 122-130.