基于深度学习和多模态特征融合的情感分类方法
A Deep Learning-Based Multimodal Feature Fusion Approach for Sentiment Classification
DOI: 10.12677/ssem.2026.151002, PDF, HTML, XML,   
作者: 高泽灿:同济大学经济与管理学院,上海
关键词: 多模态深度学习情感分析Multimodal Deep Learning Sentiment Analysis
摘要: 本研究提出了一种面向股票评论情感分析的多模态深度学习模型TMV-FinSent,通过协同建模文本、图像和数值三类异质特征,实现对投资者情感倾向与市场情绪强度的精准识别。模型采用预训练基座网络和混合专家网络,有效提升了情感分析的精度和泛化能力。实验结果表明,TMV-FinSent在准确率、召回率和F1分数等指标上显著优于传统基准模型,证明了多模态融合在情感识别中的有效性。该模型为金融情绪分析提供了新的技术路径,具备良好的扩展性和应用前景,能应用于智能投研和舆情风险监测等领域。
Abstract: This study proposes TMV-FinSent, a multimodal deep learning model for sentiment analysis of stock-related comments, which achieves accurate identification of investor sentiment polarity and market emotion intensity by jointly modeling heterogeneous features from text, images, and numerical data. The model leverages pretrained foundation models and a mixture-of-experts architecture, significantly enhancing the accuracy and generalization capability of sentiment analysis. Experimental results demonstrate that TMV-FinSent substantially outperforms traditional baseline models in terms of accuracy, recall, and F1-score, validating the effectiveness of multimodal fusion in sentiment recognition. The proposed model offers a novel technical approach for financial sentiment analysis, exhibiting strong extensibility and promising applications in areas such as intelligent investment research and public opinion risk monitoring.
文章引用:高泽灿. 基于深度学习和多模态特征融合的情感分类方法[J]. 服务科学和管理, 2026, 15(1): 8-16. https://doi.org/10.12677/ssem.2026.151002

1. 引言

随着互联网金融与社交媒体的深度融合,网络股票评论已成为金融市场信息传播的重要渠道。评论中蕴含的投资者情绪与市场预期对资产价格波动与投资行为具有显著影响。准确识别评论情感有助于揭示市场情绪演化规律,为投资决策与风险防控提供重要参考。

传统情感分析方法多依赖文本特征,通过情感词典或机器学习模型进行建模,难以捕捉评论中复杂的语义结构与潜在情绪信息。近年来,预训练语言模型的兴起显著提升了文本情感识别性能,但股票评论常同时包含文本、图像及技术指标等多模态信息,单一模态方法无法充分利用这些互补信号,难以应对金融语境下的隐晦表达与情绪异质性。

随着多模态学习技术的发展,融合文本、图像与数值信息的深度建模成为情感分析的新方向。然而,在股票评论场景中,如何实现异构信息的有效融合与语义对齐仍是亟待突破的难题。基于此,本研究提出一种融合文本、视觉与数值三模态信息的深度学习情感分析框架,旨在从多维度刻画投资者情绪特征,提升市场情绪识别的准确性与鲁棒性,为金融智能分析提供新的研究范式。

2. 文献综述

2.1. 结合多模态的深度学习方法

多模态深度学习作为融合异构数据的前沿技术,在复杂任务中展现出强大的建模能力。近年来,深度学习模型在融合异构网络产生的大规模多模态数据方面取得了突破性进展,涵盖了基于卷积神经网络(Convolutional Neural Networks, CNN)和循环神经网络(Recurrent Neural Networks, RNN)等多种代表性架构[1]。深度融合策略通过在特征提取阶段早期捕获跨模态交互关系,能够有效建模视觉感知与语言语义之间的复杂依赖,这对于需要深层次语义理解的任务具有重要意义。

在模型架构设计方面,专家混合(Mixture of Experts, MoE)模型为多模态数据融合提供了高效的解决方案。与传统深度学习模型对所有输入重用相同参数不同,MoE模型采用稀疏激活机制,为每个输入样本动态选择不同的参数子集,从而在保持参数规模的同时维持恒定的计算成本。Switch Transformer通过简化MoE路由算法并优化通信与计算开销,实现了相比基准模型高达7倍的预训练加速[2]。本研究借鉴MoE的门控机制,构建了四专家网络架构,对融合后的多模态特征进行自适应选择与加权聚合,实现了动态且灵活的特征融合策略。

视觉特征的多尺度表征是充分捕获图像信息的关键要素。特征金字塔网络(Feature Pyramid Networks, FPN)充分利用深度卷积网络固有的多尺度层次结构,通过设计自顶向下的特征传播路径与横向连接机制,在各个尺度上构建富含高层语义的特征图[3]。本研究将FPN架构引入视觉模态编码模块,采用三种不同感受野的卷积核并行提取多尺度特征,并通过特征融合机制整合不同粒度的视觉信息,增强了模型对股票评论图像中多层次语义信息的捕获能力。

综上所述,本研究构建的多模态融合框架系统性地集成了专家混合架构与多尺度特征提取等前沿技术。通过文本–视觉–数值三模态的深层交互、多头跨模态注意力机制以及Transformer编码器,该框架能够充分挖掘异构数据间的互补性与协同性,为股票评论情感分析这一复杂任务提供了具有强泛化能力和可扩展性的技术方案。

2.2. 基于深度学习的股票情绪指数构建方法

近年来,深度学习技术在金融文本挖掘领域的应用日益深入。相关研究从情绪识别模型构建、网络结构设计、情绪量化处理以及性能评估等多个维度展开了系统性探索。

在情绪识别模型方面,领域适应性预训练语言模型成为提升金融文本情绪分析性能的关键技术路径。刘壮等提出的F-BERT模型基于多任务学习框架在金融领域语料上进行预训练,显著增强了模型对财经文本语义与情绪倾向的识别能力[4]。Huang等开发的FinBERT模型专门针对金融任务场景设计,在情绪分析与文本分类任务中展现出优越的领域适应性[5]。朱赫等基于BERT架构构建了融合双向Transformer结构的中文金融情绪分析模型,进一步提升了模型对复杂语义结构的理解能力[6]

在深度学习架构设计方面,多层级神经网络与注意力机制的融合成为研究热点。Chauhan等提出的SenT-In模型整合了CNN与GRU结构,通过情感注意力机制有效融合情绪特征与股市时序数据,提升了市场预测的准确性[7]。Correia等采用多头注意力机制与深度神经网络相结合的框架,该方法在长文本情绪特征提取方面表现出显著优势,尤其适用于金融场景下的大规模实时分析任务[8]

在情绪指标的量化建模方面,加权策略与多源信息融合成为提升情绪指数代表性的重要手段。Gu等构建的FinBERT-LSTM框架整合了情绪分类结果与股价历史数据,并通过引入阅读量、回复量等参与度因子设计加权方案,实现了情绪得分的精细化处理[9]。Koratamaddi等将数字平台上的投资者行为变量纳入建模体系,结合强化学习方法探讨情绪波动对资产配置决策的影响机制,展示了加权策略在投资决策建模中的应用价值[10]

针对中文金融文本分析任务,多项研究开发了适配中文语境的情绪分析模型。张典等提出的BVANet模型融合BERT情绪特征与市场数据,构建了金融时间序列的向量自回归模型,有效提升了市场走势预测效果[11]。Ko等构建的BERT-LSTM模型在中文金融情绪分析任务中的表现优于传统方法,显示出较强的实证适应性与预测能力[12]

综上所述,基于预训练语言模型的情绪识别方法已在金融文本处理任务中得到充分验证。融合注意力机制、深度网络结构与加权策略的情绪指数构建方法在预测精度与应用可扩展性方面均展现出良好潜力。现有研究为金融情绪建模提供了坚实的理论基础与技术支撑。

3. 研究方法与研究设计

3.1. 研究框架

本研究构建了一个融合文本–视觉–数值三模态信息的深度学习情感分类预测框架,旨在实现对股票评论情绪的精准识别与量化分析。该框架采用端到端的神经网络架构,系统性地整合异构数据源的互补信息,为金融市场情绪建模提供技术支撑。整体研究体系由四个核心模块构成:数据预处理模块负责多源数据的清洗、标注与格式统一;多模态特征提取模块分别对文本语义、视觉内容和数值指标进行深层表征学习;跨模态融合模块通过注意力机制与专家混合架构实现异构特征的自适应整合;分类预测模块基于融合后的多模态表征完成情绪极性判别与置信度估计。

3.1.1. 数值型指标

数值型指标作为股票评论多模态特征体系的重要组成部分,从量化层面刻画了市场行为特征与交易动态。考虑到投资者情绪与市场量价特征之间的双向作用机制,本研究依据行为金融理论与相关实证研究,构建了涵盖价格波动、交易活跃度与动量特征三维度的指标体系(见表1)。

在价格波动维度,选取评论发布前5个交易日的收盘价与涨跌幅序列,前者反映短期价格演变轨迹,后者以标准化相对变化率度量波动强度,为情感分析提供市场背景信息。

在交易活跃度维度,以同期成交量刻画市场参与度与资金流动性,其时序变化可揭示投资者关注度及信息不对称程度,与评论情绪信号存在潜在交互效应。

在动量特征维度,通过计算特定窗口内价格变动的累积值表征趋势方向与持续性。动量效应体现了情绪驱动下价格的自我强化机制,为探究评论情感与市场走势的动态耦合提供了理论与量化支撑。

Table 1. Numerical indicator system

1. 数值型指标体系

指标类别

指标名称

指标定义

反映维度

价格波动

前5日收盘价

评论发布前5个交易日的每日收盘价格序列

价格走势

前5日涨跌幅

评论发布前5个交易日的每日涨跌幅序列

价格波动率

交易活跃度

前5日成交量

评论发布前5个交易日的每日成交量序列

市场流动性

动量特征

动量指标

基于前N日价格变化计算的动量值

趋势强度

3.1.2. 文本特征

(1) 文本信息构建

本研究在现有研究的基础上,将“评论标题 + 评论正文 + 用户标签”的形式拼接作为股票评论的文本信息。评论标题能够直观反映投资者关注的核心议题和情感倾向,评论正文则对股票的基本面分析、技术面判断、市场预期以及投资建议进行详细阐述,两者共同构成了评论情感信息的核心表达。用户标签作为评论发布者的身份特征,对评论的可信度和影响力具有重要作用。

(2) 特征提取方法

文本特征提取的目的是实现对每一条评论文本的向量化表征。本研究采用FinBERT预训练语言模型进行文本特征提取。该模型基于Transformer架构并在大规模金融文本语料上进行领域自适应预训练,相较于通用语言模型,能够更精准地捕捉金融领域特有的术语语义、情感表达和上下文依赖关系。考虑到股票评论文本的专业性和长度特点,本研究将模型的最大序列长度设置为512个标记,以充分容纳拼接后的评论文本信息。

在特征提取过程中,FinBERT模型首先对输入文本进行分词与子词编码处理,并通过多层双向Transformer编码器生成隐藏状态序列。为了从序列化的特征表示中获取固定维度的文本向量,本研究引入自注意力池化层对隐藏状态序列进行加权聚合。该池化机制通过学习注意力权重,能够自适应地关注文本中的情感关键词、观点表达、市场判断等核心信息片段,从而提升特征表示的情感判别能力。聚合后的特征向量随后经过线性投影层、层归一化以及GELU激活函数处理,最终映射至512维的统一特征空间,为后续的多模态特征融合奠定基础

3.1.3. 图像特征

股票评论中常包含投资者上传的多样化图像信息,如持仓截图等,这些图像能够直观呈现投资者的持仓状态、关注焦点及信息来源,为理解评论情感提供重要的视觉语境。本研究采用评论配图作为图像信息源,使用Vision Transformer (ViT) Base模型进行特征提取。该模型将图像分割为固定大小的图像块序列,通过多层Transformer编码器进行特征提取,其基于自注意力机制的全局建模方式相比传统卷积神经网络能更有效地捕捉图像中不同区域的长距离依赖关系,对评论配图中的文字信息、数值数据、图表形态等异构视觉元素具有更强的统一表征能力。

提取的视觉特征通过自注意力池化层进行加权聚合,聚合后的特征向量最终映射至512维特征空间,与文本特征维度保持一致。为提升训练效率并防止过拟合,本研究采用迁移学习策略,冻结Vision Transformer预训练模型的底层参数,仅微调顶层特征提取层与投影层,在保留通用视觉表征能力的同时适应金融图像的领域特定特征,为后续多模态融合奠定基础。

3.2. TMV-FinSent模型架构

Figure 1. Text-visual financial sentiment analysis model

1. 文本–视觉金融情感分析模型

本研究提出一种面向股票评论情感分析的多模态深度学习架构TMV-FinSent (Text-Multimodal-Visual Financial Sentiment Analysis Model),通过协同建模文本、图像与数值三类异质特征实现对投资者情感倾向与市场情绪强度的精准识别。模型采用预训练基座网络分别提取各模态语义表征,通过层次化融合框架建立跨模态语义对齐,模型架构如图1所示。

针对股票评论数据的异质性与情感表达的多样性特征,模型引入混合专家(MoE)网络实现样本自适应动态融合。门控路由器根据输入特征的情感线索、市场背景与视觉语境激活特定专家组合,通过负载均衡损失防止专家探索,有效提升模型容量利用率与对不同情感模式的泛化能力。训练阶段采用多策略优化框架提升模型的分类性能与泛化能力。模型引入梯度累积技术以模拟大批量训练效果,在有限显存条件下实现稳定的参数更新;采用学习率预热(Warm-up)与余弦退火调度策略,前期小学习率缓解初始阶段的训练不稳定性,后期逐步衰减学习率以精细化参数调优。针对多模态数据不平衡问题,模型对不同模态特征应用Dropout正则化,通过随机失活神经元防止过拟合并增强特征表征的鲁棒性。此外,模型采用早停(Early Stopping)机制监控验证集性能,当连续多个epoch未出现性能提升时自动终止训练,避免过度拟合训练数据。

为增强训练稳定性,模型采用指数移动平均(EMA)技术对参数进行平滑,评估时使用EMA模型以降低验证性能波动;数值特征预处理采用分位数裁剪抑制极端异常值(如闪崩、涨停等极端行情),再经标准化变换映射至标准空间。数值特征处理中引入批归一化层加速收敛并稳定梯度传播,同时通过数据增强策略如高斯噪声注入、时序窗口滑动等方式扩充训练样本多样性,提升模型对市场波动与数据噪声的适应能力。此外,模型构建价格动量、成交量变化率、波动率指数等多类高阶交互特征,综合增强模型对投资者情感强度、市场情绪传导与价格趋势关联性的表征能力。

4. 实证研究

本研究所用的编程语言为Python3.10,操作系统为Ubuntu 20.04,使用的深度学习框架为pytorch2.0.1,在NVIDIA A100 40 GB GPU上训练。文本信息的最大长度设置为512,多余部分截断,反之则补零。优化器采用AdamW,训练批次大小为4,学习率被设置为2e−5,训练轮次为10。

本研究的超参数基于以下原则确定:(1) 学习率2e−5遵循Qwen模型微调的常规设置;批次大小设为4,受限于A100 40 GB GPU显存,在启用梯度累积8步后等效批次为32;文本最大长度512覆盖了训练集中96.2%的样本(基于token统计);(2) 训练轮次设为10,结合早停策略(patience = 3)防止过拟合。

4.1. 数据获取与处理

数据来源涵盖东方财富网中关于贵州茅台等5家A股上市公司的股吧评论与相关新闻内容,并结合Wind数据库中同期的股票价格信息。采集时间范围为2023年12月31日至2024年12月31日。通过多代理爬虫技术,我们共抓取约4万条原始评论与新闻数据。

为确保评论与市场行为的紧密对应性,我们首先剔除非交易日数据,并对原始文本、图片进行清洗处理,包括:去除广告与无关内容、识别并剔除异常文本、删除重复记录等操作。清洗后共保留有效评论数据约2万条(含图片),作为后续建模的输入,训练集、测试集、验证集所用到的情感标签由人工标注。情感标签分为:正面、负面、中性。

4.2. 特征处理

本研究对清洗后的多模态数据进行系统化特征提取与预处理,构建统一的表征空间。特征处理流程包括文本特征编码、图像特征提取与数值特征工程三个核心环节。

4.2.1. 文本特征编码

采用FinBERT预训练语言模型对评论内容进行语义编码。将评论标题、正文与用户标签按照“[CLS] + 标题 + [SEP] + 正文 + [SEP] + 用户标签”的格式拼接,设置最大序列长度为512。输入序列经过12层双向Transformer编码器生成隐藏状态序列,通过自注意力池化层对词元表示进行加权聚合,自适应关注情感关键词与观点表达等核心语义单元,最终经线性投影与分层归一化处理,输出512维文本特征向量。

4.2.2. 图像特征提取

采用Vision Transformer (ViT) Base模型对评论配图进行编码。输入图像统一调整至224 × 224分辨率并标准化,分割为196个16 × 16的图像块后输入至12层Transformer编码器。通过自注意力池化层聚合图像块表示,自适应关注持仓盈亏、价格走势等显著性区域,最终映射至512维特征空间。为提升训练效率,冻结ViT前10层参数,仅微调后2层及投影层。

4.2.3. 数值特征工程

基于评论发布前5个交易日的市场数据,提取收盘价、涨跌幅、成交量及动量指标等16个原始特征。经全连接层与批归一化层处理后映射至512维特征空间。

经过上述处理,每条评论样本被表征为三个512维的特征向量,构成模型输入的多模态特征集合。

4.3. 模型评估

为验证TMV-FinSent模型的有效性,本研究选取支持向量机(SVM)、随机森林(Random Forest)、XGBoost、长短期记忆网络(LSTM)和BERT等传统机器学习与深度学习模型作为基准进行对比实验。其中lstm模型与bert模型使用文本 + 数值特征,其他模型主要使用数值特征。表2展示了各模型在验证集上的性能表现。

Table 2. Performance comparison of different models

2. 不同模型性能对比

模型

准确率

精确率

召回率

F1分数

SVM

0.62

0.59

0.58

0.58

Random Forest

0.65

0.63

0.61

0.62

XGBoost

0.68

0.66

0.64

0.65

LSTM

0.71

0.69

0.72

0.70

BERT

0.74

0.72

0.76

0.74

TMV-FinSent

0.82

0.87

0.93

0.87

表2可以看出,传统机器学习模型(SVM, Random Forest, XGBoost)由于信息利用少,性能表现相对较弱,F1分数均小于0.70。基于深度学习的LSTM模型通过时序建模能力提升了情感识别效果,但仍有局限。BERT模型借助预训练语言模型的语义理解能力,在各项指标上优于传统方法,但未能充分利用评论配图信息。

相比之下,本研究提出的TMV-FinSent模型通过融合文本、视觉与数值三模态信息,并引入跨模态注意力交互机制、混合专家门控融合策略以及多策略优化框架,在准确率(0.79)、F1分数(0.78)和召回率(0.86)等关键指标上均显著优于基准模型。特别是在召回率方面的突出表现,表明模型对强烈情感信号具有更强的捕获能力,能够有效降低情感极性漏判风险。实验结果验证了多模态融合架构在股票评论情感分析任务中的有效性与优越性。

5. 结论

本研究围绕股票评论情感识别与市场情绪建模问题,提出并验证了一种融合文本、视觉与数值三模态信息的深度学习框架。研究通过多源异构数据的协同建模,实现了投资者情绪的量化分析与市场行为的情感映射,为多模态情绪分析在金融领域的应用提供了技术路径与实证探索。

(1) 多模态情感分析框架的构建

本研究构建了融合文本、视觉与数值信息的深度学习模型——TMV-FinSent,实现了对股票评论情感的多维度建模与识别。模型以FinBERT、ViT与数值特征工程为基础,结合跨模态注意力机制与混合专家网络,实现了异构特征的语义对齐与自适应融合,为金融情绪识别提供了系统化的模型框架。

(2) 多模态融合有效性的实验验证

实证结果显示,TMV-FinSent在准确率、召回率及F1分数等主要指标上均优于SVM、Random Forest、XGBoost、LSTM与BERT等基准模型,表明多模态融合策略在提升情感识别性能方面具有一定的有效性。模型在捕捉强烈情感信号、降低情绪极性漏判风险等方面表现较好,验证了跨模态交互机制的合理性。

(3) 研究价值与应用潜力

本研究为金融市场情绪建模提供了新的方法探索,也为理解投资者情绪与市场动态的交互机制提供了量化分析工具。TMV-FinSent模型可应用于投资者情绪监测、舆情风险预警及金融文本分析等场景。

(4) 局限性与未来工作

本研究存在以下局限性:首先,实验仅基于从东方财富中爬取的数据集,模型在更大规模数据集和不同市场环境中的表现有待进一步验证,其次模型的可解释性尚需深化研究,以增强其在金融实践中的可信度。

未来研究可从以下方向展开:一是在多市场、多语种及高频金融文本环境中验证模型的适应性与稳健性;二是引入统计检验方法,更严谨地评估模型性能;三是强化模型可解释性分析,揭示跨模态特征融合的内在机制;四是探索模型在长时间序列预测和动态市场环境中的应用效果,以推动多模态情绪分析在金融决策支持中的实际应用。

参考文献

[1] Gao, J., Li, P., Chen, Z. and Zhang, J. (2020) A Survey on Deep Learning for Multimodal Data Fusion. Neural Computation, 32, 829-864. [Google Scholar] [CrossRef] [PubMed]
[2] Fedus, W., Zoph, B. and Shazeer, N. (2022) Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. Journal of Machine Learning Research, 23, 1-39.
[3] Lin, T.Y., Dollár, P., Girshick, R., He, K., Hariharan, B. and Belongie, S. (2017) Feature Pyramid Networks for Object Detection. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, 21-26 July 2017, 936-944. [Google Scholar] [CrossRef
[4] 刘壮, 刘畅, 赵军, 等. 用于金融文本挖掘的多任务学习预训练金融语言模型[J]. 计算机研究与发展, 2021, 58(8): 1761-1772.
[5] Huang, A.H., Wang, H. and Yang, Y. (2023) FinBERT: A Large Language Model for Extracting Information from Financial Text. Contemporary Accounting Research, 40, 806-841. [Google Scholar] [CrossRef
[6] 朱赫, 陆晓丰, 薛雷. 基于BERT的金融文本情感分析模型[J]. 上海大学学报(自然科学版), 2023, 29(1): 118-128.
[7] Chauhan, J.K., Ahmed, T. and Sinha, A. (2025) A Novel Deep Learning Model for Stock Market Prediction Using a Sentiment Analysis System from Authoritative Financial Website’s Data. Connection Science, 37, 1-23.
[8] Correia, F., Madureira, A.M. and Bernardino, J. (2022) Deep Neural Networks Applied to Stock Market Sentiment Analysis. Sensors, 22, Article 4409. [Google Scholar] [CrossRef] [PubMed]
[9] Gu, W., Zhong, Y., Li, S., Wei, C., Dong, L., Wang, Z. and Yan, C. (2024) Predicting Stock Prices with FinBERT-LSTM: Integrating News Sentiment Analysis. Proceedings of the 2024 8th International Conference on Cloud and Big Data Computing, Oxford, 15-17 August 2024, 67-72.
[10] Koratamaddi, P., Wadhwani, K., Gupta, M. and Sanjeevi, S.G. (2021) Market Sentiment-Aware Deep Reinforcement Learning Approach for Stock Portfolio Allocation. Engineering Science and Technology, an International Journal, 24, 848-859. [Google Scholar] [CrossRef
[11] 张典, 王洁宁, 李昭颖, 等. 基于BVANet的财经新闻情感分析[J]. 电子科技大学学报, 2023, 52(2): 263-270.
[12] Ko, C.R. and Chang, H.T. (2021) LSTM-Based Sentiment Analysis for Stock Price Forecast. PeerJ Computer Science, 7, e408. [Google Scholar] [CrossRef] [PubMed]