1. 引言
传统金融学理论假设市场是有效的,投资者是理性人,但市场上存在很多传统金融学理论无法解释的金融异象,比如严重偏离基本面的股市暴涨暴跌、投资组合分散化不足等,因此学者们开始寻求理论上的突破,在这种背景下产生了行为金融理论。行为金融理论对传统金融理论所作的假设进行反思并试图从“人”的角度来解释市场行为,充分考虑了投资者的心理等因素。现有研究结果表明股票的价格会受到投资主体行为的影响,情绪作为影响投资者心理活动进而影响其行为的一种因素逐渐成为该领域重要的研究问题。
学者们放松了理性人的假设,从投资者的认知偏差、投资者情绪和投资动机等方面展开研究,经典的研究成果有Kahneman和Tversky (1979) [1] 提出的“展望理论”,Bell (1982) [2] 、Loomes和Sugden (1982) [3] 分别独立提出的“后悔理论”等,这些理论用投资者的非理性行为解释金融异象的来源。此外,De Long等(1990) [4] 提出了噪音交易模型(DSSW),Barberis和Shleifer等(1998) [5] 提出了投资者心态模型(BSV)等,都充分证明了情绪影响股价。中国A股市场经过三十多年的发展,总市值己位居世界第二,但我国投资者仍以中小投资者为主,持股市值在50万以下的中小投资者占比高达97% [6] 。中小投资者相比机构投资者专业知识更少,其投资决策极易受到自身情绪的影响。
2. 基于朴素贝叶斯算法的投资者情绪量化
2.1. 样本选取与数据来源
本文选择沪深300成分股中300家上市公司作为样本,考虑到股吧发帖量、数据可获得性,样本区间选取为2022年1月1日至2022年6月30日,观测值频率为日度数据。为保证数据完整性和连续性,剔除以下样本:1) 个股讨论帖子数目少于10个,无法满足挖掘需要的个股;2) 剔除金融类公司;3) 剔除ST和*ST的公司。最终获得约24万个日度观测值。
经过对多个股票论坛的比较,选择东方财富网的股吧论坛发帖作为文本挖掘的来源,可以保证足够的样本容量,且相较其他论坛有更长的历史追溯性。
2.2. 投资者情绪提取与度量
朴素贝叶斯是基于贝叶斯定理的分类算法,它假设“特征”之间是相互独立的,这也是“朴素”说法的由来,是由训练数据学习得到联合概率分布P(X,Y),最后求出后验概率分布P(Y|X)的一种预测模型,基本原理如下:
1) 假设待分类文本
,其中n是特征维数,也即待分类文本可以划分成n个特征,最终用特征向量来表示待分类文本;
2) 样本数据中共有m个不同的标签,假设标签集合可表示为
;
3) 根据训练数据学习计算先验概率
,也即计算每个标签的概率,其中Ni是训练数据集中属于标签li的样本数量,N是训练数据集中的样本总数;
4) 计算条件概率
。由于朴素贝叶斯假定各特征之间相互独立,有:
朴素贝叶斯分类算法就是通过训练数据学习得到先验概率和条件概率,从而计算出联合概率分布,最终求出待分类文本d属于各个标签li的概率值
,比较这些概率值,最大概率对应的标签就是待分类文本d的标签,公式如下:
5) 综上,朴素贝叶斯分类模型可以表示为:
2.3. 投资者情绪度量
本文选取东方财富网中个股股吧的实时发帖内容。
1) 首先,借助Python爬取了约24万条文本内容,每条文本内容都包含股票代码、发帖人、发帖时间、评论内容、点击数和阅读数等标签。
2) 其次,运用Excel和Python对文本进行数据预处理,剔除无效发帖、重复发帖、空缺行、外部链接、杂乱符号等,初步获得待处理文本。再次,运用Python中的Jieba分词对待处理文本进行分词,同时去除停用词(如“的”,“了”,“是”等),见表1。
3) 最后,由于分词之后的文本还是非结构化文本信息,使用TF-IDF和卡方统计(chi-square)筛选出
排名靠前的前K个特征来表示待分类文本,以1000个数据做例子,前k个特征值,设置k为10,将每一条待分类文本转化为向量形式供计算机学习。
4) 为分析每条文本包含的情绪倾向,利用Python编写基于朴素贝叶斯的情感分类模型。首先需要准备训练数据集,人工将帖子分为“乐观”、“悲观”和“中性”三类,最终得到各类样本数量如下:乐观2313条,悲观3069条,中性2618条。接着用训练数据集基于Python中的Sklearn库中自带的Naïve.bayes来训练模型。
为了测试模型准确率,随机挑选100帖子,用训练好的模型预测其所属标签,然后将模型预测的结果和人工标注结果进行比对,测得模型准确率为82%。最后,用训练好的模型预测所有文本的情绪倾向,基于当日得到的乐观/悲观帖子数构建日度投资者情绪:
上式中,post代表第t日的乐观帖子数;negt代表第t日的悲观帖子数。
3. 投资者情绪影响股票收益率的回归分析
3.1. 变量选取
本文选取沪深300指数成分股内300家企业2022年半年报披露的数据为样本,同时筛选处理:

Table 2. Variable selection and their explanations
表2. 变量选取及其解释
1) 剔除样本期间ST、*ST和PT类股票;
2) 删除了缺失数据;
3) 剔除离群值,对模型中的变量进行了1%~99%的缩尾处理。
最终形成了298家企业在2022年的截面数据,共计2086条观测值。数据来自同花顺iFinD数据库,使用的计量软件为STATA16。
表2列示了回归变量的名称、符号以及处理方法。
3.2. 模型构建
为了保证实证结果的真实准确性,根据以往学者们的研究结论,本文将公司规模、企业资本结构、企业盈利能力、换手率、每股现金流量净额等可能影响股票收益率的各种因素作为控制变量,此回归模型为:
为了统一变量量纲,对公司流通市值取对数得到Size。Return是股票i在第2022年年中的年化收益率,α0为模型截距项,Score为股票i在第2022年年中的投资者情绪,控制变量为股票i在第2022年的公司市值的对数mSize、资产负债率bLev、资产收益率oROA、股票换手率nTurnover、每股现金流量净额rCFPS,s、m、b、o、n、r分别是控制变量相应的系数。
3.3. 实证研究及结果分析
在上文模型构建与数据选取的基础上,运用多元线性回归模型进行实证研究,投资者情绪对于股票收益率的影响是否显著。
3.3.1. 相关性分析
在系统性地对各项披露的数据进行整合分析后,对所得结果进行回归性的相关性检验,对各个存在变量之间的相关性进行整体性的初步判断,另外,也需要严谨的检验在各个相关变量之间是否有多重共线关系的显性存在。

Table 3. Correlation analysis of variables
表3. 各变量的相关性分析
***p < 0.01,**p < 0.05,*p < 0.1。
(注:*、**、***分别表示数据的双尾检验在10%、5%、1%的显著性水平上显著。)
由表3可以看出,本文所构建实证模型的解释变量我国投资者情绪得分(Score)与被解释变量(Return)的相关系数为0.106,可以看出我国投资者情绪得分与股票收益率之间存在正相关关系。从相关性分析结果可以看出,本文所使用的变量的相关系数的绝对值均未超过0.75,证明变量直接没有较为突出显性的多重共线关系,模型可靠。
3.3.2. 回归分析
本文对模型进行回归分析,结果见表4。

Table 4. Regression analysis of the impact of investor sentiment on stock returns
表4. 投资者情绪影响股票收益率的回归分析
注:*、**、***分别表示在10%、5%、1%的显著性水平上显著(双尾检验);括号内为在企业层面经过聚类(cluster)调整的t检验值。
由此可知,本文的关键解释变量Score在10%的水平上显著为正,即在控制企业规模(Size)、资产负债率(Lev)、资产收益率(ROA)、股票换手率(Turnover)、每股现金流量净额(CFPS)等变量情况下,回归结果显示在10%的置信水平下我国投资者情绪得分(Score)与股票收益率(Return)正向相关。换言之,随着投资者情绪得分的提高,股票的回报率也会随之上升。
4. 主要结论
本文选取了全部沪深300成分股内上市公司2022年1月至2022年6月共6个月内披露的各个初始数据及其他可计算数据,通过朴素贝叶斯分类算法构建了投资者情绪指标(Score)。同时选取沪深300指数成分股内300家企业2022年半年报披露的数据为样本,通过线性回归模型检验投资者情绪对股票收益率的影响。根据回归结果可以看出:本文的关键解释变量Score在10%的水平上显著为正,即在控制企业规模(Size)、资产负债率(Lev)等变量情况下,回归结果显示在10%的置信水平下我国投资者情绪得分(Score)与股票收益率(Return)正向相关。换言之,随着投资者情绪得分的提高,股票的回报率也会随之上升,投资者情绪的变化在一定的程度上会对股票市场的投资收益产生影响。
5. 相关建议
中国金融证券市场主要由个人投资者推动,专业机构投资者参与有限。然而,由于缺乏专业经验,对市场了解不足,散户投资者往往容易跟风,做出冲动的决定,尤其是在市场大幅下跌时。投资者情绪激化,导致极度恐惧和负面情绪。这种极度恐惧会进一步加剧负面情绪。因此,作为个人投资者,关键是要不断加强专业知识学习,了解投资价值,摒弃投机观念,建立健全投资风险机制,提高风险意识,更好地控制自己的情绪,以多元化的投资心态,规避风险,从而减少市场波动,提高投资收益。
中国资本市场中的专业机构投资者只占金融市场的约3%。然而,与散户相比,机构投资者具有更大的优势,这是由于在资产配置方面,他们大多运用大数据、量化投资等技术,往往优先考虑长期投资,注重对企业的基本面分析,并利用金融衍生品对冲极端风险。这种谨慎理性的投资策略将对中国股市产生积极影响。因此,政府应营造更加良好的投资环境,降低金融市场的准入门槛,鼓励机构投资者的创新与发展,提高其市场占有率。机构投资者应规范投资标准,主动增强金融市场责任感,积极提高市场参与度。