1. 引言
随着政府的大力扶持,我国互联网逐渐普及,网民数量快速增长。根据中国互联网信息中心官方数据显示,截至2022年12月,我国的网民规模达到了10.67亿,互联网普及率高达75.6%。从2010年-2022年我国网民规模和互联网普及率迅速发展,2022年的网民规模和互联网普及率是2010年的两倍以上。这都为研究投资者主观情绪提供了条件。越来越多的个人投资者会在股评类平台上浏览帖子或自己发布帖子,帖子内容大多是投资者对股票的主观情绪,这些主观性情绪无形中又影响了投资者的投资决策。股吧、股票论坛等已经成为当前投资者获得股票资讯、发表股票看法必不可少的渠道,同时也是学者获取投资者网络情绪的有效平台。由于互联网上存在大量的互联网用户,其情绪在股市中的作用日益重要。因此,需要从投资者网络情感角度分析其对股票收益率的影响。
2. 文献综述
我国与投资者情绪有关的研究虽然起步晚,但是发展迅速,目前已有的关于投资者情绪的理论研究大概可以分为三种:一种是直接投资者情绪指数,一种是间接直接投资者情绪指数,还有一种是投资者的文本情绪指数。在建立投资者的直接情绪指数时,程坤和刘仁和(2005) [1] 认为以好淡指数为代表情绪指数可以反映出股票市场的“牛熊”状态,并对投资者情绪的“短”、“中”指数与股票市场收益的关系进行了研究。王美今和孙建军(2004) [2] 采用央视看盘指数构建了一个投资者情绪指标,发现沪深股市投资者情绪的改变不但会对股市的收益产生明显的影响,还会对股市的波动性产生明显的反向修正作用。在构建间接的投资者情绪指标时,研究者通常采用单一的或多个间接指标综合的方法。薛斐(2005) [3] 对封闭式基金的折扣率与消费者信心指标进行了比较,实证发现消费者信心指标可以较好地测度投资者的情绪,是一个良好的代理指标。易志高与茅宁(2009) [4] 对BW指数的构建方法进行了完善,通过对指标进行主成分分析,从而得到了可以更好地测度投资者的情绪的复合指标。韩立岩和伍燕然(2007) [5] 以IPO首个交易日的股票市场指标构建投资者情绪指标,发现由于时间不同,投资者情绪对股票市场回报的作用呈现出“正向回报”和“逆向回报”两种特征。饶兰兰和涂裕荣(2016) [6] 采用六个投资者代理情绪变量构造投资者情绪指标,通过实证分析发现,牛熊市不同,投资者情绪对股市收益率的作用呈现出不对称性。在过去十年中,国内学者在投资者文本情绪指标方面也进行了不少的研究,徐维军等(2022) [7] 分别采用辞典方法和朴素贝叶斯法对东方财富网的发帖文字进行了情感分析,结果表明,使用朴素贝叶斯法构建的金融指标更有效。尹海员与杨庆松(2022) [8] 通过建立双向长时记忆神经网络,实现了对东方财富股吧中发帖人的情绪辨别与分类,并建立了有效的日度投资者情绪指数。高扬等(2022) [9] 在文本挖掘技术的基础上,采用Bi-LSTM深度学习方法,对文本数据中的情绪进行识别,构建了一个投资者情绪指标,并研究该指标是如何通过影响科创板成交量从而对股市收益率产生作用。
3. 数据来源及说明
3.1. 样本数据的选择
周度股票收益率数据来源于CSMAR数据库,构造周度网络情感因子值所需的股评数据来源于东方财富沪深300成分股股吧,时间范围为2021年7月3日~2022年7月3日。
3.2. 计算网络情感因子值
本文编写针对东方财富网股吧的爬虫程序,之后运行程序对沪深300成分股个股股吧的股评进行爬取。获取股评文本之后,对数据进行分词等预处理之后将文本分为字数不少于20的长文本和字数少于20短文本,长文本通过长短期记忆网络(LSTM)模型进行情感分类,短文本通过朴素贝叶斯(NBM)模型进行情感分类。最后统计每周股票的“negative”评论数和“positive”评论数,并以此来计算网络情感因子。本文借鉴Antweiler和Frank (2004) [10] 所提出的股市情感指标构建方法,周度的网络情感因子(NSF, Network Sentiment Factor)可以构建为:
(1)
如公式(1)所示,当某只股票的周“positive”股评数大于“negative”股评数时,网络情感因子值为正,表示当周投资者整体上对股票X的表现持有积极看法,反之则为负,表示对该股票的表现持有消极看法。
4. 实证过程及结果
4.1. 面板单位根检验
使用IPS、ADF两种检验方法对网络情感因子和股票收益率进行面板单位根检验,检验数据是否平稳。网络情感因子用NSF (Network Sentiment Factor)表示,股票收益率使用SR (Stock Return)表示,检验结果如表1所示。

Table 1. Panel unit root test results
表1. 面板单位根检验结果
注:***表示在1%的显著性水平下显著。
网络情感因子的IPS检验和ADF检验的显著性水平均为1%,股票收益率的IPS检验和ADF检验的显著性水平也均为1%,说明网络情感因子和股票收益率数据都是平稳的,可以进行格兰杰因果检验。
4.2. 格兰杰因果检验
面板数据通过单位根检验之后,将网络情感因子和股票收益率之间进行格兰杰因果关系检验,使用Stata软件的xtgcause命令对面板数据进行格兰杰因果检验,格兰杰检验提供了两个检验统计量Z-bar和Z-bar tilde和对应的P值。对于一个N足够大而T相对较小的面板数据而言,应该考虑使用Z-bar tilde统计量 [11] 。本文的面板数据N较大,而T较小,是一个短面板数据,因此使用Z-bar tilde统计量。表2为滞后两期的格兰杰因果检验结果。

Table 2. Granger causality test results
表2. 格兰杰因果检验结果
从表2中可以看出,对于原假设:NSF不是SR的格兰杰原因,Z-bar tilde统计量的为−2.2768,对应的P值为0.0228,可以在5%的显著性水平下拒绝原假设,网络情感因子是股票收益率变化的格兰杰原因,网络情感因子对股票收益率的变化具有预测作用。对于原假设:SR不是NSF的格兰杰原因,Z-bar tilde统计量的值为4.3933,统计量对应的p值为0.0000,说明在显著性水平1%的水平下拒绝原假设,股票收益率是网络情感因子变化的格兰杰原因,股票收益率对网络情感因子的变化具有预测作用。因此,网络情感因子和股票收益率之间互为因果关系。
4.3. 豪斯曼检验
通过格兰杰因果关系检验可知,网络情感因子和股票收益率互为因果关系,接下来用回归分析法进一步研究滞后一期网络情感因子与股票收益率的线性关系。
对面板数据进行处理时,一般需要通过豪斯曼检验确定对面板数据采用固定效应模型还是随机效应模型。豪斯曼检验的原假设
:随机效应模型有效,豪斯曼检验结果如表3所示。
Chi2(1) = 23.67***, Prob > chi2 = 0.0000.
由于豪斯曼检验中P值为0.0000,强烈拒绝原假设,所以应该使用固定效应模型来对面板数据进行处理。
4.4. 网络情感因子对股票收益率的影响
使用双固定效应模型对网络情感因子和股票收益率进行回归分析,结果如表4所示。

Table 4. Regression results of network sentiment factors and stock returns
表4. 网络情感因子与股票收益率回归结果
从回归结果可以看出,滞后一期的网络情感因子和当期网络情感因子都可以预测股票收益率,两者都在1%的水平下显著。
通过一元线性回归模型得出,滞后一期的网络情感因子和股票收益率的方程系数为负值,滞后一期的网络情感因子负向影响股票收益率,当滞后一期的网络情感因子增加一个单位,股票收益率就会减少0.5306%,方程的P值为0.0002,说明方程整体是显著的。滞后一期的网络情感因子和股票收益率显著相关。
通过一元线性回归模型得出,当期网络情感因子和股票收益率的方程系数为正值,也就是说当期的网络情感因子对于个股收益率正向影响,当期的网络情感因子增加一个单位,股票收益率会增加7.0868%,方程的P值为0.0000,说明方程整体是显著的。即当期网络情感因子对于当期的股票收益率是有显著相关性的。
网络情感因子和当期股票收益率正相关,而和下期股票收益率负相关。本文认为,当期网络情感因子情感倾向在短期内导致股票收益率显著同向变化,可以正向预测当期股票收益率。而等到下期,市场对于网络情感因子的过度反应将反转,市场修正价格回归。网络情感因子就和下一期的股票收益率负相关,可以反向预测股票的收益情况。
5. 结语与建议
随着互联网的普及,网络已经成为了许多投资者交流信息的重要渠道。通过网络平台,投资者不仅能够分享自己的投资观点,还能从他人的投资经验中获益。因此,必须重视网络平台上的投资者情绪,并将其作为一个重要的指标与股票收益率进行检验。本文利用东方财富网沪深300成分股吧的股评数据构建网络情感因子指标,并利用回归模型实证网络情感因子显著影响股票收益率。
证券市场近年来飞速发展,可于此相对应的是证券市场制度的不完善,投资者投资决策的不理性。我国股票市场还没有完全符合有效市场的假设条件,因此本文构建了能体现投资者行为的行为金融学因子,即网络情感因子,并实证网络情感因子显著影响股票收益率具有重要意义。首先,对于投资者来说,网络情感因子能够提高投资者对于证券市场的认知和分析能力,同时也可以将网络情感因子作为一个有效的市场指标帮助投资者构建投资组合,做出更加理智的投资决定。其次,对于监管者来说,网络情感因子可以让证券监管机构更加了解投资者情绪,明确投资者投资行为的理性程度,同时警惕投资者主观情绪对于股票价格涨跌的影响。有利于监管机构更好的监管证券市场,减少证券市场情绪性风险的产生。
参考文献