1. 引言
证券投资是金融研究领域的热门话题,如何选择证券是投资决策的关键。尽管投资者的盲目任意性和股票市场中的严重非线性给股票的预测与选择带来了很大的困难,事实表明,股票收益在一定程度上还是可以预测的 [1] 。有不少人尝试关于数据挖掘技术比如决策树 [2] [3] [4] 、分类器 [5] [6] [7] 及神经网络 [8] [9] [10] [11] 等选股的研究。
钱颖能和胡运发 [5] 使用2002年至2004年上海证券交易所的中报和年报的财务信息,利用朴素贝叶斯分类法对由超越市场指数而得到额外汇报的股票进行选择,结果表明朴素贝叶斯分类法在股票选择方面很有效;左辉和楼新远 [6] 使用证券分析师推荐的股票数据并从中选取2007年1月8日到2007年10月29日的数据,用“事件研究”方法分析其总体特征,寻找符合特征的股票以求得到超额回报,然后用朴素贝叶斯分类法选股。结果表明朴素贝叶斯分类法在股票的短线操作上有实用价值。骆桦和张喜梅 [7] 对沪深证券市场的能源股通过聚类分析选出对股票投资价值影响显著的财务指标构造样本特征集,再合理选取贝叶斯分类器的参数对股票分类。结果产生了44.6%累计回报率,优于32.4%的基准回报率。结果表明朴素贝叶斯分类法选股有较好的效果。如果利用不同的方法从较多的特征中筛选出有价值的特征,或许会得到更好的效果。
本文提出了基于一种新的特征选择方法的朴素贝叶斯证券分类模型,并且对深交所50家公司2011年的交易数据利用该模型分类,实证分析表明模型的平均正确率达到75%,具有应用价值。
2. 预备知识
2.1. 特征选择
数据集中包含大量的特征,特征维度越高,计算越复杂,且其中包含的不相关特征和冗余特征会影响分类精度。特征选择可以定义为从原始N个特征中选出M个有价值特征的过程。特征选择方法可分为过滤式 [12] 、封装式 [13] 和混合式 [14] 方法。过滤式方法独立于分类算法评估选取的特征的质量,封装式方法需要用分类器来评估这种质量,混合式方法是前两种方法的结合。
2.2. 互信息
互信息是信息论里一种描述变量间相关性的信息度量。互信息的大小表示变量间包含共同信息的多少,变量耦合越强,互信息越大 [15] 。互信息对变量的分布类型没有要求,能够描述变量间的线性及非线性相关关系,故在变量选择中得到了广泛应用 [16] [17] 。
设两个离散随机变量X和Y,
是X和Y的联合概率分布函数,
和
分别是X和Y的边缘概率分布函数,根据互信息理论 [18] ,随机变量X的熵
表示随机变量X的不确定度,可以定义为:
(1)
条件熵
表示在Y已知的条件下X的不确定度,可以定义为:
(2)
互信息表示不确定度的减少量,可以用熵定义为:
(3)
当X和Y相互独立即没有相关关系时,互信息为0;当X和Y不相互独立即有相关关系时,互信息为正数,且相关性越强,互信息越大。
2.3. 主成分分析
2.3.1. 基本概念
主成分分析是将多指标化为少数几个综合指标的一种统计分析方法 [19] 。
定义1 [19] 设某样本包含p个变量,分别用
表示,构成p维随机向量
,其中均值为
,协方差矩阵为
,称
为X的第i主成分,如果:
1)
;
2) 当
时,
;
3)
。
定义2 [19] 设随机向量
的协方差矩阵为
,
为
的特征值,
为相应的单位正交特征向量,则X的第i个主成分为:
(4)
定义3 [19] 称
为主成分
的贡献率,称
为主成分
的累计贡献率。
2.3.2. 具体步骤
1) 用Z-score法对数据进行标准化变换
2) 求指标数据的相关矩阵
3) 求相关矩阵的特征根与特征向量
4) 计算主成分贡献率及累计贡献率,确定主成分(一般取累计贡献率为85%~95%的特征值所对应的主成分。)
2.4. 朴素贝叶斯分类器
2.4.1. 基本概念
贝叶斯分类是一种可以预测给定样本属于某个特定类的概率的统计学分析方法。贝叶斯分类技术通过对已分类的样本子集进行训练,学习归纳出分类函数,利用训练得到的分类器实现对未分类数据的分类。其中朴素贝叶斯分类器是解决相应问题的最实际的方法之一。朴素贝叶斯分类基于一个简单的假设:给定目标值的属性值之间相互条件独立 [20] 。朴素贝叶斯分类器的原理是:给定待分类项,利用贝叶斯公式求解在此项出现的条件下各个类别出现的概率,哪个概率最大,就认为此待分类项属于哪个类别。
2.4.2. 朴素贝叶斯分类器
设研究对象的属性值为
,而目标值的属性值为
,假设有m个类
。分类器考虑类的集合m并在其中寻找给定属性值
时可能性最大的类
,这种分类方法称为极大后验(MAP)分类,即:
,属性值已知的条件下
极大后验分类就是m个类中概率最大的一类。利用贝叶斯公式将其整理为
(5)
(6)
其中,
。在条件独立假设成立时,朴素贝叶斯分类等于极大后验分类,因
而可得到朴素贝叶斯分类器的公式:
(7)
如果类的先验概率
未知,则通常假设各类的先验概率相等,即:
。概率
可以由训练样本来估计。这里用m-估计
来估计。其中,
是
对应属性具有值
的类
的训练样本数,而
是类
的训练样本总数。p所求概率的先验估计,m为等效样本大小的常量。
3. 数据,指标与因子
3.1. 数据
本文所用数据来自于锐思数据库。选取深圳证券交易所50只2011年1月4日至2011年12月31日股票,对数据中进行简单的预处理,主要包括补全数据和复权。
3.2. 指标
所选指标有:
:前收盘价、
:收盘价、
:开盘价、
:最高价、
:最低价、
:成交额、
:成交量、
:中价、
:5日收盘价均值、
:5日成交额均值、
:5日成交量均值、
:买卖指标AR、
:意愿指标BR、
:随机指标K、
:D、
:J、
:相对强弱指标RSI、
:日换手率。
3.2.1. 股票收益率
本文中的股票收益率是对数收益率,在
内的计算公式为:
(8)
其中,
是股票i在T时刻的收益率,
是股票i在T时刻的价格,
是股票i在
时刻的价格,
是股票i在
内的分红。
3.2.2. 日换手率
换手率也成周转率,指在一定时间内市场中股票转手买卖的频率。日换手率是指某一个交易日中某支股票当日的日成交量初一该股的流通股本,即换手率 = 某一段时期内的成交量/发行总股数 × 100%。
3.3. 因子的选取
计算每个原始指标与收益率之间的互信息。为了方便对股票数据的调用,本文按1.xls--50.xls的形式对存放数据信息的Excel表进行命名,借助MATLAB软件,通过编写程序一次性计算得到50家股票的这18个指标与收益率之间的互信息。其中前5家公司的结果如表1所示:

Table 1. Mutual information outcomes of the top five companies
表1. 前5家公司的互信息
表中
表示第j个指标与收益率之间的互信息。从上述结果可以看出,5个表格均显示指标
与收益率之间的互信息都大于1.5,指标
与收益率之间的互信息都介于0.1和1.0之间,而有4个表格显示指标
与收益率之间的互信息都小于0.1,只有表格3显示指标
与收益率之间的互信息介于0.1和1.0之间,此种情况占比不大,对指标的选择影响不大。故可以认为指标
对收益率有显著影响,指标
对收益率无显著影响。此5个表格的结果可以反应整体情况,因此,选出
作为主成分分析的指标。
对选出的指标进行主成分分析。以“东旭蓝天”即表格40为例,说明主成分分析过程。以预处理后的标准数据矩阵作为原始数据矩阵,计算其相关阵并绘制特征值图,如图1所示:
由图1可以看出,第二个主成分的变化趋势开始减慢,因此可以只考虑前两个主成分反映原有信息。相关阵的前两个特征值、对应的特征向量、贡献率及累计贡献率如表2。
从表2中可以看出,前两个主成分的累计贡献率已经达到了96%,因此,只取前两个主成分,分别为:
4. 构建朴素贝叶斯分类器
将利用主成分分析所得的2个主成分
、
和收益率R训练朴素贝叶斯分类器规则。用均匀聚类法将主成分
、
离散化,分成3个类,将指标R离散化,分成4个类。因此,该分类器有4类,
为低收益率类,
为高收益率类,
为普通收益率类;有2个样本,每个样本有3个属性值。以表格40为例,2011年11月9日的主成分
、
和收益率R的值分别为−1.6887、1.3689、4.47,离散化后为1、3、2。
将前10个月的数据作为训练集训练分类规则,后2个月的数据作为测试集检验分类规则的预测精度,通过Matlab软件编写程序一次性计算得到50家股票的分类结果。如表3所示。
从上表结果统计得出:利用朴素贝叶斯分类器选股,50家股票中,训练集正确率在70%以上且测试集正确率在40%以上的有33家,占比66%,训练集正确率在75%以上且测试集正确率在40%以上的有12家,占比24%。表明朴素贝叶斯分类器选股在一定程度上有很好的效果。
为了证明本文提出的方法更有效,用相同公司的数据,不利用互信息筛选因素只做主成分分析,分类结果如表4所示:
从上表结果统计得出:利用朴素贝叶斯分类器选股,50家股票中,训练集正确率在70%以上且测试集正确率在40%以上的有22家,占比44%,训练集正确率在75%以上且测试集正确率在40%以上的有6家,占比12%。
从正确分类的比例和平均绝对误差两方面对比基于两种特征选择方法的朴素贝叶斯分类器的分类结果,如表5所示:
从上表可以看出:本文建立的朴素贝叶斯分类器训练集和测试集正确分类的比例均高于基于主成分分析的朴素贝叶斯分类器正确分类的比例,其平均绝对误差均低于基于主成分分析的朴素贝叶斯分类器的平均绝对误差。从对比中得出本文提出的方法的分类结果优于不利用互信息筛选因素只做主成分分析的分类结果。
5. 结论
本文利用证券的交易数据并结合一种新的特征选择方法给出了一种朴素贝叶斯分类模型。实证分析表明:训练集正确率在70%以上且预测精度在40%以上的达到66%,训练集正确率在75%以上且预测精度在40%以上的有12家,占比24%。该分类器的平均正确率达到75%,并且从正确分类样本属性值的比例和平均绝对误差两方面对比,本文提出的方法的分类结果均优于不利用互信息筛选因素只做主成分分析的分类结果。