1. 引言
1.1. 股票指数
证券市场的成熟度是衡量一个国家经济总体发展水平的重要指标。而在我国“上证综合指数”(也称“大盘指数”)是反映整个股市行情最重要的指标。投资者们时刻在关注的上证指数的波动,并试图预测其发展趋势。然而影响上证指数的因素很多,其作用机制也相当复杂,若想预测其长期走势十分困难。然而,随着计算机技术、统计理论的发展尤其是在当下的大数据时代,对于短期的股指预测却成为可能。
特别是根据股指当天的“开盘价”、“最高价”、“最低价”对其收盘价进行预测。因为不论市场是处于牛市还是熊市环境下,股票当期开盘价、最高价、最低价对收盘价的影响程度均远远的超过历史期收盘收益的影响,这可能是由于开盘价、最高价、最低价与收盘价是同期的原因。
因此,如何判断或预测股票指数走势引起了众多研究者和市场分析人员的极大兴趣,各种预测方法相继涌现。其中邱剑和艾立翔(2011)基于多元线性模型和层次分析法对上证指数建立了预测模型,确定了各个参数的权重,克服了传统定性分析方法不准确的缺点;吴小强和吕文龙(2012)运用时间序列分析对上证指数进行了趋势预测,由于金融时间序列的复杂性模型仅适用于特定的假设下;石鸿雁、尤作军等(2014)基于小波分析的ARIMA模型对上证指数进行了分析与预测。然而,在各种模型的预测分析中都无可避免的存在着自变量之间的自相关存在。若能减弱或消除自变量之间的多重共线性,那么在一定程度上则能提高对指数预测的精度以及可靠性。因此,本文将运用岭回归分析方法对模型进行改进解决这一问题。
1.2. 收盘价与开盘价、最高价、最低价之间的关系及其意义
开盘价、收盘价是股票日交易行情中两个比较重要的分析工具。开盘是一天交易的开始,而收盘则标志着一天交易的结束。开盘价是市场各方对当日股价的一个预期,虽然开盘价不能作为判断股价走势的唯一依据,但却可以作为一种参考,特别是一些特殊的开盘价往往能预示当日全天的走势。而收盘价是当日行情的标准,如隔夜没有显著的信息变化,它又是下一个交易日开盘价的依据,可以用来预测下一成交日的股票市场行情。
最高价为当日交易过程中产生的最高价位。最低价为当日交易过程中产生的最低价位。由于价格反应了在交易过程中供给双方的博弈结果,因此最高价与最低价也是投资者十分关注的重要指标,进而影响着收盘时的价位。
综上所述,我们有理由相信收盘价与开盘价、最高价、最低价之间具备着一定的关系。因此,我们可以运用线性模型的相关知识去探寻他们之间的详细的数量关系 [1] [2] 。
2. 岭回归
岭回归法是 A.E.Horel在1962年提出的一种能统一诊断和处理多重共线性问题的特殊方法, 在多重共线性十分严重的情况下,两个共线变量的系数之间的二维联合分布是一个山岭状曲面,曲面上的每一个点均对应一个残差平方和,点的位置越高,相应的残差平方和越小。因此,山岭的最高点和残差平方和的极小值相对应,相应的参数值便是参数的OLS估计值。由于有多重共线形存在时OLS估计量已不适用,一个自然的想法就是应寻找别的更合适的估计量。这种估计量既要具有最小的方差,又不能使残差平方和过分的偏离其极小值。在参数的联合分布曲面上,能满足这种要求的点只能沿着山岭寻找,这就是岭回归法。
岭估计方法:
若线性回归模型为:
则参数的最小二乘估计为:
而回归系数
的岭估计定义为:
这里的
为可选择参数,称为岭参数或偏参数。因次,对一切
,岭估计是有偏估计。它实际上是一种改良的最小二乘法,是以放弃最小二乘的无偏性,放弃部分精确度为代价来寻求效果稍差但更符合实际的回归过程。虽然岭回归所得残差平方和比最小二乘回归要大,但这样一来,它对病态数据的耐受性就远远强于最小二乘法。岭回归方法也非常灵活,它的使用存在着一定的主观人为性,但这种人为性正好是发挥定性分析与定量分析有机结合之处,在解决多重共线性问题中有着独特作用。
岭迹法——一种求
值的方法
岭估计
是随着
值的改变而变化。
若记
为
的第
个分量,则它是
的一元函数,当
在
上变化时,
的图形称为“岭迹”。
选择岭迹的方法:将
的岭迹画在同一个图上,根据岭迹的变化趋势选择
值,使得各个回归系数的岭估计大体上稳定,并且各个回归系数的岭估计的符号比较合理 [3] - [5] 。
3. 岭回归上证综合指数的岭回归分析
3.1. 对数据进行多元线性回归
现在对1990年12月19日~2013年12月31日上海证券综合指数的日K线图的数据进行分析。由于全部数据量太大,故仅将其中部分数据展示见表1。
因此,根据数据建立收盘指数与开盘指数、最高指数、最低指数之间的多元线性回归模型:
(1)
对(1)中所建立的模型直接用最小二乘法运用SPSS软件得出相应的分析结果如图1。
由结果分析可知:
1) 多元线性回归方程的可决系数
接近于1,调整后的可决系数也接近于1。这说明模型的拟合优度非常好。

Table 1. The Shanghai Composite Index on K-line part data
表1. 上证综合指数日K线部分数据
2) 多元线性回归方程的F检验的P值远小于0.05。因此,对方程的检验是显著的。
3) 对三个自变量回归系数的t检验的P值均远小于0.05。因此,对三个变量的回归系数是显著的。
4) 由D.W检验法可知,D.W值接近于2。因此,模型不存在序列相关。
5) 然而,由变量之间的相关矩阵可以看出,变量之间的相关系数很高,部分甚至接近于1。因此,有理由怀疑模型的自变量之间存在严重的多重共线性。
因此,下面通过计算条件数进一步判定模型中是否存在严重的多重共线性。
通过MATLAB软件,先将原始数据中心化和标准化,再计算
得:

在计算其三个特征值,分别:
因此根据条件数的定义:
图1. 回归分析结果

由此可知,条件数非常大,因此可以判定在模型中存在严重的多重共线性。
3.2. 运用岭回归法对模型进行改进
由于回归系数
的岭估计为:
其关键在于确定岭参数
的值,有前面所介绍可知运用“岭迹法”可确定岭参数
的值。
运用MATLAB软件在给定
值范围在区间[0,30]内,对中心化和标准化后的数据进行岭回归分析。可以得到如下结果见表2。
岭迹图如图2。
因此,从图像中以及表格中我们不难发现,三个变量的回归系数在
后开始收敛,故总体上看大致我们可以取
。
带入原模型后得如下岭回归方程:
4. 预测
通过岭回归所得到的线性模型,对2014年11月3日~12月26日每日的收盘价进行预测,并与实际的指数进行对比,见表3。

Table 2. Results of ridge regression analysis of Shanghai Composite Index
表2. 上证综合指数岭回归分析结果

Table 3. Comparison of the predictive value and the real value of Shanghai Composite Index
表3. 上证综合指数预测值与真实值的对比

Figure 2. Results of regression analysis
图2. 回归分析结果
由表分析可知,该模型的拟合效果较好。
5. 结论
本文通过对1990年12月19日~2013年12月31日的上证综合指数日K线数据进行研究,通过岭回归解决了变量之间的严重的多重共线性问题。最后得到线性回归模型,并通过对比2014年11月3日~12月26上证综合指数回归预测值与真值,说明了该模型的拟合效果较好。
因此,我们有一下结论:
表示每日开盘指数每增加一个单位,当天收盘指数则增加0.2257个单位。
表示每日最高指数每增加一个单位,当天收盘指数则增加0.3871个单位。
表示每日最低指数每增加一个单位,当天收盘指数则增加0.38645个单位。
收盘指数变化可由开盘指数,、最高指数和最低日指数的变化(线性)来解释。
附录
主要的MATLAB的程序:
标准化数据并求出矩阵X'X以及其特征值:
x11 = zscore(x1)
x22 = zscore(x2)
x33 = zscore(x3)
X = [x11,x22,x33]
X'X
eig(X'X)
求出在不同K值的情况下的岭回归系数并画出岭迹图
K = 0:0.01:30
B0 = ridge(Y,X,K,0)
plot(K,B0')
3、通过所求模型对数据进行预测
B1 = 0.2257
B2 = 0.3871
B3 = 0.38645
U = −1.249
Y = U*ones(20,1)+B1*X1+B2*X2+B3*X3