基于回归模型的股票指数追踪问题实证研究
An Empirical Study of the Stock Index Tracking Problem Based on a Regression Model
DOI: 10.12677/ORF.2022.124151, PDF, HTML, XML, 下载: 248  浏览: 577 
作者: 周 洁:贵州大学数学与统计学院,贵州 贵阳
关键词: 指数追踪岭估计Lasso估计刘估计弹性约束估计Index Tracking Ridge Estimation Lasso Estimation Liu Estimation Elastic Constraint Estimation
摘要: 随着股票价格指数的发展与演变,股指对于投资的作用显得尤为重要。本文采用最小二乘估计、岭估计、绝对约束回归(Lasso)、弹性约束估计及两步估计对深证区块链50指数进行指数追踪,得到相应的投资组合,并将Cp准则和CV准则下的Lasso和岭估计作对比,得出结论:Cp准则下岭估计更好,CV准则下Lasso更好,两步估计下Lasso进行变量选择后用刘估计进行回归效果较好。
Abstract: With the development and evolution of stock price index, the role of stock index in investment is particularly important. This paper uses least squares estimation, ridge estimation, absolute constraint regression (Lasso), elastic constraint estimation and two-step estimation to track the SZSE Blockchain 50 Index to obtain the corresponding investment portfolio. The Lasso and ridge estimation are compared, and it is concluded that the ridge estimation is better under the Cp criterion, the Lasso under the CV criterion is better, and the Lasso performs variable selection under the two-step estimation.
文章引用:周洁. 基于回归模型的股票指数追踪问题实证研究[J]. 运筹与模糊学, 2022, 12(4): 1420-1438. https://doi.org/10.12677/ORF.2022.124151

1. 引言

指数追踪通过追踪股票市场基准指数收益构建投资组合,是一种被动型投资策略,其目的是追踪一个股票指数的持仓或盈利表现,试图最小化跟踪误差。投资者以指数成分股为投资对象,通过购买一部分或全部的某指数中的股票来构建投资组合,以此来使投资组合的变动趋势与该指数相一致,取得与指数大致相同的收益率。

杨楠(2004)用岭回归解决多重共线性问题,对分析各变量间的关系具有独特帮助 [1]。薛宏刚,张锐敏等人(2012)将岭回归的方法应用到套期保值技术中,发现该方法能有效提高样本外的套期保值效率 [2]。张家茂,杨思思(2017)在对房地产股价线性模型的变量选择进行研究时,运用弹性约束估计实现成分股变量选择问题 [3]。张慧伟(2018)基于弹性估计筛选出部分成分股来进行股指追踪,结果表明可以用较少的成分股来吻合指数的走势 [4]。杨思思(2018)建立股指与其成分股的线性回归模型,利用岭估计和弹性约束估计探讨模型中的多重共线性问题,不断修正得到有效的回归模型 [5]。王琪,冷林峰等人(2018)在研究股指跟踪时采用两步估计,先用弹性约束估计筛选一部分变量再做回归 [6]。J Ranstam, J A Cook (2018)提出Lasso回归旨在识别变量和相应的回归系数,从而形成最小化预测误差的模型 [7]。韩笑,滕兴虎等人(2020)采用正回归、绝对约束估计和弹性约束估计选择变量,得出银行类指数及其成分股的线性回归方程 [8]。

2. 数据与描述

2.1. 数据说明

深证区块链50指数(代码399286.SZ)由深圳证券交易所和深圳证券信息有限公司于2019年12月24日正式对外发布,是以深交所上市公司中,业务领域涉及区块链产业上中下游的公司为选样空间,按近半年日均总市值从高到低排序,筛选排名前50名的股票构成样本股 [9]。根据指数的编制方法,易知区块链50指数是50只成分股股价的加权平均,权重与成分股的股本有关。其成分股及代码如表1所示:

Table 1. List of blockchain 50 components

表1. 区块链50成分股列表

收盘价指股市收盘价,为当日该证券最后一笔交易前一分钟所有交易的成交量加权平均价(含最后一笔交易)。收盘价计算方式:下午3时收盘前的3分钟将实施收盘集合竞价的方式,用以确定收盘价,收盘集合竞价不能产生收盘价的,以最后一笔成交价为当日收盘价。本文选用2020年1月2日至2022年7月29日的区块链50指数及其成分股的日K线的收盘价,含50个自变量,1个因变量,共有51列624行,共计31,824个样本数据。按照训练集:测试集 = 2:1的原则来划分,样本数据追踪期间为2020年1月2日至2021年9月15日,检验期为2021年9月16日至2022年7月29日,数据示例如表2所示。本文数据来源于Choice金融终端。

Table 2. Table of data

表2. 数据示例表

区块链50指数收盘价从2020年1月2日至2022年7月29日的走势图如图1所示。本文旨在通过收集到s的数据建立区块链50指数与各个成分股的线性回归方程,用于描述区块链50指数的跟踪效果。

Figure 1. Blockchain 50 index chart

图1. 区块链50指数走势图

2.2. 描述性统计分析

首先检验区块链50指数收盘价(Y)的分布,并进行描述性统计分析,便于把握该数据的总体特征。

Figure 2. Block chain 50 index histogram

图2. 区块链50指数直方图

图2可知,区块链50指数收盘价的分布呈左偏、高峰的特征。表3给出了区块链50指数收盘价的描述性统计分析结果。

Table 3. Descriptive statistics of the blockchain 50 index closing price

表3. 区块链50指数收盘价的描述性统计

3. 模型介绍

3.1. 最小二乘模型

对于线性模型:

{ Y = X β + ε E ε = 0 , cov ( ε ) = σ 2 I n (3.1)

来说,回归系数 β 的最小二乘估计为 β ^ l s e = ( X X ) 1 X Y 。最小二乘估计是一个无偏估计,它对数据的分布假设没有要求,同时在无偏估计类中,最小二乘估计可得出残差平方和最小的回归模型,因此是回归分析中最为常用的方法之一。

在参数估计理论中,虽然最小二乘估计在所有的线性无偏估计中具有最小方差,但是当数据之间存在非常严重的多重共线性时,设计阵呈病态,此时其方差在线性无偏估计中最小,但是其值却很大,一般认为它不再是一个良好的估计。有偏估计是目前改善最小二乘估计的一种重要方法,它以牺牲估计量的无偏性代价来提高估计量稳定性 [10]。

3.2. 岭估计

传统回归模型在变量间存在多重共线性时不再适用,最小二乘估计由于结构问题会导致估计的均方误差增大,此时考虑用有偏估计替代最小二乘估计。Horel和Kennard [11] 在1970年提出岭估计,可解决条件极值问题获得

( y X β ) ( y X β ) + k β β (3.2)

其中,k是拉格朗日乘数(Lagrangian Multipliers),岭估计有如下表达式

β ^ ( k ) = ( X X + k I ) 1 X y (3.3)

其中, k 0 是岭参数。通过对k值的选择,可以减少多重共线性的影响,取不同的k值,可以得到不同的估计,因此岭估计 β ^ ( k ) 是一个估计类。当 k = 0 β ^ ( 0 ) = ( X X ) 1 X y 就是常用的最小二乘估计 [12]。

3.3. 绝对约束回归(Lasso)

Tibshirani [13] 提出了一种解决高维变量选择的正则化方法——Lasso,该方法是在最小二乘估计基础上对回归数施加L1范数约束:

min β 1 n i = 1 n ( y i x i β ) 2 + λ j = 1 p | β j | (3.4)

其中,λ > 0为惩罚参数,取值越大,惩罚力度越强 [14]。随着λ的增加,L1惩罚项不但可以压缩回归系数趋于0,而且当λ充分大时,可以使一些不重要的变量系数为0,同时完成变量选择和参数估计 [15]。因此,惩罚参数的选择至关重要,一般可通过AIC准则、BIC准则、CV交叉验证等准则选取 [16]。

Efron [17] 提出最小角回归(LARS)方法,这种方法既可以进行变量选择,可以用来解决Lasso问题,并且可以提高计算效率。LARS算法的基本思想是:首先选择一个与因变量相关性最大的协变量,然后沿这个方向走一定长度,知道出现第二个协变量,这两个协变量与残差的相关性相同,就沿着与这两个变量等角度的方向继续走,以此类推,选择出需要的协变量。LARS算法的数学描述如下:由于LARS算法中,要选择多个变量等角度的方向,因此首先介绍如何来选择等角度的方向,设第k步时,前k个自变量被选择进来,记它们的集合为A。由前k-1步得到的对响应变量的拟合为 u k 1 ,定义矩阵

X A = ( S 1 X 1 , S 2 X 2 , , S k X k ) (3.5)

其中, S j = s i g n ( ( Y u k 1 ) X j ) 。记 G A = X A X A C A = ( I A G A 1 I A ) 1 2 则下一步的搜索方向定义为

μ A = X A ω A , ω A = C A G A I A (3.6)

可以验证,它满足

X A μ A = C A I A , ( μ A ) 2 = 1 .

因此, μ A 是一个与所有已选入自变量方向成相同夹角的方向,在该方向上前进会导致残差与各自变量方向与各自变量内积等量递减 [18] [19]。

3.4. 刘估计

1993年Liu Ke-jian [20] [21] 借助岭回归的思想,对线性模型(4.1),参数 β 的估计:

β ( d ) = ( X X + I ) 1 ( X Y + d β ^ l s e ) (3.7)

为刘估计的待估回归系数,其中 β ^ l s e 为最小二乘估计, 0 < d < 1 是参数。

3.5. 弹性约束估计

2005年Zou与Hastie [22] 综合考虑岭回归和Lasso的约束方式,提出了弹性约束估计。弹性约束估计融合了Lasso估计和岭估计的特点,能处理高维数据,而且一般能挑选出相对于Lasso估计较少的变量 [22]。弹性约束估计定义如下

β ˜ = arg min β ( i n ( y i j = 1 p β j x i j ) 2 + λ 1 j = 1 p | β j | + λ 2 j = 1 p β j 2 ) (3.8)

等价找到使

i n ( y i j = 1 p β j x i j ) 2 (3.9)

满足

( 1 λ ) j = 1 p | β j | + λ j = 1 p β j 2 t (3.10)

达到最小的 β j , j = 1 , 2 , 3 , , p

4. 实证分析

4.1. 最小二乘估计

首先用最小二乘估计建立区块链50指数及其成分股的线性回归方程,结果如表4所示。

Table 4. Least squares estimation regression results

表4. 最小二乘估计回归结果

Table 5. Model test table

表5. 模型检验表

Figure 3. Blockchain 50 Index Tracking (olse)

图3. 区块链50指数追踪(olse)

得到如下经验回归方程如下:

y ^ = 18.94 + 18.64 x 1 1.31 x 2 + 4.96 x 3 + 3.98 x 4 + 10.51 x 5 + 0.40 x 6 0.28 x 7 + + 2.62 x 45 0.03 x 46 1.03 x 47 0.22 x 48 + 0.98 x 49 + 1.32 x 50 (4.1)

TCL科技、智度股份、视觉中国、广发证券、远光软件、一心堂、精准信息、新国都、飞天诚信、四方精创、数字认证这11只成分股的系数没有通过显著性检验,有12只成分股的系数为负数。

表5所示的模型检验表明:R2为0.9986,说明拟合效果很好,且模型通过显著性检验。预测指数跟踪如图3所示,指数走势跟实际指数的走势基本一致,说明通过回归模型跟踪区块链50指数的走势非常成功。但由于条件数为4346.493,说明存在严重的多重共线性,因此需改进方法。

4.2. Cp准则

4.2.1. Cp准则下的岭估计

首先通过岭迹法选择参数k,绘制岭迹图如图4所示。

Figure 4. Ridge map

图4. 岭迹图

Table 6. Ridge parameter value table

表6. 岭参数取值表

结合图4表6可知,选择最小的k值0.06,得到岭回归方程:

y ^ = 39.66 + 17.10 x 1 2.40 x 2 + 10.83 x 3 + 4.51 x 4 + 13.00 x 5 0.56 x 6 0.43 x 7 + 1.30 x 46 0.03 x 47 0.30 x 48 0.01 x 49 + 1.02 x 50 (4.2)

具体系数见表7

Table 7. Ridge-estimated variable coefficients

表7. 岭估计变量系数

普通残差图如图5所示。由此可见岭估计给出的岭回归方程较好地刻画了资源50的趋势,如图6所示。

4.2.2. Cp准则下的绝对约束估计(Lasso)

通过LARS进行变量选择,其系数图如图7所示。在Cp准则下,选择最小的Cp值对应的变量集。结果显示,最小值Cp = 44.20989对应的变量集包含46个变量,即通过变量选择,保留原始46个变量进行指数追踪。

对应的线性回归方程为

y ^ = 18.36 x 1 1.38 x 2 + 5.45 x 3 + 3.99 x 4 + 0.91 x 47 0.28 x 48 + 1.02 x 49 + 1.33 x 50 (4.3)

表8可知,从回归系数上看,智度股份、视觉中国、新国都、四方精创这4只股票回归系数为0,说明予以剔除是合理的,余下46个变量的最优子集。

Figure 5. Ordinary residual plot of the ridge regression

图5. 岭回归的普通残差图

Figure 6. Fit plots of the dependent variable and predictive values

图6. 因变量和预测值的拟合图

Figure 7. Selection coefficient plot of the LARS variables

图7. LARS变量选择系数图

Table 8. The Lasso parameter estimation table

表8. Lasso参数估计表

Figure 8. Blockchain 50 index tracking (Ridge Estimates)

图8. 区块链50指数追踪(岭估计)

图8可知,指数走势跟实际指数的走势基本一致,说明通过Lasso回归模型跟踪区块链50指数的走势较为成功。

4.3. 弹性约束估计

4.3.1. 岭估计交叉验证法

通过CV交叉验证,确定 λ min = 22.69 。由图9图10可知,保留变量个数是50,其系数表如表9所示。

Figure 9. λ Select the graph

图9. λ 选择图

Figure 10. Ridge regression coefficient diagram

图10. 岭回归系数图

Table 9. Ridge regression parameter estimation table (retain all variables)

表9. 岭回归参数估计表(保留全部变量)

表9可以看出,与Lasso相比,岭估计得到的模型一直都是50个变量,因此岭估计没有变量筛选的功能。区块链50指数追踪图如图11所示,可知追踪效果较好。

Figure 11. Blockchain 50 index tracking (Ridge estimation cross-validation method)

图11. 区块链50指数追踪(岭估计交叉验证法)

Figure 12. λ Select the graph

图12. λ 选择图

4.3.2. Lasso交叉验证法

通过CV交叉验证,确定 λ min = 0.06313 。由图12图13可知,保留变量个数是46,其系数表如表10所示。

Figure 13. Lasso regression coefficient Fig

图13. Lasso回归系数图

Table 10. Lasso parameter estimation table (46 variables retained)

表10. Lasso参数估计表(保留46个变量)

Figure 14. Blockchain 50 index tracking (Lasso cross-validation method)

图14. 区块链50指数追踪(Lasso交叉验证法)

图14可知,指数走势跟实际指数的走势基本一致,说明通过Lasso交叉验证的弹性约束估计回归模型跟踪资源50指数的走势较成功。残差平方和为47,983.53。

Figure 15. Blockchain 50 index tracking (two-step estimate)

图15. 区块链50指数追踪(两步估计)

4.4. 两步估计

现采用两步估计的方法,由Lasso筛选出46只成分股,再通过最小二乘估计、岭估计、刘估计等回归方法建立模型,从而进行指数追踪,结果如图15所示,可以看出LASSO + OLSE和LASSO + LIU这两个组合的预测收盘价都能很好地跟踪到区块链50指数收盘价的运行趋势。

5. 结论

将上述方法对区块链50指数进行追踪的效果进行对比,如表11所示。在Cp准则下,Lasso在测试集上的残差标准差(SD)优于岭估计,但在测试集上的平均残差平方和(RMS)不如岭估计;结合残差图(图3)来看,可以认为Cp准则下的岭估计优于Lasso;在CV准则下,Lasso在测试集上的平均残差平方和(RMS)和残差标准差(SD)两种指标优于岭估计;在两步估计(Lasso变量选择)方法下,进一步运用刘估计进行回归,即Lasso + Liu,测试集上的平均残差平方和(RMS)和残差标准差(SD)两种指标优于Lasso + OLSE、Lasso + 岭估计,得到较好的外预测效果。

Table 11. Track acking effect of each method

表11. 各方法追踪效果对比

本文以区块链50指数及其成分股的日线收盘价数据为研究对象,不断修正回归模型,得到了效果较好的区块链50指数回归模型,对投资者有一定的参考价值。但由于数据、估计方法的一定的改进空间,还应结合市场特点对股票指数趋势进行分析。

参考文献

[1] 杨楠. 岭回归分析在解决多重共线性问题中的独特作用[J]. 统计与决策, 2004(3): 14-15.
[2] 薛宏刚, 张锐敏, 胡春萍, 李乃成. 基于岭回归的套期保值方法[J]. 统计与决策, 2012(5): 77-79.
[3] 张家茂, 杨思思. 房地产股价线性模型的变量选择实证研究[J]. 重庆工商大学学报(自然科学版), 2017, 34(4): 35-40.
[4] 张慧伟. 基于弹性估计筛选部分成分股追踪股指变化[J]. 广西质量监督导报, 2018(12): 83-84.
[5] 杨思思. 中证100股票指数回归模型的实证分析[J]. 重庆文理学院学报(社会科学版), 2018, 37(2): 121-126.
[6] 王琪, 冷林峰, 常永莲. 改进岭回归与主成分回归的股指跟踪研究[J]. 重庆理工大学学报(自然科学), 2018, 32(1): 212-221.
[7] Ranstam, J. and Cook, J.A. (2018) LASSO Regression. Journal of British Surgery, 105, 1348-1348.
https://doi.org/10.1002/bjs.10895
[8] 韩笑, 滕兴虎, 窦婷. 基于银行类指数及其成分股的分析和预测[J]. 统计学与应用, 2020, 9(4): 506-514.
[9] 深圳证券交易所. 关于发布深证区块链50指数的公告[EB/OL]. http://www.szse.cn/disclosure/notice/general/t20191224_572813.html, 2019-12-24.
[10] 太思梦. 两类改进LIU估计在股指追踪中的应用[D]: [硕士学位论文]. 重庆: 重庆大学, 2019.
[11] Hoerl, A. and Kennard, R. (1970) Ridge Regression: Biased Estimation for Nonorthogonal Problems. Technometrics, 12, 55-67.
https://doi.org/10.1080/00401706.1970.10488634
[12] 杨虎, 杨玥含. 金融大数据统计方法与实证[M]. 北京: 科学出版社, 2016: 122-123.
[13] Tibshirani, R. (1996) Regression Shrinkage and Selection via the Lasso. Journal of the Royal Statistical Society: Series B (Methodological), 58, 267-288.
https://doi.org/10.1111/j.2517-6161.1996.tb02080.x
[14] 蒋翠侠, 刘玉叶, 许启发. 基于LASSO分位数回归的对冲基金投资策略研究[J]. 管理科学学报, 2016, 19(3): 107-126.
[15] 张靖, 胡学钢, 李培培, 张玉红. 基于迭代Lasso的肿瘤分类信息基因选择方法研究[J]. 模式识别与人工智能, 2014, 27(1): 49-59.
https://doi.org/10.16451/j.cnki.issn1003-6059.2014.01.001
[16] 彭胜银. 基于Lasso分位数的非负两阶段方法及在标普500指数追踪的应用[D]: [硕士学位论文]. 重庆: 重庆大学, 2019.
[17] Efron, B., Hastie, T., John-stone, I. and Tibshirani, R. (2004) Least Angle Regression. Annals of Statistics, 32, 407-499.
https://doi.org/10.1214/009053604000000067
[18] 梁斌, 陈敏, 缪柏其, 黄意球, 陈钊. 基于LARS-Lasso的指数跟踪及其在股指期货套利策略中的应用[J]. 数理统计与管理, 2011, 30(6): 1104-1113.
[19] 梁斌. 股指期货套期保值和套利策略研究[D]: [博士学位论文]. 合肥: 中国科学技术大学, 2010.
[20] Liu, K. (1993) A New Class of Blased Estimate in Linear Regression. Communications in Statistics—Theory and Methods, 22, 393-402.
https://doi.org/10.1080/03610929308831027
[21] Liu, K.J. (2003) Using Liu-Type Estimator to Combat Collinearity. Communications in Statistics Theory & Methods, 32, 1009-1020.
https://doi.org/10.1081/STA-120019959
[22] Zou, H. and Hastie, T. (2005) Regularization and Variable Selection via the Elastic Net. Journal of the Royal Statistical Society: Series B, 67, 301-320.
https://doi.org/10.1111/j.1467-9868.2005.00503.x