1. 引言
指数追踪通过追踪股票市场基准指数收益构建投资组合,是一种被动型投资策略,其目的是追踪一个股票指数的持仓或盈利表现,试图最小化跟踪误差。投资者以指数成分股为投资对象,通过购买一部分或全部的某指数中的股票来构建投资组合,以此来使投资组合的变动趋势与该指数相一致,取得与指数大致相同的收益率。
杨楠(2004)用岭回归解决多重共线性问题,对分析各变量间的关系具有独特帮助 [1]。薛宏刚,张锐敏等人(2012)将岭回归的方法应用到套期保值技术中,发现该方法能有效提高样本外的套期保值效率 [2]。张家茂,杨思思(2017)在对房地产股价线性模型的变量选择进行研究时,运用弹性约束估计实现成分股变量选择问题 [3]。张慧伟(2018)基于弹性估计筛选出部分成分股来进行股指追踪,结果表明可以用较少的成分股来吻合指数的走势 [4]。杨思思(2018)建立股指与其成分股的线性回归模型,利用岭估计和弹性约束估计探讨模型中的多重共线性问题,不断修正得到有效的回归模型 [5]。王琪,冷林峰等人(2018)在研究股指跟踪时采用两步估计,先用弹性约束估计筛选一部分变量再做回归 [6]。J Ranstam, J A Cook (2018)提出Lasso回归旨在识别变量和相应的回归系数,从而形成最小化预测误差的模型 [7]。韩笑,滕兴虎等人(2020)采用正回归、绝对约束估计和弹性约束估计选择变量,得出银行类指数及其成分股的线性回归方程 [8]。
2. 数据与描述
2.1. 数据说明
深证区块链50指数(代码399286.SZ)由深圳证券交易所和深圳证券信息有限公司于2019年12月24日正式对外发布,是以深交所上市公司中,业务领域涉及区块链产业上中下游的公司为选样空间,按近半年日均总市值从高到低排序,筛选排名前50名的股票构成样本股 [9]。根据指数的编制方法,易知区块链50指数是50只成分股股价的加权平均,权重与成分股的股本有关。其成分股及代码如表1所示:
Table 1. List of blockchain 50 components
表1. 区块链50成分股列表
收盘价指股市收盘价,为当日该证券最后一笔交易前一分钟所有交易的成交量加权平均价(含最后一笔交易)。收盘价计算方式:下午3时收盘前的3分钟将实施收盘集合竞价的方式,用以确定收盘价,收盘集合竞价不能产生收盘价的,以最后一笔成交价为当日收盘价。本文选用2020年1月2日至2022年7月29日的区块链50指数及其成分股的日K线的收盘价,含50个自变量,1个因变量,共有51列624行,共计31,824个样本数据。按照训练集:测试集 = 2:1的原则来划分,样本数据追踪期间为2020年1月2日至2021年9月15日,检验期为2021年9月16日至2022年7月29日,数据示例如表2所示。本文数据来源于Choice金融终端。
区块链50指数收盘价从2020年1月2日至2022年7月29日的走势图如图1所示。本文旨在通过收集到s的数据建立区块链50指数与各个成分股的线性回归方程,用于描述区块链50指数的跟踪效果。
2.2. 描述性统计分析
首先检验区块链50指数收盘价(Y)的分布,并进行描述性统计分析,便于把握该数据的总体特征。
Figure 2. Block chain 50 index histogram
图2. 区块链50指数直方图
由图2可知,区块链50指数收盘价的分布呈左偏、高峰的特征。表3给出了区块链50指数收盘价的描述性统计分析结果。
Table 3. Descriptive statistics of the blockchain 50 index closing price
表3. 区块链50指数收盘价的描述性统计
3. 模型介绍
3.1. 最小二乘模型
对于线性模型:
(3.1)
来说,回归系数
的最小二乘估计为
。最小二乘估计是一个无偏估计,它对数据的分布假设没有要求,同时在无偏估计类中,最小二乘估计可得出残差平方和最小的回归模型,因此是回归分析中最为常用的方法之一。
在参数估计理论中,虽然最小二乘估计在所有的线性无偏估计中具有最小方差,但是当数据之间存在非常严重的多重共线性时,设计阵呈病态,此时其方差在线性无偏估计中最小,但是其值却很大,一般认为它不再是一个良好的估计。有偏估计是目前改善最小二乘估计的一种重要方法,它以牺牲估计量的无偏性代价来提高估计量稳定性 [10]。
3.2. 岭估计
传统回归模型在变量间存在多重共线性时不再适用,最小二乘估计由于结构问题会导致估计的均方误差增大,此时考虑用有偏估计替代最小二乘估计。Horel和Kennard [11] 在1970年提出岭估计,可解决条件极值问题获得
(3.2)
其中,k是拉格朗日乘数(Lagrangian Multipliers),岭估计有如下表达式
(3.3)
其中,
是岭参数。通过对k值的选择,可以减少多重共线性的影响,取不同的k值,可以得到不同的估计,因此岭估计
是一个估计类。当
,
就是常用的最小二乘估计 [12]。
3.3. 绝对约束回归(Lasso)
Tibshirani [13] 提出了一种解决高维变量选择的正则化方法——Lasso,该方法是在最小二乘估计基础上对回归数施加L1范数约束:
(3.4)
其中,λ > 0为惩罚参数,取值越大,惩罚力度越强 [14]。随着λ的增加,L1惩罚项不但可以压缩回归系数趋于0,而且当λ充分大时,可以使一些不重要的变量系数为0,同时完成变量选择和参数估计 [15]。因此,惩罚参数的选择至关重要,一般可通过AIC准则、BIC准则、CV交叉验证等准则选取 [16]。
Efron [17] 提出最小角回归(LARS)方法,这种方法既可以进行变量选择,可以用来解决Lasso问题,并且可以提高计算效率。LARS算法的基本思想是:首先选择一个与因变量相关性最大的协变量,然后沿这个方向走一定长度,知道出现第二个协变量,这两个协变量与残差的相关性相同,就沿着与这两个变量等角度的方向继续走,以此类推,选择出需要的协变量。LARS算法的数学描述如下:由于LARS算法中,要选择多个变量等角度的方向,因此首先介绍如何来选择等角度的方向,设第k步时,前k个自变量被选择进来,记它们的集合为A。由前k-1步得到的对响应变量的拟合为
,定义矩阵
(3.5)
其中,
。记
,
则下一步的搜索方向定义为
,
(3.6)
可以验证,它满足
,
.
因此,
是一个与所有已选入自变量方向成相同夹角的方向,在该方向上前进会导致残差与各自变量方向与各自变量内积等量递减 [18] [19]。
3.4. 刘估计
1993年Liu Ke-jian [20] [21] 借助岭回归的思想,对线性模型(4.1),参数
的估计:
(3.7)
为刘估计的待估回归系数,其中
为最小二乘估计,
是参数。
3.5. 弹性约束估计
2005年Zou与Hastie [22] 综合考虑岭回归和Lasso的约束方式,提出了弹性约束估计。弹性约束估计融合了Lasso估计和岭估计的特点,能处理高维数据,而且一般能挑选出相对于Lasso估计较少的变量 [22]。弹性约束估计定义如下
(3.8)
等价找到使
(3.9)
满足
(3.10)
达到最小的
。
4. 实证分析
4.1. 最小二乘估计
首先用最小二乘估计建立区块链50指数及其成分股的线性回归方程,结果如表4所示。
Table 4. Least squares estimation regression results
表4. 最小二乘估计回归结果
Figure 3. Blockchain 50 Index Tracking (olse)
图3. 区块链50指数追踪(olse)
得到如下经验回归方程如下:
(4.1)
TCL科技、智度股份、视觉中国、广发证券、远光软件、一心堂、精准信息、新国都、飞天诚信、四方精创、数字认证这11只成分股的系数没有通过显著性检验,有12只成分股的系数为负数。
如表5所示的模型检验表明:R2为0.9986,说明拟合效果很好,且模型通过显著性检验。预测指数跟踪如图3所示,指数走势跟实际指数的走势基本一致,说明通过回归模型跟踪区块链50指数的走势非常成功。但由于条件数为4346.493,说明存在严重的多重共线性,因此需改进方法。
4.2. Cp准则
4.2.1. Cp准则下的岭估计
首先通过岭迹法选择参数k,绘制岭迹图如图4所示。
Table 6. Ridge parameter value table
表6. 岭参数取值表
结合图4和表6可知,选择最小的k值0.06,得到岭回归方程:
(4.2)
具体系数见表7:
Table 7. Ridge-estimated variable coefficients
表7. 岭估计变量系数
普通残差图如图5所示。由此可见岭估计给出的岭回归方程较好地刻画了资源50的趋势,如图6所示。
4.2.2. Cp准则下的绝对约束估计(Lasso)
通过LARS进行变量选择,其系数图如图7所示。在Cp准则下,选择最小的Cp值对应的变量集。结果显示,最小值Cp = 44.20989对应的变量集包含46个变量,即通过变量选择,保留原始46个变量进行指数追踪。
对应的线性回归方程为
(4.3)
由表8可知,从回归系数上看,智度股份、视觉中国、新国都、四方精创这4只股票回归系数为0,说明予以剔除是合理的,余下46个变量的最优子集。
Figure 5. Ordinary residual plot of the ridge regression
图5. 岭回归的普通残差图
Figure 6. Fit plots of the dependent variable and predictive values
图6. 因变量和预测值的拟合图
Figure 7. Selection coefficient plot of the LARS variables
图7. LARS变量选择系数图
Table 8. The Lasso parameter estimation table
表8. Lasso参数估计表
Figure 8. Blockchain 50 index tracking (Ridge Estimates)
图8. 区块链50指数追踪(岭估计)
由图8可知,指数走势跟实际指数的走势基本一致,说明通过Lasso回归模型跟踪区块链50指数的走势较为成功。
4.3. 弹性约束估计
4.3.1. 岭估计交叉验证法
通过CV交叉验证,确定
。由图9、图10可知,保留变量个数是50,其系数表如表9所示。
Table 9. Ridge regression parameter estimation table (retain all variables)
表9. 岭回归参数估计表(保留全部变量)
从表9可以看出,与Lasso相比,岭估计得到的模型一直都是50个变量,因此岭估计没有变量筛选的功能。区块链50指数追踪图如图11所示,可知追踪效果较好。
Figure 11. Blockchain 50 index tracking (Ridge estimation cross-validation method)
图11. 区块链50指数追踪(岭估计交叉验证法)
4.3.2. Lasso交叉验证法
通过CV交叉验证,确定
。由图12、图13可知,保留变量个数是46,其系数表如表10所示。
Table 10. Lasso parameter estimation table (46 variables retained)
表10. Lasso参数估计表(保留46个变量)
Figure 14. Blockchain 50 index tracking (Lasso cross-validation method)
图14. 区块链50指数追踪(Lasso交叉验证法)
由图14可知,指数走势跟实际指数的走势基本一致,说明通过Lasso交叉验证的弹性约束估计回归模型跟踪资源50指数的走势较成功。残差平方和为47,983.53。
Figure 15. Blockchain 50 index tracking (two-step estimate)
图15. 区块链50指数追踪(两步估计)
4.4. 两步估计
现采用两步估计的方法,由Lasso筛选出46只成分股,再通过最小二乘估计、岭估计、刘估计等回归方法建立模型,从而进行指数追踪,结果如图15所示,可以看出LASSO + OLSE和LASSO + LIU这两个组合的预测收盘价都能很好地跟踪到区块链50指数收盘价的运行趋势。
5. 结论
将上述方法对区块链50指数进行追踪的效果进行对比,如表11所示。在Cp准则下,Lasso在测试集上的残差标准差(SD)优于岭估计,但在测试集上的平均残差平方和(RMS)不如岭估计;结合残差图(图3)来看,可以认为Cp准则下的岭估计优于Lasso;在CV准则下,Lasso在测试集上的平均残差平方和(RMS)和残差标准差(SD)两种指标优于岭估计;在两步估计(Lasso变量选择)方法下,进一步运用刘估计进行回归,即Lasso + Liu,测试集上的平均残差平方和(RMS)和残差标准差(SD)两种指标优于Lasso + OLSE、Lasso + 岭估计,得到较好的外预测效果。
Table 11. Track acking effect of each method
表11. 各方法追踪效果对比
本文以区块链50指数及其成分股的日线收盘价数据为研究对象,不断修正回归模型,得到了效果较好的区块链50指数回归模型,对投资者有一定的参考价值。但由于数据、估计方法的一定的改进空间,还应结合市场特点对股票指数趋势进行分析。