1. 引言
时间序列数据是一类非常重要的复杂数据,广泛存在于经济、金融、管理、医疗卫生、气象、水文和工程等领域。由于其高维、高冗余和随时间动态变化的特点,相比直接分析原始数据,合理利用前人建立的时间序列模型,在研究中更能容易刻画序列的变化规律。
广义自回归条件异方差(GARCH)模型是由Bollerslev [1] 在Engle [2] 研究的基础上对自回归条件异方差(ARCH)模型推广得到的。该模型以可变条件方差描述序列波动特征,条件异方差依赖于给定信息和滞后条件方差,具有更灵活的滞后结构,能更好地体现序列的记忆特征。1990年,Lamoureux和Lastrages [3] 指出条件方差可能存在结构转换,如果不考虑这种结构变化,可能造成波动持续性的错误估计。受其启发,Cai [4] 和Hamilton,Sumsel [5] 将Markov状态切换和ARCH效应结合,提出MS-ARCH模型;Gray [6] 则进一步把马尔可夫状态切换引入GARCH模型,建立MS-GARCH模型。随后,许多学者对MS-GARCH模型做了不同的改进,并开展了深入研究 [7] - [13]。
聚类是把一个数据对象的集合划分成若干簇(子集),使簇内对象彼此相似、簇间对象不相似的过程。面对庞杂而日益增长的时间序列数据,聚类是时间序列数据挖掘的重要任务之一。近年来,涌现出许多时间序列聚类方法,大体上可以分为基于原始数据的聚类、基于数据特征的聚类和基于数据模型的聚类等三种 [14] [15] [16]。
基于混合模型的聚类是一种有效、可解释、适应性强的统计分析方法 [17] [18] [19],它假定要聚类的数据来自一个有限混合的概率分布,通过计算每个数据在此概率分布下的后验概率,取后验概率最大的成分作为聚类结果。近年来,该方法也被广泛用于时间序列数据的聚类 [20] - [27]。
在基于混合模型的聚类研究中,参数估计是关键工作,通常有期望最大化(EM)和Markov Chain Monte Carlo (MCMC)两种算法。EM算法基于极大似然估计,利用迭代优化估计模型的参数;MCMC算法则基于Bayes估计,利用MCMC模拟,解决了时间序列数据的高维、高冗余、路径依赖等不适用于EM算法的问题。研究表明,MCMC算法能很好地解决高维数据计算复杂的难题,拟合效果优于EM算法 [12] [13] [28] [29] [30]。
本文基于有限混合MS-GARCH模型,利用Bayes理论的数据增补方法和MCMC模拟,探讨时间序列数据的聚类问题。文 [21] 利用有限混合GARCH模型对美国上市公司股票收益数据进行聚类,最终确定按波动率的高、中、低分为三类,但并没有考虑机制切换问题。就我们所知,未见文献把有限混合MS-GARCH模型用于时间序列数据的聚类分析。
2. 基于MS-GARCH模型的时间序列聚类
2.1. 基于有限混合模型的聚类
设数据集
是来自由K个成分构成的有限混合概率分布
(2.1)
的样本,其中
是混合权重,
是成分参数,
是第k个成分的概率分布,权重
满足:
基于模型的聚类方法把混合模型的成分与聚类的簇相对应,成分数就是簇数。设
代表数据
的簇标记,
表示
属于第k个簇。若模型的参数
已知,则由Bayes定理
若
则
归属于第
个簇。
2.2. MS-GARCH模型
称
为具有Markov状态切换的GARCH(p, q)模型,简记为MS-GARCH,其中
是状态空间为
、转移概率矩阵为
的遍历Markov链,
独立同分布,对任意
,
,
,有
,
,
。
2.3. 基于MS-GARCH模型的时间序列聚类
设
是I个长度为T的时间序列组成的观察数据,记
假设
来自有限混合概率分布(2.1),
是第k个MS-GARCH(p, q)模型
(2.2)
的概率密度,其中
是状态空间为
、转移概率矩阵为
的遍历Markov链。
为叙述方便,下面只对两状态的MS-GARCH(1, 1)模型讨论,其它情况类似。此时,模型(2.2)的参数为
,其中
对
,有
当
服从标准正态分布时,联合概率密度
(2.3)
其中
由(2.2)的第二式递推给出。
定义随机变量
,
,其概率分布
记
由于GARCH模型中条件方差存在路径依赖问题,参数估计的极大似然方法不再适用,我们利用MCMC方法对隐变量z和参数
进行Gibbs抽样。为此,需要计算
的后验分布。取先验分布
,使得
(2.4)
其中
(2.5)
(2.6)
利用Bayes定理,由(2.4)~(2.6)可得
的后验分布
(2.7)
下面依次讨论z、
和
的抽样。
2.3.1. 簇标记z的抽样
由(2.7)可得z的后验分布
(2.8)
于是,
服从多项分布,满足
(2.9)
2.3.2. 混合概率ρ的抽样
由(2.7)可得
的后验分布
(2.10)
取
为Dirichlet分布
:
则由(2.10)可知,后验分布
为Dirichlet分布
。
2.3.3. 簇参数Θ的抽样
由(2.6)和(2.7)可知,
的后验分布
(2.11)
其中
,
。于是,对
的抽样可通过对每个
分别独立抽样来实现。取先验分布
,使得
下面依次讨论
、
和
的抽样。
1) 状态标记
的抽样
状态变量
是一个隐Markov过程,根据Markov链的性质,
的概率需要考虑
和
的影响。由
可知
(2.12)
由于
只有两个状态,由(2.12)可知对
的抽样相当于从一个Bernoulli分布中抽样。
2) 转移概率
的抽样
给定
的先验分布
,当
独立于观察变量
和参数
时,
的后验分布
(2.13)
取
,当
和
分别为Dirichlet分布
和
时,由(2.13)可知后验分布
和
分别为
和
,其中
为从状态g转移到状态l的次数。
3) GARCH参数
的抽样
由于GARCH模型中当期条件方差受到前期条件方差影响的递推结构,各参数之间不独立,参数的后验分布没有合适的共轭先验,因此不能直接使用常规的Gibbs抽样。若取
的先验分布为常数,则
的后验分布
(2.14)
利用griddy-Gibbs抽样方法 [12] [28],根据(2.14)可对
进行抽样。
3. 实证分析
本文选取美的集团、长安汽车、格力电器、海信家电、三全食品、比亚迪、东风汽车、宇通客车、上汽集团、江淮汽车、光明乳业、海尔智家、伊利股份、长城汽车、飞科电器、中信证券等23家上市公司2017年12月至2020年7月的所有日收益数据进行模拟实验(数据来源:网易财经数据库),以验证本算法的有效性。
3.1. 数据预处理
1) 由于上市公司的股权变更、违规调查等外部因素造成的停牌现象,使数据中存在少数NULL值。对此执行删除操作,不影响原序列的特征信息。
2) 实验中选取上市公司股票的对数收益率数据进行计算,以消除时间不连续等负面影响,
3) 本文的MS-GARCH模型只考虑条件方差的波动特征,取对数收益率后,将序列减去各自样本均值以消除模型中均值参数的影响,有助于简化迭代计算过程。
3.2. 数据概览
我们从中选取两家公司的收益率序列数据,画出它们的时序图,如图1所示。可以看出各个序列都有明显的波动聚集特征,即某些时间段有较稳定的波动,某些时间段有较剧烈的震荡。

Figure 1. Returns chart of logarithmic rate
图1. 对数收益率图
3.3. 模型选择
选用两状态的MS-GARCH(1,1)混合模型进行聚类分析。在聚类数的选择方面,参照文 [21] 的结论,我们把股票收益率数据按照波动率的高、中、低划分为三类,分别对应投资风险高、投资风险中等和投资风险低的三类股票。
3.4. 聚类结果
首先,我们计算得出了23条股票数据(包含均值、标准差等)的描述性统计,如表1所示。这些数据确实存在一定差异性。例如,全部数据的平均峰度为6.3084,但范围从3.6448到11.9634。
算法程序采用Matlab软件实现。抽样算法设定循环3000次,其中前1000次作为预烧阶段,保留后2000次作为抽样结果。
对于参数初始化,我们根据每条数据方差的差异性,对混合概率和簇类归属作了简单的初始化设置。其中,11家公司(美的集团、格力电器、上汽集团、三元股份、海尔智家、伊利股份、长江电力、中国平安、工商银行、中国石油、建设银行)归属第一类,8家公司(海信家电、三全食品、比亚迪、宇通客车、光明乳业、长城汽车、飞科电器、中信证券)归属第二类,4家公司(长安汽车、贝因美、东风汽车、江淮汽车)归属第三类。初始混合概率的设置如表2所示。

Table 2. Initial mixed probability of groups
表2. 初始混合概率
23条时间序列各自包含两个状态的参数,即共有46组不相同的参数。我们在程序中对这些模型参数分别设置了不同的初始值,同时它们又必须满足GARCH模型的平稳性条件。由于Gibbs抽样的收敛性质,只需要粗略估计其大致范围即可。除此之外,griddy-Gibbs计算中设置格点数为50 (格点的数量过大或过小都会对估计结果和运行时间产生负面影响)。最后,要注意计算过程中数值不能超过Matlab所允许的范围。对于GARCH参数初始化,我们以美的集团为例给出了详细情况,如表3所示。

Table 3. Initialization information of GARCH parameters
表3. GARCH参数初始化信息
通过计算,我们得到了该组数据两个状态的参数后验概率密度,抽样情况良好。根据Gibbs抽样原理,经过迭代后的抽样值会在真实值附近波动。美的集团的GARCH参数的后验概率密度图,如图2所示。

Figure 2. Posterior probability density plot of GARCH parameters
图2. GARCH参数后验概率密度图
由实验结果中状态转移概率后验均值与状态转移概率初始值的对比,可以看到股票处于低波动状态的持续性长于高波动状态,表示该股票大多数时间处于低幅度变动,不会频繁出现剧烈震荡。这类相对稳定的股票对于投资者来说风险偏低,若近期走势良好,值得投资。相反,若实验所得的后验概率中,高波动状态所占比重较高,那么说明股票长期处于数值较大的震荡,不利于进行投资,投资者需结合实际情况慎重分析。状态转移概率初始值与后验均值,如表4所示。

Table 4. Transition probability of states
表4. 状态转移概率
在最终实验结果中,根据混合概率后验均值的情况可以看出在我们提供数据的基础上,三个混合概率非常接近。其中,第二类混合后验概率与初始簇类混合概率相比变化极小,也就意味着我们对第二类的初始分类状况较好。而第一类和第三类经过迭代抽样后,都产生了不同程度的变化,如表5所示。
根据GARCH参数可对三个簇进行解释。三类中持久性最高的为第一组(1状态
估计为0.4217,2状态
估计为0.4621),第一组与第三组的持久性更加接近(第三组1状态
估计为0.4062,2状态
估计为0.4320),即第一组代表持久性最高的股票类型,第二组代表持久性最低的股票类型,第三组代表持久性中等的股票类型。其中三组的滞后因子彼此相近(1状态为0.0273左右,2状态为0.2160左右),而差异最明显的地方则是条件方差的自回归参数(第一组两状态分别为0.3942和0.2462,第二组分别估计为0.2974和0.2375,第三组估计分别为0.3790和0.2148)。其次,三类的无条件方差具有一定差异,第一类与第二类相对接近(第一组两状态估计分别为3.05e−05和1.61e−03,第二组估计分别为1.75e−04和1.67e−03),第三类最小(第三类估计分别为4.61e−05和9e−04)。但由于数值较小,还不足以对各自模型的持久性产生决定性的影响。GARCH参数的后验均值结果,如表6所示。

Table 6. Posterior mean of GARCH parameters
表6. GARCH参数的后验均值
在23家上市公司股票数据聚类结果中,有5家公司属于第一组,9家公司属于第二组,9家公司属于第三组。与初始化值相比较,有9家公司在初始化中就被正确区分,其余14家公司经过迭代抽样产生了类别变化,说明我们基于Gibbs抽样的聚类算法有明显的纠正效果。除此之外,我们还展示了各股票数据各自模型参数
、
和
的后验均值,在取值上均满足GARCH模型的平稳性条件,如表7所示。
对于Gibbs抽样,先验分布的设定可能影响算法对于参数的估计、状态识别和聚类结果。在实验过程中,我们尝试修改各参数初始值,观察结果变化,发现初始值的改变并不会对最终结果产生太大影响,这与理论分析是一致的。
4. 结论
本文基于有限混合MS-GARCH模型,提出一种时间序列聚类方法。在新息服从标准正态分布的情况下,利用MCMC方法,给出了模型参数的估计,再通过计算后验概率得到聚类结果。最后,选取23家中国上市公司股票的收益率数据进行实证分析,验证了所提方法的有效性。本文的方法也可用于新息服从t-分布、广义误差分布等其它分布的情况。本文的聚类数目是根据经验和理论分析事先指定的,聚类数目未知的聚类问题将在未来的工作中讨论
参考文献
NOTES
*通讯作者。