1. 引言
股票市场中包含各种各样的时间序列数据,例如股票收盘价、股票价格指数等。在处理多个时间序列的数据时,需要分析的变量维度有时会很高,这给分析和处理带来了一定的难度。尽管每个时间序列都有各自的变化特点,但它们之间有一定的相关性。利用这种相关性,就能够减少变量的数量,从而减少分析的难度和成本。
本文对奇异值分解 [1] 、因子分析 [2] [3] [4] 和主成分回归 [5] 三种常见的降维方法进行讨论。其中,奇异值分解方法通过提取的奇异值来构造模拟矩阵;因子分析通过提取因子来构造模拟矩阵;主成分回归通过提取主成分和线性回归的方法来构造模拟矩阵。最后通过理论推导和证明的方式说明在一定的条件下,三种方法得到的模拟结果是一致的。
2. 模拟方法
2.1. 基本假设
对于时间序列,这里有一定的条件限制。第一点,时间序列为平稳时间序列;第二点,时间序列的期望值为0。本文中以行业价格指数作为例子,不再对假设条件做过多的讨论。设 
  是第j 
  个行业股票指数每日收益率的时间序列,其中
 
为了简化操作,将时间序列 
  简化为随机变量 
  产生的多个独立同分布的样本。设向量
 
为第j个行业的时间序列对应的数值。那么对于所有的r个行业,有数据矩阵(观测值矩阵)
  (1)
对应的样本协方差矩阵为
 
假设 
  , 
  且 
  。
2.2. 奇异值分解模型
对式(1)定义的矩阵A,由奇异值分解定理,存在正交矩阵
  (2)
  (3)
和矩阵
  (4)
使
 
其中 
  为A的奇异值(默认 
  ,下文不再提及)。则
  (5)
是矩阵A的一个秩为 
  的同阶模拟矩阵,均方误差
 
2.3. 因子分析模拟
假设 
  由 
  个公共因子 
  组成,即
 
或者写为矩阵形式
 
设 
  为样本协方差矩阵S的特征值–特征向量对(默认 
  为单位向量且 
  ,下文不再提及),则
载荷矩阵L的估计值为
 
矩阵A的近似估计
  (6)
均方误差
 
其中 
  。
(这里载荷矩阵的估计使用的是主成分法,因子得分使用的是回归法。)
2.4. 主成分回归模拟
对于 
  ,通过样本协方差矩阵S提取其前s个主成分的估计值
 
其中 
  为S的特征值-特征向量对,于是有回归函数
 
(这里令常数项为0。)
由多元线性回归结果为:
 
其中
 
于是矩阵A有近似估计
  (7)
均方误差
 
3. 三种模拟方法的一致性
引理3.1 设A是 
  阶实矩阵, 
  ,并且有奇异值分解 
  ,具体形式见式(2) (3) (4),则
 
是A的秩-s最小二乘逼近,使得在所有秩小于等于s的 
  阶矩阵B中,平方误差和 
  最小,且最小值为 
  (见文献 [6] )。
#
引理3.2 设A是 
  阶实矩阵, 
  ,并且有奇异值分解 
  ,具体形式见式(2) (3) (4),则
 
即 
  有特征值-特征向量对 
  (见文献 [6] )。
#
利用之前的三个模型结果和引理3.1、引理3.2,可以证明下面的定理。
定理3.1 对于在2.2、2.3和2.4中三种使用同阶的低维度矩阵 
  来模拟原数据矩阵 
  的方法中(见式(5) (6) (7),且矩阵A满足2.1.中的假设条件),并且都使用样本协方
差矩阵S进行操作时,三种方法的模拟结果相同,即模拟矩阵
 
其中
 
且均方误差
 
达到最小值。
( 
  为矩阵S的特征值-特征向量对, 
  的定义见式(3), 
  的定义见式(4)。)
#
证明:根据 
  有
  (8)
于是由引理3.2有
  (9)
  (10)
(使(10)式成立有时需要做一定的调整,这里我们不多做考虑。)
令
 
对于特征值分解方法,有
  (11)
对于因子分解方法,由特征值和特征向量的定义,有
  (12)
于是
  (13)
对于主成分回归方法,有
 
再使用式(8),(12)得到
  (14)
综合式(11),(13)和(14)得到
 
于是
 
最后,根据引理3.1和式(9)得到均方误差
 
达到最小值。
#
4. 结论
当由多个时间序列构成的数据矩阵满足对应时间序列的期望为零,且特征值和特征向量均由对应的样本协方差矩阵提取时,奇异值分解、因子分析和主成分回归构造的降维模拟方法具有一致性(这里的一致性仅限于上文提到的构造方法)。其中,模拟矩阵的结果仅依赖于所提取的特征向量(或奇异值分解的其中一个正交矩阵),模拟矩阵均方误差的结果由所提取的特征值(或奇异值)完全决定。