1. 引言
粗糙集理论是Pawlak在1982年提出的用于处理不精确、不完备数据的方法 [1] 。粗糙集理论建立在分类的基础上,用严格的等价关系构造上近似和下近似对未知的知识进行划分 [2] 。为了提高粗糙集处理数据的能力,Dubois等 [3] 针对实际样本中的模糊性和不可分辨性可能造成信息丢失的问题,将模糊集和粗糙集相结合,提出模糊粗糙集的概念,至此一系列模糊粗糙集的拓展模型被提出。如,张夏伟等建立了悲观的多覆盖模糊粗糙集模型,分别讨论了悲观多覆盖模糊粗糙集、基于交的覆盖模糊粗糙集、覆盖模糊粗糙集和乐观多覆盖模糊粗糙集之间的关系 [4] 。李凡等针对模糊粗糙集容易受到噪音数据的影响,提出了变精度模糊粗糙集的概念 [5] 。邵迎超等将软集理论与模糊粗糙集结合起来,提出了软模糊粗糙集和软模糊粗糙群及它们的同态的概念,讨论了它们相关的性质 [6] 。李聪等利用模糊粗糙集和多粒度粗糙集各自优点的结合,提出了两类多粒度模糊粗糙集模型 [7] 。一系列基于模糊粗糙集的特征选择方法也被相继提出:张慧哲等把模糊集合相似度引入模糊粗糙集模型中,提出一种基于变相似度的模糊粗糙集模型,通过定义模糊相似矩阵和不一致程度矩阵,给出属性约简的算法 [8] 。陈毅宁等引入了基于距离比值尺度的样本集,通过对距离比值尺度的控制,避免了样本分布不确定性对近似集的影响,给出了该模型的基本性质,定义了新的依赖度函数,进而设计了属性约简算法 [9] 。陆娟等将粗糙集与二型模糊集结合,得到二型模糊粗糙集,并将模糊粗糙集属性约简的模型推广到二型模糊粗糙集框架中,得到了一个二型模糊粗糙属性约简的模型,并举例说明了用此模型进行属性约简的方法 [10] 。
然而,在人们所保存的数据中还有许多是具有时间特征的数据–时间序列数据。时间序列数据就是按照时间先后顺序记录各个观测样本的数据集 [11] 。其在现实生活中大量存在,如:金融证券市场中每天的股票价格变化,疫情感染日新增病例的数目,气象中某地区的每天气温与气压的读数以及医学中病人在每个时刻的心跳变化指数等。研究如何从数据量巨大、维度高、变量内部关系复杂的高维时间序列数据中挖掘出与时间、空间有关的隐藏信息,对于揭示对象发展变化的内部规律、不同的对象之间的相互作用关系以及为人们正确认识事物和科学决策提供依据等具有重要的理论价值和实际意义。
目前模糊粗糙集领域关于时间序列数据类型的研究较少,现有的信息系统无法用于存放多元时间序列数据。因此,研究可存放多维时间序列数据的信息系统并对其不确定性知识进行数据挖掘是很有价值的。
2. 预备知识
2.1. 时序数据的距离度量
通常计算两个时间序列之间的距离来度量两个时间序列之间的相似度,距离越小,相似性越高。本节将对常用的时间序列距离进行详细的介绍。
定义1 设有两条长度相等的时间序列
和
,它们的闵可夫斯基距离(Minkowski Distance)定义为:
当r取值不同时,距离有不同的含义:
当
时,为曼哈顿距离;
当
时,为欧式距离;
当
时,为切比雪夫距离。
闵可夫斯基距离对于度量的时间序列有严格要求,即序列必须是等长且皆为数值型。因为闵可夫斯基距离所寻找的对应关系是一条时间序列上的点与另一条时间序列上的点一一对应。
如果两条时间序列整体是比较相似的,但时间轴是不对齐匹配的话,那么采用闵可夫斯基距离,将很难有效度量。而动态时间弯曲距离(Dynamic Time Warping, DTW)是目前使用最广泛的时间序列距离度量,与传统的闵可夫斯基距离相比,DTW寻找的是两个时间序列之间的灵活的对应关系,也就是说一条时间序列上的一个点可以对应到另一个时间序列上的多个点,因此克服了时间不同步的问题。
定义2 设有两个时间序列
和
,构造一个
的距离矩阵D:
,
其中,
,
这里采用欧氏距离
作为向量点
和
间的距离函数,
,
。为了计算时间序列P和Q的DTW距离
,需找到一条最佳弯曲路径W,其中弯曲路径W中的第k个元素可定义为
,由此可得:
其中,
表示两个时间序列P和Q的匹配关系。弯曲路径长度满足
。
弯曲路径W必须满足以下3个约束条件:
1) 边界性:
,
;
2) 连续性:
和
满足
,
;
3) 单调性:
,
。
可能存在多个W满足上述三个条件,DTW通过动态规划寻找其中累积距离最短的路径:
计算两个时间序列之间的DTW距离的一种常用方法是建立累积距离矩阵
。为了计算矩阵,我们使用具有以下递推的动态规划:
其中,
,
,
,
。
2.2. 模糊粗糙集
定义3 称
是模糊决策信息系统,其中U为非空有限对象集,称为论域,C是条件属性集,D是决策属性,
,
表示对象x在条件属性a下的取值。
,
是决策属性的值域。
定义4 设RB是模糊决策信息系统
上的模糊二元关系,若
满足:
1) 自反性:
,
;
2) 对称性:
,
;
3) 传递性:
,
。
称模糊关系RB为U上的模糊等价关系。若RB仅满足(1)和(2),则称模糊关系RB为U上的模糊相似关系, 也称为模糊相容关系。
若RB是U上的模糊相似关系,
,
,令
,
称
为x关于RB的模糊邻域,则
是U上一个模糊集。
定义5 设
是模糊决策信息系统,RB是U上的模糊相似关系,
,
,决策属性D关于模糊相似关系RB的下、上近似分别定义为:
正域定义为:
依赖度定义为:
3. 时序模糊粗糙集
定义6 称
是时序模糊决策信息系统,其中
为非空有限对象构成的论域,
是条件特征集(属性集),
是决策特征,
是有序时间集,且满足
,
,
表示
时刻对象
关于特征
的取值,
,
是属性D的值域。
表1给出了时序模糊决策信息系统
,其中
,
,
,
。

Table 1. Time series fuzzy decision information system
表1. 时序模糊决策信息系统
定义7 [12] 给定两个D维时序数据
,
,
其中,
,
,
。
表示
在时刻i下各个变量的取值向量;
表示
在维度d下随时间变化的取值向量;
表示
在时刻j下各个变量的取值向量;
表示
在维度d下随时间变化的取值向量。
设多维时间序列
和
,则基于广义马氏距离的子距离可定义为:
其中,
;
,
是一个对称的半正定矩阵,称为马氏矩阵。当
,广义马氏距离就转变为欧氏距离。
多维时间序列
和
的
公式可以表示为:
其中,
,
。
定义8 给定一个时序模糊决策信息系统
,对任意
,
是对象x在时刻l下的属性值向量,
是对象y在时刻s下的属性值向量。则
和
的马氏距离定义为:
其中,
是协方差矩阵。
定义9 给定一个时序模糊决策信息系统
,对任意
,
,
和
在有序时间集T上关于特征子集B的时序模糊相似关系为:
对任意
,
在有序时间集T上关于特征集B的时序模糊邻域粒
定义为:
,
决策属性划分为
是由特征集C在U上诱导的时序模糊邻域粒,那么
的时序模糊决策定义为:
,
是一个模糊集,
为x关于
的模糊隶属度。
定义10 给定一个时序模糊决策信息系统
,对任意
,决策特征划分为
,其对应的模糊决策为
,
是由B在U上诱导的时序模糊相似关系,则模糊决策
关于特征集B的上、下近似定义为:
其中
关于特征集B的上、下近似定义为:
定理1 对任意
,
,
,下列结论成立:
1)
;
2) 若
,有
,
;
3) 若
,有
,
;
4)
,
。
证明:1) 对任意
,由定义9知
,从而
,显然
,所以
。同理可得
,即
。
2) 由定义9和定义10可知
,
,
。
由
的任意性可得
。
同理可类似求得:
。由
的任意性可得
。
3) 由定义9和定义10可知
,
,
。由
的任意性可得
。
同理类似求得:
。由
的任意性可得
。
4) 由定义10可知
,
,
。由
的任意性可得
。同理类似可求
。由
的任意性可得
。
4. 基于时序依赖度的时序数据的特征选择
本节将定义基于时序模糊邻域粗糙集模型的特征依赖度,并基于此提出一种时序数据的特征选择算法,见表2。
定义11 给定一个时序模糊决策信息系统
,对任意
,决策特征划分为
,其对应的模糊决策为
,
是由B在U上诱导的时序模糊相似关系,
关于特征子集B的正域定义为:
正域的大小反应了特征子集B的分类能力。根据正域的定义,
关于特征子集B的时序依赖度为:
性质1 给定一个时序模糊决策信息系统
,对任意
,有以下性质成立:
1)
;
2)
。
定义12 给定一个时序模糊决策信息系统
,决策特征划分为
,其对应的模糊决策为
,对任意
,
,
。若满足
,称a在B中是不必要的(或冗余的);否则,称a在B中是必要的。若满足下列条件,则称特征子集B是C的一个特征约简集:
1)
;
2)
。

Table 2. Feature selection algorithm for time series data based on time series dependence
表2. 基于时序依赖度的时序数据的特征选择算法
定义13 设
为序模糊决策信息系统。对任意
,
,
,特征a关于B的时序内重要度定义:
对任意
,特征a关于B的时序外重要度定义为:
由定义13,可得:
。若
,则a为核心属性;若
,则a为不必要属性,即a可以从属性集B中去除。同理,有
。若
,则a为不必要属性;若
,则a是相对必要属性,可通过筛选
的最大值作为候选特征约简集。
5. 结论
本章主要研究时序模糊决策信息系统上的时序数据的特征选择方法。首先定义了时序模糊决策信息系统,引入时序马氏距离,提出时序模糊相似关系,进而提出了时序模糊决策粗糙集,并讨论了其的性质。定义了在时序模糊决策粗糙集上的下近似、上近似、正域和依赖度。通过定义特征内外重要度,提出了基于时序依赖度的特征选择方法。