1. 引言
随着机器人技术和智能传感器系统的快速发展,基于传感器的数据应用场景在现代工业和智能制造中变得越来越重要,特别是在机器人路面检测方面,传感器数据被广泛用于检测不同路面条件并提供反馈支持[1]-[3]。时间序列分类(TSC)在这一背景下扮演了关键角色。TSC的主要目标是将传感器采集的时间序列数据分类到不同的预定义类别中,以识别不同的路面情况[4]。然而,时间序列数据由于其特性,如噪声较多、维度高且数据量庞大,给分类任务带来了诸多挑战。
近年来,许多基于特征的时间序列分类(TSC)方法相继被提出[5] [6]。这些方法通常可以将其分为两类:一种是将整个时间序列作为全局特征进行分类[7],另一种则是提取单个时间序列的局部特征[8]-[10]。基于局部特征的分类算法,特别是基于Shapelet的算法,近年来备受关注。Shapelet是可以用来识别时间序列类属性的特殊子序列,具有良好的可解释性和分类性能[11] [12]。
虽然Shapelet方法专注于时间序列中的局部特征,但在某些应用场景中,全局特征同样重要。仅依赖局部子序列进行分类可能会忽略一些全局模式,导致分类结果不准确[13] [14]。某些情况下,多样的特征相结合可能会带来更好的分类性能[15]。另外,在某些大规模或高维度的时间序列分类任务中生成Shapelet候选集时[16] [17],通常的全局搜索方法往往会导致计算复杂度极高,搜索过程非常耗时,难以快速得出结果[18]。
为了解决上述两大难题,本文提出了基于Shapelet和PSO特征选择的频域融合方法(SP-FD)。方法首先通过时间序列分割生成一些具备重要感知点的时间特征候选,然后使用pso算法对经过时间特征候选转化后的特征进行特征组合的搜索,对不同特征组合使用全卷积网络训练,由此得到最优特征组合。最后本方法融合原始时序数据的频域特征进行时间序列分类任务。
本研究的主要贡献总结如下:
1. 通过寻找时间序列中的特殊关键点来生成显著的Shapelet候选序列,这种方法选择了一些具有代表性的时间序列子序列作为候选特征。
2. 提出了采用PSO特征选择方法来不断迭代,优化选择Shapet候选的组合,最终的组合被选择作为时间特征。
3. 我们提取了原始时间序列的频域信息特征作为补充信息,多样特征的组合更能达到更好的效果。
4. 实验比较了我们的方法(SP-FD)与5个基线方法,并表明它在SonyAIBORobotSurface1和SonyAIBORobotSurface2数据集中取得了不错的效果。
2. 方法
在本节中,我们在2.1节中介绍了我们给出了SP-FD方法的整体模型框架。在2.1节到2.3节中详细介绍了模型的各个组成部分,2.4节中我们将模型的多样特征融合进行分类任务。
2.1. SP-FD整体框架
SP-FD方法的整体模型框架如图1所示,其包括了特殊Shapelet候选生成[19]、特征转化与PSO算法特征选择和频域特征融合及分类三个主要内容。
模型的输入是一组单变量的时间序列数据。图1中,展示了模型的输入实例,不同的颜色各代表了一条时间序列数据。为了有效地进行分类,首先对输入的时间序列进行时域特征的提取,核心采用了Shapelet方法。然而,与传统Shapelet方法遍历所有子序列不同,本方法提取过程基于一个更加精确的策略。具体来说,本方法的Shapelet提取方法侧重于识别具有关键分类信息的特殊子序列,而不是对整个时间序列进行全局搜索。同时通过设计一种特定的筛选机制,能够有效定位时间序列中的关键区域,从这些区域中提取Shapelet候选集。相比传统的遍历方法,这种方法大大减少了候选子序列的数量,同时保留了更具代表性的局部模式,提升了模型的计算效率和分类准确性,详细过程见2.2节内容。
Figure 1. The general architecture of the SP-FD framework. Among them, where the time series candidate set to the fully connected layer classification model training undergoes a feature transformation.
图1. SP-FD框架的总体架构。其中,时间序列候选集在训练全连接层分类模型时会经过特征转换
得到具有关键信息Shaplet候选集后对其进行特征转换,目的是得到可用于分类模型的特征,具体的特征转换过程见2.3节。为了提升模型的性能和计算效率,我们对提取的特征进行了进一步的筛选。由于提取的具有关键信息的Shapelet特征集可能仍包含冗余或无关的特征,直接使用所有特征会增加模型的复杂度,甚至影响分类效果。我们采用了一种基于pso的优化搜索筛选策略,通过模拟粒子的搜索行为,在较短的时间内找到最优的特征子集。具体的特征转化和优化搜索过程可以在2.3节中找到。
最后,在筛选出最优的Shapelet时域特征后,我们进一步结合了频域特征,以构建一个多样化的特征集。将多样化的特征集作为分类模型的输入。具体的频域特征信息提取见2.4节。
2.2. 特殊Shapelet候选生成
Shapelet候选的生成我们采用的提出时间序列分割方法,能够有效的生成关键子序列。
对于图1中不同颜色所代表的每个时间序列作为训练数据,具有关键信息的Shapelet候选的生成流程如下:
(1) 输入原始时间序列并初始化参数
首先输入原始时间序列,确定期望被切分的片段总数N。同时,设置子序列的长度条件:子序列的长度必须大于最小期望长度
且小于最大期望长度
。
(2) 迭代停止条件
设置最大迭代次数。当迭代次数超过预设值MaxIter时,算法停止迭代。
(3) 选择具有最大拟合误差和的子序列
在每次迭代中,选择当前具有最大拟合误差和的子序列。拟合误差和的计算方法如公式(1)和公式(2)所示。公式中star和end分别表示子序列的开始和结束索引,
表示时间序列在索引i处的值。计算过程重点识别出对子序列拟合误差贡献最大的点。
(1)
(2)
(4) 计算重要感知点(PIP)并进行子序列拆分
根据最大拟合误差和找到子序列的关键点,即感知重要点(PIP)。PIP的计算如公式(3)所示,该点是子序列中拟合误差和最大的点。然后,依据PIP将子序列拆分为两个子序列,PIP之前的部分记为SL,之后的部分记为SR。
(3)
(5) 子序列保留与淘汰规则
判断SL和SR是否符合步骤(1)中的长度条件。若符合条件,则将它们保留为Shapelet候选集中的候选子序列;若不符合条件,则丢弃这些子序列。
(6) 更新子序列集合并重复步骤
将当前处理的子序列从子序列集合中删除,同时将新生成的SL和SR加入集合中。重复上述步骤,直至生成的子序列数量达到预期的片段总数或满足其他终止条件。
2.3. 特征变换与粒子群优化算法特征选择
与通常的遍历计算评估方法不同,我们的方法是结合特征转化与优化算法相结合的方式来进行整体处理。候选者的评估过程主要包括以下两个步骤:
1. 特征转化
在此步骤中,我们将原始时间序列T转换为新的特征表示。在新表示中,每个Shapelet候选者都被视为一个特征,其对应的值是该Shapelet候选者S与原始时间序列T之间的最小距离。该距离的计算公式为
(4)
其中,
表示时间序列的长度,
表示shapelet候选者S的长度。子序列
是从T中以索引i开始的一个片段,长度为
。子序列
与候选Shapelet
的距离可以通过以下公式计算:
(5)
假设shapelet候选集中共有k个候选者,那么原始时间序列数据将转化为
的形式。
2. 特征选择
算法1 |
输入:D:特征空间;Popsize:粒子群规模;MaxIter:最大迭代数;
:惯性质量;
:加速系数;FCN:全连接层网络 输出:BestFeatures:最优特征子集 |
1:初始化粒子群Pop,随机设置每个粒子的位置和速度 2:Set
to
3:for each particle Pi in Pop do 4: 使用选定的特征评估Pi的适用性,并评估FCN分类的准确性 5: Set Pi current position as its
6: If
is better than GlobalBest, update GlobalBest 7:end for 8:for iter = 1 to MaxIter do 9: for each particle Pi in Pop do 10: Update velocity of Pi:
11: Update position of Pi:
12: Evaluate fitness 使用FCN对选定的特征进行评估,并计算分类准确率 13: If the new fitness is better than
, update
14: If
is better than
, update
15: end for 16: 检查终止条件:如果达到最大迭代次数或适应度不再提升,则停止 17: end for 18: Return BestFeatures corresponding to
|
在此步骤中,我们使用粒子群优化(PSO)算法来选择最优特征子集,并通过全卷积神经网络(FCN)模型进行分类。在算法1中显示了PSO算法如何选择最佳的k个形状集的概述。PSO算法通过在特征空间中搜索最优的特征组合,最大化分类准确率并最小化特征选择的数量,最终目标是平衡特征子集的紧凑性与分类性能。公式如下:
(6)
其中,Accuracy表示通过选定特征训练的FCN模型的分类准确率,Selected Features表示当前选择的特征数量,
和
分别表示分类准确率和特征数量的权重。在本研究中,
设置为1,
设置为0.01,以确保分类性能在特征选择中优先考虑。
PSO算法通过每个粒子在特征空间中的迭代搜索来优化特征选择。每个粒子的位置表示一个特征子集,算法根据个体最优位置和全局最优位置动态更新每个粒子的搜索路径。随着每次迭代,粒子的位置和速度逐步调整,可以搜索到分类准确率更高且特征数量更少的特征子集。
2.4. 频域特征融合及分类
在本步骤中,我们将通过粒子群优化算法(PSO)选择的最优时域特征组合与频域特征相结合,以提升分类模型的性能。频域特征通过对时间序列进行傅里叶变换等频域分析技术提取,能够捕捉时间序列中的周期性和频率信息,与时域特征互为补充。这些频域特征具体包括一些统计量信息,如频率分量的均值、方差和能量等。
首先,我们从原始时间序列中提取频域特征,这些特征通过快速傅里叶变换(FFT)技术获取。接下来,使用拼接方式将这些频域特征与PSO算法选择的最优时域特征进行融合,形成一个完整的特征集。融合后的特征集既包含了时间域的模式,也包含了频率域的结构信息,从而为分类任务提供了更多维度的特征支持。
在此基础上,我们构建了全卷积神经网络(FCN)模型,用于最终的分类任务。如图2所示,该模型由三层一维卷积层组成,每层卷积层后接一个批量归一化层和ReLU激活层,卷积核的大小依次设置为8、5和3,过滤器的数量分别为128、256和128。通过这种特征融合和FCN模型架构的结合,模型能够有效捕捉时间序列数据中的复杂模式,从而提升分类的准确率和鲁棒性。
Figure 2. Specific structure of the FCN network
图2. FCN网络的具体结构
3. 实验结果分析
在本节中,我们将评估所提出的基于Shapelet和PSO特征选择结合频域特征的时间序列分类模型(SP-FD)的性能。首先,我们将介绍实验的设置,包括使用的数据集、评估指标以及基线模型的选择。接下来,我们将对比评估SP-FD模型与多种现有方法在分类精度方面的表现。此外,还将分析模型在不同特征组合及频域融合下的性能变化。所有实验均在具有32 GB内存的GeForce RTX 3060 GPU上进行,以确保计算效率和模型的优化效果。
3.1. 数据集介绍
UCR时间序列分类(TSC)档案提供了广泛应用于时间序列分类实验的基准数据集[20]。在本研究中,我们选择了该档案中的两个特定数据集:SonyAIBORobotSurface1和SonyAIBORobotSurface2,因为它们与基于传感器的路面检测任务高度相关,传感器的读数捕捉了机器人与表面的交互。这些数据集中包括传感器捕捉到的机器人在不同表面上行走时的加速度和角速度等多维信息。数据集的数据格式包含X个训练实例和Y个测试实例,每个实例由Z个时间步组成。
3.2. 基线和实验设置
在我们的实验中,选取了五种时序分类的基准模型作为对比方法。首先,1NN-DTW是一种基于动态时间规整(DTW)的最近邻分类器,通常被作为时序分类任务中的常规基准模型[21] [22]。其次,DTW-F通过全局时间序列的距离作为特征[23],进行分类。此外,catch22代表了特征提取类方法,该方法提取了22个关键时序特征[24]。FS方法则利用可识别的子序列作为特征,代表了具有可解释性的特征选择方法。最后,我们还采用了TSC-TF模型作为基准模型之一,该方法将所有时序特征候选者一次性进行评估,选择重要性高的部分候选者作为分类特征。这些基准模型为我们的实验提供了全面的对比分析。
我们在SonyAIBORobotSurface1和SonyAIBORobotSurface2数据集上进行实验,使用SP-FD方法。为了更好地适应这两个数据集的特性,我们针对每个数据集采用了不同的超参数设置。具体的参数设置见表1。此外,FCN模型的卷积核和过滤器大小在两个数据集上保持一致,均使用3次卷积核大小依次为8,5,3的卷积结构。最终实验结果以分类准确率作为评价指标。
Table 1. Parameter settings for data set correspondence
表1. 数据集对应的参数设置
Parameter name |
SonyAIBORobotSurface1 |
SonyAIBORobotSurface2 |
nb_epochs |
900 |
1000 |
learning rate |
0.01 |
0.01 |
batch size |
32 |
32 |
swarmsize |
20 |
20 |
maxiter |
5 |
5 |
minstep |
1e−8 |
1e−8 |
minfunc |
1e−8 |
1e−8 |
3.3. 实验分析
如表2所示,我们的SP-FD模型的性能优于其他模型,且准确率在两个数据集上均达到了90%以上。具体来看,在SonyAIBORobotSurface1数据集上,SP-FD模型的精确率为0.975,意味着模型预测为正类的样本中,97.5%确实属于正类,有效减少了误判;召回率达到0.980,表明模型能够成功识别出98%的真实正类样本,具备较强的捕捉能力;F1值为0.977,反映出模型在精确率与召回率之间实现了良好的平衡,综合性能优异。
Table 2. Results of SP-FD and comparison methods on the dataset
表2. SP-FD方法与其他比较方法在数据集上的结果
Dataset |
1NN-DTW |
DTW-F |
catch22 |
FS |
TSC-TF |
SP-FD |
|
准确率 |
准确率 |
精确率 |
召回率 |
F1 |
SonyAIBORobotSurface1 |
0.725 |
0.74 |
0.883 |
0.686 |
0.955 |
0.978 |
0.975 |
0.980 |
0.977 |
SonyAIBORobotSurface2 |
0.831 |
0.856 |
0.902 |
0.79 |
0.878 |
0.937 |
0.935 |
0.940 |
0.937 |
在SonyAIBORobotSurface2数据集上,SP-FD模型同样表现出色,精确率0.935、召回率0.940与F1值0.937,各项指标数值接近,进一步证明模型的稳定性与鲁棒性。
同时为了验证SP-FD方法的收敛性,我们在这两个数据集上绘制了训练损失的图。如图3所示,在训练开始之后,SP-FD模型快速收敛到稳定值。这表明了强而一致的收敛行为,强调了模型的有效性。
Figure 3. Changes in training loss of the dataset with the number of training rounds
图3. 随着训练轮数的变化,数据集的训练损失的变化
为了评估频域特征对模型性能的影响,我们进行了一个消融实验,移除了特征集中的频域特征。结果显示,相较于包含所有特征的模型,分类准确率出现了明显下降。这表明频域特征在捕捉时间序列数据中的全局模式方面具有重要作用,而这些模式仅通过时域特征无法完全表现。具体结果见表3所示,其中SP-FD/F方法为去除了频域特征后的模型,当移除频域特征后,SonyAIBORobotSurface1数据集上的准确率从97.8%下降到95.5%,SonyAIBORobotSurface2数据集的准确率则从93.7%下降到91.5%。
Table 3. Ablation results of SP-FD
表3. SP-FD的消融结果
Dataset |
SP-FD |
SP-FD/F |
SonyAIBORobotSurface1 |
0.978 |
0.955 |
SonyAIBORobotSurface2 |
0.937 |
0.915 |
4. 总结
在本文中,我们提出了一种基于Shapelet和PSO特征选择,并融合频域特征的多模态时间序列分类新方法(SP-FD),并将其应用于机器人传感器的路面检测任务。该方法通过从时间序列中提取关键的Shapelet候选子序列,并采用PSO算法对这些候选特征进行优化选择,结合频域特征以提高分类性能。实验结果表明,SP-FD方法在SonyAIBORobotSurface1和SonyAIBORobotSurface2这两个传感器路面检测数据集上,优于5种最先进的基线方法,并在分类任务中表现出卓越的性能。此外,消融实验证明了频域特征及Shapelet候选特征选择模块的有效性,进一步验证了该方法在机器人传感器数据上的应用潜力。未来,我们计划进一步扩展SP-FD方法,应用于具有更多噪声和复杂传感器数据的实际场景。