1. 引言
航天器作为复杂的高科技系统,其运行状态的实时监控与评估对于任务的成功执行和航天器的安全至关重要。遥测数据是航天器在轨运行期间产生的大量实时数据流,包含了姿态、温度、电压、电流、传感器读数等多种参数信息。这些数据以时间序列的形式连续传输,具有数据量大、维度高、实时性强、噪声干扰多以及模式多样等特点。对这些海量遥测数据进行深入挖掘和分析,能够及时发现航天器异常、预测潜在故障、识别工作模式,从而为航天器的健康管理、故障诊断和任务规划提供关键支撑[1]。
传统的航天器遥测数据分析方法多依赖于专家经验和预设阈值,难以适应数据量的爆炸式增长和复杂多变的工作模式。随着大数据和人工智能技术的快速发展,数据挖掘技术为解决这一挑战提供了新的途径。时间序列数据挖掘作为数据挖掘领域的一个重要分支,专注于从时间序列数据中发现有价值的模式、趋势和知识,其在金融、医疗、工业控制等领域已取得显著成效[2] [3]。将时间序列数据挖掘技术应用于航天器遥测数据分析,能够有效提升数据处理的自动化和智能化水平,从而更精准、高效地保障航天器在轨安全运行。
航天器遥测数据挖掘领域的研究主要集中在异常检测、故障诊断、模式识别和预测等方面。在异常检测方面,由于遥测数据的复杂性和高维性,传统的基于统计学的方法往往难以捕捉到复杂的异常模式。近年来,基于机器学习和深度学习的方法逐渐成为研究热点,例如,利用支持向量机(SVM) [4]、孤立森林(Isolation Forest) [5]等算法进行异常点识别。此外,针对遥测数据的时间序列特性,一些研究也探索了基于时间序列相似性度量的方法来检测异常,通过比较当前序列与历史正常模式的偏离程度来判断异常[6] [7]。在时间序列数据挖掘中,聚类分析扮演着至关重要的角色,它能够将具有相似行为模式的时间序列归为一类,从而揭示数据中隐藏的结构和规律。时间序列聚类方法大致可分为三类:整体时间序列聚类、子序列聚类和时间点聚类。
1) 整体时间序列聚类:将每条完整的时间序列作为一个数据对象进行聚类。这类方法通常关注序列的整体形态或趋势,常用于识别不同工作模式下的航天器遥测数据组。研究重点包括特征表示、相似性度量和聚类算法的选择[8]。
2) 子序列聚类:从较长的时间序列中提取子序列进行聚类,旨在发现序列中的频繁模式或异常片段。这对于识别航天器运行中的局部异常或特定事件模式具有重要意义[9]。
3) 时间点聚类:关注时间序列中特定时间点的数据对象之间的相似性,常用于数据降维和特征表示[10]。
在相似性度量方面,欧氏距离(Euclidean Distance, ED)和动态时间弯曲(Dynamic Time Warping, DTW)是两种常用的方法。欧氏距离计算简单,但对序列的拉伸和偏移敏感;DTW则能有效处理时间序列的非线性形变,但计算复杂度较高[11]。
中心序列挖掘是时间序列分析中的一个重要任务,旨在从一组相似的时间序列中找到一条最具代表性的序列。这对于构建类别原型、提取特征或作为异常检测的基准具有重要意义。目前,中心序列的定义和计算方法尚未形成统一标准,主要包括基于欧氏距离的平均序列、基于中点的序列、基于样本的序列以及基于距离和的序列[12] [13]。针对中心序列的计算,已有一些经典算法,如基于非线性匹配和均值过滤的NLAAF (Non-Linear Alignment and Averaging Filters)方法,以及基于层次合并的PSA (Prioritized Shape Averaging)方法[14]。然而,这些方法在处理高维、大规模时间序列数据时,仍面临计算效率和准确性的挑战。例如,NLAAF可能增加存储开销和计算复杂度,而PSA在多点匹配时可能导致长度过度变形,丢失序列形态特征。DBA (DTW Barycenter Averaging)作为一种全局优化的中心序列计算方法,虽然具有较好的代表性,但其结果依赖于初始序列的选择,且为近似解[15]。为了降低时间序列的维度和复杂性,一些方法首先对时间序列进行特征提取或降维,然后在此简化表示上进行中心序列的挖掘。常见的特征表示方法包括分段线性近似(Piecewise Linear Approximation, PLA) [16]、离散傅里叶变换(Discrete Fourier Transform, DFT) [17]、离散小波变换(Discrete Wavelet Transform, DWT) [18]等。这些方法能够有效压缩数据,但如何选择合适的特征表示方法以及如何确保特征表示能够充分保留原始序列的关键信息,是这类方法面临的挑战。近年来,随着深度学习技术的发展,越来越多的研究者开始探索利用神经网络来学习时间序列的表示并进行中心序列的挖掘。例如,循环神经网络(RNN) [19]、长短期记忆网络(LSTM)和Transformer [20]等模型能够捕捉时间序列的复杂模式和长期依赖关系。深度学习方法在处理大规模、复杂时间序列数据方面展现出巨大潜力,但通常需要大量的标注数据进行训练,且模型的可解释性相对较差。
本文旨在提出一种高效且鲁棒的航天器遥测数据中心序列挖掘方法,以克服现有方法在处理大规模、复杂遥测数据时面临的挑战。本研究将结合时间序列的特征表示、聚类分析和迭代优化技术,实现中心序列的精确与高效计算,为航天器遥测数据的智能化分析提供有力支持。
2. SCIM算法
针对航天器遥测数据中心序列挖掘中存在的序列合并顺序问题和计算效率问题,本文提出了一种基于分段质心迭代法(Segment Centroid Iteration Method, SCIM)的中心序列挖掘方法。SCIM算法在自适应线性分段的基础上,引入了序列段质心的概念,并结合迭代优化策略,实现了中心序列的快速近似求解。SCIM算法的整体流程如图1所示。
SCIM算法主要包括以下几个步骤:
1) 数据输入与特征表示:首先,将原始航天器遥测时间序列数据作为输入。考虑到原始序列的长度和复杂性,为了提高后续处理效率,我们采用全局信息熵自适应分段线性近似(Global Information Entropy Adaptive Piecewise Linear Approximation, GIE-APLA)算法对原始序列进行特征表示。GIE-APLA能够有效地将原始时间序列压缩为一系列序列段,同时保留序列的主要形态特征,为后续的相似性度量和聚类分析奠定基础。GIE-APLA在传统PLA的基础上,引入了“全局信息熵”的概念,以实现分段的自适应性。信息熵是衡量信息不确定性的指标,在时间序列分段中,可以用于评估每个潜在分段点所能带来的信息
Figure 1. Flowchart of the segment centroid iteration method (SCIM)
图1. 分段质心迭代法(SCIM)流程图
增益或减少的不确定性。GIE-APLA的核心思想是:在进行分段时,算法会评估不同分段点对整个序列信息熵的影响。一个理想的分段点应该能够最大化分段后子序列的信息纯度,或者说,使得每个分段内部的数据点尽可能地遵循单一的线性趋势,而不同分段之间则存在明显的趋势变化。通过这种方式,GIE-APLA能够自适应地确定分段点,使得每个分段都能更好地捕捉原始序列的局部特征,同时保证全局的信息损失最小化。
2) 相似性度量与层次聚类:在得到序列段表示后,需要对序列之间的相似性进行度量。由于航天器遥测数据可能存在时间上的非线性形变,传统的欧氏距离难以准确捕捉其相似性。因此,我们采用自适应动态时间弯曲(Adaptive Dynamic Time Warping, ASDTW)算法来计算序列段之间的距离。ASDTW是DTW的一种改进,能够更高效地处理序列的非线性对齐问题。基于相似度矩阵,我们采用层次聚类方法对序列进行聚类。层次聚类能够将形态相似的序列归为一类,有效减少不同工作模式序列之间的相互影响,并避免了预设聚类个数的难题。
3) 簇初始化与中心序列选择:在层次聚类完成后,每个簇代表了一组形态相似的时间序列。对于每个簇,我们需要选择一个初始的中心序列。本文采用从簇中选择与簇内其他序列距离和最小的序列作为该簇的初始中心序列。这种选择策略能够确保初始中心序列具有较好的代表性,为后续的迭代优化提供良好的起点。
4) 迭代优化:这是SCIM算法的核心部分,旨在通过迭代过程逐步逼近最优的中心序列。每一轮迭代包含两个子过程:
① 匹配信息计算:将当前中心序列与簇内所有输入序列逐一进行基于序列段的匹配。与传统的DBA算法逐点匹配不同,SCIM算法利用序列段进行匹配,大大降低了计算开销。匹配过程中,记录下序列段之间的匹配信息,这些信息将用于后续的中心序列更新。
② 中心序列更新:根据前一步骤得到的匹配信息,采用序列段质心合并策略来更新当前中心序列。这种全局的合并方式能够有效减少局部合并对结果的影响,使得更新后的中心序列更能代表簇内序列的整体形态。
5) 收敛判断与结果输出:迭代过程持续进行,直到当前中心序列与更新后的中心序列之间的距离小于预设的阈值,即达到收敛条件。此时,将当前中心序列作为该簇的最终中心序列。SCIM算法最终输出每个聚类对应的中心序列集合。
综上所述,SCIM算法伪代码如下:
Algorithm SCIM(Dataset D, Threshold epsilon)
Input: D: 航天器遥测时间序列数据集
epsilon: 收敛阈值
Output: C_final: 每个簇的最终中心序列集合
1. C_segments = {} // 存储每个序列的GIE-APLA序列段表示
2. For each time series S in D:
3. S_segments = GIE-APLA(S) // 使用GIE-APLA进行特征表示
4. C_segments.add(S_segments)
5. Similarity_Matrix = Calculate_ASDTW_Distances(C_segments) // 计算序列段之间的ASDTW距离
6. Clusters = Hierarchical_Clustering(Similarity_Matrix) // 进行层次聚类
7. C_final = {}
8. For each Cluster C in Clusters:
9. S_center_current = Select_Initial_Centroid(C) // 选择初始中心序列
10. Repeat:
11. S_center_prev = S_center_current
12. Matched_Segments_Map = {} // 存储每个中心序列段对应的匹配输入序列段
13. For each S_input in C:
14. Warping_Path = ASDTW_Align(S_center_prev, S_input) // 序列段匹配
15. For each matched pair (P_c, P_i) in Warping_Path:
16. Matched_Segments_Map[P_c].add(P_i)
17. S_center_new = Update_Centroid_by_Merging(Matched_Segments_Map) // 质心合并更新中心序列
18. S_center_current = S_center_new
19. Until ASDTW_Distance(S_center_current, S_center_prev) < epsilon
20. C_final.add(S_center_current)
21. Return C_final
上述代码中各函数说明如下:
GIE-APLA(S):实现全局信息熵自适应分段线性近似算法,将时间序列S转换为序列段集合。
Calculate_ASDTW_Distances(C_segments):计算所有序列段集合之间的ASDTW距离,生成相似度矩阵。
Hierarchical_Clustering(Similarity_Matrix):基于相似度矩阵进行层次聚类,返回簇的集合。
Select_Initial_Centroid(C):从簇C中选择与簇内其他序列距离和最小的序列作为初始中心序列。
ASDTW_Align(S_center, S_input):计算中心序列与输入序列之间的ASDTW最优对齐路径,并返回匹配信息。
Update_Centroid_by_Merging(Matched_Segments_Map):根据匹配信息,对每个中心序列段对应的输入序列段进行质心合并,生成新的中心序列。
ASDTW_Distance(S1, S2):计算两条序列之间的ASDTW距离。
本文提出的SCIM算法结合了特征表示、层次聚类和迭代优化等技术,旨在解决现有方法在处理大规模、复杂航天器遥测数据时面临的计算效率和准确性挑战。与传统的逐点匹配方法不同,SCIM算法利用GIE-APLA进行序列段的特征表示,并通过ASDTW计算序列段之间的距离,大大降低了计算开销。此外,SCIM算法采用序列段匹配和质心合并策略进行迭代优化,有效减少了局部合并对结果的影响,使得更新后的中心序列更能代表簇内序列的整体形态。SCIM算法在保留原始序列主要特征的同时,有效提升了中心序列计算的效率和表征能力,为航天器遥测数据的深度分析提供了新的思路和技术支持。
3. 案例研究
本节将采用航天器遥测数据对SCIM算法进行实验分析,以验证其在表征能力和计算开销方面的性能。实验数据来源于某航天器2023年8月至10月期间的四个遥测参数(TEDATA003、TEDATA006、TEDATA008、TEDATA009)时序数据,共计158条,包含167,013个数据点。为减少噪声点的影响,所有数据在分析前均进行了过滤处理。
3.1. 中心序列计算效果
为了直观展示SCIM算法的中心序列计算效果,我们以遥测参数TEDATA006于2023年8月8日9点和10点内的两段连续时间序列为例进行分析。图2展示了两条原始序列及其通过SCIM算法计算所得的中心序列。
如图2所示,红色和蓝色实线分别代表两条原始序列,它们在形态上保持一致,但在局部数据上略有偏差。橙色和紫色虚线为两条原始序列经过GIE-APLA特征表示后的序列段。中间的蓝色实线为基于SCIM算法所得的中心序列。该中心序列是由橙色和紫色序列段计算匹配信息后合并所得。实验结果表明,蓝色中心序列与两条原始序列的几何形态基本保持一致,这初步验证了SCIM算法在保留原始序列主要信息方面的有效性。值得注意的是,两条原始序列之间的DTW距离为30.82,而计算所得的中心序列到两原始序列的距离分别为11.39和15.24,两者之和小于两序列间的DTW距离。这符合中心序列在语义上的解释,即中心序列应是与簇内序列距离之和最小的序列。
3.2. 层次聚类结果分析
以遥测参数TEDATA006于2023年8月至10月期间生成的42条时间序列为例,SCIM算法首先计算原始序列之间的距离,并根据相似度矩阵进行序列的层次聚类和划分。图3展示了其聚类结果。
层次聚类以树状形式展示聚类过程,初始阶段将每个序列视为一个单独的簇,随后依次将距离最小的两个簇合并为新的簇,并加入到待聚类的集合中,直到所有簇合并为一个完整的集合。对于航天器
Figure 2. Schematic diagram of merging two sequences
图2. 两序列合并示意图
Figure 3. Hierarchical clustering results
图3. 层次聚类结果
遥测序列的相似性划分任务而言,层次聚类具有显著优点:聚类过程直观、无需事先确定聚类个数、对异常数据不敏感等。合并顺序可根据下标所对应的高度来确定,相似度越高,合并顺序越早,在图中的位置越偏下。例如,编号为4和5的序列最先合并,表明它们具有较高的相似性;同理,下标为18、21、22、25的序列应划分为同一类。图4展示了这些序列子集的原始数据序列。
图4清晰地显示,该集合中的序列具有相似的形态特征,这进一步验证了ASDTW算法在序列相似性度量方面的有效性。若序列合并时间越晚,则表明该序列与当前序列集相似度越低,甚至可能是个别特殊序列,在中心序列的计算中应予以筛除处理。例如,图5展示了编号为9的序列,其在最后单独合并到序列集中,表明其形态与其他序列不同。
图5中,红色曲线为编号为9的序列信息,黑色曲线对应编号为4的序列信息。对比可见,编号为4的序列与图中其他序列类似,在序列中后部有一个振幅较大的波峰,而序列9主要由若干个振幅较小的波峰组成。两者形态差异显著,应划分为不同的序列集合,以减少不同形态序列之间的相互影响。
Figure 4. Schematic diagram of similar sequences
图4. 相似序列示意图
Figure 5. Schematic diagram of dissimilar sequences
图5. 相异序列示意图
3.3. 迭代效果优化
通过层次聚类进行相似性序列的划分后,SCIM算法在各个序列子集中进行中心序列的迭代计算。以序列子集
为例,其中心序列的计算结果如图6所示。
Figure 6. Central sequence of the sequence subset S’
图6. 序列子集S’的中心序列
图6中绿色加粗曲线为序列子集S’的中心序列。可以看到,基于SCIM算法求得的中心序列在简化原始序列的前提下,保留了原始序列的主要特征,具有一定的代表性和拟合精度。这表明SCIM算法能够有效地从复杂的时间序列数据中提取出具有代表性的中心模式。
4. 结论
本文针对航天器遥测数据海量、高维、复杂等特点,提出了一种基于分段质心迭代法(SCIM)的中心序列挖掘方法。该方法通过GIE-APLA进行特征表示,利用ASDTW进行相似性度量,并结合层次聚类对遥测时间序列进行有效划分。SCIM算法的核心在于其迭代优化过程,通过序列段匹配和质心合并策略,实现了中心序列的快速近似求解。案例研究结果表明,SCIM算法在保留原始序列主要特征的同时,有效提升了中心序列计算的效率和表征能力,为航天器遥测数据的深度分析提供了新的思路和技术支持。未来的研究方向可以包括:进一步优化SCIM算法的计算性能,使其能够处理更大规模的遥测数据;探索将SCIM算法应用于航天器故障预测和健康管理等更广泛的应用场景;以及结合深度学习技术,提升中心序列挖掘的智能化水平。