1. 引言
太阳活动对地球上的气候、电磁场和通信系统等都有重要影响,而F10.7 (2800MHz,10.7 cm太阳辐射通量)是一个较好的衡量太阳活动水平的典型参数,能够反映太阳活动的周期性变化 [1] (Tapping 2013)。F10.7指数在航天器轨道预报的大气密度计算及影响通信的电离层预报中,F10.7指数都是重要的参数。例如,F10.7被用作电离层模型的控制参数,用于计算无线电信号特性的变化 [2] (Ortikov et al., 2003)。F10.7也被广泛应用于卫星、导航、通信和陆地气候 [3] [4] (Huang, Liu, and Wang, 2009;Ya Ya et al., 2017等)。因此,对F10.7进行准确的预报不仅对军事活动的进行有着重要的价值,而且在空间天气预报这一科学研究方面也具有比较大的意义 [5] [6] (Swarup et al., 1963; Tapping and DeTracey, 1990; Henney et al., 2012)。
F10.7指数预测模型基于时间序列模型。许多研究人员使用不同的方法来建立F10.7的预测模型。Mordvinov等 [7] 人(1986年)使用乘法自回归模型来预测F10.7的月平均值,但该模型在预测F10.7月平均值时误差较大。Warren等人 [8] (2017年)为每个预测日期建立了优化的独立模型,结果表明这种方法的预测效果通常优于自回归方法。Zhong等人 [9] (2005)利用奇异谱分析信号处理技术预测了未来27天的太阳活动F10.7指数。研究结果表明,该方法在预测F10.7指数的周期性变化方面表现良好。Henney等 [10] (2012)利用能量传输模型生成的全球太阳磁场预测了F10.7,提前1天的皮尔逊相关系数为0.97。Liu [11] 等人(2018)应用Yeates [12] (2007)和Worden [13] (2000)的两个模型预测了F10.7的短期变化。在太阳活动水平较低时,模型的预测值更接近观测值。
随着机器学习和神经网络的快速发展。许多研究人员对机器学习和神经网络强大的学习能力越来越感兴趣,并利用它们来研究太阳活动的变化。Huang等人 [3] (2009年)使用支持向量机回归方法预测了太阳活动F10.7的日值。Xiao等人 [14] (2017)使用反向传播神经网络(BP)预测太阳活动日平均指数F10.7,进行短期预测。结果表明,利用BP神经网络预测太阳活动日指数F10.7优于Huang等 [3] (2009)的结果。Luo等 [15] (2020)提出了一种多步骤预测10.7厘米射电通量的方法。该方法结合了经验模式分解(EMD)和反向传播神经网络(BP),构建了预测F10.7值的EMD-BP模型。Zhang等人 [16] (2020)提出了一种利用长短期记忆网络(LSTM)方法对太阳活动日平均指数F10.7进行短期预报的方法。该预报具有0.98的高相关系数和6.20~6.35 sfu的低均方根误差。尽管上述基于递归神经网络(RNN)的结构及其变体实现了良好的F10.7预测精度,但模型的训练过程往往耗费大量时间和计算内存,而且在网络训练过程中还经常遇到梯度爆炸或梯度消失等问题 [17] [18] (Zachary et al., 2015, Yang et al., 2021)。同时,太阳辐射通量变化非常剧烈,其序列值本身的非线性非平稳程度就很强,所以关于太阳辐射通量的中短期预测问题仍然有很多更适合非线性系统建模的机器学习模型或组合模型可以尝试,并且极端事件预测能力有待于进一步提高。针对这些问题,本文尝试引入了变分模式分解算法(VMD),对F10.7指数进行分解。VMD算法能有效处理时间序列数据的周期性和强非线性。其次引入TCN神经网络对F10.7指数预测。TCN神经网络对低复杂度和低非线性的时间序列具有良好的预测能力。因此,将VMD方法和TCN模型相结合,构建了F10.7指数的VMD-TCN预测新模型,并试图提高F10.7指数的预测精度。并将预测结果与基于相同数据集建模的其他模型如TCN,VMD-ELM模型相比,验证VMD-TCN预测F10.7的有效性和可靠性。
2. 数据来源与处理
2.1. 数据来源

Figure 1. 1957 to 2019 data for F10.7, where black indicates the training set and blue indicates the test set
图1. F10.7的1957到2019的数据,其中黑色表示训练集,蓝色表示测试集
F10.7代表波长为10.7 cm的太阳辐射通量,该指数大小反映太阳活动性强弱。F10.7是记录太阳活动水平时间最长的指数之一,10.7厘米太阳通量以太阳通量单位(a sfu = 10~22 W·m−2 Hz−1)。本文收集了1957年至2019年的太阳辐射通量(F10.7)日值数该数据来源于美国国家海洋和大气管理局网站(http://www.celestrak.com/SpaceData/)。F10.7代表波长为10.7厘米的太阳辐射通量,该指数的大小描述了太阳活动的强度。10.7厘米的每日太阳通量数据来自美国国家海洋和大气管理局的网站。每天进行三次通量测定。每个10.7厘米太阳通量测量都以三个值表示:观测值、调整值和URSI系列D值(绝对值)。观测值是太阳射电望远镜测量的数字。它被两个量调制:太阳活动水平和地球与太阳之间的变化距离。由于它是太阳活动撞击地球所导致的排放量的测量方法,因此它是研究地球现象时使用的量。在研究太阳时,不希望有地球与太阳之间距离变化所引起的10.7厘米太阳通量的年度调制。然而,在太阳通量监测器需要准确获取和跟踪太阳的星历计算过程中,得到的副产品之一是太阳和地球之间的距离。因此,产生了一个额外的值,称为调整值,它考虑了地球–太阳距离的变化,并代表平均距离。通量密度的绝对测量是相当困难的。天文学家试图通过应用比例因子来匹配不同频率的太阳通量密度数据与频谱。通过将每个波长与校准的频谱相结合,可以获得一系列D通量,其中D通量等于0.9乘以调整通量 [19] (Tanaka et al., 1973)。
三月至十月的测量时间分别为世界时1700时、2000时(当地正午)和2300时。然而,由于地处山谷和相对较高的纬度,在一年的其他时间里不可能保持这些时间。因此,从11月到2月,通量测定时间在1800、2000和2200改变,以使太阳在地平线以上足够高,可以很好地测量。因此,我们选择调整后的通量值F10.7在晚上8点测量的值,我们使用1957年到2019年的F10.7数据,并选择1957年11月10日至2008年12月31日51年的数据作为训练集,2009年1月1日至2019年12月31日11年的数据作为测试集。图1显示了F10.7数据随时间变化的曲线图,黑色代表训练数据,蓝色代表测试数据。它们将在下文中被分别使用。
2.2. 数据处理
本文对数据进行标准化处理。在建模之前对输入数据进行预处理操作,确保模型预测结果的适用性、可靠性和对标准的统一性。我们通过将原始数据转换为无量纲的标准化值,从而避免不同属性值对不相同的指标的影响,因此实验结果更具备比较性,不会影响实验结果的精确率。一般常用的数据标准化方法包括线性函数标准化(Min-Max缩放),Z-score标准化和线性刻度标准化。
本文模型数据主要使用Min-Max归一化方法,首先对原始流量数据做预先处理,并根据式1将时间序列输入X转换为X'
(1)
式中 是数据样本中的最大值,而 是数据样本中的最小值。归一化的样本数据X通过式2被缩放到−1和1之间的值。
(2)
3. 方法
3.1. VMD分解方法
VMD算法常用于处理非平稳信号,可有效地提取出数据特征 [18] 。对于输入信号,首先构造变分问题,假设原始信号f被分解为k个分量,保证分解序列为具有中心频率的有限带宽的模态分量,同时各模态的估计带宽之和最小,约束条件为所有模态之和与原始信号相等,则VMD算法由此产生约束的变分问题为:
(3)
式中:K为需要分解的模态个数(正整数),
,
分别对应分解后第K个模态分量和中心频率,
为狄拉克函数,*为卷积运算符。
引入Lagrange乘法算子λ,将约束变分问题转变为非约束变分问题,得到增广Lagrange表达式为:
(4)
式中:α为二次惩罚因子,作用是降低高斯橾声的干扰。利用交替方向乘子(ADMM)迭代算法结合Parseval/Plancherel、傅里叶等距变换,优化得到各模态分量和中心频率,并搜寻增广Lagrange函数的鞍
点,交替寻优迭代后的
,
和λ的表达式如下,详细过程如下所示:
(5)
式中,γ为信号的噪声容忍度。通过反复迭代直到满足收敛条件或达到最大迭代次数即停止,收敛条件为:
(6)
3.2. TCN网络
时序卷积网络(Temporal Convolutional Network, TCN)在2018年由Bai等 [20] 提出,它是一种新型的时间序列预测模型,是在卷积神经网络(CNN)的基础上进行改进的,其模型架构包括因果卷积(Causal Convolution)、空洞卷积(Dilated Convolution)和残差模块(Residual Block)。TCN的梯度稳定使其能够有效避免模型训练过程中发生梯度消失或梯度爆炸导致模型训练失败的问题,同时具有灵活的感受野等优点。因此,我们将TCN应用于F10.7的预测中。
3.2.1. F10.7序列建模
对于单变量时间的预测,TCN模型的输入是时间序列的滞后观测值,输出是未来的序列值,其中每一组输入模式都是由在时间序列中移动一个固定长度的窗口组成 [21] 。预测的原理如图2表示:

Figure 2. Schematic of sequence data prediction
图2. 序列数据预测示意图
假设输入数据为
,对应期望的输出序列为
,其中
两个序列要满足因果关系,即须使用先前时刻观测得到的输入
来预测t时刻的输出
,TCN网络的建模目标是产生映射的任何隐函数f,即本文序列的预测问题可表示为:
(7)
其中,
和
分别为i时刻的观测值与预测值,f为TCN网络训练出来的函数映射。
时间卷积网络(Time Convolutional Network, TCN)是在卷积神经网络(Convolutional Neural Network, CNN)基础上发展起来的算法之一 [20] 。TCN采用一维卷积网络,由膨胀因果卷积和残差模块组成。下文将分别介绍。
3.2.2. 膨胀因果卷积原理
一维卷积可对时间序列进行运算并提取各种特征,但随着时间序列长度的增长,规则的卷积网络则需要更多的卷积层以接收更长的序列。扩展卷积则在卷积基础上进行了改进,允许卷积时的输入存在间隔采样,层数为L且卷积核大小为k的接受域为:
(8)
时间序列中元素s的因果扩展卷积运算F定义为:
(9)
式中:
为输入向量,d为扩展因子,*为因果扩展卷积运算符,f为卷积核向量,k为卷积核大小,s−d×i表示输入过去的方向。
膨胀因果卷积结构如图3所示,可以通过调节感受野尺寸以满足不同长度序列感知需求,从而解决 CNN中时间建模长度受卷积核尺寸限制这一难题。
3.2.3. 残差模块
TCN中残差模块的结构如图4中残差链接使网络能够跨层数进行信息传递,从而避免层数过多而造成信息损失。引入残差卷积进行跳层连接,并进行1 × 1卷积操作,保证输入与输出保持一致。

Figure 4. TCN residual module structure
图4. TCN残差模块结构
3.3. VMD-TCN模型
VMD可以减少具有高复杂性和强非线性的时间序列数据。作为一种改进的递归神经网络,TCN网络不仅能解决RNN无法处理长距离依赖性的问题,还能解决神经网络中常见的梯度爆炸或梯度消失等问题。它在处理时间序列数据方面非常有效。因此,我们尝试将TCN神经网络模型与VMD算法相结合,提前1~3天预测F10.7指数。将这种组合方法被称为VMD-TCN模型。具体步骤如图5所示。图5首先将原始数据通过VMD分解方法分解得到的多个IMF分量和一个残差分量,接下来使用TCN模型分别对各分量进行训练预测,最后将各分量的预测结果相加得到最终预测结果。VMD可以减少具有高复杂性和强非线性的时间序列数据,而本文的数据具有非线性,非平稳的特点,通过VMD方法将数据分解成中高低频信号,可以使得TCN模型更好的捕捉数据内部的信息,从而达到提高预报效果的结果。
1. 我们使用1957年至2019年的F10.7数据,并使用VMD算法对F10.7数据进行分解,分解得到5个IMF分量和一个残差分量。
2. 使用TCN模型分别训练这些分解后的分量,在完成TCN模型的训练后,我们可以预测得到提前1~3天每个分量的预测结果。
3. 将各部分提前1~3天的预测结果相加,就可以得到F10.7提前1~3天的预测值。
由图4可知,时序卷积网络模型主要采用Adam梯度下降优化算法对其进行优化,并自动学习记忆时间序列的特征生成最优模型,最后通过全连接层后进行结果预测。另外本文在预测时使用L1范数进行正则化 [22] (Zhao et al., 2017),使用Dropout防止模型过拟合。为了量化本模型的预报性能,我们选取了5个评估量来衡量模型的性能,分别为平均绝对误差、均方根误差、平均绝对百分比误差、相关系数,这五个常见的模型评价指标去评价预测的预测效果。
(10)
(11)
(12)
(13)
(14)
其中,MAE表示平均绝对误差,MAPE表示平均绝对百分比误差,RMSE表示均方根误差,MRE表示平均相对误差,R表示线性相关系数,N表示样本个数,Fi表示预报值,fi表示观测值,f表示观测值期望, 表示预报值期望。每个指标都从不同角度去评估模型,MAE表示预测值和实际值之间的平均绝对误差,MAPE表示预测值和实际值之间的平均绝对百分比误差,RMSE代表预测值和实际值之间的误差,MRE表示表示预测值和实际值之间的平均相对误差,R代表预测值与实际值之间的趋势拟合程度。因此MRE,MAE和RMSE和MAPE越小,R越大,模型预测越佳。
4. 结果与讨论
4.1. VMD分解结果分析
本研究采用VMD算法对1957年至2019年的F10.7数据进行分解。分解后得到5个IMF分量和残差。原始F10.7指数序列的值是分解后的6个子分量的和,残差可通过原始数据减去5个IMF分量表示。图6显示了2015年F10.7指数的分解结果、其中,IMF1和IMF2为高频信号,IMF3为中频信号,IMF4和IMF5为低频信号。分解结果显示,IMF3,IMF4和IMF5分量的曲线更平滑,拐点更少,复杂度更低,与原始F10.7数据相比,曲线更平滑、拐点更少、复杂度更低,这有利于神经网络TCN模型的建立。虽然IMF1和IMF2波动很大,但从定量的角度来看,IMF1和IMF2所占的比例很小,因此对预测结果的影响也很小。所以使用神经网络模型可以有效地预测它们。

Figure 6. F10.7 index after using VMD decomposition methodology during 2015 year
图6. 2015年F10.7指数使用VMD分解方法后的结果
4.2. 预报结果分析

Table 1. VMD-TCN model prediction errors (MAE, RMSE, MAPE) for F10.7 data for the period 1996~2019 and R
表1. VMD-TCN模型对1996~2019年期间F10.7数据的预测误差(MAE, RMSE, MAPE)和R
表1显示了不同年份VMD-TCN的预测值和观测值之间的统计参数,这反映了VMD-TCN模型在不同年份的性能表现。从表1中可以得出,提前1~3天F10.7预测结果的均方根误差是1~4 sfu,平均绝对值误差是1~3 sfu,平均绝对百分比误差是1~2 sfu,相关性是0.99,这意味着模型的性能不会因为提前预测的时间的不同而出现显著性的差异。这体现了VMD-TCN模型的稳定性。
由表1可见,在不同年份,本文的预报精度存在一定差异。为评估本文方法在不同年份的精度状况,以太阳活动强度为标准,将完整太阳周期划分为太阳活动平静期与太阳活动活跃期,并分析预报精度与太阳活动强度的关系,如图7所示。在图7(a)中,红色点线图表示第24太阳活动周内各年年均F10.7变化情况,其纵轴位于图7(a)左边,图中标注皆为红色。本文结合第24周实际状况,将年均F10.7高于110 sfu的年份视为太阳活动活跃期,其余年份为太阳活动平静期,图7(a)中绿色划线为太阳活动低年与高年的划分标准线.由图可见,2011年至2015年的5年间,F10.7年均值显著高于其他年份,视其为太阳活动活跃期;其余年份F10.7年均值低且变化较缓慢,视为太阳活动平静期。图7(a)中柱状图表示本文方法预报第24太阳活动周F10.7的各年年均相对误差,其纵轴位于图7(a)右,图中标注皆为蓝色.结合图7(a)中线图和柱状图可以发现,本文方法预报平均相对误差与太阳活动强度存在较强的负相关。图7(b)显示了第24太阳活动周预测值与真实值,红线表示F10.7的观测值,蓝色线表示VMD-TCN模型的预测值。由图7(b)可知,VMD-TCN模型很好地预测出了F10.7的走势,并且在大部分时间内,真实值和预测值的数值大小吻合较好。尤其在F10.7峰值时,VMD-TCN模型的预测效果也与真实值相符合,并且在太阳活动高年期间,VMD-TCN模型的预测结果也表现优异。

Figure 7. (a) Mean relative error versus F10.7 annual mean; (b) Comparison of F10.7 forecast values with observed values
图7. (a) 平均相对误差与F10.7年均值关系;(b) F10.7预报值与观测值的对比
为了更好的评估模型的性能,我们基于同一数据集进行了对比实验。将TCN模型预报结果,以及VMD分解方法与ELM模型相结合的预报结果,与本文VMD-TCN模型提前1~3天的预报结果进行对比。预报对比结果如表2所示。表2展示了TCN、VMD-ELM、VMD-TCN三种模型在第24个太阳活动周期间对太阳辐射通量F10.7提前1~3天的预测结果。从表2中可以看出,VMD-TCN模型在第24个太阳活动周的提前1~3天的均方根误差分别为1.94、3.15和3.97,TCN模型在第24个太阳活动周的提前1~3天的均方根误差分别为5.15、5.16和5.66。VMD-ELM模型在第24个太阳活动周的提前1~3天的均方根误差分别为2.08、3.45和4.19。VMD-TCN模型的预测精度优于TCN模型和VMD-ELM模型,并且VMD-TCN模型的相关系数,平均绝对误差以及平均绝对百分比误差也相对更好。VMD-TCN模型预报太阳辐射通量F10.7可行的原因。首先,TCN网络可以捕捉数据序列的历史信息来处理非线性问题,并且相比LSTM、GRU等递归神经网络,它不需要使用门控机制,所以TCN更准确,有更长的记忆,且TCN不存在梯度消失、梯度爆炸问题等优点,并从训练集中捕捉有用的信息来预测提前1~3天的太阳辐射通量F10.7。其次,VMD算法可以减少非平稳数据序列的影响,所以即使太阳辐射通量F10.7突然变化,VMD-TCN模型也能很好地拟合F10.7。这些都表明VMD-TCN模型在处理太阳辐射通量F10.7数据的非平稳和非线性问题方面具有明显的优势。

Table 2. Comparison of the results of the models for the 24-week forecasts of solar activity
表2. 各模型在太阳活动24周预报结果的对比结果
5. 结论
10.7厘米(F10.7)的太阳辐射通量是太阳活动的重要指标。它在太阳物理学中的应用包括太阳活动水平的指标、太阳周期特征的预测等。针对F10.7观测时间长、具有一定周期的特点,本文首次将基于机器学习的TCN相关理论和技术和信号处理中的VMD分解方法引入到空间天气的F10.7序列预测中,通过太阳活动周数据建立了VMD-TCN预测模型。并基于同一数据集建立了其他模型TCN,VMD-ELM建立作比较,发现VMD-TCN模型的整体预测精度略优于单独的模型TCN模型和VMD-ELM模型,VMD-TCN模型预测F10.7的均方根误差更低,相关系数更高,模型综合预测效果最佳,这也验证了该模型预测太阳辐射通量的有效性和可靠性。同时,与前人所建立模型的F10.7模型作比较,发现TCN模型的整体预测精度略优于那些广泛使用的自回归(AR)模型 [23] 和长短时记忆网络 [16] (LSTM)模型。特别是对于提前2、3天的预测,VMD-TCN模型略胜一筹。因此,VMD-TCN模型在F10.7的预测中具有重要的意义,可以帮助更好地理解和预测太阳活动的变化。
VMD-TCN的高精度归功于VMD算法有效降低了F10.7数据序列的非线性和复杂性,这有利于TCN网络捕捉序列变化的内部规律。尽管VMD-TCN方法被证明是预测F10.7的可行方法,但其预测能力仍有进一步提高的空间。未来的工作可以尝试在模型或数据处理中加入物理机制,并使用更科学的方法来提高模型的泛化能力。
参考文献