基于GWO优化的L1正则化分数阶灰色时间幂预测模型

doi:10.12677/AAM.2021.1010344

期刊菜单

基于GWO优化的L1正则化分数阶灰色时间幂预测模型
L1 Regularized Fractional Grey Time Power Forecasting Model Based on GWO Optimization

DOI: 10.12677/AAM.2021.1010344, PDF, HTML, XML, 国家自然科学基金支持
作者: 董帮强, 张延飞^*, 丁木华, 陈萍：东华理工大学理学院，江西南昌
关键词: 分数阶灰色预测模型；L1正则化；灰狼优化算法；坐标下降；Fractional Gray Prediction Model； L1 Regularized； Grey Wolf Optimization Algorithm； Coordinate Descent

摘要: 灰色预测模型是一类处理小样本数据预测的有效方法，其中单变量灰色预测模型GM(1,1,t^α)是一个重要的研究对象。FAGM(1,1,t^α)模型是在基于一阶累加的GM(1,1,t^α)模型的基础上引入分数阶累加形式的预测模型。然而，该模型的精度不够高，且容易存在过拟合现象。本文结合Lasso回归中的L1正则化思想，对分数阶累加的灰色时间幂模型FAGM(1,1,t^α)进行正则化，提出正则化分数阶灰色时间幂预测模型LFAGM(1,1,t^α)，使用坐标下降算法替代最小二乘估计来求解模型的参数。同时，使用灰狼优化算法(GWO)搜索LFAGM(1,1,t^α)模型的最优非线性参数。并基于中国农业耕地灌溉面积情况(2008~2019年)进行算例分析，结果表明，LFAGM(1,1,t^α)模型具有更高的预测精度。

Abstract: Grey prediction model is an effective method for dealing with small sample data prediction, in which univariate grey prediction model GM(1,1,t^α) is an important research object. The FAGM(1,1,t^α) model is a prediction model based on the first-order cumulative GM(1,1,t^α) model by introducing the fractional-order cumulative form. However, the accuracy of the model is not high enough and it is prone to over-fitting. This paper combines the L1 regularization idea in Lasso regression to regularize the fractional cumulative gray time power model FAGM(1,1,t^α), and proposes a regularized fractional gray time power prediction model LFAGM(1,1,t^α), using co- ordinate descent algorithm instead of least squares estimation to solve the model parameter. At the same time, Grey Wolf Optimization (GWO) is used to search the optimal nonlinear parameters of LFAGM(1,1,t^α) model. Based on the agricultural farmland irrigation area in China (2008~ 2019), the results show that the LFAGM(1,1,t^α) model has higher prediction accuracy.

文章引用：董帮强, 张延飞, 丁木华, 陈萍. 基于GWO优化的L1正则化分数阶灰色时间幂预测模型[J]. 应用数学进展, 2021, 10(10): 3277-3287. https://doi.org/10.12677/AAM.2021.1010344

1. 引言

灰色预测是对既含有已知信息又含有不确定信息的系统进行预测，对在一定范围内变化的、与时间有关的灰色过程进行预测控制的理论。灰色预测模型由邓聚龙教授 [1] 首次提出，在专家学者的不懈努力和完善下，弥补了由于数据少所带来的预测问题，尤其在实际应用中如何提高预测模型的精度一直是广大学者研究的热点问题。在初始值优化角度方面，Ding [2] 等人对初始值进行了非线性优化，使得所构建的模型的初始值各分量加权系数都具备了可调节性的特点；王义闹 [3] 等人同样以误差平方和最小值为目标函数，优化了指数模型的一个参数，并且得到了最小的平方误差和；Wang [4] 等人提出了一种基于矩阵的算法，建立了初始条件和发展系数间的关系。在模型参数优化的角度方面，通过怎么样的方式去优化灰色预测模型是当下灰色预测模型较为重要的内容，例如Liu [5] 等人利用Weibull累积分布函数构建了一个双形参数来替代原来较为传统的常数参数值，并且通过拟合实例验证了所构建的模型具有较高的拟合度；Zhao [6] 等人使用蚁狮优化算法优化了灰色预测模型参数，很大程度地提升了模型的预测精度，同时证明了该算法可行性；Yi-Shian-Lee [7] 设置误差的最小绝对值为目标函数，利用遗传算法来提高预测模型的精度。从灰色预测模型的累加方式上看，其中Wen Kunli [8] 提出了局部的序列灰色累加方式；刘解放 [9] 等人提出并使用了分数阶反向累加的离散灰色模型，通过实例证明了其可行性和优越性；谢波 [10] 等人通过在 $G M (1, 1, t)$ 预测模型基础上选取合适的数据维度来增加数据长度，然后取多期的预测值的平均值作为最终的预测值，进一步提高了模型的精度，减少了数据波动；陈英超 [11] 等人则是通过将累加生成变为卷积变换，从而建立带有时间项的 $G M (1, 1, t)$ 灰色预测模型。但随着灰色系统越发复杂，传统的灰色预测模型已经不能单单只应用指数特征去进行描述，所以应该在这些较为复杂的系统中进行内在的演化与分析，钱吴永 [12] 等人建立了带有时间幂次项的 $G M (1, 1, t^{α})$ 模型并研究讨论了参数 $α$ 在不同取值下模型的性质，并对沿海高速路软土地地基沉降进行了模拟分析；而Wu Lifeng [13] 等人将灰色预测模型累加次数从整数过度到分数，构建了分数阶灰色 $F G M (1, 1)$ 预测模型；Wu [14] 等人引入了分数阶的累加方式，建立了分数阶含有时间幂次项的灰色 $F A G M (1, 1, t^{α})$ 预测模型，并对中国卫生支出进行了研究分析。

以上文献都是基于传统的灰色预测模型进行优化建模，并于不同优化角度都保留了最小二乘法，对于现实数据处理往往存在过拟合问题。本研究则通过在分数阶累加灰色时间幂预测模型 $F A G M (1, 1, t^{α})$ 建模基础上使用L1正则化，即在传统的最小二乘法中的损失函数中引入惩罚项，构建正则化预测模型 $L F A G M (1, 1, t^{α})$ ，使用坐标下降算法求解模型的参数。并对于超参数问题，通过灰狼优化算法(GWO)优化调整L1正则化参数 $λ$ ， $L F A G M (1, 1, t^{α})$ 模型的非线性参数 $α$ 以及分数阶累加阶数r，从而避免由最小二乘法带来的过拟合问题。最后，以中国农业耕地灌溉面积情况(2008~2019年)进行了仿真模拟，验证了方法的可行性。

2. 分数阶灰色预测模型

2.1. $G M (1, 1, t^{α})$ 模型

$G M (1, 1, t^{α})$ 模型是由钱吴永等人首次提出。该模型将灰色作用量由常数b变为了一个关于时间呈现非线性变化的幂函数形式，扩展了单变量灰色预测模型的适用范围，很大程度上提高了模型的拟合和预测精度。设 $x^{(0)} = {(x^{(0)} (1), x^{(0)} (2), \dots, x^{(0)} (n))}^{T}, n \geq 4$ 为非负原始数据列。对 $x^{(0)} = {(x^{(0)} (1), x^{(0)} (2), \dots, x^{(0)} (n))}^{T}$ 进行一次累加得到新的生成数据列 $x^{(1)}$ ( $x^{(0)}$ 的1-AGO序列)为

$x^{(1)} = {(x^{(1)} (1), x^{(1)} (2), \dots, x^{(1)} (n))}^{T}$ (1.1)

其中 $x^{(1)} (k) = \sum_{i = 1}^{k} x^{(0)} (i), k = 1, 2, \dots, n$ 。令 $z^{(1)}$ 为一阶累加序列 $x^{(1)}$ 的紧邻均值生成序列，即

$z^{(1)} = {(z^{(1)} (2), z^{(1)} (3), \dots, z^{(1)} (n))}^{T}$ (1.2)

其中 $z^{(1)} (m) = δ x^{(1)} (m) + (1 - δ) x^{(1)} (m - 1), m = 2, 3, \dots, n$ 且 $δ = 0.5$ 。

设灰色 $G M (1, 1, t^{α})$ 模型的白化方程为

$\frac{d x^{(1)} (t)}{d t} + a x^{(1)} (t) = b t^{α} + c, α > 0$ (1.3)

公式(1.3)中的a为 $G M (1, 1, t^{α})$ 模型的发展系数， $b t^{α} + c$ 为灰色作用量。因此， $G M (1, 1, t^{α})$ 模型的基本形式为

$x^{(0)} (k) + a z^{(1)} (k) = b k^{α} + c, k = 2, 3, \dots, n$ (1.4)

方程(1.4)同时也被称为灰色微分方程。注意到，线性方程(1.4)为一个超定方程组，根据最小二乘法，我们可得参数向量 $β = {(a, b, c)}^{T}$ 的估计式为

${(a, b, c)}^{T} = {(Δ^{T} Δ)}^{- 1} (Δ^{T} Ψ)$ (1.5)

其中

(1.6)

其中n表示用于建立 $G M (1, 1, t^{α})$ 模型的样本个数。

2.2. 分数阶 $F A G M (1, 1, t^{α})$ 预测模型

一般地，一阶累加方式为分数阶累加方式的一个特例，并且分数阶累加能够更加体现数据序列内在的规律，更不易破坏数据间潜在的关联。另外，分数阶累加相比一阶累加更加灵活，能适应更多的数据。因此，在 $G M (1, 1, t^{α})$ 模型的基础上，将分数阶累加考虑进来，能够显著提高 $G M (1, 1, t^{α})$ 模型的预测精度和扩大使用范围。由于一阶累加的 $G M (1, 1, t^{α})$ 模型与分数阶累加的 $F A G M (1, 1, t^{α})$ 模型在建模过程中只是累加方式不同，由此我们先引入分数阶累加和累减的定义。

定义1：设 $X^{(0)} = {(x^{(0)} (1), x^{(0)} (2), \dots, x^{(0)} (n))}^{T}$ 为n个观测到的非负原始数据序列，T为转置符号。 $X^{(r)}$ 是 $X^{(0)}$ 的r阶累加生成序列(r-AGO)序列。其中 $x^{(r)} (k) = \sum_{i = 1}^{k} x^{(r - 1)} (i)$ ， $k = 1, 2, \dots, n$ 。注意到，为了形式更加紧凑，该累加可以改写为更加方便的矩阵格式

$X^{(r)} = A^{r} X^{(0)}$ (1.7)

其中

$A^{r} = {(\begin{matrix} [\begin{matrix} r \\ 0 \end{matrix}] & 0 & 0 & \dots & 0 \\ [\begin{array}{l} r \\ 1 \end{array}] & [\begin{array}{l} r \\ 0 \end{array}] & 0 & \dots & 0 \\ [\begin{array}{l} r \\ 2 \end{array}] & [\begin{array}{l} r \\ 1 \end{array}] & [\begin{array}{l} r \\ 0 \end{array}] & \dots & 0 \\ ⋮ & ⋮ & ⋮ & ⋱ & ⋮ \\ [\begin{matrix} r \\ n - 1 \end{matrix}] & [\begin{matrix} r \\ n - 2 \end{matrix}] & [\begin{matrix} r \\ n - 3 \end{matrix}] & \dots & [\begin{array}{l} r \\ 0 \end{array}] \end{matrix})}_{n \times n}$ (1.8)

并且 $[\begin{array}{l} r \\ i \end{array}] = \frac{r (r + 1) \dots (r + i - 1)}{i!} = (\begin{matrix} r + i - 1 \\ i \end{matrix}) = \frac{(r + i - 1)!}{i! (r - 1)!}, [\begin{array}{l} 0 \\ i \end{array}] = 0, [\begin{array}{l} 0 \\ 0 \end{array}] = (\begin{array}{l} 0 \\ 0 \end{array}) = 1$ 。

定义2：设第r阶逆累加生成(累减)定义为 $x^{(r - 1)} (k) = x^{(r)} (k) - x^{(r)} (k - 1), k = 2, 3, \dots, n$ 且 $x^{(r)} (1) = x^{(0)} (1), r > 0$ 。用矩阵 $D^{r}$ 表示满足 $X^{(0)} = D^{r} X^{(r)}$ 的r-IAGO矩阵，其中

$D^{r} = {(\begin{matrix} [\begin{matrix} - r \\ 0 \end{matrix}] & 0 & 0 & \dots & 0 \\ [\begin{matrix} - r \\ 1 \end{matrix}] & [\begin{matrix} - r \\ 0 \end{matrix}] & 0 & \dots & 0 \\ [\begin{matrix} - r \\ 2 \end{matrix}] & [\begin{matrix} - r \\ 1 \end{matrix}] & [\begin{matrix} - r \\ 0 \end{matrix}] & \dots & 0 \\ ⋮ & ⋮ & ⋮ & ⋱ & ⋮ \\ [\begin{matrix} - r \\ n - 1 \end{matrix}] & [\begin{matrix} - r \\ n - 2 \end{matrix}] & [\begin{matrix} - r \\ n - 3 \end{matrix}] & \dots & [\begin{matrix} - r \\ 0 \end{matrix}] \end{matrix})}_{n \times n}$ (1.9)

并且 $[\begin{matrix} - r \\ i \end{matrix}] = \frac{- r (- r + 1) \dots (- r + i - 1)}{i!} = {(- 1)}^{r (r - 1) \dots (r - i + 1)} i!, [\begin{matrix} - r \\ i \end{matrix}] = 0, i > r$ 。

由公式(1.8)和(1.9)可以明显看出一阶累加是分数阶累加的一个特殊例子，即当 $r = 1$ 时为一阶累加。接下来介绍一下分数阶累加和累减算子的一个基本定理。

定理1：矩阵 $A^{r}$ 和矩阵 $D^{r}$ 满足 $A^{r} D^{r} = I_{n}$

证明1：由定义1可知 $d e t (A^{r}) = 1$ ，这意味着 $A^{r}$ 为可逆矩阵。从 $X^{(r)} = A^{r} X^{(0)}$ 可知 ${(A^{r})}^{- 1} X^{(r)} = {(A^{r})}^{- 1} A^{r} X^{(0)} = X^{(0)}$ 。根据定义2，有 $X^{(0)} = D^{r} X^{(r)}$ 。因此，显然有 $A^{r} D^{r} = I_{n}$ ，证毕。

由前所述， $G M (1, 1, t^{α})$ 模型与 $F A G M (1, 1, t^{α})$ 模型的建模过程只是累加方式发生了些许改变，因此 $F A G M (1, 1, t^{α})$ 模型的白化微分方程为

$\frac{d x^{(r)} (t)}{d t} + a x^{(r)} (t) = b t^{α} + c, r > 0, α > 0$ (1.10)

将等式(1.10)在区间 $[k - 1, k]$ 进行积分可得

$\int_{k - 1}^{k} d x^{(r)} (t) + a \int_{k - 1}^{k} x^{(r)} (t) d t = b \int_{k - 1}^{k} t^{α} d t + c \int_{k - 1}^{k} d t$ (1.11)

根据梯形公式以及 $z^{(r)} (k) = 0.5 x^{(r)} (k - 1) + 0.5 x^{(r)} (k - 1) + 0.5 x^{(r)}, k = 2, 3, \dots, n$ ，上述公式(1.11)可进一步简化为

$x^{(r)} (k) - x^{(r)} (k - 1) + α z^{(r)} (k) = b \frac{k^{1 + α} - {(k - 1)}^{1 + α}}{1 + α} + c$ (1.12)

同样地，根据最小二乘法可得 $F A G M (1, 1, t^{α})$ 模型的参数向量 $β = {(a, b, c)}^{T}$ 的估计式为

${(a, b, c)}^{T} = {(B {}^{T}B)}^{- 1} (B^{T} Y)$ (1.13)

其中

(1.14)

定理2：假设观测序列、累加和累减方式满足前面的定义1和定义2，则 $F A G M (1, 1, t^{α})$ 模型的时间响应序列为

${\hat{x}}^{(r)} (k) = (x^{(0)} (1) - \frac{c}{a}) e^{- a (k - 1)} + \frac{c}{a} + \frac{b}{2} e^{- a (k - 1)} \sum_{i = 1}^{k - 1} (i^{α} e^{a (i - 1)} + {(i + 1)}^{α} e^{a i}), k = 2, 3, \dots, n$ (1.15)

且 $F A G M (1, 1, t^{α})$ 模型的预测值 ${\hat{x}}^{(0)} (k)$ 为

${\hat{x}}^{(0)} = D^{r} {\hat{x}}^{(r)}$ (1.16)

证明2：已知公式(1.10)的解为齐次方程的通解及其特解的和。因此，由常数变异法可得

$\frac{d x^{(r)} (t)}{d t} + a x^{(r)} (t) = 0$ (1.17)

令 $x^{(r)} (t) = U e^{- a t}$ ，其中U为常数，并将 $x^{(r)} (t) = U e^{- a t}$ 代入公式(1.10)得到

$\frac{d U (t)}{d t} = e^{a t} (b t^{α} + c)$ (1.18)

对等式(1.18)在区间 $[1, t]$ 上进行积分可以得到

$\int_{1}^{t} d U (s) = b \int_{1}^{t} s^{α} e^{a s} d s + c \int_{1}^{t} e^{a s} d s$ (1.19)

进一步可以有

$U (t) = U (1) + b \int_{1}^{t} s^{α} e^{a s} d s + \frac{c}{a} (e^{a t} - e^{a})$

又因为 $U (1) = x^{(r)} (1) e^{a} = x^{(0)} (1) e^{a}$ ，根据数值积分公式中的两点梯形近似公式可以得到

$\begin{matrix} x^{(r)} (t) = e^{- a t} {x^{(0)} (1) e^{a} + b \int_{1}^{t} s^{α} e^{a s} d s + \frac{c}{a} (e^{a t} - e^{a})} \\ = (x^{(0)} (1) - \frac{c}{a}) e^{- a (t - 1)} + \frac{c}{a} + b e^{- a (t - 1)} \int_{1}^{t} s^{α} e^{a (s - 1)} d s \\ = (x^{(0)} (1) - \frac{c}{a}) e^{- a (t - 1)} + \frac{c}{a} + \frac{b}{2} e^{- a (t - 1)} \sum_{i = 1}^{t - 1} (i^{α} e^{a (i - 1)} + {(i + 1)}^{α} e^{a i}) \end{matrix}$ (1.20)

所以 $F A G M (1, 1, t^{α})$ 的时间响应函数为：

${\hat{x}}^{(r)} (k) = (x^{(0)} (1) - \frac{c}{a}) e^{- a (k - 1)} + \frac{c}{a} + \frac{b}{2} e^{- a (k - 1)} \sum_{i = 1}^{k - 1} (i^{α} e^{a (i - 1)} + {(i + 1)}^{α} e^{a i})$ (1.21)

3. $F A G M (1, 1, t^{α})$ 模型的正则化

3.1. 线性回归及L1正则化

在灰色预测模型中，通过求解(2.1)来得到模型的估计参数

${\hat{β}}_{l i n e a r} = {argmin}_{β} \frac{1}{2} \sum_{i = 1}^{n} {(B_{i} β - y_{i})}^{2} = \frac{1}{2} {‖ B β - y ‖}^{2}$ (2.1)

其中，y为真实值， $B β$ 为拟合值。由前所述，为了得到 $G M (1, 1, t^{α})$ 模型和 $F A G M (1, 1, t^{α})$ 模型中的参数，必须求解一个超定线性方程组(1.5)或者(1.13)。显然(1.5)和(1.13)是一个标准的线性回归。然而，线性回归可能存在过拟合现象，且不能进行变量选择，从而导致模型也较为复杂。其次，矩阵 $Δ$ 和B还可能会存在多重共线性，以及当变量间的相关系数为−1或者1时，模型将会存在完全多重共线性的问题。

正则化方法是解决过拟合的一个有效方法。常见的正则化方法有Ridge回归、Elastic Net回归以及Lasso回归等。其中，Ridge回归也称作L2正则化，Elastic Net回归也被称作弹性网络，Lasso回归也称作L1正则化。而本文引入L1正则化法来优化改进 $F A G M (1, 1, t^{α})$ ，构建新的 $L F A G M (1, 1, t^{α})$ 模型。该模型与模型 $F A G M (1, 1, t^{α})$ 相比，是在原来的损失函数基础上添加了一个参数的L1正则化项，即增加了一个惩罚函数以弥补线性回归所带来的不足。新的损失函数如(2.2)所示。

${\hat{β}}_{l a s s o} = \frac{1}{2} \sum_{i = 1}^{n} {(B_{i} β - y_{i})}^{2} + λ {‖ β ‖}_{1} = \frac{1}{2} {‖ B β - y ‖}^{2} + λ {‖ β ‖}_{1}$ (2.2)

其中 $p (λ) = λ {‖ β ‖}_{1} (λ > 0)$ 为惩罚函数， $λ$ 为正则参数。

3.2. $L F A G M (1, 1, t^{α})$ 模型的线性参数估计

求解最优化问题(2.2)已经有很多有效的方法，其中坐标下降法为一个简单有效的求解方法。该方法为一种非梯度优化的方法，目前已被广泛应用于机器学习中求解大规模数据优化问题。在坐标下降法中，每一步的迭代都是沿一个坐标的方向进行搜索，通过循环使用不同的坐标方法来达到目标函数的极小值。对于一个凸函数 $f (x), x \in R^{n}$ ，该算法的计算步骤总结如下

$\begin{array}{l} x_{1}^{(k)} = \underset{x_{1}}{\arg \min} f (x_{1}, x_{2}^{(k - 1)}, x_{3}^{(k - 1)}, \dots, x_{n}^{(k - 1)}) \\ x_{2}^{(k)} = \underset{x_{2}}{\arg \min} f (x_{1}^{(k)}, x_{2}, x_{3}^{(k - 1)}, \dots, x_{n}^{(k - 1)}) \\ x_{3}^{(k)} = \underset{x_{3}}{\arg \min} f (x_{1}^{(k)}, x_{2}^{(k)}, x_{3}, \dots, x_{n}^{(k - 1)}) \\ x_{n}^{(k)} = \underset{x_{n}}{\arg \min} f (x_{1}^{(k)}, x_{2}^{(k)}, x_{3}^{(k)}, \dots, x_{n}) \end{array}$ (2.3)

该算法每一次迭代都会更新参数x的一个维度。其原理是通过不停的迭代来构造序列 $x^{0}, x^{1}, x^{2}, \dots$ 来求解问题。最终收敛到期望的极值点。因此，问题(2.2)的坐标下降迭代格式为

${\hat{β}}_{i}^{l a s s o} = S_{λ / {‖ B_{i} ‖}^{2}} (\frac{B_{i}^{T} (Y - B_{- i} β_{- i})}{B_{i}^{T} B_{i}})$ (2.4)

其中S为软阈值函数。

3.2.1 $L F A G M (1, 1, t^{α})$ 模型的超参数优化

注意到，上述所有的计算都是在分数阶r，幂指数 $α$ 和正则参数 $λ$ 已知的情况下进行计算的。但是在实际计算时，模型 $L F A G M (1, 1, t^{α})$ 对分数阶r，幂指数 $α$ 和正则参数 $λ$ 这三个超参数非常敏感。因此，本文设计了一个优化模型(2.5)来搜索这三个参数的最优值。

$\begin{array}{l} \min_{r, λ, α} \frac{1}{n} \sum_{i = 1}^{n} | ({\hat{x}}^{(r)} (k) - x^{(0)} (k)) / x^{(0)} (k) | \times 100 % \\ s .t . r > 0, λ > 0, α > 0 \end{array}$ (2.5)

由于模型(2.5)的具有高度非线性，求解复杂，传统的数值优化方法求解困难甚至难以求解。因此本文使用启发式群智能优化算法—灰狼优化算法(GWO)来求解优化模型(2.5)中的分数阶r，幂指数 $α$ 和正则参数 $λ$ 。

灰狼算法 [15]，模拟了灰狼在也野外捕食场景。首先将灰狼分为四个阶级 $θ$ ， $ξ$ ， $η$ ，w。其关系从上到下依次递减如图1。

Figure 1. Grey wolf grade system

图1. 灰狼等级制度

并且灰狼捕食过程可分为三个部分；

1) 跟踪，接近猎物；

2) 追逐，包围猎物逼停猎物；

3) 攻击猎物。

3.2.2. GWO算法模型

将灰狼种群中最好的三匹狼(最优解)分别设为 $θ$ ， $ξ$ 和 $η$ ，它们可以引导全狼群对目标进行搜索。而其他的狼群定义为w，并且跟随 $θ$ ， $ξ$ 和 $η$ 来更新位置。

第1步：包围猎物

在狩猎过程中，将灰狼的狩猎过程定义为：

$\vec{D} = | \vec{C} \cdot {\vec{X}}_{p} (t) - \vec{X} (t) |$ (2.6)

$\vec{X} (t + 1) = {\vec{X}}_{p} (t) - \vec{A} \cdot \vec{D}$ (2.7)

其中(2.6)表示为狼群个体与猎物之间的距离，(2.7)为狼群更行位置。t为当前迭代数。 $\vec{A}$ 和 $\vec{C}$ 为系数向量， ${\vec{X}}_{p}$ 和 $\vec{X}$ 为猎物的位置以及灰狼的位置。 $\vec{A}$ 和 $\vec{C}$ 计算公式为：

$\vec{A} = 2 \vec{ε} \cdot \vec{r_{1}} - \vec{ε}$ (2.8)

$\vec{C} = 2 \cdot \vec{r_{2}}$ (2.9)

其中， $\vec{ε}$ 为收敛因子，并且会随着迭代次数从2减为0， $\vec{r_{1}}$ 和 $\vec{r_{2}}$ 为[0, 1]上的随机数。

第2步：狩猎

当灰狼识别猎物位置之后 $ξ$ 和 $η$ 会在 $θ$ 的领导下包围猎物，灰狼跟踪猎物的位置可以表示为：

$\begin{array}{l} \vec{D_{θ}} = | \vec{C_{1}} \cdot \vec{X_{θ}} - \vec{X} | \\ \vec{D_{ξ}} = | \vec{C_{2}} \cdot \vec{X_{ξ}} - \vec{X} | \\ \vec{D_{η}} = | \vec{C_{3}} \cdot \vec{X_{η}} - \vec{X} | \end{array}$ (2.10)

其中， $\vec{D_{θ}}$ ， $\vec{D_{ξ}}$ 和 $\vec{D_{η}}$ 分别为 $θ$ ， $ξ$ 和 $η$ 与其他个体间的距离。 $\vec{X_{θ}}$ ， $\vec{X_{ξ}}$ 和 $\vec{X_{δ}}$ 为 $θ$ ， $ξ$ 和 $η$ 的当前位置，且 $\vec{C_{1}}$ ， $\vec{C_{2}}$ 和 $\vec{C_{3}}$ 为随机向量， $\vec{X}$ 为灰狼当前位置。

$\begin{array}{l} \vec{X_{1}} = \vec{X_{θ}} - A_{1} \cdot (\vec{D_{θ}}) \\ \vec{X_{2}} = \vec{X_{ξ}} - A_{2} \cdot (\vec{D_{ξ}}) \\ \vec{X_{3}} = \vec{X_{η}} - A_{3} \cdot (\vec{D_{η}}) \end{array}$ (2.11)

$\vec{X} (t + 1) = \frac{\vec{X_{1}} + \vec{X_{2}} + \vec{X_{3}}}{3}$ (2.12)

其中，(2.8)分别设定了狼群中w的朝向，以及θ，ξ和η前进步长和方向。公式(2.12)为w的最终位置。

第3步：攻击猎物

猎物，停止移动之后，灰狼便会开始攻击， $\vec{ε}$ 收敛因子的值会逐渐减小，所以A的波动范围也会随之减小。在迭代的过程中当 $\vec{ε}$ 的值从2下降到0时，而 $\vec{A}$ 的值会在 $[- ε, ε]$ 之间变化，并且当 $| \vec{A} | < 1$ 时狼群会发起攻击(局部最优)，当 $| \vec{A} | > 1$ 时，狼群会脱离猎物，寻找更合适的猎物(全局最优)。

其中由公式(2.9)可知， $\vec{C}$ 为[0, 2]之间的随机数，表示为狼群所在位置对猎物的影响的随机权重，当 $C > 1$ 时表示权重大， $C < 1$ 时表示权重小。这样可以避免算法更加随机探索，同时避免陷入局部最优。

GWO算法流程图如图2所示。

Figure 2. Flow chart of grey wolf optimization algorithm

图2. 灰狼优化算法流程图

4. 实例分析

为验证 $L F A G M (1, 1, t^{α})$ 模型的有效性和实用性，本文分别使用 $F A G M (1, 1, t^{α})$ 模型和 $L F A G M (1, 1, t^{α})$ 模型对中国农业耕地灌溉面积情况进行模拟预测，数据来源于《中国统计年鉴》(2009~2020年)。其中，前7组为训练集，后5组为测试集，相关计算结果见表1。对于 $F A G M (1, 1, t^{α})$ 模型，灰狼优化算法得到的最优非线性参数 $α = 6.364$ ，累加阶数 $r = 0.026$ ，参数向量 $β = {(0.167, - 0.03, 1.229 \times 10^{4})}^{T}$ ，对于 $L F A G M (1, 1, t^{α})$ 模型，灰狼优化算法得到的最优非线性参数 $α = 0.728$ ，累加阶数 $r = 0.010$ ，正则化参数 $λ = 74.575$ ，参数向量 $β = {(- 0.028, - 186.322, 0)}^{T}$ 。

Table 1. Accuracy comparison of F A G M ( 1 , 1 , t α ) model and L F A G M ( 1 , 1 , t α ) model

表1. $F A G M (1, 1, t^{α})$ 模型以及 $L F A G M (1, 1, t^{α})$ 模型精度比较

由表1可见，经过L1正则化后的 $L F A G M (1, 1, t^{α})$ 模型在测试组预测精度上会更高一些，可见正则化可使灰色预测模型具有更高的预测精度，能更好的避免过拟合问题，提高模型的泛化性能。同时，该数值实例也验证了 $L F A G M (1, 1, t^{α})$ 模型有更好的实用性。

5. 小结

本文将借助Lasso的思想，将L1正则化方法考虑到灰色时间幂预测模型。然而，基于一阶累加的 $G M (1, 1, t^{α})$ 模型的拟合精度和预测精度都没有分数阶累加高。因此，在 $G M (1, 1, t^{α})$ 模型的基础上，本文将分数阶累加添加到 $G M (1, 1, t^{α})$ 模型的建模过程中，并基于L1正则化方法，构建新的灰色 $L F A G M (1, 1, t^{α})$ 模型。该模型在实际预测中具有更高的预测精度。可见，L1正则化和分数阶累加进一步提高了基于一阶累加的 $G M (1, 1, t^{α})$ 模型的预测精度。然而，该方法是基于短期数据的预测处理，对于大量规模的数据处理还有待于进一步验证有效性和实用性。

基金项目

国家自然科学基金项目“数据驱动的高可解释迁移模糊系统预测建模新方法及应用研究” (71961001)。

参考文献

NOTES

^*通讯作者。

参考文献

[1]	邓聚龙. 灰预测与灰决策[M]. 武汉: 华中科技大学出版社, 2002.
[2]	Ding, S. (2018) A Novel Self-Adapting Intelligent Grey Model for Forecasting China’s Natural-Gas Demand. Energy, 162, 393-407. [Google Scholar] [CrossRef]
[3]	王义闹. GM(1,1)逐步优化直接建模方法的推广[J]. 系统工程理论与实践, 2003, 23(2): 120-124.
[4]	Wang, J., Dang, Y., Ye, J., Xu, N. and Wang, J. (2018) An Improved Grey Prediction Model Based on Matrix Representations of the Optimized Initial Value. The Journal of Grey System, 30, 143-156.
[5]	Liu, X.M. and Xie, N.M. (2019) A Nonlinear Grey Forecasting Model with Double Shape Parameters and Its Application. Applied Mathematics and Computation, 360, 203-212. [Google Scholar] [CrossRef]
[6]	Zhao, H. and Guo, S. (2016) An Optimized Grey Model for Annual Power Load Forecasting. Energy, 107, 272-286. [Google Scholar] [CrossRef]
[7]	Lee, Y.S. and Tong, L.I. (2011) Forecasting Energy Consumption Using a Grey Model Improved by Incorporating Genetic Programming. Energy Conversion and Management, 52, 147-152. [Google Scholar] [CrossRef]
[8]	Wen, K.L. (2002) Grey Prediction Theory and Application. OpenTech Company, Taipei, 5-7.
[9]	刘解放, 刘思峰, 吴利丰, 方志耕. 分数阶反向累加离散灰色模型及其应用研究[J]. 系统工程与电子技术, 2016, 38(3): 719-724.
[10]	谢波, 肖东升. 利用多期均值方法提高新陈代谢GM(1,1)模型的预测精度[J]. 南阳师范学院报, 2020, 19(4): 16-20.
[11]	陈超英. 累加生成的改进和GM(1,1,t)灰色模型[J]. 数学的实践与认识, 2007, 37(2): 105-109.
[12]	钱吴永, 党耀国, 刘思峰. 含时间幂次项的灰色GM(1,1,tα)模型及其应用[J]. 系统工程理论与实践, 2012, 32(10): 2247-2252.
[13]	Wu, L., Liu, S., Yao, L., Yan, S. and Liu, D. (2013) Grey System Model with the Fractional Order Accumulation. Communications in Nonlinear Science and Numerical Simulation, 18, 1775-1785. [Google Scholar] [CrossRef]
[14]	Wu, W., Ma, X., Zhang, Y., Wang, Y. and Wu, X. (2019) Analysis of Novel FAGM(1,1,tα) Model to Forecast Health Expenditure of China. Grey Systems: Theory and Application, 9, 232-250. [Google Scholar] [CrossRef]
[15]	芦方旭, 米志超, 李艾静, 王海, 田雨露. 基于灰狼算法的无人机基站三维空间优化部署[J]. 兵器装备工程学报, 2021, 42(7): 185-189.

为你推荐

友情链接