基于灰色GM(1, 1)模型的新冠肺炎感染人数预测研究
Study on the Prediction of the Number of Confirmed Cases of COVID-19 Based on the Grey GM(1, 1) Model
DOI: 10.12677/sa.2024.134107, PDF, HTML, XML,   
作者: 魏 齐:内江职业技术学院通识教育与公共服务学院,四川 内江;王 丽*:内江职业技术学院智能建造学院,四川 内江
关键词: 新冠肺炎灰色预测模型白噪声检验残差Novel Coronavirus Pneumonia Grey Prediction Model White Noise Test Residual Error
摘要: 本文以2020年2月6日至2020年2月19日日本“钻石公主号”邮轮上新冠肺炎感染人数为基础,首先建立灰色预测模型研究感染人数的趋势情况。接着,运用时间序列分析理论讨论灰色预测模型的残差是否为白噪声序列,以进一步建立相应的时间序列模型,从而提高灰色预测模型的精度。计算结果表明,该方法能有效地研究此封闭空间中的新冠肺炎确诊人数。
Abstract: Based on the number of confirmed cases of COVID-19 in Japan “Diamond Princess” cruises from February 6, 2020 to February 19, 2020, we first establish the grey prediction model to study the trend of the number of confirmed cases. Then, the time series analysis theory is applied to discuss whether residuals of the grey prediction model are white noise sequence, so as to further build the corresponding time series models to improve the accuracy of the grey prediction model. The results show that the number of confirmed cases of COVID-19 in such a closed space can be effectively diagnosed by this method.
文章引用:魏齐, 王丽. 基于灰色GM(1, 1)模型的新冠肺炎感染人数预测研究[J]. 统计学与应用, 2024, 13(4): 1058-1064. https://doi.org/10.12677/sa.2024.134107

1. 引言

灰色预测模型是我国学者邓聚龙教授提出的,其中GM(1, 1) [1]模型是灰色预测模型的基础,其主要内容有白化方程和对应的差分方程。通过白化方程可以推导出模型的时间函数和还原值的表达式,通过差分方程可以给出模型参数的表达式,并在此基础上对所研究的问题进行拟合预测。经过几十年的发展,许多作者围绕GM(1, 1)模型开展了一系列的研究工作,既有理论上的研究,也有应用上的研究,相关研究工作具体见文献[2]-[7]。另一方面,从统计学教材[8] [9]可知,当数据的变化表现出稳定的下降或者增长时,可用线性模型来对数据进行建模。当数据的变化表现出非线性时,可建立合适的趋势模型。在本文中,我们将对灰色预测模型的残差进一步分析,以确定是否有进一步对残差建模的必要,以提高灰色预测模型的精度和准度。

“钻石公主号”(Diamond Princess),位列全球十五大最豪华邮轮之一。该轮是驰名世界的邮轮品牌“公主号”系列船队中体积最庞大、设施最完善的世界顶级豪华邮轮之一,犹如一座海上的五星级酒店。在此次全球新型冠状病毒疫情下,“钻石公主号”邮轮同样备受关注。此邮轮搭载了2666名乘客和1045名船员,在2020年1月25号时,该邮轮上一名80岁的乘客在香港下船后,于2020年2月1日确诊为新型冠状病毒肺炎。受此消息影响,“钻石公主号”提前返回横滨,并于2月3日晚间开始接受日本厚生劳动省的检疫。2020年2月6日,新型冠状病毒确诊人数达到了20人,2020年2月19日,“钻石公主号”邮轮滞留乘客正式开始下船,当日就约有500名乘客下船。在本文中,我们将利用灰色预测模型和时间序列分析方法讨论感染人数的变化趋势,从而为病毒传播提供一些可供参考的依据。

本文的结构具体安排如下:第2节给出单变量灰色GM(1, 1)模型的具体建模步骤,以及判断白噪声的相关准则。第3节以2020年2月6日至2020年2月19日日本“钻石公主号”邮轮上新型冠状病毒感染人数为基础,建立相应的灰色预测模型,并对残差进行白噪声检验。第4节给出了本文的结论。

2. 灰色GM(1, 1)模型和白噪声检验

本小节首先将给出灰色预测模型的建模步骤、模型的响应函数和还原值、参数的最小二乘估计等。接着,给出判断残差序列是否为白噪声的检验准则。

2.1. 灰色GM(1, 1)模型

设原始数据系列为 X ( 0 ) =( x ( 0 ) ( 1 ), x ( 0 ) ( 2 ),, x ( 0 ) ( n ) ) ,其中数据 x ( 0 ) ( k )0,k=1,2,,n ,则称 X ( 1 ) =( x ( 1 ) ( 1 ), x ( 1 ) ( 2 ),, x ( 1 ) ( n ) ) 为序列 X ( 0 ) 的一次累加生成序列,其中 x ( 1 ) ( k )= i=1 k x ( 0 ) ( k ) ,k=1,2,,n ,则称

d x ( 1 ) ( t ) dt +a x ( 1 ) ( t )=b ,(1)

为灰色GM(1, 1)模型的白化方程。进一步,称

x ( 0 ) ( k )+a z ( 1 ) ( k )=b ,(2)

为灰色GM(1, 1)模型的差分形式,其中背景值 z ( 1 ) ( k )=0.5 x ( 1 ) ( k1 )+0.5 x ( 1 ) ( k )

由灰色GM(1, 1)模型的白化方程,运用一阶非齐次常微分方程理论,可以得到模型的响应函数、还原值的表达式分别为:

x ^ ( 1 ) ( k )=[ x ( 0 ) (1) b a ] e a( k1 ) + b a ,k=1,2, ,(3)

x ^ ( 0 ) ( k )= e a 1 a ( b x ( 0 ) (1) ) e a( k1 ) ,k=1,2, .(4)

由灰色GM(1, 1)模型的差分形式,结合最小二乘方法可以推导模型参数的表达式为下列形式:

( a b )= ( B T B ) 1 B T Y ,(5)

其中, B=( z ( 1 ) ( 2 ) 1 z ( 1 ) ( 3 ) 1 z ( 1 ) ( m ) 1 ),Y=( x ( 0 ) ( 2 ) x ( 0 ) ( 3 ) x ( 0 ) ( m ) )

一旦给定原始数据序列 X ( 0 ) 和建模个数 m 的值,就可以通过上述的表达式(3)~(5)完成建模和预测。

2.2. 评价模型精度的准则

在灰色预测模型研究中,有许多评价模型精度的准则,其中百分比误差、均方根误差是常用的评价准则,其表达式如下:

百分比误差: APE( k )=| 1 x ^ ( k ) x( k ) |×100%,k=1,2,,n .(6)

均方根误差: RMSPE= 1 rl+1 k=l r ( 1 x ^ ( k ) x( k ) ) 2 ×100% .(7)

其中, l=1,r=m 表示建模误差, l=m+1,r=n 表示拟合误差, l=1,r=n 表示总的误差。

2.3. 白噪声检验

由文献[9]知道,白噪声序列是原始序列信息充分提取后剩下的残差序列,表明所建立的模型能够很好地提取序列信息。本小节就残差序列是否为白噪声给出三种常见的判断准则。

自相关系数判断法如果灰色预测模型的残差序列的自相关系数随延迟期数的增加迅速或者突然衰减到零的附近小幅波动,则可推断出残差序列是平稳白噪声序列。

时序图判断法对灰色预测模型的残差序列 APE( k ),k=1,2,,n 利用统计软件作出时序图,若序列值围绕一个常数随机小幅波动,且没有明显的周期性和趋势性,则可推断出残差序列为平稳白噪声序列。

P对于残差序列APE,记样本的自相关系数为 ρ ^ l ,l=1,2,,ν ν 为指定的延迟期数。统计量LB定义为:

LB( h,ν )=h( h+2 ) k=1 ν ρ ^ 2 k hk χ 2 ( ν ) .(8)

原假设 H 0 、备择假设 H 1 分别为:

H 0 : ρ 1 = ρ 2 == ρ ν =0,ν1 ; H 1 :1kν, ρ k 0,ν1 .(9)

给定检验水平 α (本文取 α=0.05 ),在原假设 H 0 下,计算 P{ LB( h,ν )> χ α 2 ( ν ) } 的值,当 P{ LB( h,ν )> χ α 2 ( ν ) }>α 接受 H 0 ,序列APE为白噪声序列;当 P{ LB( h,ν )> χ α 2 ( ν ) }α 拒绝 H 1 ,序列APE为非白噪声序列,需进一步为残差序列建模分析,且将计算的结果融合到灰色预测模型的计算值上,进而得到最终的结果。

3. 新冠肺炎感染人数趋势分析

在本节中,我们将以2020年2月6日至2020年2月19日日本“钻石公主号”邮轮上新冠肺炎感染人数为基础,来建立灰色GM(1, 1)预测模型,原始数据来源于网站公布的数据(https://m.sohu.com/a/374965922_120359141),具体见表1

Table 1. Number of confirmed cases of COVID-19 in Japan “Diamond Princess” cruises

1. 日本“钻石公主号”邮轮上新冠肺炎感染人数

日期

数据

日期

数据

日期

数据

2020年2月6日

20

2020年2月11日

135

2020年2月16日

355

2020年2月7日

61

2020年2月12日

174

2020年2月17日

454

2020年2月8日

64

2020年2月13日

218

2020年2月18日

542

2020年2月9日

70

2020年2月14日

218

2020年2月19日

621

2020年2月10日

135

2020年2月15日

285

表1的数据分成两部分,其中前11个数据(2020年2月6日~2020年2月16日)用来建立灰色预测模型,后3个数据(2020年2月17日~2020年2月19日)用来检验模型的精度。编写数值计算程序,并利用2.1节公式(3)~(5)给出模型相关参数的值和表达式。经计算得到 a=0.190662,b=53.966605 ,于是模型的响应函数为:

x ^ ( 1 ) ( k )=263.049033 e 0.190662( k1 ) 283.049033,k=1,2, ,(10)

x ^ ( 0 ) ( k )= 1 e 0.190662 0.190662 ×33.966605 e 0.190662( k1 ) ,k=1,2, .(11)

通过计算得到相应的数值结果见表2图1

图1看出,灰色GM(1, 1)的计算结果与原始数据拟合的还是比较好。从表2看出,建模的百分比误差最大值为33.1509%,预测的百分比误差最大值为5.6346%,其他的还是比较小的。另外,均方根的建模、预测和总的误差分别为14.2338%、4.1522%和12.6422%。总的来说,还是可以接受的结果。但是,灰色GM(1, 1)模型是否将感染病人的数据信息提取出来了呢?针对这一问题,我们将继续对其残差序列进行分析,基于Matlab和EViews软件计算得到想要的结果,具体见图2表3

Table 2. Computational results of the confirmed cases of COVID-19 in the Japan “Diamond Princess” cruises

2. 日本“钻石公主号”邮轮上新冠肺炎感染人数的计算结果

日期

原始数据

灰色GM(1, 1)模型

APE (%)

2020年2月6日

20

20.0000

0.0000

2020年2月7日

61

63.6555

4.3532

2020年2月8日

64

77.0263

20.3536

2020年2月9日

70

93.2056

33.1509

2020年2月10日

135

112.7835

16.4567

2020年2月11日

135

136.4737

1.0916

2020年2月12日

174

165.1400

5.0920

2020年2月13日

218

199.8276

8.3360

2020年2月14日

218

241.8014

10.9181

2020年2月15日

285

292.5918

2.6638

2020年2月16日

355

354.0507

0.2674

2020年2月17日

454

428.4190

5.6346

2020年2月18日

542

518.4085

4.3527

2020年2月19日

621

627.3002

1.0145

RMSPE (%)

14.2338

4.1522

12.6422

Figure 1. Diagram of computational results of the confirmed cases of COVID-19 in Japan “Diamond Princess” cruises

1. 日本“钻石公主号”邮轮上新冠肺炎感染人数的计算结果图

Figure 2. Time series diagram of the residual APE

2. 残差APE的时序图

图2可以看出,除去第3、4、5个值变化较大,其余的残差值波动幅度很小。进一步,残差序列也没有表现出周期性、趋势性。所以,从时序图可以判断灰色预测模型的残差序列为平稳白噪声序列。

Table 3. Correlation coefficient table of APE

3. APE的相关系数表

自相关性

偏相关性

AC

PAC

Q-Stat

Prob

. |***. |

. |***. |

1

0.464

0.464

3.4936

0.062

. *| . |

****| . |

2

−0.16

−0.477

3.9464

0.139

. *| . |

. |***. |

3

−0.111

0.362

4.1875

0.242

. |* . |

. *| . |

4

0.105

−0.158

4.4283

0.351

. | . |

. | . |

5

0.073

0.069

4.5568

0.472

. *| . |

. **| . |

6

−0.133

−0.222

5.0472

0.538

. **| . |

. | . |

7

−0.23

−0.019

6.7658

0.454

. *| . |

. | . |

8

−0.113

−0.043

7.2628

0.509

. *| . |

.***| . |

9

−0.153

−0.357

8.4027

0.494

. **| . |

. |** . |

10

−0.209

0.216

11.23

0.34

. | . |

. **| . |

11

−0.065

−0.21

11.643

0.391

. | . |

. |* . |

12

0.031

0.081

11.834

0.459

表3的左边表明灰色预测模型的残差序列的自、偏相关系数变化,均在2倍标准差范围内,两者值都非常小。结合自相关系数判断法可知灰色预测模型残差序列为平稳白噪声。

表3的右边展示了相应的P值,其值均大于0.05。结合P值判断法可知灰色预测模型残差序列是一个白噪声序列,相应信息已经充分提取。

4. 结束语

本文研究了灰色预测模型的基本建模步骤和残差序列的白噪声检验,并通过2020年2月6日至2020年2月19日日本“钻石公主号”邮轮上新冠肺炎感染人数具体展示了如何实现相应的步骤。在本文中,利用时间序列方法得到了模型残差为白噪声序列,说明GM(1, 1)模型将原始数据的信息完全提取了出来。

NOTES

*通讯作者。

参考文献

[1] Deng, J.L. (1982) Control Problems of Grey Systems. Systems & Control Letters, 1, 288-294.
https://doi.org/10.1016/s0167-6911(82)80025-x
[2] 王义闹. GM(1, 1)的直接建模方法及性质[J]. 系统工程理论与实践, 1988(1): 27-31.
[3] 姜忠军. GM(1, 1)模型及其残差修正技术在土地承载力研究中的应用[J]. 系统工程理论与实践, 1995(5): 72-78.
[4] 谭冠军. GM(1, 1)模型的背景值构造方法和应用(I) [J]. 系统工程理论与实践, 2000, 20(4): 98-103.
[5] 穆勇. 无偏灰色GM(1, 1)模型的直接建模法[J]. 系统工程与电子技术, 2003, 25(9): 1094-1095.
[6] 王宇熹, 汪泓, 肖峻. 基于灰色GM(1, 1)模型的上海城镇养老保险人口分布预测[J]. 系统工程理论与实践, 2010, 30(12): 2244-2253.
[7] 卢捷, 李峰. 基于初始值和背景值改进的GM(1, 1)模型优化与应用[J]. 运筹与管理, 2020, 29(9): 27-33.
[8] 贾俊平, 何晓群, 金勇进. 统计学[M]. 第7版. 北京: 中国人民大学出版社, 2019.
[9] 周永道, 王会琦, 吕王勇. 时间序列分析及应用[M]. 北京: 高等教育出版社, 2016.