基于拟合优度检验的无症状感染者统计模型分析——以上海疫情为例
Statistical Model Analysis of Asymptomatic Patients Based on Goodness of Fit Test—Taking the Shanghai Epidemic as an Example
摘要: 新冠病毒的不断变异和大规模人群接种疫苗等原因,使得疫情爆发地区中的无症状感染者增多。分析和掌握无症状感染者的增长规律,对制定防疫政策和精准防疫措施有重要的参考意义。本文对2022年上海疫情中无症状感染者数据进行统计分布拟合,分析拟合分布的偏态、峰值和分位点,发现伽马分布和对数正态分布与真实分布较为近似,并通过EDF统计量对拟合分布作拟合优度检验,结果显示伽马分布检验p值较大,检验通过率较高,其拟合效果较好。
Abstract: Due to the continuous mutation of novel coronavirus and mass vaccination of the population, the number of asymptomatic patients in regional outbreaks has increased. Analyzing and mastering the growth pattern of asymptomatic infections has important reference significance for formulating epidemic prevention policies and precise epidemic prevention measures. This paper performs sta-tistical distribution fitting on the data of asymptomatic patients in the Shanghai epidemic in 2022, analyzes skewness, peaks, and quantiles of fitted distributions, it is found that the gamma distribu-tion and lognormal distribution are more approximate to the true distribution. In this paper, EDF statistic is used to test the goodness of fit of the fitting distributions. The results show that the p-value of the gamma distribution test is large, and the test pass rate is high, indicating that the fit-ting effect is good.
文章引用:祖煜然, 赵建昕. 基于拟合优度检验的无症状感染者统计模型分析——以上海疫情为例[J]. 应用数学进展, 2022, 11(8): 5509-5517. https://doi.org/10.12677/AAM.2022.118580

1. 引言

2022年新型冠状病毒(2019-nCoV)在多地区爆发,但随着病毒的不断变异、疫苗接种率的提升以及疫情管控措施的加强,相对于2020年疫情发展,无症状感染者成为主要病毒感染人群。现阶段新冠疫情中,无症状感染者也具有较强的传染性,同时具有隐匿性,使得无症状感染者的人数增长速度要快于确诊病例,对于疫情防控而言是一个新的挑战。因此分析无症状感染者增长的统计分布,研究其传播规律,对当前疫情走势判断、防控政策的制定有着重要的意义。

统计分布,是用来描述随机现象的基本工具,是数理统计学的基础,任何统计方法都离不开统计分布的概念和各种具体分布的性质 [1]。根据确定的统计分布,可以研究事件发展变化情况,对未知事件的发生进行预测。统计分布分包括离散型统计分布和连续型统计分布,本文将利用连续型分布研究无症状感染者的增长情况。常见的连续型统计分布有均匀分布、正态分布、对数正态分布、伽马分布和威布尔分布等,本文通过参数估计的方法拟合出无症状感染者数据的多种连续型统计分布,并对每一种分布进行拟合优度检验,找到最优的统计模型。拟合优度检验是用来检验观测数与依照某种假设或分布模型计算得到的理论数之间一致性的一种统计假设检验,以便判断该假设或模型是否与实际观测数相吻合,是评价用已知分布拟合现实数据优劣的一种方法,有着广泛的实际应用 [2]。拟合优度检验包括作图法与回归方法、 χ 2 型检验和EDF型检验等,借助EDF统计量检验拟合出的分布是本文的主要研究方法。

2. 统计分布拟合

2.1. 分布模型

2.1.1. 正态分布模型

若随机变量X的概率密度函数为

f ( x ) = 1 2 π σ e ( x μ ) 2 2 σ 2

则称随机变量X服从均值为 μ ,方差为 σ 2 的正态分布,记作 X N ( μ , σ 2 ) ,其中

μ ^ = X ¯ σ ^ = 1 n 1 i = 1 n ( X i X ¯ ) 2 (1)

分别为 μ σ 2 的一个无偏估计,那么可以用分布 N ( μ ^ , σ ^ 2 ) 近似随机变量X的真实分布。

2.1.2. 对数正态分布模型

若随机变量X的取值为正数,且 ln X N ( μ , σ 2 ) ,则称随机变量X服从对数正态分布,其概率密度函数为

f ( x ) = { 1 x 2 π σ e ( ln x μ ) 2 2 σ 2 , x > 0 0 , x 0

在对数正态分布的实际应用中,一般取 μ σ 2 的极大似然估计作为 μ σ 2 估计量,分别为

μ ^ M L E = 1 n i = 1 n ln X i σ ^ M L E = 1 n i = 1 n ( ln X i 1 n i = 1 n ln X i ) 2 (2)

2.1.3. 伽马分布模型

若随机变量X的概率密度函数为

f ( x ) = { β α Γ ( α ) x α 1 e β x , x > 0 0 , x 0

其中 Γ ( α ) = 0 + x α 1 e x d x α 为形状参数, β 为尺度参数,则称随机变量X服从伽马分布,记作 X G ( α , β ) ,伽马分布的期望和方差分别为

E ( X ) = α β V a r ( X ) = α β 2 (3)

用样本均值 1 n i = 1 n X i 代替真实均值,样本方差 1 n 1 i = 1 n ( X i X ¯ ) 2 代替真实方差,根据公式(3)可以计算出参数 α β 的估计量

α ^ = ( 1 n i = 1 n X i ) 2 1 n 1 i = 1 n ( X i X ¯ ) 2 β ^ = 1 n i = 1 n X i 1 n 1 i = 1 n ( X i X ¯ ) 2 (4)

2.1.4. 威布尔分布模型

若随机变量X的概率密度函数为

f ( x ) = { k λ ( x λ ) k 1 e ( x λ ) k , x > 0 0 , x 0

其中 λ > 0 为尺度参数, k > 0 为形状参数,则称随机变量X服从威布尔分布,记作 X W ( λ , k ) 。用实际数据进行分布拟合时,一般使用的参数估计为

k ^ = 1.2 1 n 1 i = 1 n ( ln X i 1 n i = 1 n ln X i ) λ ^ = exp ( 1 n i = 1 n ln X i + 0.572 k ^ ) (5)

2.2. 数据拟合

本文收集了上海2022年3月1日至6月30日共122天的无症状感染者日增长数据,数据来源于上海市卫生健康委官方网站 [3]。为了研究上海新冠疫情无症状感染者的增长规律,本节对日增长数据进行统计分布拟合。在疫情蔓延过程中,日增长数据会出现偶然的波动,为了消除这种偶然因素,提高模型的拟合优度,本节还采用移动平均的方法拟合数据,其中以7天作为平均长度。在数据拟合过程中,将无症状感染者出现的日期作为随机变量,为了便于描述,把3月1日记作上海疫情第1天,6月30日记作上海疫情第122天,则随机变量X的取值为 1 , 2 , 3 , , 122 。由公式(1)、(2)、(4)、(5),根据无症状感染者日增长数据和7天移动平均数据,计算出四个统计分布的参数估计,具体如表1

Table 1. Probability distribution parameter estimates for two classes of data

表1. 两类数据的统计分布参数估计值

为了便于观察无症状感染者增长数,本文的分布图采用的是频数分布图。图1图2的直方图分别展示了无症状感染者日增长数和7天移动平均增长数,图中曲线表示四种拟合分布的频数变化。由图可以发现,无症状感染者前期增长速度较快,呈正偏态分布。在拟合的分布曲线中,对数正态分布和伽马分布是正偏态的,而威布尔分布是负偏态的;同时,对数正态分布和伽马分布对尾部数据拟合较好,能较好地表示疫情后期无症状感染者的增长情况;从峰值上看,四个分布的峰值都低于真实峰值,但对数正态分布和伽马分布的峰值与真实数据的峰值最为接近;从峰值出现的时间上看,真实数据峰值出现的时间与对数正态分布和伽马分布峰值出现的时间近似,而正态分布和威布尔分布的峰值出现的时间要晚。通过以上分析可知,对数正态分布和伽马分布对两类数据拟合的效果较好,而正态分布和威布尔分布拟合效果较差。

(a) 正态分布拟合 (b) 对数正态分布拟合 (c) 伽马分布拟合 (d) 威布尔分布拟合

Figure 1. Frequency plots of fitted distributions for daily growth data

图1. 日增长数据拟合分布频数图

(a) 正态分布拟合 (b) 对数正态分布拟合 (c) 伽马分布拟合 (d) 威布尔分布拟合

Figure 2. Frequency plots of fitted distributions for 7-day moving average growth data

图2. 7天移动平均增长数据拟合分布频数图

中国精算师协会传染病数学模型研究小组在研究2003年非典疫情北京数据数学模型时,利用分位点评价分布拟合效果 [4],本文运用了同样的方法对分布进行拟合评价。表2表3中的数据是两类数据真实分布和拟合分布的分位点,通过表格数据可以分析疫情发展情况与时间的关系,例如,真实数据的50%分位点为39,表示第1天至39天无症状感染者增长总数占122天总感染人数的50%,此时疫情发展处于中期。从表中数据可以发现,四个拟合分布的25%、50%、75%分位点与真实分布的分位点都很接近,伽马分布的这三个分位点与真实分布分位点完全相同。若99.9%分位点作为此次疫情即将结束的时间点,则真实分布中第85天进入疫情结束阶段,正态分布和威布尔分布将此时间点提前7至8天,对数正态分布推迟8至9天,而伽马分布仅推迟1至2天。在95%、99%分位点上,同样是伽马分布表现得最好。综上所述,对于疫情发展情况,四个分布在疫情前中期都能够较好地判断,而在疫情发展后期,伽马分布判断较为准确。

Table 2. Quantile of the fitted distributions for daily growth data

表2. 日增长数据拟合分布的分位点

Table 3. Quantile of the fitted distributions for 7-day moving average growth data

表3. 7天移动平均增长数据拟合分布的分位点

3. EDF拟合优度检验

EDF型拟合优度检验是建立在经验分布函数基础上的检验方法,常见的检验方法有KS检验、CvM检验和AD检验。设 X 1 , X 2 , , X n 是一组来源于连续分布F的独立样本,EDF型检验统计量检验的问题为

H 0 : F = F 0 ; H 1 : F F 0

其中, F 0 为确定的理论分布函数。

3.1. 检验方法

3.1.1. KS检验

Kolmogorov和Smirnov提出了KS检验 [5] [6],KS检验统计量为

D n = n sup < x < | F n ( x ) F 0 ( x ) |

D n + = n sup < x < ( F n ( x ) F 0 ( x ) ) , D n = n sup < x < ( F 0 ( x ) F n ( x ) )

其中 F n 为经验分布函数。当样本给定时,将样本按照从小到大排序得到 X ( 1 ) , X ( 2 ) , , X ( n ) ,其统计量可以表示为

D n = n max 1 i n [ ( i n F 0 ( X ( i ) ) ) , ( F 0 ( X ( i ) ) i 1 n ) ] (6)

3.1.2. CvM检验

CvM型检验统计量 [7] 的一般形式为

ω n 2 = n [ F n ( x ) F 0 ( x ) ] 2 g ( x ) d F 0 ( x ) (7)

当取 g ( x ) = 1 时,便得到了CvM检验统计量

W n 2 = n [ F n ( x ) F 0 ( x ) ] 2 d F 0 ( x ) (8)

当样本给定时,CvM检验统计量可以表示为

W n 2 = i = 1 n [ F 0 ( X ( i ) ) 2 i 1 2 n ] 2 + 1 12 n (8)

3.1.3. AD检验

Anderson和Darling提出了AD检验统计量 [8],当(7)式中 g ( x ) = 1 x ( x 1 ) 时,可以得到AD检验统计量

A n 2 = n [ F n ( x ) F 0 ( x ) ] 2 F 0 ( x ) [ 1 F 0 ( x ) ] d F 0 ( x )

当样本给定时,AD检验统计量可以表示为

A n 2 = n 1 n i = 1 n [ ( 2 i 1 ) ln [ F 0 ( X ( i ) ) ] + ( 2 n + 1 2 i ) ln [ 1 F 0 ( X ( i ) ) ] ] (9)

3.2. 检验p值的计算方法

在进行拟合优度检验时,本文利用p值来确定是否拒绝原假设。对于样本 X 1 , X 2 , , X n 和拟合分布 F 0 ,EDF型检验统计量检验p值的Monte-Carlo模拟计算步骤如下:

1) 将样本按升序排列得到 X ( 1 ) , X ( 2 ) , , X ( n ) ,再带入公式(6)、(8)、(9)中,分别计算出KS统计量 D 0 ,CvM统计量 W 0 ,AD统计量 A 0

2) 运用Monte-Carl模拟方法,生成n个服从 U [ 0 , 1 ] 分布的随机变量 U 1 , U 2 , , U n

3) 随机变量 U 1 , U 2 , , U n 升序排列得到 U ( 1 ) , U ( 2 ) , , U ( n ) ,令 F 0 ( X ( i ) ) = U ( i ) ,带入公式(6)、(8)、(9)中,计算三种EDF统计量 D , C , W

4) 重复步骤2)和3) M次(一般M大于1000),得到 D 1 , D 2 , , D n ; W 1 , W 2 , , W n ; A 1 , A 2 , , A n 。则KS、CvM和AD统计量的检验p值分别为

p K S = # ( D > D 0 ) M , p C v M = # ( W > W 0 ) M , p A D = # ( A > A 0 ) M

3.3. 检验分析

本文收集的样本量超过59万,这些样本不能严格地服从拟合出的四个分布,若将所有的样本进行拟合优度检验,那么四个分布都不能通过检验,而本文所研究的问题是选择一个近似的分布代替真实分布,所以需要减少检验的样本量。本文采用的方法是将所有的样本分组平均,每组的样本量为N,那么总共分为 H = [ N / T ] 组,其中T为所有样本的数量,每组样本取均值生成新的样本 Y 1 , Y 2 , , Y H ,则 Y k ( 1 k H ) 表示122天中前 N ( k 1 ) + 1 N k 个被感染者出现时间的期望。

表4表5中显示的是两类数据拟合分布的EDF拟合优度检验的p值,在p值计算过程中取 M = 10000 。两表中数据表明,当N越小时,检验p值越小,这是因为用作检验的样本点越多,拟合优度检验越苛刻,要求分布拟合的优度越高,则拟合分布越不容易通过检验。而无论N取何值,伽马分布的三种检验p值是最大的,而威布尔分布是最小的。取检验水平 α = 0.05 ,当 N = 500 时,从表4中数据可以发现,对数正态分布通过CvM检验,伽马分布通过了CvM和AD检验,而另外两个分布没有通过任何检验,表5中只有伽马分布通过了所有检验。通过以上分析可知,伽马分布的拟合效果最好。

Table 4. EDF tests p-values of fitted distributions for daily growth data

表4. 日增长数据拟合分布的EDF检验p

Table 5. EDF tests p-values of fitted distributions for 7-day moving average growth data

表5. 7天移动平均增长数据拟合分布的EDF检验p

4. 总结

对拟合分布图进行分析可知,伽马分布、对数正态分布与真实分布的偏态方向一致,从而使得这两个分布在峰值位置上与真实分布差距不大,同时伽马分布在尾部数据拟合和分位点数值的接近程度上表现尤为突出。在所有的EDF拟合优度检验中,伽马分布的检验p值最大,说明样本来源于伽马分布最易被接受,由此判断该分布的拟合效果最好。通过以上不同角度的分析,发现对于上海2022年3月至6月的疫情中无症状感染者,其增长模型适合用伽马分布进行拟合,若某地发生类似疫情,可以利用伽马分布分析预测疫情的发展情况,从而制定合理的防疫政策。

NOTES

*通讯作者。

参考文献

[1] 方开泰, 许建伦. 统计分布[M]. 北京: 科学出版社, 1987.
[2] 杨振海, 程维虎, 张军舰. 拟合优度检验[M]. 北京: 科学出版社, 2011.
[3] 上海市卫生健康委. 新闻发布[EB/OL].
https://wsjkw.sh.gov.cn/xwfb/index.html, 2022-07-01.
[4] 商业新知. 传染病数学模型研究——基于2003年非典疫情北京数据[EB/OL].
https://www.shangyexinzhi.com/article/511180.html, 2020-02-18.
[5] Kolmogorov, A. (1933) Sulla Determina-zione Empirica di Una Legge di Distribuzione. Giornale dell’Instituto Italiano degli Attuari, 4, 83-91.
[6] Smirnoff, N. (1939) Sur les écarts de la Courbe de Distribution Empirique. Matematicheskii Sbornik, 48, 3-26.
[7] Cramér, H. (1928) On the Composition of Elementary Errors. Scandinavian Actuarial Journal, 1928, 141-180.
https://doi.org/10.1080/03461238.1928.10416872
[8] Anderson, T.W. and Darling, D.A. (1952) Asymptotic Theory of Certain “Goodness of Fit” Criteria Based on Stochastic Processes. The Annals of Mathematical Statistics, 23, 193-212.
https://doi.org/10.1214/aoms/1177729437