1. 引言
我国大陆地区人口的预期寿命显著提高,从60年代的不到45岁增长到2019年的77.3岁,一方面反映出我国的发展成就,另一方面给社会和个人带来了长寿风险,且人口老龄化可能会加重社会经济负担。近三十多年来,我国在养老金领域进行了一系列重大改革,实现了基本养老金制度转型和惠及范围的扩展,其成果显著。人口死亡率变动能直接反映居民健康状况和社会卫生水平,是养老金制定的前提,养老金制度的可持续性和预期寿命的变化之间存在很大的关联性,如何运用预期寿命来预测死亡率,对我国长寿风险度量而言至关重要。
近年来,死亡率相关研究方法不断丰富,新兴统计学方法已在死亡率建模中大量应用,且拟合和预测精度不断提升 [1]。王晓军和米海杰(2013) [2] 探讨了中国人口死亡率变化趋势和不同分类人群死亡率改善的差异、成因及变动趋势。曾燕等(2016) [3] 采用Bootstrap方法运用Lee-Carter模型拟合并预测了我国人口死亡率。胡仕强和陈荣达(2018) [4] 采用贝叶斯MCMC方法提高了死亡率预测的精度,进行长寿衍生产品的定价。陈宁(2019) [5] 根据我国人口死亡率数据的特征,构建了适合我国人口的神经网络死亡率模型。但这些研究只是运用了死亡率这一数据特征,通过改进参数估计方法来提高预测精度,而我们发现人口死亡率和预期寿命之间是存在极大关联性的,本文正是抓住了这一特点,结合我国人口死亡率特征对LL (Liner-Link,即线性关系)模型(2020) [6] 进行拓展研究。
LC系模型(Lee-Carter模型 [7]、Renshaw-Haberman模型 [8] 和Age-Period-Cohort模型 [9] )和CBD系模型 [10] 在人口统计学和寿险精算文献中很常见,前者假设分年龄死亡人数服从泊松分布,基于对数变换后的中心死亡率进行建模;后者假设分年龄死亡人数服从二项分布,基于log it变换后的死亡概率进行建模。在本文中我们对LC系模型和PLAT模型 [11] 也使用log it变换,然后将这五种二项式死亡率模型与LL模型进行对比研究。
本文依据我国台湾人口死亡率资料进行模型检验,预测大陆人口未来死亡状况趋势,为进一步分析人口老龄化进程,完善人口政策提供依据。
2. 数据和方法
2.1. 数据选取
中国大陆的死亡人数和暴露数数据选自1996~2006年《中国人口统计年鉴》及2007~2019年《中国人口与就业统计年鉴》,选取1995~2018年,0~89岁的死亡率数据,对数据不足的样本,采用线性插值法补齐。
台湾数据选自人类死亡率数据库(HMD),选取1970~2014年,0~89岁的死亡人数和暴露数,0~110岁的生命表数据。
2.2. 二项式死亡率模型
表1展示了五种二项式死亡率模型,其中,
,
。

Table 1. Binomial mortality prediction model
表1. 二项式死亡率预测模型
2.3. LL模型
Pascariu等(2020) [6] 通过研究发现预期寿命取对数后和对数中心死亡率之间存在线性关系并可用如下关系式表示:
(1)
其中,
和
代表年龄,
表示年份,
,
为分年龄参数,
。
通过观察可以发现,式(1)只是一个简单的线性关系表达式,通过此式计算获得的死亡率误差较大,且其未考虑死亡率是随时间变化而有所改善的。因而可在式(1)中加入改善因子
及估计校正系数
,获得如下LL模型:
(2)
其中,
,
,
。
是
岁人口死亡率随时间的改善速度,
是独立于时间的估计校正系数,被用作影响
的优化变量。
2.4. 死亡率年均改善指标
Purushotham等(2011) [12] 采用死亡率年均改善指标对死亡率改善水平进行度量,定义如下:
(3)
其中,
表示年龄,
为
岁个体在
年的死亡率,
表示时间长度,
表示
岁个体在时间段
上死亡率的年均改善水平,称时间段
为一个经验期。
3. 对比分析
3.1. 模型检验
使用数据较为齐全的台湾人口死亡率数据进行模型检验,计算皮尔逊相关系数及经验死亡率数据。
表2为对台湾1970~2014年,0~110岁的人类死亡率数据库生命表数据,计算不同情况下的皮尔逊相关系数。其中,
为
岁人口的中心死亡率,
为
岁人口的死亡概率,
为
岁人口的死亡人数,
为
岁人口(本文选取
)的预期寿命。对于90岁及以下的人口,
、
与
三者与
之间存在极强相关性(个别特殊值除外)。而100岁人口的
及
与
之间为强相关,
与
间为中等程度相关。从而
岁人口的预期寿命
与
岁人口的中心死亡率
之间存在高度相关性。

Table 2. Pearson correlation coefficient
表2. 皮尔逊相关系数
首先运用1970~2014年,0~89岁的死亡人数和暴露数数据计算粗死亡率,然后使用Kannisto模型 [13] 对同一年份的80~89岁的粗死亡率数据进行拟合,估计86~110岁的死亡率数据,再结合0~85岁的死亡率观测值与86~110岁的死亡率估计值得1970~2014年台湾经验死亡率数据,最后运用生命表方法计算得到预期寿命。图1为台湾经验生命表中的数据(经验值)与人类死亡率数据库中生命表数据(观测值)对比。
图1对比了由本文方法所构建的台湾经验生命表与人类死亡率数据库中生命表,从中可以看出:(1) 在2014年,分年龄对数死亡率在大部分曲线上是重合的,只有一小部分有细微差别,但总体趋势是相同的;分年龄预期寿命曲线基本重合,差异极小。(2) 对于0岁人口而言,分年龄对数死亡率随着年份的增加呈现相同的趋势;分年龄预期寿命曲线基本重合。从而可以运用此方法对我国大陆死亡率数据进行外扩,获得90岁以上的高龄人口数据。



Figure 1. Comparison of Taiwan’s empirical observations
图1. 台湾经验值观测值对比
3.2. 模型对比
对大陆原始数据(0~89岁,1995~2018年),首先对经典死亡率模型的拟合效果进行检验,选出拟合最优的模型与LL模型进行对比;然后进行参数估计并运用回溯测试的方法对预测精度进行度量;最后进行预测对比。
3.2.1. 拟合效果检验
由表3可以看出,RH模型的AIC值、BIC值及偏差为五种模型中最小的,因而RH模型的拟合效果最优。

Table 3. Comparison of binomial mortality models
表3. 二项式死亡率模型对比
3.2.2. 参数估计
使用Kannisto模型对大陆1995~2018年期间80~89岁的数据进行拟合,预测86~110岁的数据,结合0~85岁真实数据与86~110岁的扩展数据得我国大陆死亡率数据。
(1) 计观察时间
内预期寿命和死亡率之间的线性关系的斜率
:通过使用最小二乘法并最小化残差平方
(4)
(2) 通过计算回归残差矩阵R的奇异值分解(SVD)来估计参数
,
其中
和
是左右奇异向量的矩阵,D是奇异值沿对角线的对角矩阵。SVD的第一项
用于获得
的估计值。
(3) 使用样条平滑参数
和
,并使用估计校正系数
对死亡率曲线进行优化。
在图2中,平滑指使用样条平滑对参数进行平滑处理,而原始指未使用样条平滑。如图2所示,随着年龄的增长,
逐渐趋于平滑,这是因为在所分析的时期内,人口规模较小,年龄越小变化越大。

Figure 2. LL model parameter estimation
图2. LL模型参数估计
图3显示了使用最小二乘估计法(LSE)和极大似然估计法(MLE)对LL模型的参数进行估计,结果表明对于
,两种估计方法相差不大,但对于
,两种估计方法有较大差异。

Figure 3. Use LSE and MLE to estimate the parameters of the LL model
图3. 使用LSE和MLE估计LL模型的参数
图4显示了使用两种估计方法对2006年及2018年的对数死亡率进行拟合,除部分区间显示出较大差异外,其余区间差异较小,因而选用LSE或是MLE进行参数估计皆较为合理。
3.2.3. 样本外数据预测
运用回溯测试的方法,以1995~2006年为参照,用这个时间间隔内的死亡率和出生时预期寿命来拟合LL模型。基于2007~2018年观测到的出生时预期寿命的单一值,并运用Kannisto模型得到90~110岁的拓展数据,得出完整的死亡率曲线。图5显示,重建的死亡率曲线通常比观测数据更平滑。

Figure 4. Use LSE and MLE to fit logarithmic mortality
图4. 使用LSE和MLE拟合对数死亡率

Figure 5. Observed and estimated log mortality of the mainland population
图5. 大陆人口的观测和估计对数死亡率
由表4可以看出,LL模型的预测精度高于RH模型,因为LL模型的误差低于RH模型。其中,ME:平均误差、MSE:均方误差、RMSE:均方根误差、MAE:平均绝对误差。
3.2.4. 预测
预测步骤:
(1) 利用LL模型使用1995~2018年的历史数据在0~89岁年龄范围内进行拟合,并用于预测未来22年直至2040年的死亡率;
(2) 使用Kannisto模型将中国0~89岁之间的观测死亡率矩阵扩展至110岁,方法:用80~89岁的数据进行拟合,预测90~110岁的数据;
(3) 一种模型如果对同一个预测点模拟多个预测,将产生一系列结果,这些结果可通过标准寿命表计算转化为预期寿命;
(4) 由LC模型给出的任何预测预期寿命值都被用作LL模型中的输入值,以导出死亡率曲线,从而获得两条可比较的曲线;
(5) 对于每个模拟的轨迹,LL方法可以产生死亡率曲线,产生中值预测的不确定性;
(6) 99%的预测区间是基于一千次蒙特卡罗模拟计算的。
表5给出了LL模型中参数
及
的预测值,其中取
,即采用LC模型估计出的平均预期寿命值来预测大陆人口未来死亡率。

Table 5. Coefficient predicted value
表5. 系数预测值
图6表明了LL模型预测的对数死亡率曲线比LC模型更平滑,并且它利用死亡率和预期寿命之间的线性关系,当预测到遥远的未来时,产生的死亡率分布在年龄维度上更少失真。

Figure 6. Comparison of logarithmic mortality curves predicted by LL model and LC model
图6. LL模型和LC模型预测的对数死亡率曲线对比
4. 死亡率改善水平
图7中给出了1995~2015年(分为4个阶段)大陆人口历史死亡率改善指标的变化趋势,其中有三个阶段的曲线基本位于零轴上侧,说明了死亡率随时间推移而有着一定的改善,即死亡率是随时间变化而下降的。
图8给出了由LL模型预测的大陆未来死亡率年均改善指标,可以看出,四个阶段的曲线皆在零轴上侧,但随着年龄的增长,曲线呈下降趋势,说明80岁以上老年人口死亡率改善水平没有80岁以下人口高,也即老龄人口死亡率要高于其它年龄人口。
5. 结论
本文将五种二项式死亡率模型与LL模型进行对比研究,使用数据较为齐全的台湾人口死亡率数据进行模型检验,通过计算皮尔逊相关系数及经验死亡率数据发现:(1)
岁人口的预期寿命
与
岁人口的中心死亡率
之间存在高度相关性;(2) 可以运用Kannisto模型对我国大陆人口死亡率数据进行外扩,获得90岁以上的高龄人口数据。
对大陆原始数据(0~89岁,1995~2018年),首先对二项式死亡率模型的拟合效果进行检验,发现RH模型拟合效果最优,但其预测精度要低于LL模型;然后进行参数估计,
随着年龄的增长,观察到了更大的差异,这是因为在所分析的时期内,人口规模较小,年龄越小变化越大;最后进行预测,LL模型预测的对数死亡率曲线比LC模型更平滑,并且它利用死亡率和预期寿命之间的线性关系,当预测到遥远的未来时,产生的死亡率分布在年龄维度上更少失真。
采用死亡率年均改善指标对大陆人口死亡率改善水平进行度量,死亡率随时间推移而有着一定的改善,即死亡率是随时间变化而下降的,80岁以上老龄人口死亡率要高于其它年龄人口。
基金项目
本文由国家自然科学基金项目(12061066)和甘肃省自然基金项目(20JR5RA528)共同支持。