基于LSTM-GM模型的中国人口老龄化影响因素分析及趋势预测
Analysis of Influencing Factors and Trend Prediction of Population Aging in China Based on the LSTM-GM Model
摘要: 随着中国人口年龄结构的变化,人口老龄化已不可避免地成为了社会热点。为了深入研究中国人口老龄化现象,本文首先分析了中国人口老龄化的影响因素,从人口结构、经济发展、教育普及和医疗水平四个维度选取指标,运用灰色关联分析法和主成分分析法对影响中国人口老龄化的因素进行分析。其次,构建了LSTM-GM组合预测模型对人口老龄化系数进行实证分析,结果证明了LSTM-GM模型在中国人口老龄化预测中的有效性。
Abstract: With the shifting age structure of China’s population, population aging has inevitably emerged as a critical societal issue. To conduct an in-depth investigation into the phenomenon of population aging in China, this study first analyzes its influencing factors. Indicators are selected across four dimensions—population structure, economic development, education accessibility, and healthcare standards—followed by an analysis using the Grey Relational Analysis method and Principal Component Analysis. Subsequently, an LSTM-GM combined prediction model is constructed to empirically analyze the population aging coefficient. The results validate the effectiveness of the LSTM-GM model in predicting China’s population aging trends.
文章引用:陈欣瑶, 刘媛华. 基于LSTM-GM模型的中国人口老龄化影响因素分析及趋势预测[J]. 建模与仿真, 2025, 14(11): 79-93. https://doi.org/10.12677/mos.2025.1411641

1. 引言

人口老龄化是指人口生育率降低和人均寿命延长导致的总人口中老年人口占比上升的动态过程。据世界卫生组织统计,从2020年到2030年,全世界60岁以上人口将从10亿人增加到14亿人。到2050年,全世界60岁以上人口将翻一番,增至21亿人。中国不仅是世界上人口老龄化速度最快的国家之一,同时也是世界上老龄人口数量最多的国家。中国老龄化系数从7%增长到14%仅用了21年,截至2023年,中国65岁及以上的老龄人口高达2.1亿人。人口老龄化影响因素的探究和对未来人口老龄化变化趋势的分析是政府制定城市规划时不可忽视的关键问题,其直接影响社会经济发展水平、社会和谐稳定以及人民生活质量。因此,科学准确地预测人口老龄化的发展态势,能够为政府制定人口相关战略决策提供坚实的理论支撑。

目前,人口老龄化已经成为全球性研究的热点问题,为了更好地应对人口老龄化带来的挑战和机遇,国内外学者采用多种方式进行研究。在人口老龄化影响因素方面的研究中,Moine (1950)针对法国人口老龄化的研究发现,老年人口寿命延长是加剧老龄化程度的关键因素[1];Mamun (2020)等人基于孟加拉国数据指出,人均GDP增长显著推动了该国的人口老龄化进程[2];严宇珺(2021)等对上海老龄化数据的主成分分析表明,相比政策因素,社会与经济因素影响更为显著[3];胡琼(2021)等运用灰色关联分析识别出人均GDP、人均卫生服务人员数和生育率为中国人口老龄化的主要驱动因素[4]。尽管上述研究揭示了若干关键变量,但多数未能系统整合人口、经济、教育、医疗等多维因素,难以全面反映老龄化形成的复杂机制。

在人口老龄化预测方面的研究中,主要运用的模型包括队列成分法、Logistic模型、灰色预测模型、神经网络模型等。Kozlov V (2017)等构建的动态年龄结构分布Logistic模型揭示了年龄结构变化的周期性特征[5];Rathnayaka RMKT (2024)等借助混合灰色指数平滑模型预测斯里兰卡老龄人口比例将在15年后上升至24.8% [6];王焕清(2013)基于不同人口政策假设,运用多元回归模型对中国人口数量进行预测[7];张海峰(2013)等以西宁市为例比较了马尔萨斯模型、Logistic模型与GM(1,1)模型,发现灰色预测模型在局部数据中精度较高[8];侯瑞环(2021)等结合GM(1,N)与支持向量机模型对新疆人口进行预测,验证了组合模型在稳定性方面的优势[9]。然而,这些方法仍存在一定局限:单一模型往往难以捕捉人口系统的非线性与动态性;部分模型依赖大样本数据,而在人口统计资料不完整地区适用性较差;多数预测研究局限于特定地区,缺乏全国层面的系统建模。

为弥补上述研究空白,本文从人口结构、经济发展、教育普及与医疗水平四个维度系统构建指标体系,综合运用灰色关联分析与主成分分析法识别中国人口老龄化的关键影响因素。在预测方法上,构建LSTM-GM组合模型对全国老龄化系数进行预测。选择GM(1,1)作为基础模型之一,主要考虑到其适用于“小样本、贫信息”型数据,且在中国人口预测研究中具有良好的应用基础。该模型通过累加生成强化数据规律,对单调变化趋势具有较强的拟合能力。然而,GM(1,1)也存在一定局限,如对波动性高、非单调序列的预测精度有限,难以捕捉长期复杂非线性趋势。为此,本文引入长短期记忆网络(LSTM),利用其捕捉时间序列中长期依赖关系和处理非线性关系的强大建模能力,与GM(1,1)形成互补。通过结合GM(1,1)在小样本数据中的信息挖掘优势与LSTM对复杂动态的捕捉能力,构建的组合模型在理论与方法上均较已有研究有所提升,旨在为全国层面老龄化趋势提供更系统、精准的预测,从而增强政策建议的科学性与前瞻性。

2. 中国人口老龄化的影响因素分析

2.1. 数据来源及说明

本文使用的数据源自于国家统计局,选取2000年至2023年的影响因素指标数据和人口老龄化指标数据进行研究。其中,2000、2010、2020年数据为当年人口普查数据推算数;其余年份数据为年度人口抽样调查推算数据。本文将老龄化系数作为衡量人口老龄化程度的指标,分别从人口结构、经济发展、教育普及和医疗水平四个维度进行指标的选取。

2.2. 中国人口老龄化影响因素的选取

为了更客观和更全面地进行研究,本文通过查阅国内外学者相关文献[10]-[14],最终确定将人口老龄化的影响因素根据作用机制划分为被解释变量、内生变量和外生变量。

2.2.1. 内生变量

内生变量是那些对结果或目标变量有立即和明确影响的变量,通常与被解释变量有直接的因果关系。从人口老龄化的定义来看,影响人口老龄化的内生变量由生育率和预期寿命构成。由于国家统计局未对生育率实施官方披露,故选取出生率和死亡率进行研究。本文将对出生率、死亡率和预期寿命三个内生变量进行研究。

出生率、死亡率和预期寿命的变化直接影响人口的增长速度和年龄结构。如果出生率和死亡率(尤其是婴儿和儿童死亡率)持续下降,年轻人口的比例会减少,老年人口的比例相对增加,从而加速人口老龄化。预期寿命的延长意味着更多的人能够活到老年,这会直接增加老年人口的数量和比例,进一步加剧人口老龄化。

2.2.2. 外生变量

外生变量是通过影响一个或多个内生变量来间接影响被解释变量的变量。它们与被解释变量之间的关系不是直接的,而是通过一系列因果关系链传递影响。本文从人口结构、经济发展、教育普及和医疗水平四个方面进行外生变量的选取。

λ 人口结构,是指将人口以不同的标准划分而得到的一种结果,大致可以划分为年龄结构和性别结构。近些年,我国人民的生育观念逐渐向“优生优育”靠拢,越来越多的父母选择晚生或者少生,使得年轻人口比例下降。我国自古有“传宗接代”、“重男轻女”的思想观念,导致女性人口长期低于男性。同时,随着女性受教育程度的提高,选择早婚早育的女性数量下降。本文从两个角度共选取自然增长率、老年抚养比和女性人口三个指标。

λ 经济发展,是指一个国家经济发展的规模、速度和所达到的水准。伴随着经济发展带来个人主义和消费主义的兴起,年轻一代更注重生活质量和自我实现,而非传统的多子多福观念。个人收入的增加让人们可以支付得起更高水平的医疗服务,同时国家经济水平的提升也让人民享受更好的养老服务。本文选取恩格尔系数、城镇化率、人均GDP、人均可支配收入和城镇职工基本养老保险基金支出五项指标来衡量经济发展状况。

λ 教育普及,是指国家对全体学龄儿童实施某种程度的普通教育。根据新家庭经济学理论,一个家庭的教育程度越高,就越重视孩子的教育,在养育孩子时会更加注重质量而非数量[15]。本文选取平均受教育年限和文盲率作为衡量教育普及程度的指标。

λ 医疗水平,是指医疗治疗和预防机构的工作质量。先进的医疗技术和治疗手段意味着更多的疑难杂症拥有对应的解决方案,就医治愈率的提高使得存活率增加、预期寿命延长以及死亡率降低。本文选取医疗机构床位数、拥有卫生技术人员数和城镇基本医疗保险基金支出作为衡量医疗水平的指标。

Table 1. Influencing factors of population aging in China

1. 中国人口老龄化影响因素

变量类型

指标类型

指标名称

被解释变量

人口老龄化系数(%)

内生变量

出生率(%)

死亡率(%)

预期寿命(岁)

外生变量

人口结构

自然增长率(%)

老年抚养比(%)

女性人口占比(%)

经济发展

恩格尔系数(%)

城镇化率(%)

人均GDP (元)

人均可支配收入(元)

城镇职工基本养老保险基金支出(亿元)

教育普及

平均受教育年限(年)

文盲率(%)

医疗水平

医疗机构床位数(张/万人)

拥有卫生技术人员数(人/万人)

城镇基本医疗保险基金支出(亿元)

综上,本文将人口老龄化系数作为被解释变量,将16项指标分为内生变量和外生变量,具体指标如表1所示。

2.3. 中国人口老龄化影响因素的传导机制分析

利用灰色关联度分析法能够有效筛选对老龄化系数影响显著的因素,因其不依赖于严格的数据分布假设,而是通过计算各因素与老龄化系数之间的关联度,揭示其影响程度和趋势相似性。根据上文可知,内生变量和外生变量共同作用于人口老龄化的变化。为了进一步探究中国人口老龄化影响因素的传导机制,本文运用灰色关联分析法对内生变量如何影响被解释变量以及外生变量如何影响内生变量进行研究,中国人口老龄化影响因素的传导机制模型如图1所示,运用Python进行灰色关联分析,计算各个指标与人口老龄化的关联程度。

Figure 1. Transmission mechanism of influencing factors of China’s population aging

1. 中国人口老龄化影响因素传导机制

首先,从内生变量作用于被解释变量研究路径出发,分析出生率、死亡率和预期寿命对人口老龄化系数的影响。由图2可知,出生率、死亡率和预期寿命与人口老龄化系数之间的关联度分别是0.865、0.796和0.753,其中关联度最高的是出生率。在老龄人口数量保持相对稳定的增速时,较低的出生率使得新生人口的占比持续下降,而老龄人口占比持续上升,加剧人口老龄化程度。

Figure 2. Endogenous variable transmission mechanism of China’s population aging

2. 中国人口老龄化内生变量传导机制

接着,从外生变量作用于内生变量的研究路径出发,分别从人口结构、经济发展、教育普及和医疗水平四个方面进行分析。由图3(a)可知,在人口结构方面,女性人口占比与出生率、死亡率和预期寿命三个内生变量的关联度都是最高的,值分别为0.830、0.969和0.989,可以说明女性人口占比很大程度上影响了人口老龄化系数。由图3(b)可知,在经济发展方面,恩格尔系数与出生率的关联度最高,值为0.927;城镇化率与死亡率和预期寿命的关联度最高,值为0.962和0.950。由图3(c)可知,在教育普及方面,文盲率与出生率的关联度最高,值为0.868;平均受教育年限与死亡率和预期寿命的关联度最高,值为0.989和0.983。由图3(d)可知,在医疗水平方面,医疗机构床位数与出生率、死亡率和预期寿命三个内生变量的关联度都是最高的,值分别为0.758、0.915和0.898。

(a) 人口结构 (b) 经济发展

(c) 教育普及 (d) 医疗水平

Figure 3. Exogenous variable transmission mechanism of China’s population aging

3. 中国人口老龄化外生变量传导机制

综合来看,恩格尔系数与出生率的灰色关联度最高,值为0.927。随着经济发展水平的提升,人们对于食品的消费占比降低进而恩格尔系数下降,但通常经济发展也带来了更高的住房、教育等生活成本,使得人们生育意愿降低,进一步加剧人口老龄化。平均受教育年限与死亡率的灰色关联度最高,值为0.989。受教育程度较高的人群通常具备更强的健康意识,能够采取更健康的生活方式和疾病预防措施,从而减少患病风险。同时,受教育程度的提高通常伴随着收入水平的上升,使人们能够负担更好的医疗服务和健康产品,进一步促进了整体死亡率的下降。女性人口占比与预期寿命的灰色关联度最高,值为0.989。据国家统计局数据显示,女性的平均预期寿命通常高于男性,2020年我国男性预期寿命为75岁,女性则高达80岁,女性人口占比的增加会直接提高整体人口的预期寿命。预期寿命的延长意味着更多人口能够活到老年阶段,从而增加老年人口的绝对数量和比例,进一步加剧人口老龄化。

2.4. 中国人口老龄化影响因素的降维分析

主成分分析(Principal Component Analysis)是一种广泛应用于数据降维的统计方法,其核心思想是通过将数据从原始坐标系投影到一个新的坐标系,使得数据的方差最大化,从而达到降维的目的。

对上文提及的16项人口老龄化影响因素进行主成分分析时,不考虑影响因素被划分为内生变量和外生变量。本文运用SPSS软件对指标进行主成分分析。

(1) 数据预处理

考虑到数据之间的数值相差较大,且数据单位不同,直接计算影响分析结果的准确度。对原始数据进行标准化处理后,运用KMO和巴特利特检验确认数据是否适用于主成分分析,由表2可知,KMO值为0.765,大于0.6,显著性 < 0.001,小于0.05。

Table 2. Kaiser-Meyer-Olkin (KMO) and Bartlett’s tests

2. KMO和巴特利特检验

KMO取样适切性量数

0.765

近似卡方

1004.457

巴特利特球形度检验

自由度

120

显著性

<.001

(2) 提取主成分

选取16项人口老龄化影响因素进行主成分分析,计算结果如表3所示。第一个成分的特征值为13.623,第二个成分的特征值为1.411,前两个成分的累计贡献率为93.964%,能够满足代表16个指标的大部分信息的要求,因此选择前两个作为主成分。

Table 3. Total variance explained

3. 总方差解释

初始特征值

提取载荷平方和

成分

总计

方差百分比

累积%

总计

方差百分比

累积%

1

13.623

85.143

85.143

13.623

85.143

85.143

2

1.411

8.821

93.964

1.411

8.821

93.964

3

.596

3.726

97.690

4

.215

1.346

99.036

5

.074

0.462

99.498

6

.053

0.333

99.831

7

.016

0.099

99.929

8

.005

0.030

99.959

9

.003

0.016

99.976

10

.002

0.012

99.988

11

.001

0.007

99.994

12

.001

0.003

99.997

13

.000

0.002

99.999

14

.000

0.001

100.000

15

3.759E−5

0.000

100.000

16

6.571E−8

4.107E−7

100.000

(3) 结果分析

为了更清晰地解释每个主成分的实际意义,选取凯撒正态化最大方差法对成分矩阵进行旋转,计算结果如表4所示。

Table 4. Rotated component matrix

4. 旋转后的成分矩阵

主成分1

主成分2

X1 出生率

−0.202

−0.970

X2 死亡率

0.543

0.496

X3 预期寿命

0.671

0.763

X4 自然增长率

−0.244

−0.961

X5 老年抚养比

0.652

0.751

X6 女性人口占比

0.255

0.903

X7 居民恩格尔系数

−0.943

−0.200

X8 城镇化率

0.867

0.487

X9 人均国内生产总值

0.796

0.599

X10 居民人均可支配收入

0.789

0.606

X11 城镇职工基本养老保险基金支出

0.724

0.670

X12 平均受教育年限

0.878

0.426

X13 文盲率

−0.873

−0.265

X14 每万人医疗机构床位数

0.835

0.537

X15 每万人拥有卫生技术人员数

0.768

0.633

X16 城镇基本医疗保险基金支出

0.691

0.708

由此,可以得到两个主成分F1、F2的表达式为:

F 1 = 0.202 X 1 +0.543 X 2 +0.671 X 3 0.244 X 4 +0.652 X 5 +0.255 X 6 0.943 X 7 +0.867 X 8 +0.796 X 9 +0.789 X 10 +0.724 X 11 +0.878 X 12 0.873 X 13 +0.835 X 14 +0.768 X 15 +0.691 X 16 (1)

F 2 =0.970 X 1 +0.496 X 2 +0.763 X 3 0.961 X 4 +0.751 X 5 +0.903 X 6 0.200 X 7 +0.487 X 8 +0.599 X 9 +0.606 X 10 +0.670 X 11 +0.426 X 12 0.265 X 13 +0.537 X 14 +0.633 X 15 +0.708 X 16 (2)

根据上述2个公式综合分析可知:在主成分F1中,居民恩格尔系数、平均受教育年限、文盲率、每万人医疗机构床位数和城镇化率的载荷较高,均高于0.80。在主成分F2中,出生率、自然增长率、女性人口占比、老年抚养比和预期寿命的载荷较高。通过观察,不难发现,在主成分F1中,经济发展、教育普及和医疗水平三个方面的指标载荷均较高,而在主成分F2中,人口结构方面的载荷较高,可见相较于内生变量,外生变量从长期发展的角度来看对人口老龄化的影响更深。

3. 中国人口老龄化预测的实证分析

3.1. 基于GM(1,1)模型的人口预测

3.1.1. GM(1,1)模型的搭建

首先,根据灰色预测模型原理对数据进行定义,设中国人口老龄化系数为 X ( 0 )

X ( 0 ) =( x ( 0 ) ( 1 ), x ( 0 ) ( 2 ),, x ( 0 ) ( n ) )=( 6.96,7.10,,15.38 ) (3)

其次,在模型建立之前,需要对原始数据进行检验,判断其是否适用于灰色预测方法,能够有效避免模型失效或预测精度低的问题。本文选用级比检验对数据进行检验。级比检验是通过计算原始序列的级比(即相邻数据的比值),判断数据是否满足GM(1,1)模型的建模条件。GM(1,1)模型要求原始序列的级比落在一定范围内,否则模型可能失效。

对于原始序列 X ( 0 ) ,其级比定义为:

σ( k )= x ( 0 ) ( k1 ) x ( 0 ) ( k ) ,k=2,3,,n (4)

GM(1,1)模型要求原始序列的级比满足:

σ( k )( e 2 n+1 , e 2 n+1 ) (5)

如果原始序列的级比超出该范围,说明数据可能不适合直接使用GM(1,1)模型。根据公式(5)计算出GM(1,1)模型要求原始序列的级比满足 σ( k )( 0.923,1.083 ) ,且原始序列的级比为:

σ( k )=[ 1.020, 1.028, 1.027, 1.011 , 1.014, 1.030, 1.015, 1.024, 1.027, 1.046, 1.025, 1.033,  1.031, 1.041, 1.039, 1.028, 1.055, 1.043, 1.058, 1.071, 1.051, 1.046, 1.034 ]

可见,原始数据适用于搭建GM(1,1)模型。

紧接着,得到原始序列的累加序列 X ( 1 )

X ( 1 ) =( x ( 1 ) ( 1 ), x ( 1 ) ( 2 ),, x ( 1 ) ( n ) )=( 6.96,14.06,,150.38 ) (6)

基于累加序列 X ( 1 ) 建立白化微分方程,运用最小二乘估计法计算得到发展系数 a=0.0378 ,灰作用量 b=6.0476 ,最终得到预测方程为:

x ^ ( 0 ) ( k+1 )= x ^ ( 1 ) ( k+1 ) x ^ ( 1 ) ( k ) (7)

其中, x ^ ( 1 ) ( k+1 )=( x ( 0 ) ( 1 )+ 6.0476 0.0378 ) e 0.0378k 6.0476 0.0378

3.1.2. GM(1,1)模型的预测结果及检验

Figure 4. Population projection based on GM(1,1) model

4. 基于GM(1,1)模型的人口预测

基于预测方程(7)得到2000年~2023年中国老龄化系数的预测值,预测结果如图4所示,发现GM(1,1)模型较好地拟合了人口老龄化系数的发展趋势。为了更客观的评价GM(1,1)模型的准确度,本文使用后验差检验法对模型进行检验。

后验差检验法通过比较原始序列与预测序列的残差分布,判断模型的拟合效果和预测能力,其中,后验差比值(C)反映残差的波动程度,小误差概率(P)反映残差的分布情况。

X ( 0 ) 为原始序列, X ^ ( 0 ) 为相应模拟序列, ε 为残差序列,则

x ¯ = 1 n i=1 n x ( 0 ) ( i ) , S 1 2 = 1 n1 i=1 n ( x ( 0 ) ( i ) x ¯ ) 2 (8)

分别为 X ( 0 ) 的均值和方差。

ε ¯ = 1 n i=1 n ε( i ) , S 2 2 = 1 n1 i=1 n ( ε( i ) ε ¯ ) 2 (9)

分别为残差的均值和方差。

后验差比值(C)为残差序列的标准差与原始序列的标准差之比:

C= S 2 S 1 (10)

小误差概率(P)是指残差与残差均值之差小于给定阈值(通常为 0.6745 S 1 )的概率:

P=P{ | ε( i ) ε ¯ |<0.6745 S 1 } (11)

Table 5. Model prediction accuracy

5. 模型的预测精度

精度等级

后验差比值C

小误差概率P

优秀

C0.35

P0.95

良好

0.35<C0.5

0.80P<0.95

合格

0.5<C0.65

0.70P<0.80

不合格

C>0.65

P<0.70

对建立的GM(1,1)模型进行检验,通过计算得到,该模型的后验差比值(C)为0.16,小误差概率(P)为1.0,根据表5可知,模型预测精度为优秀。通过观察图4,预测值的曲线较为平滑,不太符合实际情况,由于老龄化系数本身值较小,较小的误差便会在实际情况中造成较大的差异。因此,本文进一步对GM(1,1)模型改进,建立LSTM-GM组合模型进行预测。

3.2. 基于LSTM-GM模型的人口预测

3.2.1. LSTM-GM模型的搭建

LSTM模型以其强大的非线性建模能力和对长期依赖关系的捕捉能力,在处理复杂时间序列数据时表现出色。它能够从大量历史数据中自动提取特征,并捕捉数据中的趋势和周期性变化,因此在人口老龄化等复杂问题的长期预测中具有显著优势。然而,LSTM模型对数据量的要求较高,在小样本或贫信息情况下容易出现过拟合问题。相比之下,GM模型在小样本、贫信息的情况下表现出独特的优势,它能够通过少量数据构建预测模型,并在短期预测中提供可靠的结果。为了充分发挥两种模型的优势,可以建立LSTM-GM组合预测模型。该模型利用GM对小样本数据的适应性和短期预测能力,结合LSTM对复杂数据的处理能力和长期预测精度,从而更精准地预测中国人口老龄化程度。通过这种组合方式,不仅能够弥补单一模型的局限性,还能在数据稀缺和复杂波动的情况下提供更加稳健和准确的预测结果。

LSTM-GM模型的搭建过程如图5所示:

首先,从数据源获取原始数据并进行预处理,去除无效或错误的数据,确保数据的完整性和准确性。对清洗后的数据进行归一化处理,将数据缩放到[0, 1],以避免不同特征之间的量纲差异对模型训练造成影响。归一化不仅能够加速模型的收敛,还能提高模型的稳定性和预测精度。

接着,对原始序列进行级比检验,确认数据适用于GM(1,1)模型。检验结束后,将原始序列进行累加,计算得到发展系数和灰作用量,解出预测方程,对数据进行预测,并计算预测值与实际值之间的残差。

随后,利用LSTM模型对残差进行训练和预测,通过不断调试,包括时间步长度、隐藏层层数、隐藏层神经元、激活函数、dropout比例等,更精准地捕捉数据中的非线性关系和长期依赖关系,从而使LSTM模型更准确地预测残差。

最后,将GM(1,1)模型的预测结果与LSTM模型预测的残差相结合,得到最终的预测序列。

Figure 5. Modeling process

5. 建模流程

3.2.2. LSTM-GM模型的预测结果及检验

在搭建LSTM神经网络模型时,基于Keras框架构建了一个适用于时间序列预测的深度学习模型。LSTM层是该模型的核心部分,包含50个神经元,能够有效捕捉时间序列数据中的长期依赖关系和非线性特征。输入形状由时间步长度和特征数决定,其中时间步长度设置为3,表示模型在每次预测时考虑前3个时间步的数据,而特征数为1,表示每个时间步仅包含一个特征。LSTM层的输出为最后一个时间步的结果,这种设计能够确保模型在预测时充分利用历史信息。随后,通过一个全连接层(Dense层)将LSTM层的输出映射为最终的预测值,全连接层的作用是将LSTM提取的高维特征转换为具体的预测结果。为了优化模型的训练过程,采用了Adam优化器,该优化器结合了动量和自适应学习率的优点,能够在训练过程中快速收敛。损失函数选择均方误差(MSE),其目标是最小化预测值与真实值之间的差异,从而提高模型的预测精度。

Figure 6. Population projection based on the LSTM-GM model

6. 基于LSTM-GM模型的人口预测

将原始序列放入LSTM-GM组合预测模型,最终得到对中国老龄化系数的预测,如图6所示。通过观察图6,可以发现运用LSTM-GM模型进行预测得到的曲线与真实曲线更贴合。

为了确保组合预测模型的有效性和可靠性,对进行组合预测模型检验是评估其预测性能的关键步骤。常用的检验方式包括误差指标检验、交叉验证、稳定性检验等,本文选取误差指标进行模型的检验。

(1) 平均绝对误差(MAE)

平均绝对误差表示预测值与真实值之间绝对误差的平均值,可以避免误差相互抵消的问题,从而准确反映实际预测误差的大小,其计算公式为:

MAE= 1 n i=1 n | y ^ i y 1 | (12)

(2) 均方根误差(RMSE)

均方根误差是预测值与真实值之间差异的样本标准差,说明了样本的离散程度,其计算公式为:

RMSE= 1 n i=1 n ( y i y ^ 1 ) 2 (13)

对GM(1,1)模型和LSTM-GM模型分别进行误差指标检验,经过计算得到检验结果。如表6所示,GM(1,1)模型的MAERMSE分别为0.352、0.401,而LSTM-GM组合模型的MAERMSE分别为0.265、0.238,均优于GM(1,1)模型,可见运用LSTM-GM组合模型进行中国人口老龄化系数的预测更具有准确性和可靠性。

Table 6. Comparative analysis of model predictions

6. 两种模型的预测对比

误差指标

GM(1,1)模型

LSTM-GM组合模型

MAE

0.352

0.265

RMSE

0.401

0.238

3.3. 基于LSTM-GM模型的人口预测

基于搭建好的LSTM-GM组合预测模型,对未来7年的中国人口老龄化系数进行预测,预测结果如图7所示,可以看出,模型较好地延续了过去23年中国人口老龄化系数的增长趋势,且表现出未来7年人口老龄化系数增速加快。

Figure 7. Forecast of China’s aging coefficient (2000~2030)

7. 2000年~2030年中国人口老龄化系数预测

具体未来7年人口老龄化系数的数值如表7所示,根据模型的结果显示,2024年至2030年中国人口老龄化系数将从15.758%增至19.500%,这意味着到2030年时,每五个人中将有一个超过65岁的人。世界卫生组织在关于人口老龄化的报告中,将65岁及以上人口占比超过14%定义为“老龄化社会”,超过20%则被称为“超级老龄化社会”。根据本文模型预测,中国预计将在2030年进入超级老龄化社会,这一趋势表明,中国的人口老龄化进程正在加速,对社会经济发展将带来深远影响。为应对这些挑战,中国需要加快完善养老保障体系,推动延迟退休政策,并鼓励生育政策的进一步优化。同时,科技创新和自动化技术的应用也将成为缓解劳动力短缺的重要手段。未来,如何在老龄化背景下实现经济社会的可持续发展,将是中国面临的重要课题。

Table 7. Projected aging coefficient in China: 2024~2030

7. 2024~2030年中国人口老龄化系数预测结果

年份

2024

2025

2026

2027

2028

2029

2030

人口老龄化系数(%)

15.758

16.353

16.919

17.501

18.147

18.808

19.500

4. 讨论

近年来,针对人口老龄化的影响因素和预测研究较多,尽管相关研究得到了较高的预测准确度以及较低的预测误差,但这些研究主要存在如下问题。

一、关于人口老龄化影响因素方面的研究,选取较少的变量进行研究。例如,何建宁(2010)等运用灰色关联模型发现中国老龄化影响因素中,人口密度和人口城镇化率是主要因素[16]。周春艳(2022)通过对宁夏老龄人口的实际情况进行分析,表明卫生技术人员所占比例与宁夏人口老龄化系数呈现正相关[17]。本文依据人口老龄化的定义选取了出生率、死亡率和预期寿命3个内生变量,并从人口结构、经济发展、教育普及和医疗水平四个方面共选取16个外生变量。

二、关于人口老龄化预测方面的研究,采用单一模型来预测人口老龄化趋势。由于人口老龄化受多种因素影响,单一模型往往只能捕捉部分变量的影响,难以全面反映复杂的人口动态变化。例如,时间序列模型可能忽略政策干预的影响,而微观仿真模型则对数据质量和参数设定高度敏感,容易导致预测偏差。相比之下,组合预测模型通过整合多种方法的优势,能够有效降低单一模型的系统性误差,提高预测的稳健性和准确性。本文运用LSTM-GM模型对人口老龄化进行预测,结合了LSTM神经网络对时序数据的高效学习能力和灰色模型对小样本数据的适应性,能够有效捕捉人口老龄化的非线性趋势和长期依赖关系。

5. 结论

本文运用灰色关联分析法对中国人口老龄化影响因素的传导机制进行研究,进一步使用主成分分析法探究所有影响因素与人口老龄化系数之间的关系;其次,基于影响因素分析的结果,构建LSTM-GM组合模型对人口老龄化系数进行预测。结果表明,相较于GM(1,1)单一模型的预测,LSTM-GM组合模型预测的人口老龄化系数的相对误差明显更低,说明本文构建的LSTM-GM组合模型预测人口老龄化的可靠性高,可为人口发展的策略制定提供一定参考价值。

基金项目

2024年度上海高校市级重点课程项目(预测方法与技术)。

参考文献

[1] Moine, M. (1950) Increased Life Expectancy and Its Influence on the Aging of the Population. La Pathologie Generale, 3, 242-251.
[2] Mamun, S.A.K., Rahman, M.M. and Khanam, R. (2020) The Relation between an Ageing Population and Economic Growth in Bangladesh: Evidence from an Endogenous Growth Model. Economic Analysis and Policy, 66, 14-25. [Google Scholar] [CrossRef
[3] 严宇珺, 严运楼. 上海人口老龄化发展趋势及其影响因素——基于GM(1, 1)和主成分分析[J]. 中国老年学杂志, 2021, 41(14): 3093-3098.
[4] 胡琼, 罗娟. 上海人口老龄化发展趋势及影响因素研究——基于灰色理论[J]. 经济研究导刊, 2021(33): 52-54+151.
[5] Kozlov, V., Radosavljevic, S. and Wennergren, U. (2017) Large Time Behavior of the Logistic Age-Structured Population Model in a Changing Environment. Asymptotic Analysis, 102, 21-54. [Google Scholar] [CrossRef
[6] Rathnayaka, R.M.K.T. and Seneviratna, D.M.K.N. (2024) Predicting of Aging Population Density by a Hybrid Grey Exponential Smoothing Model (HGESM): A Case Study from Sri Lanka. Grey Systems: Theory and Application, 14, 601-617. [Google Scholar] [CrossRef
[7] 王焕清. 不同计划生育政策下的我国人口预测研究[J]. 统计与决策, 2013(5): 9-13.
[8] 张海峰, 杨萍, 李春花, 等. 基于多模型的西宁市人口规模预测[J]. 干旱区地理, 2013, 36(5): 955-962.
[9] 侯瑞环, 徐翔燕. 基于改进多维灰色模型及支持向量机的人口预测[J]. 统计与决策, 2021, 37(18): 41-44.
[10] 李长江. 新疆后发优势的传导机制研究[J]. 新疆大学学报(哲学·人文社会科学版), 2005, 33(6): 14-17.
[11] 杨展, 罗娅. 人民币汇率对实体经济的资本市场传导机制——基于VAR模型的实证研究[J]. 中国证券期货, 2018(6): 69-79.
[12] 赖小琼, 黄智淋. 财政分权、通货膨胀与城乡收入差距关系研究[J]. 厦门大学学报(哲学社会科学版), 2011(1): 22-29.
[13] 傅晓青. 我国货币政策传导机制的障碍[J]. 经济研究参考, 2000(45): 18-20.
[14] 钟茂初, 姜楠. 政府环境规制内生性的再检验[J]. 中国人口·资源与环境, 2017, 27(12): 70-78.
[15] Becker, G.S. (1960) An Economic Analysis of Fertility, Demographic and Economic Change in Developed Countries: A Conference of the Universities. National Bureau Committee for Economic Research.
[16] 何建宁, 朱霄雪. 人口老龄化影响因素的灰色关联度分析[J]. 税务与经济, 2010(6): 29-33.
[17] 周春艳. 宁夏人口老龄化影响因素分析与趋势预测[D]: [硕士学位论文]. 银川: 北方民族大学, 2022.