1. 引言
时间序列数据是在经济学、社会科学、自然界和工程领域广泛存在的一种数据形式。利用时间序列进行分析是预测未来结果最古老和最可靠的技术之一。然而,建立传统的时间序列模型需要满足大量的假定条件,如经典的时间序列模型需要考虑序列的平稳性、正态性假设等,但实际上,现实生活中的数据又往往不能满足这些条件。另外,对于那些似有非有、亦此亦彼的问题,或者不准确的、模糊不清等不确定的现象和事实,经典时间序列分析的模型和方法往往不能用来处理这类预测问题。
相较于经典时间序列模型,模糊时间序列模型(Fuzzy Time Series, FTS)将模糊集理论中的隶属度矩阵、模糊集合关系同时间序列相结合,可以处理具有模糊、不确定特点的时间序列 [1] 。当数据波动较大时,准确度也会更高;样本数据较少时,能够保证一定准确性;并且能够将人的主观判断结合到预测之中。模糊时间序列因较强的分析能力己被应用于很多预测领域,包括入学人数预测、股指预测、降雨量预测等。因此可以看出模糊时间序列预测模型具有较高的理论价值和研究意义。
在FTS预测过程中,论域的确定及其划分方法是影响预测精度的关键因素。早期以Song [2] 、Chen [3] 、Hwang [4] 等为代表的学者提出了等分划分论域法,这种划分方法计算简单、操作方便且易于理解,但得到的区间所对应的模糊集在语意解释上较为牵强,模型预测度不高。后来许多研究者提出了一系列非等分划分方法。如Chen [5] 根据历史数据分布的密集程度划分区间,Yolcu [6] 根据历史数据的增长百分比来划分模糊区间。Chen [7] 用聚类方法划分模糊区间,将历史数据聚类到不同长度的间隔中,邱望仁 [8] 提出了基于FCM的广义模糊时间序列模型。王国徽 [9] 、Gu [10] 运用k均值聚类算法来划分模糊区间。这些方法可解释性较强,相较于等分划分方法,极大提高了模型预测精度。除此之外,还有许多学者通过优化算法寻找模型对应的最优模糊区间。这类方法的核心思想是以模型的预测精度为目标,按一定的步长来求目标函数的最小值,以此来寻找模型的最优模糊区间。如Zeng [11] 采用了人工蜂群算法,Pal [12] 采用遗传算法来优化划分区间,Zhao [13] 将粒度机制引入区间划分,利用差分数据进行增量预测。这种方式得出的预测结果精度高,但由于优化过程类似一个黑箱,无法用自然语言解释,区间意义不够直观,削弱了模糊理论的优势。
为了能够充分考虑到数据提供的信息和数据的不均匀性等特征,有利于最终的数据模糊化和预测精准度,本文提出了最小熵原理方法(Minimize Entropy Principle Approach, MEPA)来划分论域并建立隶属函数,使模糊时间序列的论域、区间长度和隶属函数的确定更客观、更合理、更有说服力。并将其与Silva [14] 的概率加权模糊时间序列模型中的预测规则方法相结合,对中国1979年至2021年新增人口数进行训练与预测。
2. 相关基础理论
2.1. 模糊时间序列相关定义
定义1 设U为论域,给定U的一个次序分割集为
,定义A为论域U上的模糊集,并记为
其中,
是定义在A上的模糊隶属函数,
,
表示
在模糊集A上的模糊隶属度的值,并且
,
。
定义2 对实数集R中的一个子集
为给定的论域,在论域
上定义模糊集合
,则由所有模糊集合
组成的
为定义在论域
上的模糊时间序列。
定义3 若存在模糊关系
满足
,则表明
之间存在一阶模糊逻辑关系,即
可通过模糊关系
推导出
,可简单表示为
,其中“
”代表合成运算。
定义4 对于模糊时间序列
,令
,则
与
间的关系
可以由
来表示,其中定义
为模糊逻辑关系的前件(也称左件),
为模糊逻辑关系的后件(也称右件)。
定义5 设有一组模糊逻辑关系为:
,即它们具有相同的当前状态,则可以用一个模糊逻辑关系组(FLRG)表示它们:
。
定义6 设
是一个模糊时间序列,并且
是
,
,
,
共同确定引起,若
,
,
,
,
,
则n阶模糊关系可表示为:
。
2.2. 最小熵原理方法(MEPA)
最小熵分析的一个关键目标是确定给定数据集中的信息量,熵是对分布的不确定性的一种度量。本文为了获得隶属函数,需要建立数据类别之间的阈值。为了找到合适的阈值,可以通过熵最小化筛选方法来确定阈值线,然后开始分割过程。因此阈值计算的迭代过程将数据集划分为多个区间。
例如在
和
范围内的样本寻找阈值,首先对区域
和
写出每个x值的熵方程,第一区域表示为p,而第二区域表示为q,在
和
区域内的每个x值的熵表达为:
(1)
其中:
与
分别表示为k类样本在区域
和
中的条件概率,
与
分别表示所有样本在区域
和
中的概率,且
。
给出最小熵的x值是最佳阈值,
、
、
和
的值计算如下:
,
,
,
其中,
和
为位于
中的k类样本的数量与样本总数;
和
为位于
中的k类样本数量与样本总数;n为
中的样本总数。
MEPA划分过程如图1所示,当在区域
中移动x时,计算x在每个位置的熵值。保持最小熵的区域中的x的值被称为主阈值(PRI)值。重复该过程,可以确定表示为SEC1和SEC2的次级阈值。

Figure 1. Partition process of minimize entropy principle approach
图1. 最小熵原理方法的划分过程
依据经验,一般将论域划分为七个区间,因为模糊时间序列预测模型主要是为了解决模糊数据带来的不确定性,划分的区间太多容易导致不易于用模糊语言来表示模糊集,但是划分的区间太少又会出现精确度降低,使得模型的建立没有意义。在MEPA划分过程中,为了获得七个区间,需要第三阈值,这里表示为TER1,TER2,TER3和TER4。通过熵最小化原理,可以找到数据样本分布尽可能相对均匀的七个区间。
2.3. 模糊经验概率
概率加权模糊时间序列模型(Probabilistic Weighted Fuzzy Time Series, PWFTS)利用了非参数和基于规则的方法,扩展了以前的加权FTS模型,提出了将模型训练过程分离,同时考虑了所有隶属度值大于零的主动模糊规则。该模型能易于从时间序列数据集X中获得模糊集经验概率
,
的精确度由k确定,k是论域U的区间数。
给定样本空间
和模糊集A,模糊集
的经验概率
由它们的隶属度
及配分函数
计算得到,方法如下:
其中,
是
在样本空间U上的积分。
3. 基于信息熵的概率加权模糊时间序列模型
运用最小熵原理方法(MEPA)的PWFTS预测模型步骤描述如下:
步骤1:定义论域U。论域
,
和
分别为历史数据中最小值域最大值,
为历史数据标准差。
步骤2:确定数据类别。根据MEPA为原始数据分配一个类,由于信息熵的特点,没有明确的规则来确定类的个数和每个数据的类。在实验的基础上,本文将全部数据分配为三个类,中国1979年至2021年新增人口数量初始分配类别如表2所示。
步骤3:根据原始数据的熵值计算阈值(PRI、SEC1、SEC2、TER1、TER2、TER3、TER4)。每个数据的熵值使用等式(1)计算,然后根据熵值对数据集进行排序。计算每两个相邻数据点之间的熵值,得到最小熵值,最小熵值表示原始数据的上级切割点。重复该过程以细分数据,可以获得阈值与间隔长度。
步骤4:确定区间长度,建立隶属函数。本文建立模糊时间序列预测模型将使用如下三角隶属函数:
其中,
表示数据x属于模糊集
的隶属度值,
为第i个模糊集,
的下界、中点、上界分别用
表示。
利用步骤3得到的阈值作为三角模糊数的中点。那么模糊集
的隶属函数可通过各自三角模糊数的下界、中点、上界获得,以此建立最小熵原理法的隶属函数。例如模糊集
的隶属函数如下所示:
步骤5:模糊化历史数据。根据步骤4中获得的隶属函数,计算每个数据的隶属度值,若某个历史数据满足两个或两个以上隶属函数,则根据最大隶属度原则来确定其模糊化结果。
步骤6:建立模糊关系并预测。该步骤采用Silva的概率加权模糊时间序列模型中的预测规则方法。
4. 基于信息熵的概率加权模糊时间序列预测模型在新增人口数上的应用
中国新增人口数量本身具有一定的模糊性,因为1981年及以前的总人口数据为户籍统计数,1982、1990、2000、2010、2020年总人口数据为当年人口普查数据推算数,其余年份为年度人口抽样调查推算数据。于是在此基础上所获得的人口增长数据具有一定的模糊性。因为模糊时间序列预测模型对选取的时间序列
数据量不需要太大也能取得不错的预测结果,这也是模糊时间序列预测模型的一个优势所在,所以模糊时间序列预测模型有望能够对中国新增人口数据做出合理且准确的预测。近年来,新增人口数据是大家及其关注与热门的话题,基于以上因素,本文选取了中国新增人口数进行模型训练与预测。数据从国家统计局发布的人口数据中获得,主要选取1979年至2021年中国新增人口数量进行模型训练和预测,新增人口数如表1所示。
步骤1:定义论域U。1979年至2021年中国新增人口数中最小值与最大值分别为48与1793万人,数据标准差为416.22,于是论域
。

Table 1. Number of new population per year (in 10,000 people)
表1. 每年新增人口数(单位:万人)
步骤2:对1979年至2021年中国新增人口数据进行初步类别划分,划分为三类,新增人口数的初始分配类别如表2所示。

Table 2. Distribution categories of the number of new population per year (in 10,000 people)
表2. 每年新增人口数分配类别(单位:万人)
步骤3:计算阈值(PRI、SEC1、SEC2、TER1、TER2、TER3、TER4)。每个数据的熵值通过等式(1)计算。然后根据熵值对数据集进行排序。计算每两个相邻数据点之间的熵值,以获得最小熵值。如表3所示,当
时,熵值
最小,因此PRI为1006 (本文仅列举获得三个模糊类别最小熵的阈值参数)。通过重复该过程以细分数据,可以获得阈值,如表4所示。

Table 3. Example of entropy value calculation
表3. 熵值计算示例
步骤4:确定区间长度及建立隶属度函数。将各类别的最佳阈值作为三角模糊数的中点,可获得新增人口数据的区间划分信息及隶属函数。模糊区间划分信息如表5所示,MEPA隶属函数如图2所示。
步骤5:模糊化历史数据。根据MEPA建立的隶属函数,计算数据集中所有数据的隶属度值,由最大隶属度原则确定其模糊化结果,模糊化结果如表6所示。

Table 6. Fuzzification results (in 10,000 people)
表6. 模糊化结果(单位:万人)
步骤6:运用Silva [14] 模型中的预测规则方法,可以获得1979年至2021年中国新增人口数量预测结果。同时为了对比模型效果,横向比较了HOFTS、WHOFTS模型在相同数据集上的表现,新增人口数预测结果如图3所示。
为了评估模型的优劣,通常采用误差分析形式来分析预测结果。本文采用均方误差(RMSE)和平均绝对百分比误差(MAPE)来衡量模型的预测精度,其值越小,预测精度越高。为了对比模型效果,将HOFTS、WHOFTS模型在新增人口数上的误差也进行运算,各模型误差效果比较如表7所示。
其中n表示预测值的个数,
代表预测数据,
代表原始数据。

Figure 3. Projected results of the number of incremental population
图3. 新增人口数预测结果

Table 7. Comparison of model effects
表7. 模型效果比较
从预测结果可以看出,本文模型预测结果比较接近实际值,较HOFTS和WHOFTS模型有更好的预测效果,预测曲线与实际值的趋势也相吻合。通过比较不同模型的RMSE和MAPE指标,可以发现本文提出的方法在两个指标上都较HOFTS和WHOFTS有更好的表现,在RMSE指标上,本文提出的方法分别较HOFTS和WHOFTS提高4.51%和12.70%;在MAPE指标上,本文提出的方法分别较HOFTS和WHOFTS提高25.95%和27.74%。这说明本文提出的方法能有效地预测新增人口数量。
5. 总结
本文建立了基于信息熵的概率加权模糊时间序列预测模型,通过使用中国新增人口数作为训练模型的数据集,得出以下结论:该模型的预测结果比较接近实际值,比HOFTS和WHOFTS模型的精确性要高。在基于信息熵最小化划分论域的方法上,PWFTS模型能够较为准确地预测新增加人口数量。
参考文献