1. 引言
国内生产总值(GDP)是现代国民经济核算体系的核心指标,是衡量一个国家综合国力的重要指标。这个指标把国民经济全部活动的产出成果概括在一个极为简明的统计数字之中,为评价和衡量国家经济状况、经济增长趋势及社会财富的经济表现提供了一个最为综合的尺度。可以说,它是影响经济生活乃至社会生活的最重要的经济指标。因此对GDP进行预测显得十分重要,BP_神经网络是预测GDP的一个很好的方法。
经过几十年的发展,BP_神经网络也有了很多种。1943年,心理学家W. Mcculloch和数理逻辑学家W. Pitts在分析、总结神经元基本特性的基础上首先提出神经元的数学模型。此模型沿用至今,并且直接影响着这一领域研究的进展。因而,他们两人可称为人工神经网络研究的先驱。1945年冯·诺依曼领导的设计小组试制成功存储程序式电子计算机,标志着电子计算机时代的开始。BP神经网络是1986年由Rumelhart和McCelland为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一 [1] 。
基于国内生产总值对经济发展的重要性,本文根据延吉统计局的数据,对影响延吉的经济发展因素做了很好的分析,选择其中最主要的四个因素分别为X1第一产业总值,X4延吉市内游客数,X5引入资金,X6人口增长率,并根据这些因素建立模型,其中只运用了2001年~2009年的GDP数据,用2010年和2011年数据进行预测检验模型的准确性,从而得出利用神经网络对延吉未来的经济发展情况可以做很好的预测。
2. 原始数据的预处理
我们首先分析了影响吉林省GDP的几个重要因素,通过搜集资料和相关的经济理论,首先选择第一产业,第二产业,第三产业,因为他们是GDP的构成部分,它们的发展直接体现着GDP的发展;其次市内游客数通过增加消费和交通费来增加经济的增长;引进资金、人口增长率、失业率、人均绿地面积和固定投资,它们和GDP密切相关,不可分割均会对GDP造成不可忽视的影响。所以选择这几个因素对GDP进行分析,这样会导致预测结果的精度更高。分析出了影响吉林省GDP的主要因素,我们对这几个因素和GDP之间的关系进行建立模型,然后用建立的方程来预测2010,2011的GDP。
影响延吉市经济发展的原始数据(来源于吉林省统计年鉴)如表1。
在做数据分析处理时,首先我利用了SPSS软件 [2] 做了对数据的简单处理。结果如表2。

Table 1. Yanji city in 2001-2009 index data
表1. 延吉市2001年~2009年各项指标数据
表2. 统计量描述
上面表格当中数据可以看出各项指标的极大值、极小值、均值、方差、峰度以及偏度等等。
在实际问题中,影响因变量Y的因素很多,希望从中挑选出影响显著地自变量来建立模型,也就是对Y影响显著的变量。选择“最优”子集回归的方法,所以利用SAS软件用逐步回归分析法对原始数据进行预处理,剔除影响小的变量,表3为第四步剔除结果 [3] :
利用SAS软件进行编程,运行结果如表3,从表中我们可以看出对Y (GDP)影响因素最大变量为X1第一产业总值,X4延吉市内游客数,X5引入资金,X6人口增长率,这四项指标对于研究问题结果有很大影响。经过逐步回归法对原始数据进行预处理,处理后的数据如表4。
但是这四个因素之间还具有一定线性关系,因此得用主成分分析对其变量进行归一化处理,用综合指标来预测未来的延吉经济发展情况。
表3. 方差分析表

Table 4. The indicators in 2001-2009 years after data preprocessing
表4. 数据预处理后2001年~2009年的各项指标
主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。对数据用SAS软件进行主成分分析 [3] 。
分析结果如表5~8。
从表中的相关阵的特征值可以看出,前两个主成分的累计贡献率已达94.4%,因此只需用前两个主分量就能很好的概括这组数据。由最大的两个特征值对应的特征向量可以写出第一、第二主分量:

主成分之间是相互独立的,不存在包含不包含的关系,因此标准化后的因变量直接用主成分做自变量。将四个因素
的值代入
的表达式,计算得到的值为第i个因素在第t个主分量的得分,记为
。
表5. 简单统计量
表6. 相关矩阵

Table 7. Eigenvolues correlation matrix
表7. 相关矩阵的特征根
表8. 特征向量
经计算得出:

上面的矩阵就是主成分分析后的综合指标,这样两个主成分就能代表影响其因素X1、X4、X5、X6对GDP所带来的影响。以下模型就利用其主分量作为因变量进行仿真模拟、预测。
3. 模型的建立
为了更好的反应延吉市经济状况的幅度,采用BP神经网络模型对延吉市GDP进行拟合,得到相应的一个趋势仿真图,并对此加以分析描述得出结论。
首先,我们给出BP神经网络模型的一个图形(如图1)。
BP算法基本原理利用输出后的误差来估计输出层的直接前导层的误差,再用这个误差估计更前一层的误差,如此一层一层的反传下去,就获得了所有其他各层的误差估计,并逐渐减小误差。该网络模型
分为输入层、隐含层、输出层,共3层,其中输入层为量化后的矩阵输入值,隐含层包括影响延吉市GDP的数据,分别为X1,X4,X5,X6,输出层是GDP。通过建立BP神经网络模型对历史数据进行提练,能够在系统内部不知情的情况下,运用软件Matlab编程来拟合图像(如图2),评价延吉市GDP,预测并检验延吉市近两年GDP [4] 。
由上面的分析,首先将各项物质进行量化。然后进行网络值初始化,给各连接权值分别赋一个区间(0, 1)内的随机数,设定误差函数e,给定计算精度值
和最大学习次数M = 5000。随机选取第k个输入样本及对应期望输出:


再计算隐含层各神经元的输入和输出:




利用网络期望输出和实际输出,计算误差函数对输出层的各神经元的偏导数
。

计算全局误差:

Figure 2. Prediction of structure model
图2. 预测模型结构图
最后判断网络误差是否满足要求。当误差达到预设精度或学习次数大于设定的最大次数,则结束算法。



通过表2的数据,运用Matlab软件[5] 进行模拟图形,可得图3。
从图3中可以看出:实际样本与网络输出值之间训练和测试的对比图,显然两者之间非常接近,误差极小,因此能够进行预测。
利用主成分归一化处理后的数据,我们对2001年到2009年进行预测,其结果如图4。
从图4可以看出,经过量化后的数据图像更加具有说服力,并且GDP受这几个指标的显著影响。2002年至2003年一场突如其来的“非典”,使我市的旅游业受到了极大的冲击。因此图形当中模拟值和实际值之间有一定的偏差。但可以从图中看出来模拟数据基本和实际GDP基本相符,因此该模型能后很好的对延吉市经济发展做出很好的预测。
4. 模型预测
通过此模型对延吉市经济(GDP) 2010年和2011年的预测结果:
从表9可知,预测值与真实数据相比较误差较小,模拟数据基本和实际GDP基本相符,因此该模型对于预测未来近几年延吉市GDP是有一定的说服力。这样我们就可以通过此模型对延吉市GDP进行预测,这也让我们更好的掌握延吉市经济状况,以更好地促进其经济发展。
5. 结论
利用逐步回归分析,得出延吉第一产业总值、延吉市内游客数、延吉市引入资金、延吉市人口增长率等四个显著因素对其影响较大,但保证不了因素之间独立性,通过主成分分析,简化为两个主成分,这两个主成分解释了所有变量94.4%的信息,既保证了原始数据的绝大多数信息,又保证了变量间的独立。这样更能简化网络结构,进而通过BP网络建立映射关系,得到相应年份的仿真,通过以上的分析,可以清楚反映延吉市过去几年的经济状况变化,实际样本与网络输出值之间训练和测试的对比图,显然两者之间非常接近,误差极小,因此能够进行预测。再对2001年~2009年数据进行模型仿真模拟,由于
表9. 预测图
延吉市的旅游业对GDP增长有很大影响,所以在2002年~2003年存在“非典”情况,GDP呈下降状态,以后每年都呈现明显增长趋势,进而总结出延吉市GDP的变化情况。然后再对2010年和2011年的GDP进行预测,得出2010年和2011年的GDP值与真实值对比,其误差较小,利用此模型进行预测具一定参考价值。