1. 引言
信息熵是由信息论创始人N. Wiener和C. E. Shannon提出的,用于刻画信息传播中的不确定性[1] ,决策方案优选和系统、分析评估中有着广泛的应用,各指标的差异情况与不同决策变量在决策系统中的重要程度由熵值的大小来刻画,对应指标对评价对象的贡献强烈程度由熵权反映[2] 。耿海青等[3] 用信息熵来描述能源消费结构的动态演化,揣小伟[4] 用信息熵方法分析了中国能源消费情况的数量与结构动态变化,邵强等对评价指标进行定量描述和定量分析[5] ,邱菀华等提出了基于待选方案的固有信息熵值的由多种公平准则进行权衡的定量化方法[6] ,刘红琴等基于信息熵提出了省域内能源消费总量分配方案[7] ,并实证分析了2015年安徽省能源消费总量分配到各市区的情况,并给出了安徽省17个市区能耗分配量增长率范围,这是一个比较粗的范围,为了得到更精确的结果,我们构建基于经济指标的信息熵能源总量多因子控制模型,将科技水平、资源禀赋和人民生活水平等重要指标融入模型中,依据能量消费总量、地区生产总值、工业增加值、地方财政一般预算支出、地方财政一般预算收入、社会消费品零售总额、消费物价指数和城镇居民人均可支配收入等经济指标,结合多因子分析特点,依据熵权计算能耗调节因子,进而给出全国能源总量的分配方案。
2. 产业能量消耗特征分析
为了分析国内各省市的能源消费情况,本文采用聚类分析技术来完成。依据Jim Beidek模糊c-均值聚类算法FCMA [8] ,随机选取若干聚类中心,计算各聚类点数据中心的隶属度,将隶属度值与数据点到各个聚类中心的距离极小化,得到加权和,通过迭代修正聚类中心进一步优化,最后达到设定的目标。
给定样本观测数据矩阵为:
其中,一次观测或一个样品对应中的每一行,一个变量的个样品值或观测值对应每一列。矩阵包含了个样品的个变量的观测值。模糊聚类就是将个样品划分为类,记为个类的聚类中心,其中。
在一定的隶属度范围内的样品隶属于相同的类。令为第个样品属于第类的隶属度,,,则对应目标函数:
(1)
其中,为隶属度矩阵,。为各类样品到聚类中心的加权平方距离之和,用样品属于第类的隶属度的次方刻画对应的权重因子,求对应的,最优值,使最小。
1) 确定类的个数
初始隶属度矩阵由上的均匀分布随机数来确定:。第1步迭代取。
2) 通过下式计算第l步的聚类中心
3) 修正隶属度矩阵,计算目标函数值
,
其中,。
4) 迭代
设给定的隶属度终止容限,给定的目标函数终止容限为,给定的最大迭代步长为,则迭代停止的条件为:,或,并且。否则,转(2)。
由以上步骤的迭代求得隶属度矩阵和聚类中心,进而得到目标函数的最小值。根据最终的隶属度矩阵#中元素的取值可以确定所有样品的归属,当时,可将样品归为第类。
本题首先把数据样本集通过模糊c-均值聚类算法分成3类,所用数据是中国统计局从2007年到2011年的6年的各省份不同产业的能源消耗数据,得到各省份能源消费特征分类结果。
第一类以煤炭等能源消耗为特征,包括甘肃省、青海省、宁夏回族自治区、天津、吉林省、安徽省、重庆、贵州省、云南省、西藏自治区、江西省、湖南省、广西壮族自治区、海南省等。
第二类以石油、天然气等能源消耗为特征,包括陕西省、新疆维吾尔自治区、北京、山西省、内蒙古自治区、湖北省、四川省、黑龙江省、上海、河南省等。
第三类以综合能源等能源消耗为特征,主要为发达省份与工业省份,包括河北省、辽宁省、浙江省、山东省、广东省,这些省份的“用煤比例”用量较大,其中山东、辽宁、河北省是我国典型的工业基地,浙江省、广东省是经济发达、能源消耗大的省市。
3. 能源消耗总量经济指标分析
英国心理学家C.E.斯皮尔曼提出因子分析法,从变量群中提取共性因子[9] ,为减少变量的数目,需要找出隐藏在许多变量中具有代表性的因子,并将相同本质的变量归为同一个因子,进一步检验变量间关系的假设。用因子分析法来进行能源消耗总量经济指标分析。
设维总体的均值为,协方差矩阵为,相关系数矩阵为#。因子分析的一般模型为
(2)
其中,为个公共因子,是变量所独有的特殊因子,它们都是不可预测的隐变量。为变量在公共因子上的载荷,反映了公共因子对变量的重要程度。式(2)还可以写成矩阵形式:
(3)
其中为因子载荷矩阵,为公共因子向量,为特殊因子向量。
对于模型(2)和(3),假设公共因子彼此之间具有不相关性,且存在单位方差,即,,各特殊因子彼此具有相关性:
公共因子和特殊因子彼此不相关,即。
由国家统计局给出的各省的地方生产总值(亿元)、人均地区生产总值(元、人)、国内专利申请授权量(项规模以上工业企业R&D)经地区生产总值(亿元)的数据,考虑产业结构、科技水平、资源禀赋、经济发展水平、能源消费水平、人民生活水平、能源生产总量等能源消耗总量经济指标因子,结合本文所提出的信息熵因子分析法,得到能源消耗总量经济指标权重如表1所示。
4. 信息熵能源总量多因子控制模型
为了保障国家能源安全,需要借助能源消费总量控制措施,合理分配各省份消费总量。中国对此提出了能源消费总量控制的有效措施,“合理控制能源消费总量工作方案”中给出了保障全国总控制量的实施指标与方案,要求到2015年,中国能源消费量将控制在41亿吨标煤,为达到此目标,在具体控制目标分解到各省市的基础上,对各省市在各自下级辖区中完成能源消费控制量的分解与控制任务。
Table 1. The economic index weight of energy gross consumption
表1. 能源消耗总量经济指标权重
4.1. 能源信息熵
设能源消耗总量评估问题中有个经济指标,有个被评价对象,其第个指标的熵定义为:
其中:,,表征第个市区的第个指标的特征值;表征第个指标的熵,反映了各经济指标的异质性;表征第项指标在第个市区所占比例。当时,令。
4.2. 能源信息熵权
经济指标的信息熵越小,该指标的不确定性越大,提供的信息量越大,在综合评价中所起作用越大,对应的权重越高。因此,各指标的商权定义如下:
其中,为第个指标的商权。从而,可以得到各指标的权重向量分布为:
各能源经济指标在能源消费量分配过程中的权重用权重向量表示,代表各经济指标在能源消费过程中所起调节作用的大小。
4.3. 计算能耗调节因子
各省、市等不同能源分配对象的指标值和各项指标权重的集合用能耗调节因子表征,反映各省、市等不同能源分配对象对能源消费量的调节情况,将综合评价指标作为能耗调节因子,能耗调节因子构成矩阵,。
各地区能源消费总量目标分配因子用能耗调节因子的倒数表征:
则各省市的能耗调节因子越大,则可承担的节能任务越大,其能源消费总量目标分配因子越小。指标在正效应时,指标权重值取正值;在负效应时,指标权重值取负值。
以十二五规划为参考设置能耗增量分配量,设2010年各分配对象能源消费量为基准年能源消费量,2015年为控制年。则由基准年能源消费量与分配因子的乘积得到2015年能源消费增量分配量:
各市、区能源消费增量之和与下达到各个省能源消费量增量相等,使得能源控制总量保持一致,
。
在此引入调整调整系数:
引入调整调整系数后各省、市分配对象在2015年能源消费量为:
表征各分配区的能耗增量初始分配量,由能耗调节因子计算得到;代表第个分配区的能耗增量;代表各分配区能耗增量之和。
4.4. 计算能源消费分配量
依据定基数、分增量的准则,2010年基准年能源消费量与能源消费增量分配之和为2015年各省、市分配对象的能源分配量。
式中为第市区2015年能源分配量;为第市区2010年能耗量;为能耗分配因子;为调整系数。
为将2015年全国能耗总量分配到各省、市,构建基于信息熵的多因子混合加权分配模型,其中2010年基准年能源消费量来自于中国统计局。能耗调节因子、分配因子、能耗增量分配量与能耗分配目标值通过所构建的分配模型计算得到。能耗调节因子越大,说明该省区所承担的节能责任越大;能耗分配量增幅也越小。在多因子混合加权分配模型中,综合考虑不同省份经济发展水平、资源禀赋、产业结构3个方面。在能耗分配中,为人为主观因素的干扰,各指标的权重,即模型中各指标在各省间的异质性表征,熵权均以全国各省年鉴数据为基础,各指标权重值如表2所示,其中城镇居民人均可支配收入权重达到了0.239,是权重最大的指标,其次分别是消费物价指数(0.166)、社会消费品零售总额(0.164)、地
Table 2. Eight typical economic index weight
表2. 八个典型经济指标权重
方财政一般预算收入(0.136)、地方财政一般预算支出(0.126)、工业增加值(0.111)、地区生产总值(0.0713)和能量消费总量(−0.015)这8个因素异质性最大,是影响各省能源消费量分配差异的最主要因素。
由表2可知,大部分年份预测误差低于1%,部分年份预测误差约为2%,所提出的基于经济指标的信息熵能源总量控制模型具有很强的预测性。为验证基于信息熵的多因子混合加权分配模型是否可用,为进行V2检验,设服从正态分布,将作为的子样本,子样本均值和方差别为
由检验结果可知,基于经济指标的信息熵能源总量控制模型具有很强的适用性。
5. 能源消费总量控制与分配方案
依据由信息熵计算得到的能源消费分配量七个指标,结合模糊综合评价法对31省市进行分析,得到各个省市与正理想解与负理想解得距离。从而进行排序。
用分别表示评价的指标变量产业结构、科技水平、资源禀赋、经济发展水平、能源消费结构、人民生活水平提高、能源生产总量,其中,,是成本型指标,其余都是效应行指标。
以包括北京市、天津市、河北省、山西省、新疆维吾尔自治区等在内的31个省、直辖市作为评价对象,若第个评价对象关于第个指标变量的取值为,评价对象关于指标变量值的集合用数据矩阵表征,则。
5.1. 对数据进行标准化
成本型指标的标准化公式[10] 为
效益型指标的标准化公式[10] 为
式中是第个指标变量取值的最大值;是第个指标变量取值的最小值。标准化的数据矩阵记为。
5.2. 求正理想解和负理想解
若负理想解的第个指标值为,正理想解的第个指标值为,有:
负理想解
;
正理想解
5.3. 计算各指标对象到正理想解与负理想解的距离
第个评价对象到正理想解的距离为:
第个评价对象到负理想的距离为
5.4. 计算各方案的排队指标值(即综合评价值)
5.5. 利用由大到小排列方案的优劣次序
各省市能源消费总量优劣次序如表3所示。
其各省综合评价指标排名如表4所示。
6. 结果分析
本研究首先分析了不同产业能量消耗特征,得出了农业能源消费量最少,工业能源消耗量最多,服务业能源消耗量居中的结论;然后构建了天然气消耗增长率比例、煤炭消耗量增长率比例、资源消耗量每年比例等评价产业结构能源消耗特征的指标;为对各省份的能源消费特征进行分类,设定优化目标为极小化所有数据点到各个聚类中心的距离与隶属度值的加权和,采用模糊c-均值聚类分析模型,把吉林省、江西省、湖南省、广西壮族自治区、重庆、贵州省、云南省、西藏自治区、甘肃省、青海省、宁夏回族自治区划分为碳能源消耗较多的一类。
进而构建了基于因子分析的能源消费总量多元统计分析模型,得出了产业结构和能源消费结构在因子F1上的载荷比较大,资源禀赋和人民生活水平在因子F2的载荷比较大的结论;产业机构和科技水平两个因子对原始数据总方差的贡献率分别为42.7006%和41.4781%,累计贡献率达到了84.1786%,具有很重要的地位。
本文构建了基于信息熵的多因子能源总量控制模型,借助信息熵测度不确定性,克服了因信息不足而准确把握信息优势的数量关系或所处的真实状态的缺点,依据能量消费总量、地区生产总值、工业增加值、地方财政一般预算支出、地方财政一般预算收入、社会消费品零售总额、消费物价指数、城镇居民人均可支配收入等经济指标,规划了五年全国各省市能源分配方案,其信息熵分配与实际能源分配之间校验误差在0.00244以内,符合各省市能量分配数据实际情况。
进一步构建了多目标决策分析决策模型,在属性空间定义距离测度,计算备选方案与理想解的距离,进而给出了监督和考核各省份能源总量目标控制使用情况实施方案,能使监督者及时短时间内对各省份的能源消耗进行考核,对不同省份之间的能源消耗与控制目标之间的差距进行比较,也可及时考核某一
Table 3. Order of total energy consumption for provinces and cities
表3. 各省市能源消费总量优劣次序
Table 4. Rank of comprehensive evaluation index for provinces and cities
表4. 各省综合评价指标排名
省份的能源消耗总量控制目标的完成情况。
依据所构建的基于信息熵的多因子能源总量控制模型与多目标决策分析决策模型,产业结构对能源消耗的贡献率为42.7006%,加强源头控制,着力改善能源消费结构,严控高耗能产业过快增长,加快构建现代产业体系;构建信息化定量精细管理系统,完善监督体系,建立预警调控体系,完善考核评价体系;科技水平对能源消耗的贡献率也比较大,要大力实施重点工程,节能技术开发和推广应用工程。
7. 结语
基于经济指标的信息熵能源总量控制方法符合数学规律,具有严格的数学推导,但没有对决策者主观指标进行完全的量化,指标值的变动很小或者很突然地变大变小,对结果都会产生较大的影响,当指标不准确,或单位指标的时间序列数据不是很多时,如提高其算法的鲁棒性,是下一步要研究的工作。
基金项目
国家自然科学基金(No. 11202180)资助。
参考文献