1. 引言
随着社会的不断发展,城市建设日新月异,作为城建基础的城市照明的规模不断扩大,据国家统计局数据显示,2004~2013年十年间,我国城市道路照明路灯数量由1,053.13万盏增加到2,199.55万盏,照明设备年平均增长率达到8.53%,近几年的增长势头更为迅猛。如此庞大的照明市场下,传统的系统定时控制和简单的远程控制已逐渐不能满足城市管理的需求,因此越来越多的城市开始采用照明智能监控系统,通过系统控制,可对照明设备进行全方位管理监控 [1] 。照明智能监控系统通过应用新一代信息技术(internet/intarnet、物联网、Zigbee,3G/4G)和无线GPRS等,实现对照明设备的远程集中控制与管理,具有根据车/人流量自动调节亮度、远程照明控制、故障主动报警、灯具线缆防盗、远程抄表等功能,具有能够大幅节省电力资源,提升照明管理水平,节省运维成本的新兴照明模式 [2] 。目前照明系统中最重要的功能组成部分为故障报警,当照明现场发生设备故障后,系统发送报警信息。但此类报警具有滞后性,即用户收到报警信息时,由于设备损坏对周边环境的影响已经发生。为提高报警效率,减少因设备故障所造成的社会和经济影响,本文将数据挖掘技术应用到智慧城市照明监控系统中,对采集的设备数据进行挖掘分析。由于实时采集获取的数据和照明设备的各类状态有着紧密的联系,对数据进行分析,可以用于系统故障预警、运行状况评估和后续运营参数调优,降低故障发生造成的社会影响和经济损失,对不断改善系统服务质量具有指导意义 [2] [3] 。
2. 系统架构设计
智慧城市照明监控系统具有数据采集、数据处理、控制、运行管理、能耗监测和系统管理等功能,并完成城市照明系统的实时监测、控制、调度和管理。采集的数据基本类型包括:电流、电压、有功功率、功率因素、各类开关量、各回路异常信息及运行状态、时控信息、光照度等相关各类数据。数据通过服务平台的报警,数据统计等方式显示给用户 [4] [5] 。
智慧城市照明监控系统分为智能感知层、网络传输层和数据处理应用层三层结构,系统结构图如图1所示。
智能感知层是智慧城市照明监控系统的感觉器官,通过各类智能传感器,实时采集电压、电流、功率、功率因数等各类照明设备信息。
网络传输层为三层架构中的中间层,主要实现数据处理应用层和智能感知层的数据双向传输。感知层采集的设备数据通过网关节点,利用4G网络传输给数据处理应用层供存储显示。数据处理应用层发送的指令集数据通过网络传输层到达智能感知层。
数据处理应用层是智慧城市照明监控系统的“指挥中心”,指挥整个监控系统的运行。数据处理应用层对各类采集数据进行分析管理,可实现照明设备控制、状态数据统计、能耗统计、故障预警、各类日志等功能 [4] 。数据处理应用层的管理平台功能结构图如图2所示。平台功能包括:系统设置模块,管理模块,运行模块,维护模块,GIS模块,故障预警模块等六大模块。系统设置模块完成权限管理、用户信息管理及系统中的各类参数进行管理配置;管理模块实现各类数据展示、运行质量管理、系统能耗管理及设备数据管理;运行模块处理各类控制策略及状态数据的管理;维护模块实现操作日志和工单管理,对系统的设备维护数据进行管理;GIS模块根据经纬度实现设备定位,在地图上展示并控制照明设备;故障预警模块应用数据挖掘技术,对采集的实时数据进行分析。由于设备的实时数据和设备状态紧密相连,通过建立决策树,分析到当正常范围值的数据超过一定阈值一定次数后,故障的概率将大大增加。此时进行故障预测报警,维修人员进行收到预警信息后,可去现场进行检查,及时排除隐患。
3. 基于数据挖掘的故障预警模块
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘常用的数据分析方法主要有:分类、回归分析、聚类、关联规则、特征、变化与差量分析、Web数据挖掘 [6] [7] 。
1) 分类是分析数据库中的一组数据对象,找出共同特征,并按分类模型将其划分成不同类别。常用的分类算法有:朴素贝叶斯、Logistic回归,决策树,支持向量机等。
2) 回归分析通过函数表达数据映射的关系来发现属性值之间的依赖关系。该算法应用到数据序列的预测及关系研究中。回归分析法是定量预测方法之一,依据事物内部因素变化的因果关系来预测事物未来的发展趋势。测报工作中常用的是一元线性回归和多元线性回归模型。
3) 和分类的数据类别划分不同,聚类算法是针对数据的相似性和差异性将一组数据分为几个类别。聚类的相同类别中数据间的相似性较大,不同类别间直接的相似性很小,跨类的数据关联性很低。
4) 关联规则可以根据一个数据项推导出其他相关数据项。关联规则的挖掘过程主要包括两个阶段:第一阶段为从海量原始数据中找出所有的高频项目组;第二阶段为从这些高频项目组中产生关联规则。
5) 特征分析是从数据库中的一组数据中提取出能够体现数据集总体特征的特征式。
6) 偏差包括:分类中的反常实例,模式的例外,观察结果对期望的偏差等,其目的是寻找观察结果与参照量之间有意义的差别。
7) Web数据挖掘是一项综合性技术,利用Web中的海量数据进行分析,各类信息,集中分析和处理,并根据分析结果找出先兆,对这些信息进行分析和处理,以便识别、分析、评价和管理危机。
基于数据挖掘技术的智慧城市照明监控系统中的故障预警模块实际是从海量数据中对各种属性值进行分类,当所选属性值正常的设备数据超过一定阈值达到一定次数后就设备发生故障的概率会大大增加,因此本文利用数据挖掘中的分类方法进行处理。其中决策树算法是涉及到分类问题时最常用的算法之一。主要原因:1) 决策树具有直观的分类器;2) 决策树分类算法速度高效;3) 分类准确率高。综上原因,本文利用决策树从智慧城市照明监控系统采集的各类状态数据中挖掘出有用数据,进行决策分析产生故障预警,解决传统故障报警具有滞后性的问题。
3.1. 决策树模型
决策树算法使用类似流程图树结构来组织数据被分成各种预定义类型,来提供给定数据集的描述,分类和概括。
决策树生成通过常分为学习和分类两个步骤。学习过程中,数据集被分为两个子集:训练集和测试集,创建训练集和测试集是评估数据挖掘模型的重要部分。从数据库中选取部分数据作为训练集,剩余部分数据作为测试集。将训练数据集划分后,决策树算法将训练数据作为输入,建立决策树模型。决策树模型类型的建立一般是自顶向下的递归构造,即:特征选择,决策树生成,修剪。首先从训练数据的属性中选择一个属性作为当前节点的分割条件,不同的标准决定了使用不同的决策树算法,决策树模型中最常见的ID3,CART,C4.5,C5.0算法。决策树生成是指按照选定的特征评估标准从上到下递归生成子节点,直到达到增长停止条件,然后停止决策树的增长。生成决策树之后,需要通过修剪来减少树的大小。
本文采用决策树中的C4.5算法建立智慧城市照明监控预警模型。C4.5决策树算法是基于信息熵的分类学习算法,通过最大化信息增益率来递归的选择属性,建立起决策树的节点,能够完成对不完整数据的处理和连续属性的离散化,并且具有产生的分类规则易于理解和分类准确率高的优点 [8] 。
设数据集D中共有|D|个数据,分为m个类
和n个属性
,其中第i个属性Ai有
个不同的子集,数据集D被划分为
个不相交子集
,
表示子集
的样本数。C4.5算法建模的步骤如下 [9] :
1) 对智慧城市照明监控系统中采集的原始数据集进行预处理,然后将数据集划分为训练数据集和测试数据。
2) 计算各种类别的信息熵,以确定样本中不同类别出现的不确定性之和,如式1所示。
(1)
3) 计算各个属性的信息增益,如式2,3所示:
(2)
(3)
其中Entropy A(D)为属性A划分数据集D后,新分类条件下的信息熵,Gain(Ai)为信息增益。
4) 计算每个属性的信息增益率:
(4)
(5)
5) 选择信息增益率最大的属性A为根属性进行分裂,直到达到终止条件,得到期望预测的目标类,其中叶子节点的所有数据对象属于同一类。
6) 决策树剪枝。决策树剪枝的目的是为简化最终得到的树模型,避免出现过多拟合现象。基本剪枝策略:预先剪枝和后剪枝。C4.5算法遵循后剪枝的方法。
3.2. 算法应用
对智慧城市照明监控系统中的设备采集进行预处理,经过算法训练和测试后生成决策树结构,对C4.5算法的树结构对分类规则进行描述,生成的分类规则集成进系统实现预报警功能。
1) 数据的收集和预处理
以单灯设备为例,智慧城市照明监控系统中采集数据包括设备编号、状态、开始时间、结束时间、电压、电流、功率、功率因数等数据,如图3所示。
根据算法要求,去除不需要的属性:设备编号、开始时间和结束时间。从数据库中提取出单灯设备的状态类型和电压、电流、功率、功率因数等各类数据,并根据概率统计的方法确定一定区域范围内的数据作为数据集。在实际采集数据过程中,由于通信状态的影响可能会导致一些数据采集失败,系统中一般标志为:无信息返回。这类“无信息返回”数据对于数据处理无任何意义,因此需要在数据预处理阶段将此类数据删除,保留设备的有效数据。
2) 应用于智慧城市照明监控系统中的故障预警算法
算法:GC4.5tree(T, T_attributelist)
输入:
用作训练数据的照明设备数据 T
当前候选预测属性集合T _attributelist
输出:用于智慧城市照明监控预警的C4.5决策树
方法:
① 创建新结点N
② if T中所有照明设备数据的故障属性相同记为C返回N作为叶子结点,以C为类标;
③ if T_attribelist为空返回N作为叶子结点,标记为T中最多的类标C;
④ 计算T_attribelist中每个属性的信息增益率,找到最高值的属性;
⑤ if属性为连续性找到该属性的分割阈值;
⑥ for每个N长出的新叶子结点
⑦ if叶子结点的子集T'为空
⑧ 分裂为一个新叶子结点,标记为T'中最多的类标C;
⑨ else
⑩ 在该叶子结点上执行GC4.5tree(T, T_attributelist);
⑪ endfor
⑫ 返回N。
4. 实验数据分析
本文以国内某城市1000盏单灯设备的照明监控系统为例,如图4所示为系统主界面。
系统实时采集设备状态数据上传管理平台,通过GIS定位显示各类数据状态,并实现智能化控制。以系统中的单灯状态为例,系统接收上传的单灯数据,根据单灯类型判断是否为故障信息,如产生故障,则发送报警信息,并保存故障信息。如状态数据正常则根据决策树进行故障预警,如产生预警,则发送并保存预警信息,否则保存正常状态。具体流程图如图5所示。单灯的故障类型包括:1) 关灯时有电流;2) 保险丝熔断;3) 开灯时无电流;4) 开灯时功率因数小于0.1。以上4种故障类型是通过对采集到的设备电流、电压、功率等信息进行分析后判断得出的,但在故障发生之前虽然电流、电压和功率等因素虽然在正常范围之内,但当这些数据超过一定阈值达到一定次数后会有故障风险。产生故障风险的概率即是通过数据挖掘和分析需要找到的规律。
基于数据挖掘的故障预警模块通过对单灯数据收集和预处理后,去除与算法无关属性及数据后,设备数据集如图6所示。
经过预处理的1000条单灯设备数据,随机选取800条作为训练样本集构造决策树,200条数据及设备状态类型作为测试样本。实验采用十次交叉实验,然后求其平均值,使得实验结果更具有一般性。通过决策分析预测故障和实际故障比较图如图7所示。数据库中实际单灯故障共计200条,其中43条开灯时功率因数小于0.1;53条开灯时无电流;81条保险丝熔断;23条关灯时有电流。系统利用生成的决策树产生的故障预警成功率88%,实验证明基于数据挖掘的故障预警模块产生的预警信息成功率较高,对实际故障具有一定的预警指导作用。
Figure 7. Fault prediction comparison chart
图7. 故障预测比较图
5. 总结
本文为解决目前智慧城市照明监控系统中的故障报警具有的滞后性,降低因公共照明设备损坏而产生的社会影响和经济损失,将数据挖掘技术引入到照明监控系统中,设计了基于数据挖掘技术智慧城市照明监控系统,系统中的故障预警模块能够从大量的设备数据中进行分类处理,找出设备故障产生的潜在规则,进行故障预警。经过大量的实验数据测试,该模型预警成功率较高,具有一定的应用推广价值。
基金项目
江苏省高等学校自然科学研究面上项目,项目编号:17KJD520008;项目名称:基于大数据的智慧照明节能系统研究。