1. 引言
由于我国早期配网规划不合理、设备改造难度大等原因,私搭乱接、用电设备过载、违规用电、窃电等问题时有发生,给配网带来了一系列安全隐患。此外,电动自行车违规充电也带来大量的用电安全隐患。然而对于用电异常分析而言,需要大量的数据样本,因此,需要亟待建立一套常见电器为主、涵盖多类型、多品牌、多型号和多场景的异常用电负荷基础数据集,来提前识别这些异常用电故障并防范用电事故于未然 [1] 。
在文献 [2] 中提到特征集各特征的数值量纲不一致会导致某些大数值的特征主导整体数据集的情况。在文献 [3] 中,李敏等人设计了一套台区线损异常智能诊断系统,其中数据库仅将线损异常信息存储在台区线损异常数据库中。在文献 [4] 中王巨灏等人基于WinCC平台开发了一套台区线损异常监控系统。文献 [5] 提出用电数据管理、预警提示的信息管理系统。此外,文献 [6] 提出了一个架构,包括几个采集数据协议并提供有关单个设备的电力消耗信息。但用户仅能获取通知和警报来快速识别中断、峰值或其他异常操作。
综上所述,虽然目前国内外已经出现了不同类型的数据集,但仍缺乏关于异常用电识别特征的数据集。因此,本文旨在构建并集成各类异常用电识别特征库。
2. 典型用电负荷特征库设计
目前常见的典型用电负荷特征库是基于用电负荷原始运行数据,并以负荷感知文档分享为主要目标建立的综合性数据服务平台 [7] [8] [9] [10] 。该平台依托互联网技术,具备上传下载、安全校验、特征量提取、文档分享等主要功能,同时可通过分析数据和知识的共享使负荷数据进行良性循环并有效汇集,从而保证算法研究人员、负荷录制人员、算法检测人员以及现场运行维护。本文将从系统技术架构、应用模块、服务部署和负荷数据分析处理四个方面介绍典型用电负荷特征库的组成。
2.1. 系统技术架构
用电负荷典型负荷特征库建设与算法评价技术研究服务系统采用分层技术框架系统架构 [11] - [16] ,具体如图1所示。
首先,数据存储层是数据中心的基础,由大型关系数据库和高效的内存数据库构成。这是因为在处理海量数据存储时,不同的数据存储层采用不同的策略处理。内存数据库能够提供高效、快速的数据访问和数据缓存服务,能够极大地提高数据的处理速度和效率;而大型关系数据库则能够提供海量数据存储及数据查询、分析功能,能够满足对数据量和数据处理能力的需求。此外,内存数据库的数据需要定期持久化至关系数据库中,这些关系数据库为数据仓库、分布式文件系统和数据分析引擎等提供了数据的基础来源 [17] 。

Figure 1. System technical architecture diagram
图1. 系统技术架构图
其次,在数据存储层之上,中间支持层提供更高级别的数据服务。通过对数据进行整理、分析、挖掘等手段,可包括计算服务、搜索引擎、离线数据分析、数据仓库、消息服务、容器、邮件、发布等业务实现,业务由分布式业务服务层构成。中间支持层能够提供远程调用服务,使得业务服务层能够更加灵活地部署和管理。此外,通过消息中间件等技术,中间支持层也能实现系统间的解耦和业务的无缝集成。业务服务层封装了数据访问功能,并提供统一的数据访问接口,使得应用服务层能够更加方便地调用和使用数据服务 [18] 。
最后,应用服务层是面向客户端的服务层,负责处理客户端请求,提供相应的服务和数据。WEB服务集群、静态资源服务、接口服务等构成服务层。通过部署WEB服务集群、采用CDN技术等,可提高系统的可用性和性能。同时,接口服务能够支持不同格式的数据交换,例如JSON和XML等,使得应用服务层能够更加灵活地处理数据请求和交换。总之,服务层是应用系统中至关重要的关键部分。采用WEB服务集群、静态资源服务、接口服务等技术,服务层能够为不同的服务对象提供高效、可靠、安全的服务。最终在具体部署方面,服务层应用需被部署到互联网上,采用负载均衡和自动故障转移等技术,提高系统的可用性和性能 [19] 。
2.2. 应用模块
用电负荷典型负荷特征库一般被设计成包含四个主要功能模块:web服务、数据分析服务、定时任务调度和文件服务,如图2所示。

Figure 2. Application module classification diagram
图2. 应用模块分类图
Web服务是互联网业务核心组成部分,基于HTML5标准和Bootstarp模板实现高效的用户界面。为确保可扩展性和高可用性,采用集群化设计方法,并依赖高性能缓存和分布式消息中间件以提高响应速度。Web服务的系统设计还需要考虑网络安全和数据机密性保护等问题,以提供快速可靠的应用体验。
数据分析服务作为系统核心算法,根据上传文件特定标准进行校验,如判断是否包含电压数据的异常情况以及重复部分、截取部分等内容,然后通过算法对文件包含的特征量数据处理、分析和提取,并生成可视化图片。其中电压电流是最关键的数据之一,其他数据也可根据需要进行提取和分析,数据结果将有效支持用户做出决策。
定时任务调度平台采用可配置方式,在统一管理各类调度任务的同时,使用户可灵活设定调度时间和频率。调度中心作为任务调度的管理和控制中心,在保证任务执行规律和一致性的同时,生成任务执行日志、提供监管功能,确保系统高效执行各类调度任务。
文件服务是一个分布式文件系统,拥有文件存储、同步和访问(上传下载)等功能,解决了大容量存储和负载均衡问题。该系统为在线服务量身定制,充分考虑了冗余备份、负载均衡、线性扩容等机制,并注重高可用和高性能等指标。
2.3. 服务部署
本系统部署于互联网上,既包括系统管理员也包括开放的访问用户。总体的架构如图3所示。为了实现高可用和负载均衡,系统采用了负载均衡设备来分配访问请求。通过负载均衡,系统管理和访问用户可以均衡地访问Web服务集群,这样可以使得每个Web服务器都能够得到充分利用,从而提高整体的性能和可靠性。Web服务集群是由多台Web服务器组成的,这些服务器共同提供对等服务,通过集群的简单线性扩展,可以满足大量用户的访问需求。这种扩展方式不需要修改原有的系统架构,只需增加硬件资源即可。另外,为了保障数据的安全性和稳定性,一般会将数据库部署在独立的服务器上,同时采用主从复制的方式,确保数据的可靠性和高可用性。
2.4. 负荷数据分析处理
该系统中,用户分享的负荷数据需要经过大数据的数据分析和调度服务进行处理,才能完成各种业务逻辑操作。任务执行时,采用指定任务的路由策略,可决定任务执行节点,其中包括轮询、随机、广播、故障转移、忙碌转移等多种方式,并按照一定周期定时执行且设置优先级。考虑到系统业务扩展的灵活性,必须打造一个功能强大的“调度中心”平台,负责系统中各个任务的调度、管理和控制工作。调度中心平台本身并不承担具体的业务逻辑,而是作为系统公共平台发挥作用。任务被抽象成分散的执行任务,并由“执行器”统一管理,通过将“调度”和“任务”两个部分解耦,从而提高系统的整体稳定性和扩展性。系统采用轻量级分布式任务调度平台,其核心设计目标是简单易学、轻量级、易于扩展,调度架构如图4所示,分为调度中心和执行器两部分。
调度模块是系统的重要组成部分。其功能主要在于管理和调度任务信息,根据预设的调度配置发出调度请求。采用与任务解耦的设计方式可提高整个系统的可用性、稳定性和性能,因为此时调度系统的性能不再受限于任务模块。调度模块具备可视化管理功能,可以方便地创建、更新、删除任务以及进行任务报警等操作,并且所有这些操作都会实时生效。监控调度结果和执行日志可保证调度过程的可追溯性和定位性。注意到调度模块还支持执行器Failover功能,保证调度流程中断和失效的最小化。高性能、高可扩展性和高可用性是调度模块的关键特点,设计需紧密结合实际业务需求,具有较强的灵活性、可配置性和可治理性。为实现系统的可扩展性,可采用分布式设计并充分利用多节点和多资源优势。为保证系统的可用性,调度模块需支持故障转移和任务优先级调整。为满足系统的灵活性要求,调度模块需支持任务的动态添加、修改和删除,并且能够通过界面配置完成各种调度时间与频率等多种配置。为保障系统的稳定性,调度模块采用多重监控机制来实时监测调度任务信息并确保系统的稳定运行;管理员可以通过监控功能全面监测任务的运行状态和性能指标以及视情况进行问题排查和调整。
3. 异常用电负荷特征库设计
3.1. 设计思路
本文早期进行了广泛的调研和技术选型分析,主要收集各专业厂商的用户需求,并汇总评估确认。针对每个需求分类和优先级,结合当前主流技术架构和自身特点,制定了总体设计方案和实施方案,如图5所示。
在设计过程中,主要研究要求进行了规格设计细化,涵盖网络安全技术、文件存储技术、Matlab交互技术、通用特征量分析提取等方面。敏捷开发方法被采用以保证项目的顺利进行,团队成员对产品目标和迭代计划进行了灵活规划。研发过程以敏捷开发为主,旨在实现快速迭代和持续交付,借助实时数据反馈,团队成员能够更及时地进行计划调整和积极应对变化,实现项目进展和风险随时可控。
在软件测试管理中,需准备测试用例并规划测试计划以满足需求。采用文档测试、黑盒测试、白盒测试、自动化测试等多种手段,对测试过程进行精细化管理,保障自测与复测环节的执行,全面提升测试效率和产品交付质量。通过这些手段,可有效发现潜在问题,确保软件系统质量稳定。在系统部署到互联网后,继续进行缺陷跟踪和维护。按缺陷类型、严重程度、优先级等信息灵活排期和推进修复,确保软件系统质量稳定。在缺陷修复流程中,严格执行质量控制流程,包括缺陷分析、定位、修复和测试案例验证,以大幅提高工作效率和产品质量。总之,在软件测试管理方面,采用多种测试技术和方法,并持续进行缺陷跟踪和维护,注重质量控制流程的执行,确保系统各项指标达到高质量标准。
在典型特征库建设中,系统架构是相当重要的关键因素。为了实现高性能、可扩展性、易维护性、安全保密性和高稳定性等要求,系统架构的设计应该遵循一定的原则。在此方面,本文选择采用J2EE技术作为开发平台,并采用了分层的设计架构。作为一种被广泛应用于企业级应用系统开发的技术,J2EE提供了各种基础设施和应用框架,可以支持高效的分布式计算、安全性和可扩展性。这种技术应用于特征库系统的开发上,能够保证系统的高性能和可扩展性。
同时,分层的设计架构也是实现系统逻辑层、业务层和表示层之间解耦合,从而保证系统的易维护性和高稳定性的有效方法。考虑到特征数据的保密性和安全性要求,系统还需要考虑它的安全保密性方面问题。例如,使用特定的加密算法来保护敏感信息的安全。
综上所述,系统功能要求包括:
(1) 基于互联网模式建设用电负荷数据管理平台,需实现访问用户的注册、登录、个人信息管理等主要功能。
(2) 具备用电负荷数据上传、数据解析、安全校验、指定特征量提取、文档分享、积分管理等主要功能。
(3) 具备用电负荷数据的查询、分享、下载、评价等功能,打造一套基于共享理念及开放型的用电负荷数据共享管理平台。
(4) 系统基于权限控制实现管理员及一般用户的业务职责区分,管理员具备用电负荷数据的查询、发布、撤回等管理权限。
本文基于互联网模式建设用电负荷典型负荷特征库建设与算法评价技术研究服务,并在现场环境部署及实际应用。系统功能菜单流程如图6所示。
结合负荷数据应用需求,开展了电力用户典型用电负荷/设备特征库的架构和功能设计,确定了开发环境和数据解析方法,完成了典型特征库的开发与建设,实现了对负荷运行数据和负荷特征量的分类管理和有序交互,完成了典型用电负荷特征库建设。
3.2. 异常用电数据采集
通过采集、共享和组合模式,本文收集了一套相对完整的典型家庭异常用电数据集,并根据本文提出的用电负荷分类方法对数据集进行了分类梳理和存储。电力负荷特征数据序列化成文件形式,存储于系统数据库中,基于品牌、类型以及具体的异常用电种类进行检索。采用统一格式进行管理,对所有内部负荷波形文件进行标准化的约束和校验,确保数据交互的可用性和可扩展性。
在负荷数据录制和选取方面,本文遵循典型电力用户的用电设备类型和习惯,建立全面、详实的负荷数据集,以保证收集负荷数据的全面性、准确性和实用性。采用高采样率对用电设备运行状态和时间信息进行实时记录,每个负荷数据文件都包含用电设备自启动到停止的完整运行周期,确保了数据的全面性和准确性。同时,负荷采样频率依宣称均为不低于6.4 kHz的高频采样数据,有效提高数据精度和可信度。
为进一步保证数据的可用性和可拓展性,本文设计负荷数据集的文件格式和数据结构。采用二进制格式存储负荷数据,占用较小存储空间且具有快速读写性能。文件名称采用统一规范,包括设备名称、日期和时间等信息,方便快速定位和检索数据。通过对所有内部负荷波形文件进行统一的格式管理,以及对用户上传文件进行标准化约束和校验,提升了数据集的可用性和可拓展性。
在负荷数据归类方面,本文将电力负荷特征数据按照负载类型、设备品牌、设备类型和异常状态等进行分类,实现了对负荷数据的有效管理和快速检索。
4. 异常用电识别特征库实现
4.1. 负荷数据特征解析
为保证负荷数据的质量,平台对上传的文件格式和大小有限制。文件格式仅支持txt和mat两种格式,其文件大小需控制在3 GB以下。上传的文件需要同步标识文件属性,以进行文件分类和系统实现分析处理。文件属性的标识方法列举于表1中。
上传的文件将被存储于FastDFS文件存储服务中。为了支持大容量,存储节点(服务器)采用了分卷(或分组)的组织方式。该存储系统由一个或多个卷所组成,每个卷都是相互独立的,且卷与卷之间的文件也是相互独立的。整个存储系统中的文件容量是所有卷的文件容量之和。一个卷可以由一台或多台存储服务器组成。
文件上传成功后,解析服务器将按照解析规则对文件内容进行解析,并生成相应的解析文档。在完成解析操作后,对所上传的文档进行审核判断。只有当该文档符合格式和大小的要求,才能够被成功上传至数据库中。
为避免重复上传或者截取主要部分内容上传,系统对负荷文件会进行校验,校验规则包括:
(1) 文件大小对比,包括文件大小比对及MD5签名校验。
(2) 文件特征量对比判断当前上传文件是否和其他文件特征量是否一致。
系统对上传的负荷文件主要分析暂态、稳态和非电量特性指标,特征量提取规则如表2所示,特征提取流程如图7所示。
4.2. 异常用电识别特征库
对采集到的异常用电数据进行分类整理并且按照固定格式进行排列,具体内容如下:
用电负荷数据的采样工况设计充分保障用电设备品牌、型号、运行模式的多样性,完整覆盖相应用电设备的主流品牌和重点型号,包括美的、海尔、松下、三星及格力等品牌的正常波形与异常波形;用电设备运行模式的模拟充分考虑实际使用规则及场景,运行时的温度、环境、时间等因素符合用户用电习惯,负荷波形文件的检索形式如图8所示。

Figure 8. Retrieval form of load waveform files
图8. 负荷波形文件的检索形式
用户通过检索下载得到的负荷波形文件明确了规定采样信息的同时,也提供了用电设备分时段的用能信息,如图9、图10所示。

Figure 9. Load waveform configuration instructions
图9. 负荷波形配置说明

Figure 10. Explanation of time-sharing energy usage data
图10. 分时用能数据说明
4.3. 异常用电识别特征库数据表单
数据表单形式如表3所示:

Table 3. Abnormal electricity load characteristic library form
表3. 用电负荷特征库表单
负荷数据集字段信息如表4所示:

Table 4. Load dataset field information
表4. 负荷数据集字段信息
5. 结语
保证电力系统的稳定运行是一个复杂而重要的问题。异常用电作为导致电力系统不稳定的主要因素之一,其识别与分类具有非常必要的意义。实现高效的异常用电识别系统需要一个高质量的用电负荷特征数据集,其中包括工作状态、电压、电流、功率和频率等指标。然而,不同类型的用电负荷特征数据之间存在巨大的差异和变化,这增加了异常用电的识别与分类的挑战性。因此,本研究旨在建立一个典型异常用电负荷特征库架构及数据特征库功能,以提供技术支持,实现规模化、规范化的异常用电数据存储方案。
本文基于MYSQL数据库,以用电负荷特征数据为研究对象,设计了一个典型异常用电负荷特征库架构及数据特征库功能。相较于一般的特征数据库,本文将异常用电分为五类并建立单独的数据集,分别对短路负荷特征、表后异常断电、漏电负荷、电动自行车充电负荷和窃电负荷五类相关数据进行了分析和处理,得出异常用电的典型特征。通过建立异常用电负荷特征库,实现了异常用电数据的高效分类和存储过程。同时,本文采用先进的机器学习算法,经过分析大量历史数据和典型异常用电负荷数据,实现智能识别与分类,具有突出的高精准性和高效性,能够快速准确地进行异常用电负荷的识别和分析。
通过本文所设计和实现的异常用电负荷特征库架构及数据特征库功能,实现了异常用电的智能化识别和分类,并提供一种高效、准确、规模化、规范化的异常用电识别特征库,广泛应用于电力行业中。该特征库为电力系统的稳定运行和能源使用提供重要的支撑和参考。
致谢
论文作者感谢云南电网有限责任公司对本课题的资助。
基金项目
云南电网有限责任公司科技项目(YNKJXM20220218)资助。