1. 引言
随着电力系统的迅速发展,智能电力设备的大量建成,海量数据的实时采集并涌入电网数据中心,给数据中心造成巨大的存储计算负担,使得智能电网[1] 与云计算[2] 的结合成为必然。云计算将数据存储在网络中的虚拟设备上,并且能够分布式、并行的利用大量的处理器资源计算海量的数据。同时,云计算还有高可靠性、支持定制与扩张、费用低廉等优点,这些对于电力系统都很具有吸引力。
但是,云计算的引入,不可避免的带来了隐私安全问题[3] ,用户的信息若不加保护,会轻易的被挖掘利用。涉及隐私的信息泄露可能会对用户带来巨大的困扰、造成严重的后果。本文针对智能电表系统的用户信息隐私保护,基于数据组合隐私机制,引入可信第三方,运用数据分块存储及分块关系混淆技术保护智能电表系统的用户隐私。并提出分块信息表单系统,在分块存储环境下实现数据插入与数据查询。
2. 隐私保护
隐私是个体、机构不愿意被他人知晓的信息。通常可以将隐私理解为敏感数据,如病患所患疾病、银行卡号等。智能电表系统的用户隐私主要表现为用户的个人信息,如身份证号、联系方式,及用户的用电习惯等。
云计算环境中,服务提供商不一定是完全可信的,即服务提供商可能会尝试窥探并获取用户的隐私信息。同时,外部的一些居心叵测的人,通过数据挖掘[4] 技术也可以获取到用户隐私。这些盗窃者可能会将隐私信息出售给广告公司以谋取私利,并对用户的生活造成困扰。
目前,对于隐私保护方面的研究主要集中在数据失真、数据加密和数据匿名[5] 技术上。数据失真技术通过增加噪声、进行凝聚等操作给敏感数据添加扰动,使攻击者不能获取到真实数据。数据失真技术的计算开销较小,但十分依赖原始数据,不适合大范围的应用。数据加密即使用加密算法对敏感数据进行加密处理,数据加密可以有效的保护用户隐私,但加解密时较大的计算与通信开销使其在应用于基于云的大量数据处理时效率较低。数据匿名技术有选择的发布敏感数据和可能披露敏感数据的信息,但将敏感信息泄露概率限制在一个可容忍的范围内。数据匿名技术的计算开销不大,但伴有一定程度的数据缺损与隐私泄露。
针对智能电表用户表单信息中用户私人信息是主要需要保护的信息,而用电量等为次保护信息,因此其表现为部分隐私保护的需求,本文以电网中一份用户信息表单为例,在云存储环境下,参照文献[6] 提出的数据组合隐私技术,提出了保护用户隐私信息的方法。
3. 数据组合隐私
3.1. 相关定义
数据组合隐私(Data Combination Privacy, DCP),指个体不希望暴露的一系列数据属性的组合,即这些属性的数据值组合可以确定某个特定的个体。对于一个给定的数据存储D,一个组合隐私泄露的概率为
,规定隐私保护阈值
,当任意组合数据隐私满足
时,我们认为该数据存储D保护了用户数据组合隐私。
隐私约束(Privacy Constraint, PC),PC{AS(Attribute Set, AS
A = {A1,A2,…,An}),PP(Privacy Policy)},指对于用户数据属性集合A的一个子集AS,采用相应的隐私策略PP。隐私策略有两种:相容与不相容。其中,相容指AS集合中所有属性同时出现不会导致数据组合隐私泄露,不相容则会导致隐私泄露。
数据分块(Data Chunk, DC),指基于隐私约束的规则,将原始数据属性集合划分成一些不相交的子集
,按照这些子集将原始数据表单分块,并通过一些手段,混淆不同分块之间数据的关联关系。
数据分块云存储(Data Chunk Cloud Storage, DCCS),指将数据分块后,存储于云端不同位置,为了保护数据分块的相关信息,引入可信第三方。由可信第三方实现数据的分块,并决定存储的位置。
3.2. 分块信息表单系统
为了实现数据正确重构,我们添加了数据分块ID(DCID)与数据记录ID(Data Record ID, DRID)。
在可信第三方中建立分块信息表单(Chunk Information List, CIL),对于每一个数据分块,给其设置一个独一无二的DCID,以DCID为表单名存储到指定位置,并在CIL中添加记录,分块信息表单属性如表1所示。
分块
中的每一条记录,通过特定的映射算法,根据该条记录在原始表单中的
计算出
。映射算法应该满足:
1) 原始表单中的每一条记录,在不同的分块中,DRID都不同;
2) 可以通过反映射算法,由
计算出
。
映射算法相关的信息也存储于可信第三方中。同时,为了减少通过一一对应的方法猜测记录关联关系的可能性,将每一个分块中的记录的顺序打乱,从而实现分块记录关系的混淆。数据组合隐私保护主要的时间开销在于映射算法。
4. 用户信息表单隐私保护应用
表2为电网系统中一份智能电表用户信息表单属性,下面就其数据保护进行分析。
4.1. 数据分块
1) 隐私约束