1. 引言
群智感知网络利用大量普通参与者的感知设备收集感知数据,对数据进行采集、处理和分析 [1] 。它的核心在于通过吸纳广泛的参与者,将分散的信息和知识汇聚成整体,形成具有价值的资源和产出,推动社会创新和发展。由于群智感知网络感知设备的普遍性和参与者位置移动的灵活性,完美的解决了传统传感器感知网络维护成本高且覆盖范围受限使得感知任务的完成效果和效率都大打折扣的问题,同时互联网的发展更是加快了群智感知的研究与应用。
群智感知虽然为社会带来了巨大的发展与机遇,但在执行任务过程中参与者仍存在隐私泄露的问题 [2] 。当参与者参与感知任务时,需要上传参与者的个人隐私信息并将它提交给感知平台,其中包括参与者执行任务时的位置序列即参与者的轨迹信息,而在这个过程中极容易遭到外部攻击者的攻击,因此,参与者轨迹会面临极大的隐私泄露风险。外部攻击者可以根据参与者对某些位置的访问频率推测出轨迹位置中的重要位置区域比如医院、工作单位、学校等来推测被攻击者的职业人际关系等等,严重威胁了参与者的隐私同时影响参与者参与感知活动的积极性进而危害行业发展。因此,本文首先总结了群智感知轨迹隐私保护面临的安全问题,然后分析现有群智感知轨迹隐私保护方案的研究现状,最后总结和展望群智感知轨迹隐私保护方法未来的研究方向。
2. 群智感知轨迹隐私保护面临的安全问题
群智感知网络中主要包含三个实体分别是参与者、感知平台和任务发布者 [3] 。如图1所示,任务发布者发布任务请求到感知平台,感知平台将任务发布给每个参与者,参与者上传感知数据到感知平台通过感知平台将感知数据发送任务发布者。在参与者上传感知数据到感知平台时,外部攻击者可能会窃取参与者的隐私信息,造成隐私泄露。参与者上传的感知数据中包含参与者的数据、身份和位置信息,其中参与者的位置隐私保护中的轨迹隐私保护得到广泛关注,通过对这些轨迹数据的分析和挖掘结果可以研究出个人的行为模式等敏感信息,因此目前群智感知中参与者的轨迹隐私保护得到了广泛的关注。

Figure 1. Crowdsensing privacy threats
图1. 群智感知隐私威胁
群智感知网络中参与者需要上传感知数据用于后续的数据挖掘过程,由于传输链路的不稳定,恶意攻击者极容易在传输过程中截获数据,通过分析参与者上传的轨迹数据获取参与者的隐私信息。当前的轨迹隐私保护主要面临着以下几种安全问题。
(1) 参与者轨迹频繁访问经过某一位置点,导致参与者隐私泄露。攻击者掌握参与者一定的历史轨迹,这些历史轨迹上的频繁访问的轨迹点很可能暴露其兴趣偏好、家庭住址等个人隐私信息。例如某天参与者的轨迹点集中的地方是某一兴趣班,可以由此推断出这个参与者的兴趣爱好。
(2) 频繁经过具有特殊意义的语义位置点导致的参与者隐私泄露。例如,参与者长时间访问某一超市这一具有具体语义信息的位置点,那么攻击者可以根据其访问的频率判断参与者的家庭住址等信息。
(3) 参与者背景信息与轨迹之间的关联导致的参与者隐私泄露。攻击者掌握一定的背景知识,依据背景知识推测出参与者特定的兴趣区域。例如,某人每天晚上在某一时间段有90%的概率时间段从地点A出发到地点B,那么通过时间和地理位置信息,攻击者很容易判断出该参与者可能先去吃饭再去散步,导致参与者的行为习惯被泄露。
3. 群智感知轨迹隐私保护保护方法
目前,群智感知轨迹隐私保护方法受到了广泛的关注。总的来看,群智感知轨迹隐私保护方法可以概括为假数据、匿名、泛化和抑制隐私保护技术。
3.1. 基于假数据的轨迹隐私保护方法
假数据轨迹隐私保护技术是在待发布的真实轨迹中添加一定量的假轨迹,使攻击者无法判断真实轨迹信息,以此保护轨迹隐私 [4] 。You等人 [5] 提出了两种能够产生假轨迹的方案,分别通过生成与真实轨迹运行模式相同的轨迹和旋转真实轨迹生成假轨迹与真实轨迹混淆,但算法运行效率较低,在群智感知大规模轨迹数据的情况上并不适用。Dai J等人 [6] 提出了一种分割假轨迹的轨迹隐私保护方法,在真实轨迹上随机采样生成假轨迹点组成满足隐私要求的假轨迹来混淆真实轨迹,但是这种方法仍存在这算法运行效率较低的问题。刘向宇等人 [7] 使用网格划分方法将真实轨迹和敏感轨迹混合隐藏具有较高的运行效率。李凤云等人 [8] 利用车辆自适应时间窗口算法对车辆轨迹进行分组选择,通过混淆算法将需要保护的车辆轨迹与周围车辆轨迹辆混合发布从而达到隐私保护的目的。
综上所述,目前的假数据轨迹隐私保护技术主要通过生成与原始轨迹相似的轨迹对原始轨迹进行隐私保护,但是添加假数据的与原有轨迹差异太小,攻击者可以根据参与者历史信息推测出有价值的信息。添加的假数据与原有轨迹差异程度太大,又降低了轨迹的可用性。此外,由于假数据轨迹隐私保护技术在原始轨迹上添加了大规模的假轨迹数据在要求实时性高的群智感知网络中并不适用。
3.2. 基于匿名的轨迹隐私保护方法
轨迹匿名技术,可以将轨迹隐匿在一定的范围内,使得隐匿后轨迹与原轨迹无法分辨。Tan等人 [9] 提出了基于k匿名的语义匿名化模型,找到k-1个兴趣点的敏感区域,根据敏感区域的敏感特性对轨迹进行模糊处理,保证了较高的隐私保护水平但可用性较低。Chen等人 [10] 通过考虑不同路段上阈值的变化,构建一个考虑道路网络信息的自适应阈值集。然后,针对输出的匿名轨迹数据集,利用微分隐私下匿名位置距离的拉普拉斯机制对其进行微扰,提高了轨迹的不可分辨性。宋成等人 [11] 选择k-1个噪声用户与真实用户组成k匿名组,实现用户身份和轨迹的隐私保护。这种方法虽然达到了较高的隐私保护效果但是降低了轨迹的可用性。Gao等人 [12] 提出了轨迹混淆的差异位置隐私保护机制,基于滑动窗口算法提取停留点作为轨迹特征,然后通过指数机制将每个停留点模糊化到目标混淆子区域,最后在目标混淆子区域进行拉普拉斯采样,得到混淆轨迹点,减少了20%以上的数据质量损失。
综上所述,当前轨迹匿名技术隐私保护方案,主要通过构建匿名轨迹集实现对轨迹的隐私保护,但是在实际应用中匿名集的构建应根据参与者不同匿名需求不同进行改变。此外为了方便后续对轨迹的处理和利用,轨迹隐私保护需要着重考虑轨迹可用性问题,即如何选择合适的匿名区域,在保护参与者轨迹隐私的同时减少轨迹的失真度。相较于在真实轨迹中加入假轨迹的方法中攻击者可能存在着一定概率获取参与者的真实轨迹,基于匿名的轨迹隐私保护方法将轨迹点扰动到一定范围内,即使攻击者可以获得轨迹信息,但由于对发布轨迹进行一定程度上的隐匿该方法仍保证较高的隐私保护水平。但是基于匿名的轨迹隐私保护技术的匿名的范围难以准确掌控,所以基于匿名的轨迹隐私保护方法常需要与其他技术联合使用来提高轨迹的可用性。
3.3. 基于抑制的轨迹隐私保护方法
基于抑制的轨迹隐私保护方法,是根据参与者的实际需求选择性的发布轨迹数据。例如:参与者认为自己一天的轨迹中,超市、餐厅这一地理位置相对于医院是不敏感的,那么在发布这位参与者的轨迹时,不发布医院这一位置点,但是发布超市这一位置点。在这个轨迹的发布过程中,轨迹时不完整的,轨迹失真较大,因此采用抑制方法需要构建隐私保护度和轨迹失真度的平衡函数以保证良好的效果。Lan等人 [13] 将扰动与抑制方法结合提出了一种结合划分兴趣区域和驻留点提取的隐私保护方法,通过在驻留点添加Laplace噪声来保护轨迹隐私。汪逸飞等人 [14] 通过计算某一时空轨迹点的信息熵值构建代价函数,抑制局部时空轨迹点来保护用户轨迹隐私。
综上所述,采用基于抑制的轨迹隐私保护方法,相较于基于假数据和基于匿名的轨迹隐私保护方法,虽然在一定程度上提高了参与者轨迹的可用性,但是基于抑制的轨迹隐私保护方法依赖于抑制轨迹点的判断方法。在进行抑制轨迹点的判断过程中,如果存在着某些较为重要的轨迹点没有被抑制,会导致隐私保护水平下降。同时抑制部分轨迹点也存在着轨迹的时间序列遭到破坏的问题,无法保证轨迹的准确性。此外,虽然对当前发布的轨迹点进行抑制,但是若攻击者拥有足够多的背景知识时依然可以获取参与者隐私信息即基于抑制的轨迹隐私保护方法无法抵御基于背景知识的攻击,因此在研究中常将轨迹抑制技术与其他技术结合使用。
3.4. 基于扰动的轨迹隐私保护方法
扰动的思想是对位置添加随机噪声生成扰乱位置,由于随机噪声可以人为控制,所以更适合应用于需要较高可用性的轨迹发布场景。差分隐私技术是最典型的基于扰动的隐私保护方法。差分隐私是通过加噪手段,将数据扰动到一定范围内,由于扰动的范围可以通过隐私预算控制,所以灵活性较高。差分隐私按照处理数据的位置,可以分为集中式差分隐私和本地差分隐私。集中式差分隐私,由第三方服务器统一对待保护数据进行处理,这就要求第三方服务器可信性,而本地化差分隐私,将数据处理分散到参与者自身在自身处理,避免不可信第三方造成的隐私泄露问题。因此,集中式差分隐私常采用拉普拉斯机制等添加噪声的方法来进行隐私保护,本地化差分隐私常采用随机响应方法来进行隐私保护。
吴云乘等人 [15] 针对根据时序位置和地理拓扑推测参与者的隐私偏好的问题,提出了将地理拓扑关系采用无向图表示,根据无向图节点之间的关系设置隐私级别,有效的避免了攻击者根据关联知识获取参与者隐私的问题。刘凯等人 [16] 首先使用DBSCAN算法对数据分析清除噪音点,然后结合状态转移矩阵利用差分隐私方法对轨迹点进行差分隐私扰动。李洪涛等人 [17] 从路网拓扑关系的角度出发对路段敏感程度进行级别划分,通过差分隐私位置保护机制实现位置隐私保护。陈思等人 [18] 将机器学习方法与差分隐私方法结合提出了一种基于差分隐私的轨迹隐私保护方案,有效解决了攻击者掌握一定背景知识的问题。
综上所述,现有的基于扰动的轨迹隐私保护方法常与机器学习方法结合使用,为了达到个性化的隐私保护需求,部分研究者采用聚类、网格划分等方法判断频繁停留区域,判断不同隐私级别,然后泛化实现参与者的隐私保护。与基于假数据的轨迹隐私方法对比由于扰动方法主要采用添加噪声的方法进行隐私保护使得方法的运行效率普遍较高。与基于匿名的轨迹隐私方法相比扰动方法可以通过设施隐私预算来控制扰动的大小有效的提高了轨迹的可用性。与基于抑制的轨迹隐私保护方法对比扰动方法可以在一定程度上抵抗攻击者的背景知识攻击。因此基于扰动方法在轨迹隐私保护中得到了研究者的广泛应用。
4. 群智感知轨迹隐私保护方法未来研究方向
目前轨迹隐私保护技术研究在各个方面虽然取得了一定的进展,但是都存在一定的局限性,现有参与者轨迹隐私保护方法存在着以下问题。
(1) 差异化隐私保护:现有轨迹进行差分隐私保护采用单一的隐私预算,未考虑参与者不同轨迹位置点敏感度不同,以灵活地适应不同隐私需求,无法为每个用户提供个性化的隐私保护机制,导致保护不足和过保护问题。
(2) 隐私保护不够全面:轨迹数据在时间和空间维度上具有相关性,现有的研究仅考虑轨迹数据的空间属性没有考虑轨迹的时间属性,使隐私保护不充分。
(3) 可用性和效用问题:隐私预算是一项影响预算资源的重要参数,资源分配不合理会导致平台成本较高。此外,采用较高的隐私预算,隐私保护程度会下降,但会提高数据的准确性。而采用较小的隐私预算会有较高的隐私保护程度,但会导致数据准确性下降。
随着群智感知网络的不断发展,参与者的轨迹隐私保护问题将会得到更大的关注。针对上述问题,群智感知轨迹隐私保护方法未来的研究方向如下。
(1) 在未来的群智感知参与者轨迹隐私保护过程中,为了提高参与者参与感知活动的积极性,应更注重参与者的背景信息,构建根据参与者的不同敏感背景构建隐私模型,采取个性化的隐私保护。
(2) 针对轨迹隐私保护不够全面和发布轨迹不准确的问题,在进行参与者轨迹隐私保护时考虑根据轨迹的多属性问题,进行多方面的考量使得敏感区域判定更准确。同时可以结合深度学习和强化学习等方法提高发布轨迹质量。
(3) 目前群智感知轨迹隐私保护研究虽然保证了较高的隐私保护水平但是轨迹的可用性较低,在未来的研究中可以通过构建轨迹隐私保护水平与轨迹可用性平衡函数来达到轨迹隐私保护与可用性的平衡。
(4) 当前随着群智感知大规模参与者的出现,群智感知轨迹隐私保护方法的运行效率问题也应得到关注,即可以考虑如何通过构建更高性能的轨迹隐私保护算法来实现运行效率的提升。
5. 结语
随着移动群智感知的快速发展,更多的参与者参与到感知任务中,群智感知中参与者的隐私保护得到广泛的关注。群智感知参与者轨迹隐私保护方法是参与者位置隐私保护的研究重点。本文从群智感知参与者轨迹隐私保护的角度出发,首先概括了参与者可能面临的轨迹隐私安全问题,其次总结了群智感知轨迹隐私保护方法研究现状,说明了当前群智感知轨迹隐私保护方法存在的问题。最后,根据目前的方法存在的问题对群智感知轨迹隐私保护方法未来研究方向进行了展望,为未来的研究提供参考。
基金项目
黑龙江省高等教育教学改革研究一般研究项目(SJGY20220351)和2023年度省规划办重点课题(GJB1423438)。