1. 引言
随着大数据、人工智能和云计算等信息技术的快速发展,企业在数字化转型过程中对数据的依赖程度不断加深,跨部门客户数据整合成为构建统一客户视图、支撑精准决策的关键。然而,客户数据包含姓名、联系方式、交易记录等敏感信息,其跨域流转易引发隐私泄露与合规风险[1]。传统脱敏与匿名化方法在多源异构场景下难以兼顾可用性与隐私性,易遭再识别攻击。
隐私保护记录链接(Privacy-Preserving Record Linkage, PPRL) [2] [3]通过密码学、去标识化及多方安全协作等手段,实现了在不直接暴露个人身份信息的情况下完成数据记录的匹配与整合。这一框架已在医疗健康、公共治理等领域得到广泛关注和应用,但在企业客户数据整合场景下的系统化探索仍相对不足。
2. 系统框架设计
Figure 1. PPRL framework for enterprise customer data integration based on TEE
图1. 基于TEE的企业客户数据PPRL框架
针对上述挑战,本文选择可信执行环境(Trusted Execution Environment, TEE)作为核心支撑技术,构建面向企业场景的PPRL系统框架,如图1所示。TEE是一种由硬件支持的隔离执行环境,能够确保在受保护的内存区域中运行的程序和数据不受外部系统的干扰与窃取。利用TEE可以在不依赖完全可信第三方的情况下,对加密数据进行解密和处理,从而在提升匹配精度的同时有效降低隐私泄露的风险。在此基础上,本文提出的隐私保护记录联结框架面向企业客户数据整合的需求,构建安全高效的跨部门数据整合机制。整体流程如图所示,主要包括数据预处理与加密、加密数据上传、TEE内部解密与处理、相似度计算与分类以及结果输出等步骤。
需要指出的是,本文所采用的PPRL框架属于基于可信中介的变体。与经典PPRL强调“完全去信任”不同[4],本方案假设企业内部可部署一个受控的TEE节点作为中介,其可信性由硬件远程证明、内部审计日志与企业内控机制共同保障[5]。这一假设在集团型企业(如银行、保险、大型零售)中具有现实合理性:子公司虽数据隔离,但共享同一法人主体与合规责任,TEE节点可视为企业级数据治理基础设施的一部分,而非外部不可控第三方。
2.1. 基于TEE的安全计算
在企业客户数据整合中,各参与方在本地对异构含噪的客户记录进行标准化与清洗,并利用TEE公钥加密敏感字段,通过安全信道将密文传至TEE内部的可信执行区域,即Enclave。在隐私保护的客户数据整合过程中,TEE承担着关键的安全计算角色。其调用过程包括远程证明、安全通道建立与数据导入三个环节,如图2所示。首先,参与方需通过远程证明验证Enclave的可信性,以确保运行环境的完整性与可靠性。在验证完成后,系统初始化安全通道,并由Enclave内部生成公钥pk,由此保证各方在数据上传前完成一致性密钥协商。
Figure 2. Secure decryption and inner-product masking workflow within the TEE Enclave
图2. TEE内数据解密与内积掩码计算流程
参与方利用pk对本地敏感字段加密后,将d密文c传输至Enclave。在Enclave内部,预存的私钥sk被用于解密操作,解密过程可表示为:
(1)
其中,c为客户数据的密文,m为解密所得的明文记录。明文随后被转化为统一的特征向量,以支撑后续的相似度计算与分类判定。考虑到TEE在实际运行中仍可能面临侧信道攻击,本文在解密与处理环节引入内积掩码机制。具体而言,在进行向量间运算时,系统为内积结果引入随机扰动项
,使得可观测输出与真实数据脱钩,其形式化表示为:
(2)
其中,
为原始向量间的内积,
为掩码生成的随机噪声。即便攻击者能够观测到部分运算轨迹,也无法从中恢复真实数据关系。
该机制在保证计算正确性的同时,显著降低了中间态信息泄露的风险,从而增强了系统的整体抗攻击能力。下图给出了该过程的总体框架,外部参与方的数据在加密后经由安全通道传输至TEE,Enclave内部依次完成解密、特征化处理与掩码保护,输出结果用于后续的相似度计算阶段。
所引入的随机扰动项
虽未严格满足差分隐私(Differential Privacy)的
定义,但其设计目标在于打破侧信道观测与真实内积之间的确定性映射。在SGX侧信道攻击模型[6]下,攻击者仅能观测到带噪输出
,而无法通过多次观测精确重构原始向量关系。
2.2. 基于BFV的同态加密机制
仅依赖TEE的硬件隔离难以全面保障企业客户数据整合中的隐私安全。为在不暴露原始信息的前提下支持多维特征交互与复杂相似度计算,本文引入基于环学习错误(Ring Learning With Errors, RLWE)假设的BFV (Brakerski-Fan-Vercauteren)同态加密方案。相较于仅支持加法同态的传统方法,BFV同时支持加法与乘法同态运算,能够在密文域实现更丰富的特征联合判定[7] [8],更好地满足企业场景的实际需求。
2.2.1. 参数体系与密钥生成
BFV同态加密方案的安全性建立在环学习同余问题(Ring Learning With Errors, RLWE)假设之上。系统首先需要设定一组全局参数,包括多项式环维度
、密文模数
、明文模数
以及误差分布
。其中,
通常取为2的幂,使得在
中的多项式运算能够通过数论变换(Number Theoretic Transform, NTT)实现,从而显著提升计算效率。明文空间则定义为
,其中
,用
于存储实际业务中的客户数据字段。为了实现从明文域到密文域的嵌入,系统设置缩放因子
,并
在加密过程中通过
将明文
映射到
。
在密钥生成阶段,系统首先在
中均匀采样一个向量
作为公钥元素。随后在同一环中采样私钥
,并生成误差项
。通过如下关系
,系统得到公钥对
。其中
构成公钥,
构成私钥。
为了保证系统的安全性,误差分布
的选取至关重要。一般而言,
为离散高斯分布,其方差参数需保证在RLWE假设下足以掩盖线性关系,从而使攻击者无法通过已知
还原私钥
。由于密钥生成仅在TEE的隔离环境中完成,外部环境无法接触到私钥
或误差分布的采样结果,这进一步提升了整体架构的安全性。
2.2.2. 加密过程
在完成密钥生成后,系统利用公钥
对明文
进行加密。首先,通过缩放因子
将明文嵌入密文模数空间,
(3)
该步骤确保明文在解密时能够通过缩放与取整恢复,避免因模数不匹配而产生精度丢失。
随后,系统在
中采样随机向量
,并独立采样噪声项
。利用公钥元素
,密文计算过程如下:
(4)
(5)
最终密文为
(6)
在上述公式中,
用于随机化每次加密过程,即使同一明文m在不同时间加密,也会得到统计上独立的密文;
与
保证了RLWE难解性假设的成立,使得攻击者无法通过
反推出明文或私钥。值得注意的是,噪声的引入必然带来解密误差,但在参数正确设定的条件下,其幅度始终小于
,因此不会影响解密正确性。
此外,为了进一步降低密文在传输过程中的泄露风险,本研究在企业客户数据整合场景中,将加密过程完全由参与方本地执行,原始明文从不离开本地存储环境。加密后的密文通过安全信道传输至TEE内部,确保即便传输信道受到监控,攻击者亦无法获得关于明文的有用信息。
2.2.3. 同态运算
在企业客户数据整合中,相似度计算不仅涉及字段加权求和,还需支持跨字段交互特征。此类操作本质上要求密文域支持乘法运算。BFV方案因其支持有限深度的乘法同态,恰好满足此类业务需求,同时通过参数调优可控制噪声增长,保障解密正确性。
在BFV方案中,密文空间的算术结构与明文空间保持同态性,使得在加密状态下即可执行与明文一致的加法和乘法运算。这一特性使得企业客户数据在跨域整合过程中无需暴露原始信息,即可完成相似度度量、加权组合及联合判定等复杂操作,是实现隐私保护计算的核心基础。具体而言,同态运算主要分为加法与乘法两类,两者在运算规则、噪声增长以及对系统正确性的影响方面均存在显著差异。
在加法情形下,设两个密文分别为
与
,其同态加法运算定义为
(7)
解密后可得到
(8)
其中m,
为对应的明文。由于噪声在该过程中仅表现为线性叠加,因此其增长幅度较为有限,只要初始噪声控制在安全范围内,就能保证在多次加法运算后仍然满足解密正确性。这一性质使得BFV在处理涉及频繁加总的业务场景(如统计分析、分群聚合等)时具有较高的稳定性和实用性。
在乘法情形下,设两个密文分别为
与
,其同态乘法运算定义为
(9)
其中
(10)
由于结果为三元组形式,为保持密文结构一致性,需要利用重线性化密钥rk将其映射为二元组
,解密后满足
(11)
相比加法,乘法运算在功能上更强大,但噪声的增长速度显著加快,若不加以控制,容易导致解密失败。
噪声的演化规律直接决定了解密的正确性。设两密文的初始噪声分别为e,
,加法后的噪声为
,而乘法后的噪声可近似表示为
(12)
其中包含交叉项与误差平方项,增长速度远高于加法情形。当满足
时,解密过程才能输出正确
结果;一旦超过该阈值,将导致解密失败或结果偏差。因此,系统在参数选取时必须综合考虑运算深度、模数大小以及误差分布的统计特性,以保证在预期的计算规模下仍能保持正确性。
2.2.4. 解密过程
在完成同态运算后,密文需要通过解密过程恢复明文结果。给定密文
以及私钥
,解密函数计算方式为
(13)
代入加密定义可得
(14)
其中
表示嵌入到
的明文,
为噪声项。只要满足噪声约束条件
,系统即可通过缩
放与取整操作恢复出原始明文。
(15)
在企业客户数据整合场景中,该解密过程始终由TEE内部安全执行,保证私钥
不会泄露给任何外部参与方。这样不仅确保了语义安全性,也避免了因解密阶段潜在的侧信道攻击而导致的敏感数据泄漏。由于加法与乘法均可能带来噪声累积,解密正确性在本质上依赖于参数
的合理设置及前述运算深度的约束。因此,解密过程不仅是恢复明文的步骤,也是验证整个系统安全性与可用性的最后关口。
2.2.5. 面向异构企业数据整合的优化策略
标准BFV方案在理论上能够支持加法与乘法同态运算,但若直接应用于企业客户数据整合场景,仍会面临三类问题:其一,客户数据往往包含异构字段,编码方式缺乏统一;其二,大规模批量匹配带来运算与存储开销的快速增长;其三,解密结果需要与企业既有数据平台和审计机制兼容。针对这些问题,本文在BFV方案的基础上提出若干改进与补充。
1. 多域特征编码的引入
设企业的客户记录为
(16)
其中
表示第
个字段,可能为数值型、分类型或字符串型。为保证异构特征在密文域内的一致性处理,本文设计了分域映射策略:
(1) 数值型特征:直接映射为
;
(2) 分类型特征:经one-hot编码为向量
,再作为多项式系数嵌入
;
(3) 字符串型特征:先通过哈希函数
转换为定长整数
,再映射至
。
最终得到统一向量
(17)
再通过缩放因子
嵌入至
。这种改进保证了多源异构特征能够在同一环结构下进行加密与同态计算。
2. 裁剪式批处理机制
在企业应用中,匹配任务规模往往达到百万级记录。若直接采用标准BFV的批处理机制,将所有特征填充至批处理槽位,会导致乘法层数过深、噪声快速累积。本文提出裁剪式批处理方法:设批处理容量为
,将特征集划分为
(18)
其中
为高频关键特征(如客户ID、联系方式),优先嵌入单个密文,其余组
按需分配至其他密文。该方法使得单条密文在计算过程中仅包含核心特征,减少了乘法次数与噪声积累。实验结果表明,此机制在大规模匹配任务中能够显著降低计算延迟。
3. 解密结果的合规封装
在解密环节,本文在TEE内部增加结果封装模块。设解密得到的结果为
,系统将其与记录标识ID组织为二元组
,并映射为平台可接受的数据对象。最终输出的结果集定义为
(19)
其中
表示访问控制策略,
表示数据使用策略,
表示审计约束。通过该机制,解密结果能够与企业既有的数据治理体系无缝衔接,实现可控访问与合规使用。
3. 实验与结果分析
为验证所提出的基于TEE与BFV同态加密的企业客户数据整合框架的可行性,本章设计并实现了针对典型业务场景的实验。实验重点在于考察系统在不同优化机制下的运行效率与解密正确性,从而评估其在大规模数据整合任务中的实际应用潜力。
3.1. 实验环境与数据集
实验在一台支持Intel SGX的服务器平台上完成。硬件配置包括3.2 GHz多核处理器与64 GB内存,操作系统为Ubuntu 22.04。加密运算基于Microsoft SEAL库实现BFV同态加密方案,可信执行环境由Intel SGX SDK部署,并启用远程证明机制以确保Enclave的完整性与可信性[9]。
实验数据集来自某企业在市场部、客服部与财务部三个业务部门中分散存储的客户信息,数据规模为10347条客户记录。该数据集具有以下典型特征:
(1) 字段异构性:不同部门对同一客户信息的存储格式存在差异,例如电话号码带区号与否、交易金额的币种与单位、日期的中西文混用等;
(2) 信息不完备性:部分记录存在字段缺失,如交易金额缺省、联系方式缺失后仅保留邮箱等;
(3) 跨部门重叠性:同一客户在多个部门均有记录,且记录间存在轻微差异与冗余。上述特征能够较好地模拟实际企业跨系统整合中广泛存在的异构性与不完备性问题,为后续隐私保护下的跨部门匹配与整合提供实验支撑。
为更直观地说明数据集特征,表1给出了某一客户在市场部、客服部与财务部中的典型记录。可以看到,同一客户在不同部门的记录存在明显差异:市场部金额以逗号分隔,客服部日期采用中文格式,财务部金额带有货币符号。
Table 1. Example records of a representative customer across multiple departments
表1. 典型客户在各部门的记录示例
客户标识 |
部门 |
姓名 |
联系方式 |
交易金额 |
交易日期 |
UID013 |
市场部 |
王*华 |
138****5678 |
25,000.00 |
2024/06/15 |
UID013 |
客服部 |
王*华 |
+86-138****5678 |
- |
2024年6月15日 |
UID013 |
财务部 |
王*华 |
- |
¥25,000 |
2024-06-15 |
在隐私保护框架下,敏感字段不会直接跨部门暴露,而是通过加密计算与可信环境内部的匹配判定输出最小化结果。表2展示了隐私保护后的整合输出,其中仅保留统一的客户标识与匹配状态,避免敏感信息在传输与计算过程中泄露。
Table 2. Minimalist integration output under the PPRL framework
表2. PPRL框架下的最小化整合输出示例
客户标识 |
匹配状态 |
部门覆盖情况 |
匹配置信度 |
UID012 |
匹配成功 |
市场部/客服部/财务部 |
高(0.95) |
UID023 |
匹配成功 |
市场部/客服部 |
中(0.88) |
UID132 |
匹配失败 |
客服部 |
— |
3.2. 实验设计
实验严格遵循第二章提出的系统架构,涵盖本数据预处理、加密传输、TEE内部计算与结果输出等主要环节。为全面评估所提框架的有效性,实验引入两类对比方法:其一为基于哈希与模糊匹配的Bloom Filter基线,用于反映传统方法在隐私保护和匹配准确性方面的局限;其二为仅依赖TEE执行明文计算的方案,用于考察硬件隔离在缺乏同态加密时的性能表现。评价从匹配准确性(Precision、Recall、F1)、系统性能(端到端延迟、资源占用)及隐私保护强度(抗再识别与侧信道能力)三方面展开。所有方法在相同数据集与参数下独立运行10次,取平均值以确保结果稳定可靠。
3.3. 实验结果与分析
如图3所示,Bloom Filter的Precision约为0.85,但Recall仅为0.76,导致F1值低于0.80,表明其在面对拼写变异、格式不一致等噪声时易产生漏判。TEE-only方案通过可信执行环境提升计算稳定性,Recall提升至0.83,Precision维持在0.90,F1分数有所改善,但受限于明文处理模式,无法支持多维特征联合建模,匹配能力仍存在瓶颈。相比之下,TEE + BFV框架在Precision与Recall上均超过0.92,F1接近0.93,得益于同态加密支持下的密文级相似性计算,能有效捕捉实体间复杂语义关联,在高噪声环境下仍保持较高匹配质量。
Figure 3. Comparison of matching accuracy across different methods
图3. 不同方法的匹配准确性对比
图4展示了各方法端到端运行时间的构成分布。Bloom Filter因其轻量级哈希编码机制表现出最低的时间开销,平均运行时间为38秒,但其固有的可逆性与熵损失问题使其难以抵御再识别攻击,隐私保障较弱。TEE-only方案的平均耗时约为65秒,主要开销集中在Enclave内部的明文匹配计算及频繁的安全边界切换带来的内存拷贝开销。TEE + BFV框架的端到端延迟约为95秒,其中同态加密的编码、密文向量运算及大规模多项式乘加操作构成了主要性能瓶颈。尽管引入了额外计算负担,实验数据显示其运行时间随输入规模呈近线性增长趋势,在千级记录整合任务中仍保持在分钟级别,具备实际部署的可行性。
Figure 4. Breakdown of end-to-end execution time by component
图4. 运行时间组成对比
在隐私保护有效性方面,图5给出了针对各类方法的模拟再识别攻击成功率及其引发的信息泄露程度。实验结果显示,Bloom Filter的攻击成功率达到0.27,平均每条记录暴露超过1.4个敏感字段,反映出其在抗推断攻击方面的结构性缺陷。TEE-only方案借助SGX提供的硬件级内存隔离显著压缩了攻击面,攻击成功率下降至0.16,但由于数据在Enclave内以明文形式处理,仍可能受到侧信道攻击或特权软件漏洞的影响,安全性缺乏形式化保障。相比之下,TEE + BFV框架将敏感数据全程保留在加密状态,结合可信执行环境的访问控制机制,使攻击成功率进一步降至0.047,平均暴露字段数仅为0.18,接近统计噪声水平。该结果验证了所提方法在实际威胁模型下具备更强的抗攻击能力,能够显著降低敏感信息在计算过程中的泄露风险。
Figure 5. Comparative evaluation of privacy preservation effectiveness
图5. 隐私保护有效性对比
4. 结论
本文面向企业客户数据整合中的隐私保护难题,提出了一种融合TEE与BFV同态加密的PPRL框架。整个流程中,敏感数据始终以密文形式跨域传输,在TEE内完成解密与匹配计算,并严格限制输出内容,仅返回必要的关联标识,从而在保障功能性的同时满足隐私与合规要求。在不暴露原始敏感信息的前提下,实现了高精度的跨部门客户记录匹配。针对企业数据异构、规模大、合规要求高等特点,进一步引入多域特征编码、裁剪式批处理与合规结果封装等机制,提升了系统的实用性与可部署性。实验表明,所提方法在匹配准确性与隐私保护能力上均显著优于传统Bloom Filter和纯TEE方案,虽引入一定计算开销,但在千级记录规模下仍具备实际应用可行性。本研究为构建安全、合规、高效的企业级隐私保护数据整合体系提供了可行路径,也为PPRL技术在商业场景中的落地应用提供了新思路,未来可进一步探索联邦学习与差分隐私机制的融合,以支持跨企业、多方协同的数据安全整合。