1. 引言
数据作为新型生产要素,已快速融入海关业务领域和服务管理各环节,成为助推高质量发展的关键动力。充分释放海关数据价值是保障海关全面履职的重要基础,但目前海关数据治理仍面临数据基础制度与规范尚未健全、部分数据管理权责模糊、数据资源整合和质量有待提升等问题,这些因素共同制约了海关数字化转型的进程。
按照智慧海关建设总体部署,围绕数据“管得住、放得开、用得好”,本文针对海关数据湖规划与建设方案中的标准化与规范化问题,借鉴数据治理框架与标准,结合海关数据治理工作实际,系统地提出了海关数据入湖的标准体系。首先,梳理了国际和国内具有广泛影响力的数据治理框架与标准;其次,提出了数据分级分类原则和数据质量评估与保障体系、海关数据确权与实施路径、海关数据“一数一源”的实现策略;最后,探讨了人工智能技术在优化海关数据入湖流程中的潜在创新应用场景。本文提出的不仅是一个数据治理标准集合,更是一个“政策–理论–技术–场景”四位一体的、适用于强监管领域的数据治理范式。建立科学规范的入湖相关标准,有效提升海关数据管理效能,促进海关数据资源的开发利用,为加快推动海关数字化转型、智能化升级提供坚实保障。
2. 国内外数据治理框架与标准
2.1. 国际数据治理框架与标准
数据入湖作为数据资源化的基础环节,其标准化与规范化建设需要系统性的理论指导。当前,国际层面已形成若干具有广泛影响力的数据治理框架与标准,为构建海关数据入湖标准体系提供了重要的理论依据与方法论支持。
由国际数据管理协会发布的《DAMA数据管理知识体系指南》[1] (简称DAMA-DMBOK),包含了11个知识领域,其中数据治理是对数据资产管理行使权力和控制的系统性活动,为其他数据管理职能提供统筹与指导。针对数据入湖,DAMA-DMBOK所阐述的元数据管理、数据质量管理、数据架构管理及主数据与参考数据管理等核心知识领域,为界定入湖数据的范围、格式、质量要求与整合规范提供了系统性原则。依据该框架,入湖数据需具备可追溯的业务定义、满足既定质量指标、并与既定的数据模型和主数据标准保持一致,从而在源头保障入湖数据的规范性、一致性与可信度。
ISO/IEC 38500国际标准从组织治理的视角,为数据生命周期管理提供了评估、指导和监督的框架。该标准要求对数据的采集、存储、传输、处理及处置全过程进行有效治理。应用于数据入湖场景,意味着需建立与业务战略目标相符的数据准入评估机制,对数据来源的合规性、入湖过程的规范性及潜在风险进行持续监控与指导[2]。
在能力建设与评估方面,以卡耐基梅隆大学软件工程研究所发布的数据管理成熟度模型为代表的成熟度评估框架,为海关评估数据入湖相关管理能力提供了结构化工具。该模型通过定义多个关键过程域及其能力等级,帮助组织识别在数据战略、治理流程、质量标准及技术平台支撑等方面的现状与差距,从而为数据入湖标准体系的循序改进与分阶段实施提供路径指引[3]。
这些国际标准共同构成了一个多维知识库,为海关数据入湖标准在管理组织、制度规范、流程控制、质量要求及技术架构等方面的系统化设计奠定了坚实的基础。
2.2. 中国与欧美海关数据治理框架的对比分析
中国海关以智慧海关建设为核心,聚焦服务外贸高质量发展,通过数字化与智能化提升监管效能,支持高水平对外开放。海关数据治理战略强调国内治理优化,促进贸易便利化。欧盟委员会税务和海关同盟则注重跨境数据流动与隐私保护的平衡,受《通用数据保护条例》(General Data Protection Regulation, GDPR)约束,强调数据主权与安全。美国海关和边境保护局依托《美墨加协定》等协议,推动数据自由流动,强化全球数字规则输出,战略上更侧重国际主导权争夺。
中国海关的数据治理标准体系以国内需求为导向,强调数据安全与可控性,例如通过《数据安全法》和《个人信息保护法》规范跨境传输,确保国家安全优先。欧盟采用高标准隐私保护框架,要求数据互操作性和合规性,GDPR的严格性和全面性使其成为全球数据保护立法的标杆。美国则倡导灵活标准,如弱化严格监管,优先促进贸易便利化。
在技术应用上,中国海关广泛应用大数据和人工智能优化监管流程,例如“智能审图”技术提升通关效率,体现技术驱动的治理创新。欧盟侧重标准化技术工具,确保跨境数据流动的互操作性,同时加强隐私保护技术如加密措施。美国倾向于通过技术联盟巩固优势,例如利用云计算和区块链促进数据自由流动,但技术应用更注重商业效率而非监管深度。
总体而言,中国海关治理更聚焦内生优化,而欧美数据治理框架更体现国际博弈视角,反映全球数字治理的多元路径。
2.3. 国内数据治理框架与标准
2022年12月中共中央、国务院印发的《关于构建数据基础制度更好发挥数据要素作用的意见》,即“数据二十条”,对构建数据基础制度作了全面部署,构建起数据基础制度体系的“四梁八柱”[4]。在国家标准层面,2018年我国发布首个数据管理领域国家标准《数据管理能力成熟度评估模型》(GB/T 36073-2018) [5],为海关数据治理提供了系统性的能力建设框架。该标准围绕数据战略、数据治理、数据架构、数据应用、数据安全、数据质量、数据标准和数据生存周期8个核心能力域,构建了组织数据管理能力的评估体系。其中,数据治理组织包括组织架构、岗位设置、团队建设、数据责任等内容,是各项数据职能工作开展的基础,要求组织通过对数据管理和数据应用的职责规划与控制,指导各项数据职能执行,确保数据战略目标有效落地。这一要求直接指导海关搭建数据治理的组织体系,明确各部门在数据确权、质量管控、安全防护中的权责边界,解决当前数据管理中“权责不清、分工不明”的问题。
2024年9月,国家发展改革委等部门联合印发的《国家数据标准体系建设指南》从顶层设计角度[6],为海关数据标准建设提供行动纲领,该指南提出的数据安全与隐私保护标准,有助于海关构建贯穿数据全生命周期的主动防护体系。针对海关业务中涉及的大量企业商业秘密、个人身份信息、货物贸易敏感数据,指南明确要求在数据汇聚、入湖、使用全流程中,严格落实数据分类分级、加密传输、访问控制与脱敏使用等安全标准,有效防范数据泄露与滥用风险。同时,指南在数据产权、流通交易、收益分配等方面的原则性指引,为海关推进跨部门数据共享提供了制度依据。在明确数据权属与使用边界的基础上,海关可安全有序地与口岸部门、税务部门、市场监管部门及合规企业开展数据交换,实现数据要素的市场化配置。
从海关自身规划来看,海关“十四五”规划明确提出“完善大数据基础设施,加强海关大数据管理,完善海关大数据应用,建设大数据安全体系”的目标[7]。基于此规划构建的海关大数据平台,旨在实现内外部作业、管理及服务数据的统一汇聚入湖,涵盖通关查验、检验检疫、设备智能监控等各类海量实时数据,通过整合数据开发和治理流程、推进数据融合加工,构建统一的企业、人员、货物、运输工具、案件、事件等仓库,形成“湖仓一体”的架构模式。这种模式既能发挥数据湖的灵活性,满足多样化数据存储与快速分析需求,又能依托数据仓的成熟性,保障核心业务数据的规范管理与高效应用,最终为海关数字化转型提供新一代的技术支撑底座[8]。
3. 海关数据入湖标准研究
基于国内外具有广泛影响力的数据治理框架与标准,结合海关数据治理工作实际,提出数据分级分类原则和数据质量评估与保障体系、海关数据确权与实施路径、海关数据“一数一源”的实现路径,为海关数据入湖提供参考标准。
3.1. 数据分级分类原则
海关数据入湖的分级分类是构建数据管理体系的基础核心,需要兼顾安全保障与业务应用的双重需求。基于《中华人民共和国数据安全法》[9]和GB/T 43697-2024《数据安全技术数据分类分级规则》[10],并结合海关业务特点和业务需求,建立系统化的数据分类分级框架。
依据国家数据安全管理要求,数据安全分级采用三级分级体系。分级体系将数据根据重要性(是否关系国民经济命脉、重要民生和重大公共利益)、覆盖度(涉及领域、群体、区域等)、精度、规模、深度,以及一旦遭到篡改、破坏或者非法获取、非法利用,对国家安全、公共利益或者个人、组织合法权益造成的危害程度等分级要素进行综合判定,从低到高划分为一般、重要、核心三级,如表1所示。
Table 1. Data security grading
表1. 数据安全分级
数据安全级别 |
数据对象 |
核心数据 |
关系国家安全重点领域的数据,关系国民经济命脉、重要民生、重大公共利益的数据, 经国家有关部门评估确定的其他数据。 |
重要数据 |
特定领域、特定群体、特定区域或达到一定精度和规模的,一旦被泄露或篡改、损毁, 可能直接危害国家安全、经济运行、社会稳定、公共健康和安全的数据。 |
一般数据 |
核心数据、重要数据之外的其他数据。 |
海关数据分类同样借鉴国家相关标准,根据数据管理和使用的需求,结合前期已有的数据分类基础,灵活选择数据分类的层级和框架。海关数据分类需遵循以下原则:
(1) 客观准确:以货物实际状态和申报信息为依据,确保数据真实性。
(2) 统一规范:按海关统计商品目录归类,采用国际通用的HS编码体系。
(3) 动态调整:根据监管需求定期更新统计项目,如新增商品分类或调整国别代码。
(4) 多维度覆盖:包括商品属性(名称、规格)、贸易流向(原产地、目的地)、物流信息(运输方式)等。
3.2. 数据质量评估与保障体系研究
海关数据入湖的质量保障体系是确保数据可信可用的关键环节。海关数据质量管控流程需严格遵循海关的数据质量管控框架进行,该框架借鉴ISO 9001质量管理标准PDCA循环方法,持续改进和提升数据质量。数据质量管理架构包括数据质量问题收集与分析、数据质量检测及根因分析、数据质量整改及评估和数据质量持续提升及优化四个阶段。参考《国家统计质量保证框架(2021)》[11],结合海关数据特性,选取完整性、规范性、准确性、一致性、时效性等维度作为评估海关数据质量的指标。
针对质量评估中发现的问题,数据质量保障体系需建立质量修复机制,涵盖异常溯源、智能修正与考核问责,确保质量问题得到及时有效的解决。参考目前已有的高质量数据集建设经验,建立合理的数据质量修复机制,机制通过异常数据溯源工作流精准定位问题源头,依托自动修正与人工复核双通道实现数据修复,并通过将数据质量纳入关区年度绩效评估,形成强有力的制度约束,从而驱动数据质量持续改进。
3.3. 海关数据确权与实施路径研究
基于“数据二十条”,可以构建海关数据的“三权”总体设计框架,即数据资源持有权、数据加工使用权、数据产品经营权三权分置的制度体系。关于数据资源持有权,《中华人民共和国数据安全法》赋予了海关机构对核心数据的完全管辖权和控制权。同时,《中华人民共和国海关统计工作管理规定》明确了海关对进出口货物等进行统计的职责,并规定海关总署负责管理全国海关统计资料,这为海关作为数据持有者提供了直接的法律依据[12]。关于数据加工使用权,“数据二十条”在推动公共数据授权使用时,强调了“原始数据不出域、数据可用不可见”的要求,这直接支撑了海关在授予加工使用权时应遵循“授权不授原”的技术路径。关于数据产品经营权,“数据二十条”创造性地提出“数据产品经营权”分置的产权运行机制,并指出要“保护经加工、分析等形成数据或数据衍生产品的经营权”,这为海关数据产品进入市场流通提供了政策依据。
海关数据确权的实施路径可以“数据资源持有权、数据加工使用权、数据产品经营权”三权分置为制度基础,通过区块链全链路存证技术实现权利的确立、流转与执行,构建起“制度引领、技术赋能、权责清晰、流程可控”的海关数据治理新范式,实现从数据资源登记、授权使用到产品经营的全流程可信存证与自动化治理。通过分析研究现有确权模式与实践,结合海关数据资产的特点,内部数据确权以数据来源分类为基础,以责任闭环为核心。按照“谁投入、谁贡献、谁受益”原则,依法依规维护各相关主体数据资产权益。区块链技术作为一种分布式的、不可篡改的记账工具,为“三权分置”这个理论模型提供了落地的技术解决方案,它通过技术手段,将抽象的权利具象化为可追溯、可验证的数字记录。区块链全链路存证实现了“权利如何被记录和执行”[13]。
3.4. 海关数据“一数一源”实现策略研究
数据入湖实现“一数一源”,核心在于确保每一条数据在数据湖中都有唯一、准确、权威的源头,并在此基础上进行高效、安全的管理与应用。通过确定关键数据唯一数据源及其信息化应用系统,明确业务主管部门数据质量源头管控责任,实现“一点录入、多点调用”“一处变更,全网同步”,从源头解决数据质量问题,提升数据可信溯源和校核纠错能力,实现高质量数据供给、高效能数据使用。
海关“一数一源”的完整实现策略包括以下四个方面:一是从组织构建入手,建立权责清晰的治理架构;二是运用标准化的主数据,通过主数据全生命周期管理,对核心业务数据进行统一识别、标准化与全生命周期管控;三是依托手动方法、自动化工具和混合方法等数据血缘追踪技术,实现数据流转过程的透明化与可溯源性[14];四是建立常态化的数据监控与运营机制,定期评估数据质量与“一数一源”遵循情况,确保治理体系持续有效运行,从而形成从治理到运营的闭环管理,全面提升海关数据资源的竞争力。
4. 人工智能在海关数据入湖方面的应用探索
海关数据入湖是海关数据治理的基础,但传统方式面临元数据抽取效率低、数据质量监控难、安全风险预警滞后等挑战[15]。下面从智能元数据引擎、数据质量智能监测、数据安全态势感知三个维度探讨人工智能(Artificial Intelligence, AI)技术在海关数据入湖中的潜在创新应用,提出基于自然语言处理技术的元数据自动抽取、支持海关数据入湖的数据质量智能监测和海关数据安全风险预警等解决方案,为海关数据治理提供智能化路径。
4.1. 面向海关数据的智能元数据引擎
海关数据来源广泛,涵盖报关单、物流信息、企业信用记录等结构化与非结构化数据,元数据的标准化管理是数据入湖的前提。传统人工抽取方式存在效率低下、一致性差、覆盖不足等问题。通过引入智能元数据引擎技术,可以构建通关数据智能治理平台,实现数据资产的自动化管理、智能关联与高效应用。智能元数据引擎的核心功能包括:
(1) 元数据自动采集与分类。利用光学字符识别(Optical Character Recognition, OCR)、自然语言处理技术或AI大模型技术解析企业申报文本,自动提取关键字段(如商品编码、原产地),与海关规则库自动匹配。例如在加工贸易保税监管场景中,可以通过OCR和自然语言处理技术自动识别《加工贸易手册》与报关单的逻辑映射关系。首先,建立《加工贸易手册》电子档案库,通过OCR识别提取手册编号、备案料件、成品规格等关键字段;然后,运用命名实体识别技术自动抓取报关单中“备案序号”等要素,通过关系抽取模型构建“账册–报关单”关联规则;最后,开发深度学习方法检测“串料申报”等风险,比对申报商品编码与手册限定范围的一致性,识别“高报单耗”、“伪报品名”等典型违规模式,构建图神经网络分析企业多本账册间的关联性,发现“分本申报规避监管”等异常行为。
(2) 数据血缘分析与风险预警。通过元数据引擎追踪数据流转路径(如从申报到放行的全链路),识别异常数据(如申报价格与历史记录偏差过大),触发风险预警。例如,在海关特许权使用费引用场景中,通过数据血缘分析技术,能够追踪海关特许权使用费从合同备案到支付申报的全流程,确保税收征管的完整性和准确性。建立特许权使用费专用标识符,贯穿合同备案、申报、计税全链路追踪体系,开发溯源图谱技术,呈现资金流与货物流的关联对应关系,建立从基础交易合同→支付凭证→海关缴款书的全链条证据。
(3) 智能检索与决策支持。海关关员可通过自然语言查询,智能元数据引擎快速关联元数据并生成可视化报告。企业可通过平台自助查询数据合规性,减少因申报错误导致的通关延误。支持跨系统数据整合(如与税务、物流系统对接),辅助快速决策。
4.2. 海关数据质量智能监测
海关数据质量常见问题包括:完整性缺失,例如报关单缺少“集装箱号”“提运单号”等关键字段;一致性冲突,例如同一企业在不同系统中的“统一社会信用代码”表述差异;时效性滞后,例如物流信息更新延迟导致风险预警响应时间超时。传统人工核查方式难以应对海量通关数据,而智能监测通过自动化校验规则可实时识别数据错误,提升错误数据和异常数据的识别效率。通过监督学习与无监督学习相结合,构建分层数据质量监测体系。可以利用特征工程提取“字段填充率”“数值分布”“时间间隔”等特征。采用机器学习算法训练分类模型,对“空值”“重复值”“逻辑冲突”等异常类型进行识别。通过聚类算法对相似数据分组,检测离群点数据。数据质量智能监测系统输出多维评估指标,关员结合业务经验进行最终处置决策。
构建支持海关数据入湖的数据质量智能监测系统,需融合数据治理与智能监管技术数据质量智能监测系统,实现以下功能:
(1) 数据质量评分模型。构建数据质量评分模型,对每条数据从完整性、一致性、时效性等多个维度打分,低于阈值的数据自动标记为“待修复”。
(2) 模型持续迭代与异常模式识别。当数据质量评分模型性能下降时,系统自动分析错误案例并优化指标权重。应用机器学习分析历史数据,自动发现异常类型数据和离群点数据。
(3) 可视化看板与人机交互界面。通过热力图展示各业务环节的数据质量分布和问题分布,支持钻取至具体业务单据。人机交互界面提供可解释的预警依据(如风险传播路径可视化、相似案例对比等)。
4.3. 海关数据安全态势感知
构建海关数据安全态势感知系统需融合智慧海关建设经验与数据安全技术框架,结合多模态大数据分析能力,形成覆盖监测、预警、响应的闭环体系[16]。通过规则引擎联动AI模型,对高风险数据自动触发处置建议(如拦截、人工复核)。通过AI模型分析处置结果,利用强化学习优化决策策略,形成闭环反馈,持续提升风险识别准确率。打破“信息孤岛”,通过联邦学习技术实现海关与边检、税务等部门的数据安全共享,同时保护隐私。记录AI模型的决策过程,满足监管合规要求。
在系统架构设计方面,在数据融合层,整合海关业务系统(如旅检监测、货运查验、智能卡口等)产生的结构化与非结构化数据,同时接入外部威胁情报源(如公安部门数据、国际反走私数据库),通过标准化接口实现跨系统数据互通,打破数据壁垒。在智能分析层:应用AI模型对货物申报、人员通关等数据进行异常检测,结合规则引擎与机器学习算法识别潜在风险,通过三维建模与数字孪生技术,复现关区物理环境与数据流动态势,实现风险热力图、事件轨迹等动态展示。在关员决策层:综合AI模型建议、业务经验、政策变动等要素,由关员做出最终裁定。AI模型的核心价值在于提升关员研判效率。
在核心技术支撑方面,采用流式计算与批处理结合的技术栈,处理视频监控、物流单据、传感器日志等多源异构数据,构建统一的数据血缘图谱。部署联邦学习框架,在保障数据隐私的前提下实现跨部门模型训练。应用区块链技术确保关键操作日志不可篡改,满足审计合规要求。
在运行机制方面,采用分级响应策略,根据风险等级划分处置流程。低风险场景由AI模型自动拦截并生成报告,高风险事件触发人工复核与跨部门协同处置。建立“数据标注–模型训练–效果评估”闭环,通过错误案例反哺模型优化,动态更新风险特征库。
5. 结论
基于数据治理框架与标准,结合海关数据治理工作实际,本文提出了海关数据入湖相关标准体系。在调研国内外数据治理框架与标准基础上,结合海关数据治理和数据入湖实际,构建了海关数据分级分类原则的基本理论框架和数据质量评估与修复的保障体系。提出了海关数据确权的实施路径,以“数据资源持有权、数据加工使用权、数据产品经营权”三权分置为制度基础,通过区块链全链路存证技术实现权利的确立、流转与执行,构建起了“制度引领、技术赋能、权责清晰、流程可控”的海关数据治理新范式。提出了海关“一数一源”的实现策略,依托数据血缘追踪技术,实现数据流转过程的透明化与可溯源性。最后,从智能元数据引擎、数据质量智能监测、数据安全态势感知三个维度探讨了人工智能技术在海关数据入湖中的潜在创新应用,为智慧海关数据治理提供智能化路径。
基金项目
本工作得到了海关总署科研项目“数据入湖相关标准的研究”(项目编号:2024HK298)的支持。
NOTES
*通讯作者。