1. 引言
如今,数据已成为与土地、劳动力、资本、技术等并列的关键生产要素,被誉为“21世纪的石油”,在各行各业的发展变革中发挥着引领作用。然而,在数字化转型的大背景下,尽管数据流通领域受到了空前的关注,各方也在积极探索数据的开发与流通,以实现充分释放数据要素潜力的目标,但我国数据要素市场尚未充分激活,其中一个关键障碍在于当前缺乏统一、科学的数据质量评价体系,导致数据在流通过程中“质”的问题难以量化,进而影响其应用价值的有效释放。数据质量是衡量数据有效性和可用性的核心标准。高质量的数据能够支撑更精准、更复杂的分析决策过程,助力人工智能、智能制造、精准营销等关键应用场景落地。因此,构建合理、可操作性强的数据质量评估方法,已成为当前数据要素市场亟需突破的难题。在此背景下,数据质量评估的重要性愈发凸显,成为推动数字经济高质量发展的关键一环。
2. 文献综述
随着数字经济的迅速发展,数据质量评估已成为数据管理与应用中的关键环节,其核心在于通过科学的方法或模型,对数据的优劣进行系统判断。早期研究多将数据质量等同于“准确性”,但随着数据应用场景的不断丰富,单一的维度已难以全面反映数据的价值与使用效果。因此,学界逐渐从多元视角出发,拓展了数据质量的内涵与评估方法。
从评估方法的分类来看,目前数据质量评估主要包括定性评价、定量评价和综合评价三种类型。定性方法主要从数据使用者的主观视角出发,通过观察、分析与判断构建或优化评价指标体系[1],常用方法包括专家评价法、用户反馈法及第三方评测法[2]。定量方法则以客观数据为基础,利用统计分析与指标评分等手段对数据质量进行量化描述,适用于结构化数据的质量评估[3]。综合评价方法融合了定性与定量的优势,在保留主观判断灵活性的同时,提升了评估结果的科学性与稳定性,已成为当前研究中应用最为广泛的方法之一,常见方法包括模糊综合评价法、层次分析法、德尔菲法与扎根理论等[4]。
在具体应用中,研究者逐步由单一评价指标向多维度建模转变,并引入多种权重分配方法,以增强评估体系的系统性与适用性。郭亚军[5]结合层次分析法与扎根理论,构建了适用于AIGC场景的数据质量评估模型;宋俊典[6]则基于层次分析法方法设计了包含权重集合、隶属函数与特征值集合的多维综合评价框架,实现了指标的系统判定。此外,针对电力行业的数据质量评估,王杨琛[7]采用熵权法计算各维度指标的客观权重,并引入灰色评估法确定数据质量等级;杨栋枢[8]则将层次分析法与熵权法相结合,构建了面向电力企业的数据质量综合评价模型;计蓉[9]通过模糊层次分析法与熵权法联合确定权重,再借助模糊综合评价法依据隶属函数评定数据质量等级。相关研究表明,层次分析法因其结构严谨、层次清晰,在数据质量权重确定中应用最为广泛;而熵权法则多用于电力等特定行业,尚未在更广泛的数据应用场景中普遍推广。
值得注意的是,当前将层次分析法与熵权法进行组合的研究仍较为有限。作为一种融合主观判断与客观数据的组合赋权方法,该方法能够整合不同权重模型的计算结果,有效降低单一方法带来的偏差与不确定性。在实际应用中,层次分析法主要依赖专家打分,易受主观因素影响,导致评价结果波动较大。而熵权法则通过指标在数据集中所包含的信息量及其分布特征,客观地确定各指标的权重。为克服传统方法的局限,提升评价结果的科学性与稳健性,本文拟综合运用层次分析法与熵权法,对数据质量评价指标体系进行组合赋权。
3. 研究设计与方法
3.1. 评价方法
在构建数据质量评价体系的过程中,科学合理地确定各评价指标的权重,是确保评价结果客观性与有效性的重要前提。为此,采用层次分析法(Analytic Hierarchy Process,简称AHP)与熵权法(Entropy Weight Method,简称EWM)相结合的方式进行评价,以实现主观判断与客观数据的有机融合,从而提高评价体系的全面性与可靠性。
层次分析法是一种结合定性与定量分析的多准则决策方法,由美国运筹学家托马斯·塞蒂(T. L. Saaty)提出。该方法将复杂问题分解为多个层次结构,先进行定性分析以明确各因素间的逻辑关系,再利用特征向量的数学计算方法,获取各因素在层次结构中的相对权重。具体而言,AHP通过构建层次结构模型,将目标分解为多个子目标,并通过矩阵特征向量计算各层次的权重,最终通过加权求和递归计算出目标权重。
熵权法则是一种通过客观赋权进行综合评价的方法,能够根据评价指标在样本数据中的分布特征来调整其权重。该方法以信息熵为基础,衡量各指标值的离散程度。当某评价指标的熵值偏低,意味着该指标在样本之间存在较大差异,信息贡献较高,因此在评价中应分配更大的权重;反之,若某指标的熵值较高,则说明其分布较为均匀,所含信息有限,对最终结果的影响较小,应给予较低的权重。熵权值常被称为修正系数,可用于修正指标的初始权重,从而增强权重设置的客观性。
通过AHP法引入专家经验与结构性判断,结合EWM对样本数据的分布特征进行客观分析,构建了一套更具理论依据与实际适应性的权重确定方法,为后续数据质量的综合评价提供坚实基础。
3.2. 数据质量评价指标体系的构建
目前,数据质量评估维度相关研究成果颇为丰硕。众多学者基于各自的研究视角,针对不同的数据质量维度提出了多样化的评估指标框架,如表1所示。
Table 1. Data quality evaluation indicators
表1. 数据质量评价指标
研究者 |
具体评价指标 |
年份 |
Xu T [10] |
完整性、一致性、唯一性、准确性、相关性、及时性、可操作性、可理解性、可访问性、成本、盈利能力、风险性 |
2024 |
Wang J [11] |
完整性、准确性、及时性、一致性、相关性 |
2024 |
计蓉[9] |
完整性、准确性、唯一性、一致性、及时性 |
2024 |
王梦婷[12] |
完整性、时效性、准确性、规范性、一致性 |
2024 |
Gong Y [13] |
完整性、自我一致性、及时性、保密性、准确性、标准化、无偏性、易用性 |
2023 |
王景鸿[14] |
准确性、一致性、冗余性、完整性、时效性 |
2023 |
黄倩倩[15] |
规范性、完整性、准确性、一致性、时效性、可访问性 |
2022 |
Taleb I [16] |
完整性、一致性、准确性、及时性 |
2021 |
Zhang H [17] |
准确性、可及性、完整性、及时性、一致性、可理解性 |
2020 |
Yang J [18] |
准确性、完整性、冗余性 |
2019 |
Cichy C [19] |
完整性、及时性、准确性、一致性、可访问性 |
2019 |
El Alaoui I [20] |
可靠性、可用性、相关性 |
2019 |
王明政[21] |
完整性、一致性、精确性、规范性、时效性、丰富性、可恢复性、可交换性 |
2019 |
李晶晶[22] |
依从性、保密性、准确性、完整性、一致性、时效性、易访问性 |
2018 |
张晓冉[23] |
正确性、完整性、一致性 |
2018 |
Stahl F [24] |
准确性、数据量、可用性、完整性、延迟、响应时间、及时性 |
2016 |
通过对过往研究梳理发现,不同学者在数据质量评估中采用的维度标准存在较大差异,这种差异性导致评估结果在方法和结论上呈现多样化趋势。尽管维度设置越丰富,理论上越有助于更全面地反映数据质量,但维度过多也可能引发指标交叉、评估重复等问题。比如,时效性和及时性在定义上高度重合,准确性、规范性、精确度等指标的评估目标是判断数据是否真实可靠。
因此,本研究首先对现有研究中提出的数据质量维度进行了系统梳理与归类,在统计分析基础上发现,完整性、准确性、时效性是出现频率较高的维度,而冗余性虽不常作为独立指标,但在部分研究中以数据的唯一性或规范性体现其评估功能,具备独立使用的基础。
基于上述分析,本文选取完整性、准确性、冗余度和时效性四个维度构建数据质量评估体系,如表2所示。这些指标在前人研究中具有较强的代表性,内涵区分明确,能够减少冗余,提高评价模型的简洁性与逻辑清晰度。此外,这四个维度分别从数据的结构完整性、内容正确性、重复程度和时间相关性等不同层面展开,关注点相互独立,能够避免指标间的交叉与重复,为后续的量化分析提供良好基础。
Table 2. Data quality metrics and their definitions
表2. 数据质量指标及其定义
评价指标 |
指标解释及说明 |
完整性Q1 |
数据缺失或空白的程度 |
准确性Q2 |
数据与真实数据的接近程度 |
冗余性Q3 |
相同字段重复出现的程度 |
时效性Q4 |
及时、有效地获取数据的水平 |
1) 数据完整性计算
数据完整性反映了数据集或数据库中信息项的完备程度,是衡量数据质量的重要指标之一。保障数据的完整性有助于避免因信息缺失而引发的误操作或错误输出,从而提高数据应用的有效性。其计算公式如式(1)所示。
(1)
其中,ic表示缺失数据的单元格数量,tnc为单元格总数。值越接近1,表示完整性越高。
2) 数据准确性计算
准确性是数据质量的核心组成部分,用于衡量样本信息在多大程度上能够真实反映客观现象。准确性的计算如式(2)所示。
(2)
其中,ec代表存在错误记录的单元格数量。该指标越高,说明数据的真实程度越强,可信度越高。
3) 数据冗余性计算
冗余性反映的是数据库中同类信息出现重复的程度,特别是字段或数据行的重复。在实际应用中,冗余过多会引发数据异常、冲突或不一致等问题,从而降低整体质量。其计算公式如式(3)所示。
(3)
其中,dr为重复记录的行数,tnr是数据的总行数。该值越大,冗余程度越低,数据质量越优。
4) 数据时效性计算
数据的时效性评估反映数据产品的产生或提供是否及时,高时效性的数据能更好地支持决策分析,尤其在时间敏感场景中尤为关键。滞后产生或延迟获取的数据可能导致结果失真,降低数据价值。以交付时间dt为参考,若数据实际采集时间为it,其计算公式如式(4)所示。
(4)
其中,
的得分越高,说明数据生成或获取越及时,满足时效性需求的程度越高。
4. 数据质量评价指标权重计算
上一节已针对数据质量评估维度开展量化剖析。但在实际应用中,各个指标的重要程度存在差异,若在评估时对各维度一概而论地赋予相等权重,极有可能降低数据质量评估结果的科学性与准确性。就准确性来说,其作为数据质量的关键属性,体现了数据与客观实际的契合度,这几乎是所有数据使用者对数据的基础要求,理应在权重分配中占据较大比例;而时效性则在部分特定场景中才具有显著价值,其相对重要性较低。基于此,有必要对各指标的重要程度进行合理赋权,以提高评估模型的可靠性与适用性。本节将进一步阐述AHP和EWM这两种方法的具体应用过程,并介绍主客观权重的融合方法,以实现数据质量综合权重的科学计算。
4.1. 层次分析法
层次分析法通过将整体问题按逻辑关系分解为多个层次结构,从而简化分析过程、增强问题的透明度与可理解性。其具体实施流程如下:
1) 构建层次结构图,见图1
2) 建立判断矩阵
判断矩阵的元素通过两两比较各维度指标的重要性来赋值。通常采用九级标度法,依据专家意见对指标相对重要性进行量化。具体标度方法如表3所示。
为了确定各数据质量维度的相对权重,本文设计了《专家意见征询打分表》,向12位专家发放问卷,其中包括7位高校教授和5位企业管理者。问卷采用1~9标度的成对比较方式,邀请专家根据前述四个数据质量维度之间的重要性关系进行打分。根据专家评分结果,构建了数据质量维度重要性比较的判断矩阵,具体数值如表4所示。
Figure 1. Data quality evaluation index system
图1. 数据质量评价指标体系
Table 3. Judgment matrix of data quality dimensions
表3. 数据质量维度判断矩阵
标度 |
含义 |
1 |
表示两个指标相比较,具有同等重要性 |
3 |
表示两个指标相比较,前者相较于后者略为重要 |
5 |
表示两个指标相比较,前者比后者显著重要 |
7 |
表示两个指标相比较,前者比后者极为重要 |
9 |
表示两个指标相比较,前者比后者绝对重要 |
2、4、6、8 |
表示上述相邻判断之间的中间取值 |
Table 4. Judgment matrix of data quality dimensions
表4. 数据质量维度判断矩阵
指标 |
完整性 |
准确性 |
冗余性 |
时效性 |
完整性 |
1 |
1/2 |
4 |
1/3 |
准确性 |
2 |
1 |
7 |
2 |
冗余性 |
1/4 |
1/7 |
1 |
1/8 |
时效性 |
3 |
1/2 |
8 |
1 |
根据上表的数值可以构造矩阵A。
(5)
3) 一致性检验
一致性检验用于评估多准则评判中的逻辑一致性,通过量化专家在比较不同要素权重时的协调性,确保评估结果的内在一致性,并能有效检测打分过程中的逻辑矛盾。通过SPSS软件计算出判断矩阵的最大特征值为
,再根据式(6)计算一致性指标CI。
(6)
其中,n为判断矩阵的阶数。
最后计算一致性比率CR,CR的计算如式(7)所示。
(7)
其中,RI表示平均随机一致性,通过查表5获取。
Table 5. RI section value
表5. RI部分取值
n |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
RI |
0 |
0 |
0.52 |
0.89 |
1.11 |
1.25 |
1.35 |
1.4 |
1.45 |
根据上述一致性检验的计算步骤,该判断矩阵的一致性指标为CI为0.005,结合表5中提供的随机一致性指标,当指标维度为
时,RI的取值为0.89,依据公式(7)计算一致性比率CR为0.0056。由于CR值明显小于0.1,说明该判断矩阵具有良好的一致性,满足层次分析法对一致性检验的基本要求。
4) 计算权重
在通过一致性检验之后,就可以求解权重向量。根据式(8)判断矩阵A的每个元素按列归一化处理。
(8)
计算得到归一化后的判断矩阵如表6所示。
Table 6. Normalized judgment matrix
表6. 归一化后的判断矩阵
质量维度 |
完整性 |
准确性 |
冗余性 |
时效性 |
完整性 |
0.160 |
0.233 |
0.200 |
0.096 |
准确性 |
0.320 |
0.467 |
0.350 |
0.578 |
冗余性 |
0.040 |
0.067 |
0.050 |
0.036 |
时效性 |
0.480 |
0.233 |
0.400 |
0.289 |
得到归一化后的判断矩阵,按式(9)对矩阵
的每一行元素求和。
(9)
最后,将每行元素除以列和,如式(10)所示,得到各维度指标i的权重。
(10)
结合式(9)和式(10)计算得到数据质量各指标权重
。最终,基于层次分析法计算得到的数据质量指标的权重向量为
。
4.2. 熵权法
采用熵权法对数据质量维度的各项指标权重进行计算,能够在一定程度上克服人为主观因素带来的偏差,提升权重分配的客观性和科学性,从而使评价结果更加合理准确。熵权法的具体实施步骤如下:
1) 评语集和指标集的确定
传统的熵权系数法在处理评估问题时,通常假设存在m个评价对象以及n个评估指标,然而,这种设定方式并不完全符合本研究对数据质量评价的具体需求。因而本研究设定针对数据质量评价的集合为
,
。将数据质量评价分为5个等级,具体的等级划分规则如表7所示。
Table 7. Importance level of data quality evaluation indicators
表7. 数据质量评价指标重要性等级
等级 |
评分 |
描述 |
非常不重要 |
1分 |
该指标对整体评价几乎没有影响 |
不重要 |
2分 |
该指标对整体评价影响较小 |
中等重要 |
3分 |
该指标对整体评价有一定影响 |
重要 |
4分 |
该指标对整体评价影响较大 |
非常重要 |
5分 |
该指标对整体评价极为重要 |
数据质量评价维度指标的集合记为
,
。
2) 评价矩阵的建立
采用德尔菲法,征集12位专家对数据质量评估指标重要程度的打分情况,进而构建起相应的评估矩阵
,其中
为数据质量维度数,即
,m为评价等级总数,即
。评价矩阵的元素
表示数据质量维度
被评为等级
的次数,初始评估矩阵T为4 × 5的矩阵,每一行对应的评价维度分别是完整性、准确性、冗余性和时效性,如式(11)所示。
(11)
为体现不同评价等级的区分度和重要性,通过将每个评价等级对应的评分与评价频次相乘,得到评价矩阵的元素,如式(12)所示。
(12)
由此,获得加权评价矩阵
,如式(13)所示。
(13)
3) 指标权重的计算
在前文通过专家打分和统计分析构建了评价矩阵的基础上,进一步引入信息熵理论,以此来求解各指标的权重。
加权评估矩阵
用于反映各维度在不同评分等级下的加权得分。矩阵元素由评分值与相应被选次数相乘得出。由于加权后数值差异较大,若直接用于计算,可能造成权重失衡,因此有必要进行标准化处理。为消除各指标间量纲不一致带来的影响,并保持评分之间的相对差异,本文采用极差标准化(Min-Max Normalization)方法对矩阵数据进行归一化处理,标准化公式如式(14)所示的标准化公式。
(14)
其中,
表示第i个维度在第j个评分等级下的加权得分,
为标准化后的值。该方法可将所有评分归一至[0,1]区间,保证各维度数据在同一数量级下进行信息熵的计算。由此得到如式(15)所示的标准化评估矩阵
。
(15)
在完成矩阵的标准化处理后,我们能够更准确地计算评价指标
被评为等级
的相对频率
,如式(16)所示。
(16)
则评价指标
的熵值
的计算如式(17)所示。
(17)
可求得数据质量指标的信息熵如表8所示。
Table 8. Entropy values of quality indicators information
表8. 质量指标信息熵值
质量维度 |
完整性 |
准确性 |
冗余性 |
时效性 |
ei |
0.807 |
0.593 |
0.865 |
0.707 |
最后,可根据式(18)求解得到评价指标
的权重值
。
(18)
则数据质量指标的客观权重向量为
。
4.3. 组合权重
上文详细地介绍了使用层次分析法和熵权法计算数据质量维度权重的过程,然而,这两种方法都存在一定的局限性,难以单独准确地反映评价指标的真实权重。其中,主观权重依赖于专家的专业知识和经验积累,能够体现领域专家的判断,但在一定程度上缺乏客观性和稳定性;而客观权重则基于数据的客观表现,能够较为真实地反映数据特征,但缺乏对特定领域专业知识的考量。因此,结合两种方法计算综合权重,有助于提高权重分配的客观性和准确性。
运用几何平均法,将主观权重与客观权重进行综合,从而计算得出组合权重
,其计算如式(19)所示。
(19)
其中,
为主观权重,
为客观权重。
通过计算可得,数据质量评价的组合权重向量为:
。结果表明,在本研究构建的数据质量评估模型中,准确性和时效性是最为关键的指标。该结果在逻辑上与现实数据使用需求高度契合:准确性保障了数据本身的可靠性,是各类数据分析与决策的基础;而时效性则确保数据内容能够真实反映当前状态,是动态环境下数据价值得以实现的前提。
5. 数据质量评估模型应用
结合前述所确定的数据质量维度及其组合权重,本文构建了一个加权评分模型,以量化衡量数据质量水平的优劣,具体计算如式(20)所示。
(20)
其中,
表示第i个数据质量维度的权重,
表示样本数据在该维度上的得分。
该评价函数
可用于对数据样本整体质量的定量评估,其值越高,表明该组数据在多个质量维度上的表现越优,整体数据质量水平越高。能够更全面、系统地反映数据质量的实际状态,兼顾了主观权重与客观表现的结合。实现对不同数据样本间质量差异的横向比较,也为数据资源在流通、利用等阶段的质量评估奠定了方法基础。
6. 结论
在数字化转型不断加速的背景下,数据已成为重要的战略性资源,其质量直接关系到数据要素价值的释放和数字经济的健康发展。当前我国数据要素市场尚处于起步阶段,亟需建立科学有效的数据质量评价体系,以促进数字经济的发展。
为此,本文聚焦于数据质量评估问题,构建了包含准确性、完整性、冗余性和时效性四个维度的评价指标体系,并引入层次分析法与熵权法相结合的方式,确定各维度权重,最终形成加权综合评分函数
,实现了对数据质量水平的量化衡量。研究结果表明,准确性和时效性是影响数据质量的核心因素。在模型中权重最高,说明数据是否真实可靠、能否及时更新,是决定其有效性的关键要素。因此,建议在数据采集、处理与管理过程中,优先保障数据的准确性与更新的及时性,通过完善校验机制与优化更新流程,切实提升整体数据质量水平。本研究所构建的评估模型兼顾主观判断与客观数据特征,具备较强的适用性和可扩展性。不仅为数据资源的流通与利用提供了评估依据,也为构建规范、有序的数据要素市场提供了方法支持。
不过,需要指出的是,不同应用场景下,各质量维度的重要性可能存在显著差异。例如,在金融实时风控系统中,时效性的重要性可能优于完整性;而在医疗记录管理或政务档案等数据场景中,完整性与冗余控制可能更受重视。因此,本文模型的评估结果具有一定的情境依赖性,需结合实际应用场景进行灵活调整。未来可进一步完善不同行业场景下的评价指标体系,提升模型适用性。