作者:
张永新,李庆忠,彭朝晖,ZHANGYong-Xin,LIQing-Zhong,
关键词:
数据冲突解决;Markov逻辑网;数据集成;冲突程度;推理规则
摘要:
在数据集成中,如何准确地解决数据冲突是关系集成数据质量的关键问题.现有的方法主要针对单 个属性进行冲突解决,由于没有区分不同属性的冲突程度,也没有考虑不同属性间冲突解决的相互影响,导致数据冲突解决的准确率不高.针对现有方法存在的不 足,文中提出一种基于Markov逻辑网的两阶段数据冲突解决方法.该方法可以根据冲突程度对属性进行划分,并分两阶段进行处理:(1)在第1阶段,对于 弱冲突属性,利用投票规则及事实之间相互印证等简单规则进行冲突解决;(2)在第2阶段,利用了第1阶段冲突解决的结果,在规则中加入数据源与事实之间的 相互影响规则、数据源之间相互依赖规则及弱冲突属性对强冲突属性影响规则,对强冲突属性进行冲突解决.通过在大量真实数据上的实验结果证明,该方法能够有 效地解决集成数据的冲突问题,具有较高的准确率.
在线下载