1. 引言
随着大数据时代的快速发展,通信和网络都可为人们提供大量的信息,如何利用已掌握的知识,面对不断变化的环境与条件进行决策等问题是我们面临的重大难题。作为数据库的抽象信息系统在实际生活中大量存在。数据库是非常庞大的,很难直接从中得到我们想要的信息,因此,在海量的信息中,提取知识,识别出正确,新颖,有潜在应用价值的最终可为人们理解的模式,就是我们研究的重点。
粗糙集是1982年英国数学家pawlak提出的理论[1],该理论是一种处理不确定的,不精确信息的数学工具。自提出以来,得到了很多学者的关注和研究,并已应用到了决策分析模式识别数据挖掘等领域[2] [3]。
多源数据作为复杂数据之一,如何简化,多源信息系统的信息融合也是近几年研究的一个热点。在文献[4]-[6],分别讨论了多粒度粗糙集与证据理论相结合的信息融合方法、基于矩阵的多粒度融合方法在多源信息中动态更新知识、多源不完全区间值信息系统中信息源和属性变化的动态融合等内容。在文献[7]中,作者研究了多源信息系统中的决策规则挖掘。有时我们得到的信息源有可能不仅是不完备的而且并且具有一定程度的不确定性和模糊性,针对模糊且不完备的信息源如何进行融合,在文献[8],作者将多源不完备信息系统的融合方法应用到模糊多源不完备信息系统中。从中可以看出,由于大数据时代数据的多源异构特点,使得对多源数据的应用开发,合理选择,进行信息融合等问题成了这些年研究的热点之一。
多源数据作为复杂数据之一,是指从同一时间从不同源头获取的信息,对于很多决策者而言,从多方面获取的数据比从单一渠道获得的数据更加全面,实用和可靠。但由于多源数据的多而复杂,无法从中直接获取想要的信息。因此,这些年对多源数据的信息融合研究居多,不同的考虑结果下会有不同的信息融合结果,如文献[9]-[11]分别考虑了焦点信念权重的多源信息融合,一种用于基于方面的情绪分析的新型多信息融合与交互神经网络,多源信息融合中使用非参数合理性Relief算法评估信息源的可靠性。这些都是在不同的背景和数据系统中进行的信息融合,所采用的方法也各不相同。那么对于多源数据及多源信息系统的处理,找到一个简便而有效的信息融合方法就尤为重要。
在文献[12]中,作者基于多粒度思想,讨论了多源数据的知识获取,在此文中作者提出信息融合是将多源信息系统转化为单源信息系统,针对多粒度标记决策信息系统,主要研究的是最优粒度的选择,指依据不同的目标从多粒度标记信息系统中选择一个能达到某种预设要求的信息系统。对此,有很多学者在不同的信息系统做了最优选择的研究,如在文献[13]中,作者讨论了协调的不完备多粒度标记决策系统的最优粒度选择。文献[14],作者讨论了多尺度信息系统的粒度。在文献[15]中,作者假设每个属性粒度级别相同,研究了多粒度标记决策表的最优粒度选择。文献[16]讨论了多决策的多粒度标记信息系统的最优选择。基于同样的假设,学者们在文献[17]-[20]中进一步讨论了,多粒度粗糙集与证据理论相结合的信息融合方法,多粒度标记决策信息系统的规则提取方法和知识获取算法,以及粗糙集的最优近似等问题。这些研究都是基于多粒度粗糙集的知识获取进行了信息融合。在文献[21]-[24]中,学者们在不同的领域用多粒度思想解决了多源数据及信息系统的处理。
事实上,最优粒度的选择是指从多个属性取值有规律的信息系统中选择一个满足问题求解的信息系统。多源信息系统的信息融合和多粒度标记决策信息系统的最优粒度选择,都是基于特定问题的求解需要,选择一个或构造一个满足预定要求的信息系统。因此,我们基于多粒度的思想讨论多源信息系统的最优信息源选择,以便更方便,快捷地得到所需要的信息。
经过研读上述有关多粒度和不同信息系统的相关文献,发现上述研究还可以对不同的信息系统应用多粒度思想进一步地进行拓展和研究。
下面我们引入相关定理及概念。
2. 基础知识
定义2.1 [3] 称
是一个信息系统,其中
为对象集,即
,
中的每个元素
称为一个对象。
为属性集,即
,
中的每个元素
称为一个属性。
为
与
之间的关系集,即
,
其中
为
值域。
定义2.2 [4]设
是多源信息系统。其中,
为单源信息系统
为
和
之间的一个关系集,即
,其中,
是
的值域
.
定义2.3 [13]在经典的信息系统
中,每个对象
在属性
上只取一个确定的值,这就是单粒度信息系统。如果信息系统
中的每个对象在同一个属性上,根据不同的粒度层面取不同的值,则信息系统
是一个多粒度信息系统。
定义2.4 [16]设
为多粒度标记决策信息系统,对任意的
,关于
的广义决策函数为
。若
,则
协调,否则不协调;若进一步满足
,则称
协调。当
不协调时,若
,则称
在
中是协调的。
定义2.5 [16]设一个多粒度标记决策信息系统为
,若
协调,则第
个粒度层次最优当且仅当
协调且若存在
则
必不协调;若
不协调,第
个水平粒度最优当且仅当
在
是协调的而且若有
,
必不协调。
定义2.6 [17]在不完备多粒度决策系统
中,对于给定的
,若
是协调的,而
是不协调的,则称
层粒度是全局最优的粒度。若
是协调的,则称
层粒度是全局最优粒度。
对于
,给定若
成立,而
成立,而
不成立,则称
层粒度是关于对象
的局部最优粒度.若
成立,则称
层粒度关于对象
的局部最优粒度。
定义2.7 [17]在不协调的不完备多粒度决策系统
中,对于任意的
,
都是不协调的。
下面引入对象
的广义决策函数
:
对于
,若
,都有
,则称
是广义协调的。对于给定的
,若
是广义协调的,而
不是广义协调的,则称
层粒度是广义全局最优粒度;若
是广义协调的,则称
层粒度是广义全局最优粒度。
定义2.8 [17]在不完备多粒度决策系统
中,对于
,给定
,若
成立,而
不成立,则称
层粒度是关于对象
的广义局部最优粒度;若
成立,则称
层粒度是关于对象
的广义局部最优粒度。
3. 多源决策信息系统的最优选择
令
是一个决策信息系统,其中
是论域,
,
是条件属性集,
是决策属性集,
是第
个系统中的条件属性的值域,即
。
在下文中,我们讨论所有决策信息系统中条件属性集
与决策属性集
都相同,即
。换言之,我们所讨论的多源信息系统是基于相同论域,相同属性,但每个信息系统重的属性值不同。
3.1. 多源决策信息系统的最优信息源选择
定义3.1.1设
为多源决策信息系统,其中,
为单源信息系统,则多源决策信息系统是由
个单源信息系统构成,即
,
其中
,
。
定义3.1.2设
为多源信息系统,对任意的
,在
上关于决策集
的广义决策函数为
,
其中
。
定义3.1.3设
为多源决策信息系统,若
,则
协调,若进一步满足
,则称
协调,否则不协调。当
不协调时,若
,则称
在
中是协调的。
定义3.1.4设
为多源决策信息系统,若
协调当且仅当
协调且
时,
不协调,则第
个信息系统最优;当
不协调,第
个信息源数据最优当且仅当
在
中是协调的,而且若有
,
在
中必不协调。
例3.1.1设多源决策信息系统(如图1所示),论域
,分别从不同的四个信息源得到的属性集
,决策属性
。
Figure 1. Multi-source information system
图1. 多源信息系统
我们可以求得关于多源决策信息系统的单源信息系统划分如下:
根据定义3.1.3,在
多源决策信息系统中,若
,则
协调。
又
根据以上划,我们可以看到
,则
为协调的多源决策信息系统。
,
则
为协调的;
是不协调的;
所以第2个信息系统是最优的信息源。
定理3.1.1设
为多源决策信息系统,则
协调当且仅当对任意
,恒有
。
证明:由定义3.1.3,3.1.4易证得。
3.2. 协调的多源决策信息系统的最优信息源选择
在多源决策信息系统中,不同来源的信息系统会有不同的决策规则,为了使最终提取的规则具有更好的贴合性和准确性,我们首先根据对象选择局部最优信息源;然后在保持协调性不变的基础上进行局部相对约简,最后按“条件→决策”的形式按规则。
从多源信息系统中提取出来。
定义3.2.1多源决策信息系统
中,对于
,给定
),若
成立,其中,
,而
不成立,
,则称第
个信息源是关于对象
的局部最优选择,若
成立。则称
层信息是关于对象
的局部最优信息源。
例3.2.1续例3.1.1中的多源决策信息系统
,
关于每个对象
局部最优选择如下:
,关于
的局部最优信息源是
信息系统。
,关于
的局部最优信息源是
信息系统。
,关于
的局部最优信息源是
信息系统。
,关于
的局部最优信息源是
信息系统。
,关于
的局部最优信息源是
信息系统。
,关于
的局部最优信息源是
信息系统。
,关于
的局部最优信息源是
信息系统。
,关于
的局部最优信息源是
信息系统。
,关于
的局部最优信息源是
信息系统。
,关于
的局部最优信息源是
信息系统。
显然,在全局最优的第2层信息源上,只有对象
达到最优,
的局部最优信息源为第三个信息系统,因此不同对象会在不同的信息系统上达到最优。
定义3.2.2在多源决策信息系统中
中,给定对象
的局部最优信息系统
,存在
,使
成立,其中,
且对于任意
不成立,则称
是
关于对象
的局部相对约简。
例3.2.2对于例3.1.1中的多源决策信息系统
,由3.2.1可知,关于对象
的局部最优信息源为第二信息系统
,在
中,
的相似类为
,
的相似类为
。
则在第二个信息系统中,
是
关于对象
的一个局部相对约简。
关于对象
的局部最优信息源为第三信息系统
,在
中,
的相似类为
,
的相似类为
,
的相似类为
,
的相似类为
。则在第三个信息系统中,
是关于对象
的一个局部相对约简。
例3.2.3对于例3.1.1中的协调的多源决策信息系统
,由例3.2.1和3.2.2可以得到提取局部最优信息源的规则如下:
,支持集为
;
,支持集为
;
,支持集为
;
,支持集为
;
,支持集为
;
,支持集为
;
3.3. 不协调的多源决策信息系统的最优信息源选择
在不协调的多源决策信息系统
中,对于任意的
,
都不协调。
定义3.3.1设
为一个多源决策信息系统,对象
的广义决策函数
其中,
对于
,若
都有
,则称
是广义协调的,对于给定的
,若
是广义协调的,而
不是广义协调的,则称第
个信息源是广义全局最优的信息系统。若
是广义协调的,则称第个
信息系统是广义全局最优信息系统。
例3.3.1设多源决策信息系统
(如图2所示),论域
,属性集
,决策属性
。
Figure 2. An uncoordinated multi-source information system
图2. 不协调的多源信息系统
,显然多源信息系统是不协调的。
进而,由定义3.3.1.可求得该多源信息系统中所有对象的广义决策函数值如图3所示。
显然,
,
成立,而
。即
是广义协调的;
不是广义协调的。
所以,第2个信息源石广义全局最优的信息系统。
关于每个对象的广义局部最优信息源如下:
当
时,
成立,即关于对象
的广义局部最优信息源为第3个信息系统。
当
时,
成立,而
,即关于对象
的广义局部最优信息源为第2个信息系统。
当
时,
成立,而
,即关于对象
的广义局部最优信息源为第2个信息系统。
显然,不同的对象在不同的信息系统上会达到广义局部最优信息。
Figure 3. Generalized decision function values of inconsistent multi-source information systems
图3. 不协调的多源信息系统广义决策函数值
定义3.3.2 在不协调的多源决策信息系统
中,对于给定的对象
的广义局部最优信息源
存在
使得
成立,且对于任意
,
不成立,则称
是
关于对象
的广义局部相对约简。
例3.3.2对于例3.3.1中不协调的多源决策信息系统
,关于对象
的广义局部最优信息源为第3个信息系统。
的广义决策函数值为
,
是
关于对象
的一个广义局部相对约简;
对象
的广义局部最优信息源为第2个信息系统。对象
的广义决策函数值为
,
是
关于对象
的一个广义局部相对约简;
对象
的广义局部最优信息源为第3个信息系统。对象
的广义决策函数值为
,
是
关于对象
的一个广义局部相对约简。
例3.3.3对于例3.3.1中不协调的多源决策信息系统
,由例3.3.1和3.3.2可以得到关于对象
的局部最优信息源的规则如下:
,支持集为
;
,支持集为
;
,支持集为
;
,支持集为
;
,支持集为
;
,支持集为
;
,支持集为
;
,支持集为
;
,支持集为
;
4. 小结
本文以大数据时代多源数据处理难题为背景,立足多粒度思想与粗糙集理论,结合多粒度标记信息系统概念,针对现有多源数据研究中“信息融合方法复杂、最优选择缺乏统一标准”的问题,拓展了多源决策信息系统的分析框架。创新性提出多源决策信息系统的广义决策函数定义。在此基础上,研究围绕协调与不协调两类多源决策信息系统展开分析探讨:对于协调系统,借助广义决策函数确定全局最优信息源,并针对单个对象筛选局部最优信息源,进而在局部最优信息源中找到保持对象协调性的局部相对约简。对于不协调系统,引入广义协调概念,通过广义决策函数筛选广义全局最优信息源,同时确定单个对象的广义局部最优信息源及相应的广义局部相对约简,且均通过实例验证了所提方法的可行性。
该研究首次将多粒度思想与多源决策信息系统的“最优选择”深度结合,解决了传统信息融合中“方法零散、针对性弱”的问题;实例证明方法可有效筛选最优信息源、简化属性,为多源数据的知识提取(如决策规则生成)提供了高效路径,可应用于数据挖掘、决策分析等领域。后续可进一步拓展两方面内容:一是深入探索最优信息系统的决策规则提取方法,提升规则的实用性与泛化性;二是优化属性约简算法,针对大规模多源数据场景提升计算效率,完善多粒度多源信息处理的理论体系。
NOTES
*通讯作者。