基于主成分分析的模糊概念格
Fuzzy Concept Lattice Based on Principal Component Analysis
DOI: 10.12677/AAM.2023.1212486, PDF, HTML, XML, 下载: 86  浏览: 143 
作者: 张露迪:华北水利水电大学数学与统计学院,河南 郑州
关键词: 形式背景主成分属性主成分模糊形式背景属性约简Context Principal Component Attributes Principal Component Fuzzy Formal Background Attribute Reduction
摘要: 形式背景中数据的增多,概念的数量就会随之增加。根据数据本身的特点,本文借助统计学方法提出基于主成分分析的模糊概念格以处理数据的多样性和复杂性。通过一般模糊形式背景的矩阵转化,分别定义了主成分属性和主成分模糊形式背景,并且给出了主成分属性算法,得到主成分属性模糊形式背景。利用该方法可以获得对原始形式背景的概念格属性约简,并且通过实例分析说明了该方法的可行性。
Abstract: The increase of data in formal context, the number of concepts will increase accordingly. Based on the characteristics of the data itself, this article proposes a fuzzy concept lattice based on principal component analysis using statistical methods to handle the diversity and complexity of data. Pass through matrix transformation through general fuzzy form background, defined principal compo-nent attributes and principal component fuzzy formal backgrounds respectively, and the principal component attribute algorithm is provided, obtain the fuzzy formal background of principal com-ponent attributes. By using this method, the concept lattice attribute reduction of the original for-mal background can be obtained, and the feasibility of this method was demonstrated through ex-ample analysis.
文章引用:张露迪. 基于主成分分析的模糊概念格[J]. 应用数学进展, 2023, 12(12): 4938-4945. https://doi.org/10.12677/AAM.2023.1212486

1. 引言

德国Wille [1] 提出的形式概念分析理论(Formal Concept Analysis, FCA),是以形式背景为基础,通过属性和对象特征之间的Galois连接形成概念,进而由全体概念生成概念格。形式背景是概念格中数据的载体,概念是其知识的表达形式,应用于人工智能和知识提取等 [2] 领域。基于概念格的知识约简是形式概念分析理论的一个重要的研究方向,概念格知识约简主要分为概念约简、属性约简和对象约简。张文修等人 [3] 在格同构意义下研究了概念格属性约简的问题,给出了基于辨识属性矩阵的属性约简的方法;李进金等人 [4] 通过引入交式可约元的概念,提出了一种形式背景属性约简的新方法;

模糊形式背景是经典形式背景在模糊集意义下的一种推广,其主要特征是经典形式背景中对象集和属性集之间的二元经典关系变成了二元模糊关系。由于形式背景中数据的增多,基于模糊形式背景的概念数量会随之增加。因此计算信息系统的核心并且建立出有效的概念约简算法成为研究的热点之一。目前,主要的研究方向有两个:基于粗糙集的知识约简和概念格的属性约简,其中属性约简是比较重要的研究领域 [5] 。将模糊集引入到形式概念分析 [6] 中是由Burusco和Gonzalez首次提出的。一些研究者们将模糊集引入到模糊概念格的研究中,得到了一些模糊概念格的推广模型 [7] ,与经典概念格相比,模糊概念格上的知识约简问题的研究甚少。

主成分分析作为一种数学分析方法 [8] 在特征提取、数据降维 [9] 等方向上应用比较广泛,主成分分析方法主要用在数据的降维问题上,它可以将原始数据中杂乱无章的变量重新整合成一组新的、相互无关联的几个综合变量,得到新的综合变量不仅可以涵盖原始数据中的大部分有效信息,还能在接下来的实验中减少一些不必要的复杂计算,利用主成分分析对数据进行降维处理,可以使数据属性之间相互独立,提高实验模型的准确性。

2. 基础知识

本节回顾经典形式背景和模糊形式背景的基本定义。

定义1 [1] 设一个三元组 ( G , M , I ) 是一个形式背景,其中 G = { g 1 , g 2 , , g r } 是非空有限的对象集, M = { m 1 , m 2 , , m s } 是非空有限的属性集,I为G和M的之间的二元关系, I G × M 。若 ( g , m ) I ,则表示对象g具有属性m,用1表示;否则,若 ( g , m ) I ,则称对象g不具有属性m,用0表示。

设G为任意非空、有限的集合,即论域。 P ( G ) 是表示G中全部经典子集的集合, O ( G ) 是表示G上全部模糊集的集合,与经典的形式背景不同,对于任意的 g G , m M I ˜ ( g , m ) [ 0 , 1 ] 表示对象g具有属性m的程度为 I ˜ ( g , m ) 。定义映射 [10] f : P ( G ) O ( M ) , h : O ( M ) P ( G ) [ 0 , 1 ]

f ( X ˜ ) = x X x I ˜ X P ( G ) h ( B ) = { x G : B x I } B O ( M )

定义2设 K = ( G , M , I ˜ ) 为一个L模糊形式背景,其中 G = { g 1 , g 2 , , g r } 是非空有限的对象集, M = { m 1 , m 2 , , m s } 是非空有限的属性集, I ˜ G × M 为G和M之间的L模糊关系,即 I ˜ : G × M L ,且L是有限完备剩余格,对于任意的 g G , m M I ˜ ( g , m ) 表示对象g具有属性m的程度。

例如 I ˜ ( g , m ) = 0.5 ,表示对象 g G 具有属性 m M 的程度是0.5,令 A G , B M A B 的定义如下:

A = { m | g A , I ˜ ( g , m ) > 0 } B = { g | m B , I ˜ ( g , m ) > 0 }

A 是对象集A共同具有的属性集, B 是共同具有属性集B的对象集。 A , B 是一个概念当且仅当 A = B B = A

3. 主成分模糊概念格

主成分模糊形式背景的基本定义与相关理论基础包括:矩阵的转化、主成分形式背景、算法的定义等。

3.1. 模糊形式背景的转化

模糊形式背景 ( G , M , I ˜ ) 通常是以数值表的形式呈现出来的,行和列分别对应模糊形式背景中的对象和属性。由于数值表呈现的是对象和属性之间的模糊关系,因此数值表可以用模糊形式背景矩阵的形式表示出来。

定义3设 K = ( G , M , I ˜ ) 为一个L模糊形式背景,称 X = ( I ˜ m 1 , I ˜ m 2 , , I ˜ m s ) 是由k形成的一个模糊形式背景矩阵,其中 I ˜ m j 是模糊形式背景K中,任意的 g G 的属性值 I ˜ ( g , m j ) 所形成的列向量,即 I ˜ m j = ( I ˜ ( g 1 , m j ) , I ˜ ( g 2 , m j ) , , I ˜ ( g r , m j ) ) T j = 1 , 2 , , s

3.2. 主成分模糊形式背景的构建

定义4设 K = ( G , M , I ˜ ) 为一个L模糊形式背景,称 E = [ I m 1 * , I m 2 * , , I m s * ] 为模糊形式背景矩阵X的标

准化矩阵,其中 I m j * = I m i j I ˜ ¯ m j var ( I m j ) i = 1 , 2 , , r j = 1 , 2 , , s

式中, I ˜ ¯ m j var ( I m j ) 分别是第j个变量的均值和标准差,在标准化之后每个变量的均值为0,标准差为1。

定义5设 K = ( G , M , I ˜ ) 为一个L模糊形式背景,称 R = E T E 为模糊形式背景矩阵X的标准化矩阵的协方差矩阵,也即模糊形式背景的相关系数矩阵。

若用X的相关系数矩阵进行主成分分析,相关阵R的特征根为 λ 1 λ 2 λ s > 0 ,对应的单位特征向量分别为 U 1 , U 2 , , U s

不损失X的变异信息,就相当于求一个线性变换

{ F 1 = u 11 I ˜ m 1 + u 12 I ˜ m 2 + + u 1 s I ˜ m s , F 2 = u 21 I ˜ m 1 + u 22 I ˜ m 2 + + u 2 s I ˜ m s , F s = u s 1 I ˜ m 1 + u s 2 I ˜ m 2 + + u s s I ˜ m s , F = U T X T

其中 X = ( I ˜ m 1 , I ˜ m 2 , , I ˜ m s ) U = [ u 11 u 21 u s 1 u 12 u 22 u s 2 u 1 s u 2 s u s s ] = ( U 1 , U 2 , , U s ) ,U为正交矩阵, F j = U j T X T

定义6设 K = ( G , M , I ˜ ) 为一个L模糊形式背景, K F = ( G , M F , I F ) 是由K形成的主成分模糊形式背景,其中, M F = { F 1 , F 2 , , F s } 是属性的主成分集,任意的 F j M F ,有 F j = i = 1 r k i a i k i R a i M j = 1 , 2 , , s I F 是G与 M F 之间的线性运算。

K = ( G , M , I ˜ ) 为一个L模糊形式背景,对于 0 < δ 1 ,根据映射算子f和h的定义,可得以下性质:

X ˜ , X ˜ 1 , X ˜ 2 P ( G ) B , B 1 , B 2 O ( M )

1) X ˜ 1 X ˜ 2 f ( X ˜ 1 ) f ( X ˜ 2 ) B 1 B 2 h ( B 2 ) h ( B 1 )

2) f ( X 1 X 2 ) = f ( X 1 ) f ( X 2 ) h ( B 1 B 2 ) = h ( B 1 ) h ( B 2 )

3) X ˜ h f ( X ˜ ) B f h ( B )

4) f ( X ˜ ) f h f ( X ˜ ) h ( B ) = h f h ( B )

( X ˜ , B ) 满足 X ˜ = h ( B ) 并且 B = f ( X ˜ ) ,称 ( X ˜ , B ) 为K的一个经典–模糊概念,其中 X ˜ 和B分别表示概念的外延和内涵。K的全体模糊–经典概念记作 L ( G , M , I ˜ ) ,简记为 L ( I ˜ ) ,成为K的经典–模糊概念格。

当模糊关系 I ˜ 退化为经典关系I时,经典–模糊概念就会变成经典形式概念 [11] ,算子f和h也会变成相应的经典算子,因此,经典–模糊概念格是经典形式概念格的一种推广。

我们要想使得极少数 F j 能够反映出X的绝大部分的变异信息,并且又要求各个 F j 的信息不重叠(即各自不相关),则 M F 的各个分量应要满足以下性质:

1) F j U j T U j = 1 之下的方差最大,即 D ( F j ) = U j T Σ U j = max j = 1 , 2 , , s (3.2.1)。

2) cov ( F i , F j ) = U i T Σ U j = 0 i j

要使(3.2.1)式成立,则 D ( F j ) 的单位化向量 U j 应为协方差矩阵的非零特征根 λ j 所对应的单位化特征向量。

设R的非零特征根为 λ 1 λ 2 λ s > 0 ,所以这些非零特征根对应的单位化特征向量分别为 U 1 , U 2 , , U s ,则 F 1 = U 1 T X , F 2 = U 2 T X , , F s = U s T X 分别称为X的第一主成分,第二主成分, ,第s主成分,这些主成分就是我们要求的综合指标。

它们有以下性质 [12] ;

1) F j 的方差为 λ j 。2) F i F j ( i j , λ i λ j ) 不相关。

F j 对X各个分量方差总和的贡献率,简称 F j 的方差贡献率,其值越大,则表明 F j 对X的综合能力

越强。称 η ( l ) = j = 1 l η j = j = 1 l λ j j = 1 s λ j F 1 , F 2 , , F l ( l s ) 的累加方差贡献率,在实际生活应用中取 η > 85 % 就够

了。若取 l < s 的情况下,即说明 F 1 , F 2 , , F l 简化了原始的属性分量系统 I ˜ m 1 , I ˜ m 2 , , I ˜ m s (降维并且 F j 之间互不相关),又说明能够独立反映X各个分量方差总和的85%以上。

定义7相关阵R的特征根为 λ 1 λ 2 λ s > 0 ,对应的单位特征向量为 U 1 , U 2 , , U s ,则所求的主成分属性值为 I ˜ ( g i , m j ) = U j T E i T ( i = 1 , 2 , , r ; j = 1 , 2 , , s ) U j T 是相关系数矩阵R的单位向量矩阵 U T 的行向量, E i T 是原始数据标准化矩阵 E T 的列向量,E为X的标准化变量矩阵。

3.3. 主成分属性算法的计算步骤如下

1) 对于任意一个主成分属性模糊背景生成的 r × s 矩阵,代表r个对象在s个不同的主成分属性集合下构成的样本数据集;

2) 样本数据集通过去均值处理后,形成标准化矩阵E;

3) 对矩阵E的协方差矩阵进行特征分解:

R = E E T = U Λ U T

式中:R为E的协方差矩阵; Λ 为协方差矩阵特征根按从大到小排列所构成的对角阵,记为 Λ = D i a g [ λ 1 , λ 2 , , λ s ] 其中 λ j 代表排序后的第j个特征值;U由特征值对应的单位化特征向量构成;

4) 计算处理后的数据表示为 I ˜ ( g , m j ) = U j T E T , j = 1 , 2 , , s I ˜ ( g , m j ) 为通过单位化特征矩阵投影后的数据。

在现实生活应用中,通常根据特征值累积贡献率 η > 85 % 来选取前k个特征向量能够保留原模糊形式

背景的大部分信息。(注: η = j = 1 k λ j j = 1 s λ j )

程序计算

第一步:对数据X标准化为E;

Σ= zscore(X); % matlab内置的标准化函数(X-mean(X))/std(X);

第二步:计算样本协方差矩阵;

R = cov(E);

%%注意:以上两步可合并为下面一步:直接计算样本相关系数矩阵

R = corrcoef(E);

第三步:计算R的特征值和特征向量;

[λ, U] = eig(R); %U特征向量矩阵λ特征值构成的对角矩阵;

第四步:计算主成分贡献率和累计贡献率;

lambda = diag(D); % diag函数用于得到一个矩阵的主对角线元素值(返回的是列向量)

lambda = lambda(end:-1:1); %因为lambda向量是从小大到排序的,我们将其调个头

contribution_rate = lambda/sum(lambda); %计算贡献率

cum_contribution_rate =cumsum(lambda)/ sum(lambda); % 计算累计贡献率

disp('特征值为:')

disp(lambda') % 转置为行向量,方便展示

disp('贡献率为:')

disp(contribution_rate')

disp('累计贡献率为:')

disp(cum_contribution_rate')

disp('与特征值对应的特征向量矩阵为:')

%注意:这里的特征向量要和特征值一一对应,之前特征值相当于颠倒过来了,因此特征向量的各列需要颠倒过来

V=rot90(U)'; % rot90函数可以使一个矩阵逆时针旋转90度,然后再转置,就可以实现将矩阵的列颠倒的效果

disp(U);

第五步:计算我们所需要的主成分的值

4. 实例分析

例1 表1是一个形式模糊背景 ( G , M , I ˜ ) ,K为模糊形式背景,其中 G = { 1 , 2 , 3 , 4 } 为对象集, M = { m 1 , m 2 , m 3 , m 4 , m 5 } 为属性集。G到M上的模糊关系 I ˜ 表1所示:

Table 1. Fuzzy formal background

表1. 模糊形式背景

即由表1可知,K的模糊关系矩阵为: X I ˜ = [ 0.3 0.2 0.1 0.7 1.0 0.2 0.3 0.7 1.0 0.9 1.0 0.7 0.6 0.2 0.3 0.3 0.8 1.0 0.5 0.0 ]

对矩阵 X I ˜ 标准化得矩阵E;

E = [ 0.4058 1.0190 1.3363 0.2970 0.9383 0.6763 0.6794 0.2673 1.1882 0.7298 1.4878 0.6794 0.0000 1.1882 0.5213 0.4058 1.0190 1.0690 0.2970 1.1468 ]

>>R= cov(E),得到样本相关系数矩阵为

R = [ 1.0000 0.4901 0.0241 0.8571 0.3948 0.4901 1.0000 0.7565 0.7399 0.9916 0.0241 0.7565 1.0000 0.1323 0.7616 0.8571 0.7399 0.1323 1.0000 0.7020 0.3948 0.9916 0.7616 0.7020 1.0000 ]

>>[λ, U] = eig(R)

R的特征值及相应的单位化特征向量矩阵U为:

特征值 λ j :3.42021.38290.19680.00000.0000

U = [ 0.3494 0.5991 0.6618 0.2838 0.0238 0.5308 0.1562 0.1140 0.0113 0.8251 0.3499 0.6169 0.5291 0.3843 0.2635 0.4549 0.4373 0.3749 0.6303 0.2531 0.5165 0.2120 0.3586 0.6119 0.4304 ]

由于前两个主成分的累积贡献率为 η ( 2 ) = 3.4202 + 1.3829 3.4202 + 1.3829 + 0.1968 = 96.08 %

故取前两个主成分

F 1 = 0.3494 m 1 0.5308 m 2 0.3499 m 3 + 0.4549 m 4 + 0.5165 m 5

F 2 = 0.5991 m 1 0.1562 m 2 0.6169 m 3 0.4373 m 4 + 0.2120 m 5

就可简化原模糊形式背景,且能够保留原模糊形式背景变异信息的96.08%。

用matlab可计算主成分属性值得到主成分属性模糊背景如表2

Table 2. Principal component attribute fuzzy formal background

表2. 主成分属性模糊形式背景

主成分属性模糊形式背景如表2所示,将主成分属性模糊形式背景中 | I F ( g , m ) | α 的值转换为1,就可以得到不同的经典形式背景,相应地就会得到不同的概念格,但是会导致一定程度的信息损失,为了最大程度的减少信息损失,本文将阈值 α 1 设为1.5和 α 2 设为1,将 | I F ( g , m ) | > 1.6 | I F ( g , m ) | > 1 的值转化为1,转换后的形式背景见表3

Table 3. Transformed formal background

表3. 转换后的形式背景

该形式背景共有4个概念: ( 134 , F 1 ) ( 34 , F 1 F 2 ) ( G , ) ( , M ) ,其概念格如图1所示。

Figure 1. Concept lattice

图1. 概念格

对任意的 X ˜ 1 , X ˜ 2 P ( G ) ,则都能得到 f ( X 2 ) f ( X 1 ) 满足性质。

5. 结论

模糊形式背景的约简问题一直是热门的研究问题,本文针对一般的模糊形式背景,经过一系列的定义,最后生成一个新的主成分属性模糊形式背景,其次通过设定阈值将模糊形式背景转换为经典形式背景,实现了模糊形式背景约简的灵活运用,具有理论和实际应用意义。今后将会进一步探讨和研究对于经典形式背景的概念格相关约简理论。

参考文献

[1] Wille, R. (1982) Restructuring Lattice Theory: Anapproach Based on Hierarchies of Concepts. In: Rival, I., ed., Ordered Sets, Springer, Berlin, Germany, 445-470.
https://doi.org/10.1007/978-94-009-7798-3_15
[2] 赵晓倩, 武优西, 王月华, 李艳. 一种保序序列快速挖掘算法: RSMM [J]. 郑州大学学报(理学版), 2022, 54(4): 64-70.
[3] 张文修, 魏玲, 祁建军. 概念格的属性约简理论与方法[J]. 中国科学E辑: 信息科学, 2005, 35(6): 628-639.
[4] 李进金, 张燕兰, 吴伟志, 等. 形式背景与协调决策形式背景属性约简与概念格生成[J]. 计算机学报, 2014, 37(8): 1768-1772.
[5] 王霞, 彭致华, 李俊余, 吴伟志. 一种基于概念可辨识矩阵的概念约简方法[J]. 计算机科学, 2021, 48(1): 125-130.
[6] Burusco, R. and Fuentes-González, R. (2000) Concept Lattices Defined from Implication Operators. Fuzzy Sets and Systems, 114, 431-436.
https://doi.org/10.1016/S0165-0114(98)00182-1
[7] 张静, 马建敏. 基于依赖空间的F-C变精度概念格[J]. 山东大学学报(理学版), 2021, 56(1): 68-74.
[8] 张贤达. 矩阵分析与应用[M]. 北京: 清华大学出版社, 2013.
[9] 梁胜杰, 张志华, 崔立林, 钟强晖. 基于主成分分析与核独立成分分析的降维方法[J]. 系统工程与电子技术, 2011, 33(9): 2144-2148.
[10] Shao, M.W., Leung, Y., Wang, X.Z., et al. (2016) Granular Reducts of Formal Fuzzy Contexts. Knowledge-Based Systems, 114, 156-166.
https://doi.org/10.1016/j.knosys.2016.10.010
[11] Ganter, B. and Wille, R. (1999) Formal Concept Analysis: Mathematical Foundations. Springer Berlin, Heidelberg.
https://doi.org/10.1007/978-3-642-59830-2
[12] 袁志发, 宋世德. 多元统计分析[M]. 第二版. 北京: 科学出版社, 2009.