基于混合属性模糊相似度的k-近邻分类器
k-NN Classifier Based on Hybrid-Attribute Fuzzy Similarity
DOI: 10.12677/hjdm.2026.162004, PDF, HTML, XML,    科研立项经费支持
作者: 秦少芬, 曹梦雪, 陈继强*:河北工程大学数理科学与工程学院,河北 邯郸
关键词: 混合数据模糊相似度分类器Mixed Data Fuzzy Similarity Classifier
摘要: 在医学诊断等实际应用中,广泛存在着数值型、区间型与分类型属性共存的混合数据分类问题。现有方法往往难以充分融合与利用此类异构数据的原始信息,导致分类器性能不佳,无法满足实际应用中对精度与稳健性的要求。为此,文章提出一种基于混合属性模糊相似度的分类器。首先,针对混合数据结构,构建适配属性的模糊相似度;进而基于乘积t-范数,建立一种能够统一处理多类属性的模糊相似度度量。其次,在此基础上设计混合属性模糊相似度分类器,以更有效地利用数据的内在结构与语义信息进行分类。最后,为验证所提分类方法的有效性,将其与最大正区域分类器、线性支持向量机、多层感知机等5种代表性分类器进行对比实验。结果验证了新方法在多个数据集上的优越性能,为混合数据分类问题提供了一种有效的新途径。
Abstract: In practical applications such as medical diagnosis, there exists a widespread problem of classifying mixed data with coexisting numerical, interval, and categorical attributes. Existing methods often fail to fully fuse and utilize the original information of such heterogeneous data, leading to limited classification performance, and thus cannot meet the requirements for accuracy and robustness in practical applications. To this end, this paper proposes a classifier based on fuzzy similarity for mixed-attribute data. First, aiming at the mixed data structure, a fuzzy similarity adapted to the attributes is constructed, and then a fuzzy similarity measure capable of uniformly processing multiple types of attributes is built based on the product t-norm. In practical applications such as medical diagnosis, there exists a widespread problem of classifying mixed data with coexisting numerical, interval, and categorical attributes. Existing methods often fail to fully fuse and utilize the original information of such heterogeneous data, which leads to limited classification performance and thus cannot meet the requirements for accuracy and robustness in practical applications. Second, on this basis, a fuzzy similarity classifier for mixed attributes is designed to more effectively utilize the inherent structure and semantic information of the data for classification. Finally, to verify the effectiveness of the proposed classification method, it is compared with five representative classifiers, such as the novel classifier based on maximal positive region, linear support vector machine, and multi-layer perceptron. The results verify the superior performance of the new method on multiple datasets, providing an effective new approach for the mixed data classification problem.
文章引用:秦少芬, 曹梦雪, 陈继强. 基于混合属性模糊相似度的k-近邻分类器[J]. 数据挖掘, 2026, 16(2): 34-47. https://doi.org/10.12677/hjdm.2026.162004

1. 引言

分类作为机器学习与数据挖掘领域的基础性核心任务,在医疗诊断[1]-[5]、金融风险预警[6]-[8]、工业故障检测[9]-[10]等诸多实际场景中发挥着关键支撑作用,其分类结果的优劣直接决定下游决策的科学性与可靠性。因此,研发适配复杂数据特征、性能优异的分类算法,始终是该领域的研究热点与核心诉求。

在实际应用场景中,数据集往往呈现出属性类型多样化的特征,普遍同时包含数值型属性(如身高、体重、浓度等连续量化指标)、区间型属性(如年龄20~30岁、收入5~8 k等范围化指标)与分类型属性(如性别、职业、类别标签等离散语义指标)。不同类型属性的特征表达逻辑、数据分布规律存在本质差异:数值型属性的核心特征是量化大小差异,分类型属性的核心特征是类别语义一致性,区间型属性则需兼顾范围边界特征与样本落点的相对位置关系。这种属性异质性对相似度度量提出了双重要求:一是需针对不同属性类型设计适配性度量方法,二是需实现多维度相似度的科学整合,以精准反映样本间的整体关联程度。

在分类问题中,对于分类型数据,早期依赖于手工编码(如有序编码[11]、独热编码[12])后使用汉明距离[13];随着可学习嵌入[14]与梯度提升树框架的内置处理[15]出现,距离度量逐渐转向能够捕捉语义关系的低维向量表示。对于区间型数据,早期主要采用中心–半径变换[16]、端点距离[17]或Hausdorff距离[18]将其映射为数值;后续研究发展出基于区间分布的整体建模方法(如区间专用核函数[19]),以更直接地表达区间所承载的不确定性。对于数值型数据,则经历了从经典欧氏距离[20]、适应相关性的马氏距离[21],到深度学习时代通过对比损失与度量学习实现任务自适应的可学习距离[22]

然而,现有分类器在处理包含数值型、区间型以及分类型属性的混合数据时仍存在明显局限。一方面,多数策略依赖将非数值属性(如分类型、区间型)强制转换为数值形式(如独热编码、中心–半径变换),这一过程不仅可能引入冗余维度或信息失真,更易破坏属性原有的语义结构与不确定性特征;另一方面,现有方法在整合多源相似度时,通常采用线性加权或基于各属性子空间相似度最小值的聚合策略[23],这类融合机制难以捕捉不同属性空间之间相似性判断的非线性交互关系,且其参数配置或策略选择多依赖经验设定或后验优化,缺乏坚实的理论支撑。

针对上述问题,本文提出一种面向属性本征特性的模糊相似度建模范式。具体而言,避免对分类型与区间型属性进行数值化转换,而是分别在其原生空间中定义适配的距离度量:对分类型属性,采用归一化汉明距离以刻画类别一致性;对数值型属性,保留欧氏距离以反映连续量值差异。考虑到切片Wasserstein距离所采用的投影积分机制,能够从多个方向对分布的整体形态进行刻画,每一个投影方向均反映了原始分布在该视角下的累积分布展宽特性,而这一特性恰好构成区间数据不确定性的数学化表征。因此,对区间型属性,则引入切片Wasserstein距离以有效捕捉分布形态与支撑集的不确定性。在各属性类型距离函数的基础上,通过指数映射将各属性子空间的距离转化为相似度,并采用乘积t-范数融合机制构建全局相似度。该设计不仅尊重各类属性的内在表达逻辑,其乘积形式亦隐含“所有属性均需高度一致才能判定样本相似”的强协同假设,从而在无需参数调优的前提下实现多源相似性的自适应耦合。所提方法为混合属性分类任务提供了一种结构清晰、可解释性强且计算高效的相似性度量框架。

本文结构如下:第2节给出了相关理论基础知识;第3节建立了面向混合数据的混合属性模糊相似度;第4节构建了面向混合数据的基于混合属性模糊相似度的改进k-近邻分类器;第5节结合UCI数据集中的13个数据集,验证了所提分类方法的可行性和有效性;第6节为结论。

2. 理论基础知识

2.1. 模糊相似关系[24]

U 为非空论域,令 A 为条件属性集, BA A 的子集。 RF( U×U ) U 上的模糊关系。对 x,yU ,如果 R 满足

1) 自反性: R B ( x,x )=1

2) 对称性: R B ( x,y )= R B ( y,x )

则称 R U 上的一个模糊相似关系。

2.2. t-范数[25]

T:[ 0,1 ]×[ 0,1 ][ 0,1 ] ,对任意 x,y,z[ 0,1 ] ,如果 T 满足:

1) 交换律: T( x,y )=T( y,x )

2) 结合律: T( x,T( y,z ) )=T( T( x,y ),z )

3) 单调性:如果 x 1 x 2 , y 1 y 2 ,则 T( x 1 , y 1 )T( x 2 , y 2 )

4) 边界条件: x[ 0,1 ],T( x,1 )=x

则称 T 为三角范数,简称为t-范数。

常用的t-范数主要有以下4种:

1) Mamdani算子: T M ( x,y )=min{ x,y } (最大的三角范数);

2) 乘积算子: T P ( x,y )=xy

3) Lukasiewicz t-范数: T L ( x,y )=max{ 0,x+y1 }

4) T ( a,b ) cos =max{ ab 1 a 2 1 b 2 ,0 }

2.3. 离散测度下的p-阶切片W距离[26]

设两个 d 维离散测度 μ,ν 的支撑集为点云 X={ x 1 , x 2 ,, x N } d ,满足 i=1 N μ i =1 Y={ y 1 , y 2 ,, y M } d ,满足 j=1 M ν j =1 S d1 ={ θ d | θ=1 } d 维单位球面(所有投影方向集合)。从 S d1 均匀采样 L 个方向 θ 1 , θ 2 ,,θ L 后,各方向下1D投影点云的 p 阶Wasserstein距离 p 次幂的平均 1 p 次方为

SW ^ P ( μ,ν )= ( 1 L k=1 L W p p ( μ θ k , ν θ k ) ) 1 p (1)

其中, μ θ k , ν θ k 代表 μ,ν 沿方向 θ k 的1D投影点云,投影值为 x i , θ k , y j , θ k W p p ( μ θ k , ν θ k ) 表1D投影点云的最优传输成本。求解过程为先对 μ θ k , ν θ k 升序排序,再计算累计权重得到最优传输计划,最后计算运输成本,如算法1所示[27]

算法1. 基于1D DOT问题的离散测度切片Wasserstein距离计算伪代码

输入:

X N×d :离散测度 μ 的支撑集( i=1 N μ i =1 );

Y M×d :离散测度 ν 的支撑集( j=1 M ν j =1 );

L :投影方向采样数, p :Wasserstein距离的阶数(默认 p=2 )。

输出:

SW :切片Wasserstein距离估计值。

1. 从 d 维单位球面均匀采样 L 个方向: Θ=[ θ 1 , θ 2 ,, θ L ] d×L ,其中 θ k S d1 θ k =1

2. For k=1 L 做:

2.1. 1D投影:计算点云沿 θ k 的1D投影: X θ k =X θ k ,第 i 个元素为 x i , θ k Y θ k =Y θ k ,第 j 个元素为 y i , θ k

2.2. 1D离散最优传输问题求解:

a) 排序:对 X θ k , Y θ k 按投影值升序排序,记录排列索引 σ X , σ Y ,满足 X σ X (1) X σ X (2) X σ X (N) Y σ Y (1) Y σ Y (2) Y σ Y (M) ;排序后投影点 X ^ i = X σ X (i) , Y ^ j = Y σ Y (j) ;排序后的权重 μ ^ i = μ σ X (i) , ν ^ j = ν σ Y (j)

b) 累计权重计算:初始化 s 0 =0, h 0 =0

i=1,2,,N ,执行: s i = s i1 + μ ^ i ( i )

j=1,2,,M ,执行: h j = h j1 + ν ^ j ( j )

c) 求解最优传输计划 γ ^ i,j

初始化运输计划矩阵 γ ^ N×M ,所有元素都是0;

i=1,j=1

如果 s i h j1 或者 h j s i1 ,则 γ ^ i,j =0

否则如果 h j1 s i1 < s i h j ,则 γ ^ i,j = μ ^ i

否则如果 s j1 h j1 < h j < s i ,则 γ ^ i,j = ν ^ j

否则如果 s i1 h j1 < s i h j ,则 γ ^ i,j = s i h j1

否则如果 h j1 s i1 < h j s i ,则 γ ^ i,j = h j s i1

d) 还原运输计划到原索引: γ ^ i,j = γ ^ σ X ( i ), σ Y ( j )

e) 计算1D离散最优传输成本: cost= i=1 N j=1 M γ ij ( X i Y j ) p

End for

3. 计算切片Wasserstein距离估计值: S W P ^ = ( cost L ) 1 p

4. 返回 S W P ^

3. 混合属性模糊相似度

传统模糊相似度往往采用相同的范式定义不同属性下两个样本间的模糊相似度[28],没有利用不同类型属性本身包含的信息,一定程度丢失了原始混合数据的信息。鉴于此,本文基于样本属性本身的数据信息,给出了不同类型属性的距离定义以及适配混合属性样本间相似度的定义,创新性地利用乘积t-范数提出了混合属性模糊相似度,以充分利用原始混合数据的信息提高混合数据的可区分性。

定义1 [29] IS=( U,AT,V,f ) 为信息系统(Information System, IS),其中 U={ x 1 , x 2 ,, x n } 为非空有限对象集(即论域), AT={ a 1 , a 2 ,, a m } 为非空有限属性集, V= aAT V a V a 是属性 a 的值域。 f:U×ATV 是信息函数, f( x,a ) 表示对象 x 在属性 a 上的值。对每个 xU aAT f( x,a ) V a

定义2 U={ x 1 , x 2 ,, x n } 为非空有限对象集(即论域), D={ d 1 , d 2 ,, d r } 为非空有限决策属性集, A= A n A i A c 为信息系统的非空有限属性集,其中 A n 为数值型属性集, A i 为区间型属性集, A c 为分类型属性集。称 MIS=( U,AT=AD,V,f ) 为混合信息系统。对 xU aA ,属性值记为 a( x )

混合信息系统中的非空有限属性集为 A={ a 1 , a 2 ,, a m } ,设 BA ,属性集 B 中包含 j 个样本,将这 j 个样本按数值型属性、区间型属性和分类型属性排列并重新排序,得到 B={ a 1 , a 2 ,, a j },jm 。假设 B 属性集中包含 r 个数值型属性 0rj s 个区间型属性 0sj t 个分类型属性 0tj r+s+t=jm ,则在混合信息系统 MIS=( U,AT=AD,V,f ) BA B= B r n B s i B t c ,任意 x,yU 在属性集 B 下的混合属性模糊相似度定义如下:

定义3 设样本 x r 个数值型属性下的值分别为 x r1 , x r2 ,, x rr ,令 X r n =( x r1 , x r2 ,, x rr ) 。样本 y r 个数值型属性下的值分别为 y r1 , y r2 ,, y rr ,令 Y r n =( y r1 , y r2 ,, y rr ) 。任意 x,yU 在属性集 B 数值型属性下的模糊相似度定义为:

R ¯ ¯ B n =exp( p d n ( x,y ) ) (2)

d n ( x,y )= X r n Y r n 2 (3)

其中, p>0 ,控制模糊相似度的衰减速度。

定义4 设样本 x s 个区间型属性下的值分别为 [ x s1 L , x s1 R ],[ x s2 L , x s2 R ],,[ x ss L , x ss R ] ,令 X s iL =( x s1 L , x s2 L ,, x ss L ) μ θ 1 =( 1 s , 1 s ,, 1 s ) X s iR =( x s1 R , x s2 R ,, x ss R ) μ θ 2 =( 1 s , 1 s ,, 1 s ) 。样本 y s 个区间型属性下的值分别为 [ y s1 L , y s1 R ],[ y s2 L , y s2 R ],,[ y ss L , y ss R ] 。令 Y s iL =( y s1 L , y s2 L ,, y ss L ) ν θ 1 =( 1 s , 1 s ,, 1 s ) Y s iR =( y s1 R , y s2 R ,, y ss R ) ν θ 2 =( 1 s , 1 s ,, 1 s ) 。任意 x,yU 在属性集 B 区间型属性下的模糊相似度定义为:

R B i ¯ ¯ =exp( p d i ( x,y ) ) (4)

d i ( x,y )= S W 2 ^ ( μ,ν )= ( 1 2 k=1 2 ω p p ( μ θ k , ν θ k ) ) 1 2 (5)

其中, p>0 ,控制模糊相似度的衰减速度。

定义5 设样本 x t 个分类型属性下的值分别为 x t1 , x t2 ,, x tt ,令 X t c =( x t1 , x t2 ,, x tt ) 。样本 y t 个分类型属性下的值分别为 y t1 , y t2 ,, y tt ,令 Y t c =( y t1 , y t2 ,, y tt ) 。任意 x,yU 在属性集 B 分类型属性下的模糊相似度定义为:

R B c ¯ ¯ =exp( p d c ( x,y ) ) (6)

d c ( x,y )= H( X t c , Y t c ) t = t=1 t 1 [ x th y th ] t (7)

其中, p>0 ,控制模糊相似度的衰减速度。 1ht 1 [ condition ] 是指示函数,当条件为真时值为1,否则为0。

定义6 MIS=( U,AT=AD,V,f ) BA B= B n B i B c x,yU ,称

R B ¯ ¯ ( x,y )=T( R B n ¯ ¯ ,T( R B i ¯ ¯ , R B c ¯ ¯ ) ) (8)

其为 x,y 在属性集 B 下的混合属性模糊相似度,其中 T 为乘积t-范数。

4. 基于混合属性模糊相似度的k-近邻分类器

由于大部分分类算法(比如支持向量机[30])只能处理数值型数据,对于包含分类型属性和区间型属性的数据要进行数据转换之后才能进行分类,会损失原始数据的信息。因此,本节在保留分类型属性以及区间型属性原始信息的情况下提出了混合属性模糊相似度分类器(Hybrid Attribute Fuzzy Similarity Classifier, HFSC)。

基于混合属性模糊相似度(式8)的定义,本节提出了混合属性模糊相似度的k-近邻分类器,该分类器的伪代码如算法2所示。

算法2. 混合属性模糊相似度分类器(HFSC)

输入:训练集 Tr={ ( x l , y l )|l=1,2,,n } 和测试集 Te={ x t |t=1,2,,m } ,参数 p ; 输出:分类准确率。

1. 识别训练集和测试集中每一个属性的类型;

2. 将数值型属性值和区间型属性值进行归一化处理;

3. 对每一个 x t Te , 4. 对每一个 x l Tr ,计算

5. 数值型属性模糊相似度 R B n ¯ ¯

6. 区间型属性模糊相似度 R B i ¯ ¯

7. 分类型属性模糊相似度 R B c ¯ ¯ 8. 混合属性模糊相似度 R B ¯ ¯ ( x,y ) 9. 结束。

10. 对 R B ¯ ¯ ( x t , x l )( l=1,2,,n ) 进行排序,找到最大 k 个混合属性模糊相似度对应样本的类别及其决策类,即: { ( x l i , y l i )Tr|i=1,2,,k } y t =mode{ y l i |i=1,2,,k } ,其中mode表示取众数。

11. 最后计算分类准确率。

12. 结束。

算法2中输入的是数据集的训练集、测试集,输出的是分类准确率。首先,对数据集中的属性类型进行识别,区分数值属性、区间型属性和分类型属性。之后,针对测试集中的每一个样本,分别计算其与训练集中所有样本的混合属性模糊相似度,该相似度综合了不同类型属性的模糊匹配程度。其次,利用基于混合属性模糊相似度的k-近邻分类规则进行分类:对于每个测试样本,从训练集中筛选出与其混合属性模糊相似度最高的k个样本,并根据这些样本的类别标签,通过众数投票确定测试样本的所属类别。最后,将所有测试样本的预测类别与真实类别进行比较,统计正确分类的样本比例,从而得到最终的分类准确率。

5. 实验

5.1. 数据集来源

为验证实验效果,选用来自UCI机器学习库(https://archive.ics.uci.edu/)中具有不同属性类型和不同样本数量的13个公开数据集进行实验,数据集描述见表1。区间型数据是采用 [ ( 1α ) x a k ,( 1+α ) x a k ] 方式生成的, α[ 0,0.5 ] [31]

Table 1. Dataset description

1. 数据集描述

NO

数据集

样本数

属性数5

类别数

数据类型

1

Wine

178

13

3

数值型

2

Iris

150

4

3

数值型

3

Cancer

699

9

2

分类型

4

Sonar

208

60

2

数值型

5

Colon

62

2000

2

数值型

6

Yeast

1484

8

10

数值型

7

Wdbc

569

30

2

数值型

NO

数据集

样本数

属性数

类别数

数据类型

8

Pima

768

8

2

数值型

9

Diabetes Risk

520

16

2

分类型、数值型

10

Gall Stone

319

38

2

分类型、数值型

11

Ionosphere

351

33

2

分类型、数值型

12

ILPD

583

10

2

分类型、数值型、区间型

13

HESPE

145

31

8

分类型、区间型

5.2. 数据集归一化

由于大多分类算法基于距离度量进行分类决策,而原始特征(如年龄、收缩压等)具有不同的量纲与取值范围(如年龄通常为30~80岁,而收缩压可到100~200 mmHg),若直接使用原始数值计算距离,取值范围较大的特征将主导距离计算结果,导致模型对小尺度特征不敏感。为消除量纲差异对相似性度量的干扰,确保各数值型以及区间型特征在距离计算中具有可比性,本文对所有数值型及区间型变量采用如下方法进行尺度统一。

对每个数值型属性值 x ij 进行最大–最小归一化(Min-Max Scaling):

x ij = x ij a i min a i max a i min (9)

设数据集包含 n 个样本,第 i 个属性为区间型属性,记为 a i 。对第 j 个样本 ( j=1,2,,n ) ,该属性的取值为一个闭区间 a i ( j ) =[ a i L,( j ) , a i R,( j ) ] 。首先分别计算第 i 个区间属性下所有样本左右端点的全局最小值 ( a i L,min , a i R,min ) 和最大值 ( a i L,max , a i R,max ) ,然后分别对第 j 个样本的左右端点进行最大–最小归一化[32],最后归一化结果为 a i =[ a i L , a i R ] ,其中:

a i L = a i L a i L,min a i L,max a i L,min , a i R = a i R a i R,min a i R,max a i R,min (10)

5.3. 分类性能指标

混淆矩阵[33]是评估分类模型性能的核心工具之一,能够直观呈现模型对各类别样本的分类预测结果。对于二分类任务,其混淆矩阵的具体定义如表2所示。其中,真正类(TP)代表正类(少数类)样本被正确预测的数量,真负类(TN)代表负类(多数类)样本被正确预测的数量;假负类(FN)表示正类样本被错误预测为负类的数量,假正类(FP)表示负类样本被错误预测为正类的数量。

Table 2. Confusion matrix

2. 混淆矩阵

预测类别

预测正类

预测负类

真实类别

真实正类

真正类(TP)

假负类(FN)

真实负类

假正类(FP)

真负类(TN)

基于混淆矩阵所提供的分类预测细节,可进一步推导得到反映分类算法综合性能的关键评价指标,包括召回率(Recall)、准确率(Accuracy)、精确率(Precision)及F1分数(F1-Score)等。各指标对应的数学计算公式如表3所示:

本文选取F1分数(F1-Score)、受试者工作特征曲线下面积(Area under Curve, AUC)与准确率(Accuracy)作为分类性能的核心评价指标,三者从差异化维度刻画模型的分类效果:其中F1分数是精确率与召回率的调和平均值,可同时兼顾模型对正类样本的“预测可靠性”与“识别覆盖度”,在类别不平衡场景下能更全面地评估少数类的分类表现;AUC指标基于受试者工作特征曲线(ROC曲线)计算,其数值关联模型的真正率与假正率,可综合衡量模型对正负两类样本的分类区分能力;而准确率则表征模型正确分类的样本占总样本的比例,是直观反映模型整体分类正确性的基础指标。

Table 3. Confusion matrix formula

3. 混淆矩阵公式

度量

公式

直观含义

召回率

TP TP+FN

实际的正例中,被正确预测的比例

准确率

TP+TN TP+TN+FP+FN

预测正确的样本比例

续表

精确率

TP TP+FP

预测为正例的样本中,实际为正例的比例

F1分数

2×Recall×Precision Recall+Precision

精确率和召回率的调和平均

AUC

ROC曲线下的面积

随机正例得分高于随机负例的概率

5.4. 结果分析

为验证本文所构建的HFSC分类器的性能,将其与基于最大正区域的新型分类器(Novel Classifier Based on Maximal Positive Region, MPR) [34]、线性支持向量机(Linear Support Vector Machine, LSVM) [35]、多层感知机(Multi-Layer Perceptron, MLP) [36]、加权k近邻(Weighted k-Nearest Neighbor, WKNN) [37]以及半径k近邻(Radius k-Nearest Neighbor, RKNN) [38]这5种经典基准分类器进行对比实验,所有分类任务均采用统一超参数设置(K = 5)以保证对比公平性。实验运行环境为个人计算机,具体配置如下:操作系统为64位Windows 10,处理器为AMD Ryzen 5 3500U,内存容量为10 GB。具体运算结果见表4

Table 4. Classification accuracy of each classifier on different datasets

4. 各分类器在不同数据集上的分类准确率

数据集

HFSC

MPR

LSVM

MLP

WKNN

RKNN

wine

0.9719 ± 0.0281

0.9549 ± 0.0354

0.9438 ± 0.0505

0.9722 ± 0.0373

0.9611 ± 0.0434

0.9386 ± 0.0631

iris

0.9533 ± 0.0670

0.9400 ± 0.0798

0.9467 ± 0.0499

0.9467 ± 0.0718

0.9533 ± 0.0521

0.8667 ± 0.0789

cancer

0.9671 ± 0.0158

0.9371 ± 0.0295

0.9642 ± 0.0072

0.9613 ± 0.0203

0.7868 ± 0.0549

0.7367 ± 0.0411

sonar

0.8081 ± 0.1046

0.7260 ± 0.1650

0.7788 ± 0.0809

0.8024 ± 0.1051

0.8319 ± 0.0866

0.7600 ± 0.0845

yeast

0.5728 ± 0.0435

0.4724 ± 0.0322

0.5693 ± 0.0428

0.5587 ± 0.0444

0.5862 ± 0.0441

0.5842 ± 0.0367

colon

0.7762 ± 0.1476

0.5190 ± 0.1387

0.7476 ± 0.1518

0.7595 ± 0.0990

0.7786 ± 0.1384

0.7738 ± 0.1514

Pima

0.7265 ± 0.0518

0.6874 ± 0.0509

0.7162 ± 0.0323

0.7227 ± 0.0634

0.7369 ± 0.0597

0.7161 ± 0.0429

WDBC

0.9648 ± 0.0263

0.9298 ± 0.0453

0.9613 ± 0.0246

0.9544 ± 0.0361

0.9666 ± 0.0199

0.8771 ± 0.0398

ionosphere

0.8548 ± 0.0643

0.7863 ± 0.0412

0.8490 ± 0.0480

0.8547 ± 0.0433

0.8462 ± 0.0529

0.6839 ± 0.0709

diabetes

0.8904 ± 0.0385

0.9288 ± 0.0315

0.8865 ± 0.0264

0.9096 ± 0.0385

0.9615 ± 0.0285

0.9442 ± 0.0338

gallstone

0.6398 ± 0.0952

0.5956 ± 0.0562

0.6265 ± 0.0823

0.5860 ± 0.0710

0.6743 ± 0.0889

0.6210 ± 0.0785

HESPE

0.2843 ± 0.1254

0.1571 ± 0.1031

0.2681 ± 0.1105

0.2490 ± 0.1365

0.2402 ± 0.1109

0.2644 ± 0.1531

ILPD

0.6995 ± 0.0755

0.6604 ± 0.0419

0.7136 ± 0.0072

0.7067 ± 0.0198

0.6778 ± 0.0884

0.7079 ± 0.0744

Average

0.7776 ± 0.0680

0.7150 ± 0.0654

0.7670 ± 0.0549

0.7680 ± 0.0605

0.7693 ± 0.0668

0.7288 ± 0.0730

表4图1展示了所提出的HFSC分类器与5种对比模型(MPR、LSVM、MLP、WKNN、RKNN)在13个异质数据集上的分类准确率。由分类准确率结果可知,HFSC以0.7776的平均准确率取得了最优的整体性能,明显优于其他分类器。具体而言,在Iris、Cancer等数据集上,HFSC取得了最优分类性能,其准确率与标准差指标表明该方法兼具高判别能力与稳定性;并且在包含区间型属性的混合数据集HESPE上,其分类准确率也显著优于所有对比方法。总体来看,HFSC在多数场景下具备显著竞争优势。

Figure 1. Classification accuracy diagram of each classifier on different datasets

1. 各分类器在不同数据集上的分类准确率图

Table 5. F1-score and AUC value of each classifier on different datasets

5. 各分类器在不同数据集上的F1分数和AUC值

数据集

HFSC

MPR

LSVM

MLP

WKNN

RKNN

F1

AUC

F1

AUC

F1

AUC

F1

AUC

F1

AUC

F1

AUC

wine

0.9724

0.9870

0.9546

0.9982

0.9422

0.9995

0.9717

0.9902

0.9605

0.9913

0.9381

0.9502

iris

0.9529

0.9902

0.9401

0.9913

0.9453

0.9900

0.9460

0.9967

0.9526

0.9973

0.8629

0.8970

cancer

0.9671

0.9878

0.9359

0.9841

0.9643

0.9936

0.9611

0.9911

0.7032

0.8640

0.6042

0.5797

sonar

0.8055

0.9167

0.7218

0.8122

0.7772

0.8179

0.8012

0.8982

0.8296

0.9229

0.7402

0.7771

yeast

0.5658

0.7592

0.4817

0.8241

0.5463

0.8388

0.5431

0.8180

0.5762

0.8195

0.5669

0.8061

colon

0.7532

0.8922

0.4900

0.6583

0.6930

0.9417

0.7230

0.8208

0.7335

0.9083

0.7486

0.7438

Pima

0.7191

0.7747

0.6854

0.7065

0.6627

0.8275

0.6737

0.7477

0.7315

0.7752

0.6963

0.7302

WDBC

0.9643

0.9870

0.9299

0.9695

0.9606

0.995

0.9537

0.9680

0.9664

0.9867

0.8699

0.8165

ionosphere

0.8447

0.9204

0.7790

0.8947

0.8420

0.8770

0.8417

0.9017

0.8905

0.9213

0.8011

0.5120

diabetes

0.8916

0.9574

0.9294

0.9891

0.8873

0.9709

0.9085

0.9708

0.9583

0.9896

0.9401

0.9987

gallstone

0.6322

0.6820

0.5911

0.6189

0.6149

0.7111

0.5391

0.6150

0.6166

0.6997

0.5299

0.6826

HESPE

0.2791

0.6806

0.1368

0.5895

0.2246

0.6543

0.2294

0.6204

0.1599

0.6609

0.1679

0.5539

ILPD

0.6747

0.6310

0.6660

0.6814

0.5943

0.7047

0.5966

0.6811

0.5717

0.6639

0.4508

0.7521

Average

0.7710

0.8589

0.7109

0.8244

0.7427

0.8709

0.7453

0.8477

0.7423

0.8616

0.6859

0.7538

(a)

(b)

Figure 2. F1-score and AUC diagram of each classifier on different datasets

2. 各分类器在不同数据集上的F1分数和AUC图

针对各分类器在13个数据集上的F1分数与AUC值表现(如表5图2所示),本文进行了综合对比分析。整体而言,本文提出的HFSC方法在F1分数上表现最优,平均值为0.7710,优于其他对比方法(MPR: 0.7109, LSVM: 0.7427, MLP: 0.7453, WKNN: 0.7423, RKNN: 0.6859),表明其在精确率与召回率的综合平衡上具有显著优势。在AUC指标上,HFSC平均值为0.8589,虽略低于LSVM (0.8709)与WKNN (0.8616),但仍表现稳健,说明其具备良好的类别区分与排序能力。

5.5. 统计检验

为进一步分析6种分类器分类准确率的统计差异性,本节采用Friedman统计量和Nemenyi统计量[39]进行统计检验。这两种统计量分别为

χ F 2 = 12N k( k+1 ) ( i=1 k r i 2 k ( k+1 ) 2 4 ) (11)

F F = ( N1 ) χ F 2 N( k1 ) χ F 2 (12)

CD= q α k( k+1 ) 6N (13)

其中 N k 分别表示数据集和算法的个数, r i 表示第 i 个算法在所有算法中的平均秩次排序, α 表示显著性水平, q α 是给定 α 的临界值[39]

基于Friedman检验,本研究拒绝了“所有算法性能相同”的原假设( α=0.05 ),进而采用Nemenyi检验进行后续两两比较。在6种算法、13个数据集条件下,计算得到临界距离CD = 2.0913。CD图(图3)显示,HFSC分类器的平均排名低于其他分类器,表明其性能优于所有对比方法。

Figure 3. Nemenyi test results for six classifiers (significance level α = 0.05)

3. 6种分类器的Nemenyi检验结果(显著性水平α = 0.05)

5.6. 超参数敏感性分析

本文对HFSC分类器中的k值进行了敏感性分析,各数据集在不同k值下的分类准确率变化如图4所示。从图中可以观察到,在所有数据集上,k为1至3的准确率曲线基本重合且处于较低位置,表明过小的k值会导致模型性能普遍偏低;随着k值增大到4至8,各数据集的准确率显著提升,曲线整体上移并趋于平稳,形成性能高位平台区;而当k值继续增大至9至10时,部分数据集的准确率出现回落,曲线下移,表明过大的k值可能引入噪声或导致模型过度平滑。整体来看,k为4至8是模型性能的稳定区域,其中k = 5在各数据集上的表现均处于该平台区内,既避免了过小k值带来的波动性,也规避了过大k值可能导致的性能衰退,展现出良好的鲁棒性与泛化能力。因此,本文最终选取k = 5作为实验参数。

Figure 4. Parameter sensitivity analysis

4. 参数敏感性分析

6. 结论

针对包含数值型、区间型与分类型属性的混合数据分类问题,本文提出了一种基于混合属性模糊相似度的分类方法。该方法通过定义融合多类型属性的模糊相似度度量,在有效保留各类数据原始分布与语义信息的基础上,实现了对异构数据的统一相似性评估。基于此构建的混合属性模糊相似度分类器,克服了传统分类模型在处理混合数据时依赖离散化或单一类型假设的局限性。实验结果表明,所提出的HFSC分类器在多个数据集上表现出稳定且具竞争力的分类性能。最后,对参数k进行了敏感性分析,得出k为4至8时是模型性能的稳定区域。

本研究的主要贡献在于提出了一种可解释的混合数据相似度度量框架,并在此基础上构建了高效且稳健的分类模型,为混合属性数据的分类问题提供了新的解决思路。未来工作将集中于相似度度量的自适应优化、面向流数据与半监督场景的拓展,以及与其他深度学习架构的融合研究。

基金项目

河北省中央引导地方科技发展资金项目(246Z1825G)。

NOTES

*通讯作者。

参考文献

[1] Sekar, J. and Aruchamy, P. (2025) A Novel Approach for Heart Disease Prediction Using Hybridized AITH2O Algorithm and SANFIS Classifier. Network: Computation in Neural Systems, 36, 109-147. [Google Scholar] [CrossRef] [PubMed]
[2] Salem, H., Shams, M.Y., Elzeki, O.M., Abd Elfattah, M., F. Al-Amri, J. and Elnazer, S. (2022) Fine-Tuning Fuzzy KNN Classifier Based on Uncertainty Membership for the Medical Diagnosis of Diabetes. Applied Sciences, 12, Article No. 950. [Google Scholar] [CrossRef
[3] Höglinger, G.U., Adler, C.H., Berg, D., Klein, C., Outeiro, T.F., Poewe, W., et al. (2024) A Biological Classification of Parkinson’s Disease: The Synneurge Research Diagnostic Criteria. The Lancet Neurology, 23, 191-204. [Google Scholar] [CrossRef] [PubMed]
[4] Khan, S.U.R., Bilal, O., Mistry, S., Deb, N., Mahmud, M. and Bhuyan, M. (2025) KDLight: A Lightweight Knowledge Distillation Framework for Medical Image Classification. 2025 International Joint Conference on Neural Networks (IJCNN), Rome, 30 June-5 July 2025, 1-8. [Google Scholar] [CrossRef
[5] Xing, W. and Bei, Y. (2020) Medical Health Big Data Classification Based on KNN Classification Algorithm. IEEE Access, 8, 28808-28819. [Google Scholar] [CrossRef
[6] Guo, X. (2024) Research on Systemic Financial Risk Early Warning Based on Integrated Classification Algorithm. 2024 IEEE 2nd International Conference on Electrical, Automation and Computer Engineering (ICEACE), Changchun, 26-28 December 2024, 1586-1591. [Google Scholar] [CrossRef
[7] Tong, L. and Tong, G. (2022) A Novel Financial Risk Early Warning Strategy Based on Decision Tree Algorithm. Scientific Programming, 2022, Article ID: 4648427. [Google Scholar] [CrossRef
[8] Hong, S., Wu, H., Xu, X. and Xiong, W. (2022) Early Warning of Enterprise Financial Risk Based on Decision Tree Algorithm. Computational Intelligence and Neuroscience, 2022, Article ID: 9182099. [Google Scholar] [CrossRef] [PubMed]
[9] Wu, H., Triebe, M.J. and Sutherland, J.W. (2023) A Transformer-Based Approach for Novel Fault Detection and Fault Classification/Diagnosis in Manufacturing: A Rotary System Application. Journal of Manufacturing Systems, 67, 439-452. [Google Scholar] [CrossRef
[10] Ragab, A., Ghezzaz, H. and Amazouz, M. (2022) Decision Fusion for Reliable Fault Classification in Energy-Intensive Process Industries. Computers in Industry, 138, Article ID: 103640. [Google Scholar] [CrossRef
[11] Eye, A.V. and Clogg, C.C. (1996) Categorical Variables in Developmental Research: Methods of Analysis. Elsevier.
[12] Lantz, B. (2015) Machine Learning with R. Packt Publishing.
[13] 张焕炯, 王国胜, 钟义信. 基于汉明距离的文本相似度计算[J]. 计算机工程与应用, 2001(19): 21-22.
[14] Mumtaz, S. and Giese, M. (2021) Hierarchy-Based Semantic Embeddings for Single-Valued & Multi-Valued Categorical Variables. Journal of Intelligent Information Systems, 58, 613-640. [Google Scholar] [CrossRef
[15] Prokhorenkova, L., Gusev, G., Vorobev, A., Dorogush, A.V. and Gulin, A. (2018) CatBoost: Unbiased Boosting with Categorical Features. NIPS’18: Proceedings of the 32nd International Conference on Neural Information Processing Systems, Montréal, 3-8 December 2018, 6639-6649.
[16] Billard, L. and Le‐Rademacher, J. (2012) Principal Component Analysis for Interval Data. WIREs Computational Statistics, 4, 535-540. [Google Scholar] [CrossRef
[17] Ishibuchi, H., Tanaka, H. and Okada, H. (1993) An Architecture of Neural Networks with Interval Weights and Its Application to Fuzzy Regression Analysis. Fuzzy Sets and Systems, 57, 27-39. [Google Scholar] [CrossRef
[18] Guo, C. and Liu, Y. (2015) A Feature Selection Method for Symbolic Interval Data. Operations Research and Management Science, 24, 67.
[19] Dai, J., Liu, Y., Chen, J. and Liu, X. (2020) Fast Feature Selection for Interval-Valued Data through Kernel Density Estimation Entropy. International Journal of Machine Learning and Cybernetics, 11, 2607-2624. [Google Scholar] [CrossRef
[20] Alencar, G.T., Santos, R.C. and Neves, A. (2022) Euclidean Distance-Based Method for Fault Detection and Classification in Transmission Lines. Journal of Control, Automation and Electrical Systems, 33, 1466-1476. [Google Scholar] [CrossRef
[21] Magyar, B., Kenyeres, A., Tóth, S., Hajdu, I. and Horváth, R. (2022) Spatial Outlier Detection on Discrete GNSS Velocity Fields Using Robust Mahalanobis-Distance-Based Unsupervised Classification. GPS Solutions, 26, Article No. 145. [Google Scholar] [CrossRef
[22] Cai, B., Xiong, P. and Tian, S. (2023) Center Contrastive Loss for Metric Learning.
[23] Wang, C., Wang, C., Qian, Y. and Leng, Q. (2024) Feature Selection Based on Weighted Fuzzy Rough Sets. IEEE Transactions on Fuzzy Systems, 32, 4027-4037. [Google Scholar] [CrossRef
[24] Dubois, D. and Prade, H. (1990) Rough Fuzzy Sets and Fuzzy Rough Sets. International Journal of General Systems, 17, 191-209. [Google Scholar] [CrossRef
[25] 胡宝清. 模糊理论基础[M]. 第2版. 武汉: 武汉大学出版社, 2010.
[26] Santambrogio, F. (2015) Optimal Transport for Applied Mathematicians. Springer.
[27] Ma, L., Bian, W. and Xue, X. (2024) Point Clouds Matching Based on Discrete Optimal Transport. IEEE Transactions on Image Processing, 33, 5650-5662. [Google Scholar] [CrossRef] [PubMed]
[28] Liang, P., Lei, D., Chin, K. and Hu, J. (2022) Feature Selection Based on Robust Fuzzy Rough Sets Using Kernel-Based Similarity and Relative Classification Uncertainty Measures. Knowledge-Based Systems, 255, Article ID: 109795. [Google Scholar] [CrossRef
[29] Pawlak, Z. (1982) Rough Sets. International Journal of Computer & Information Sciences, 11, 341-356. [Google Scholar] [CrossRef
[30] Khakbiz, M., Shahmoradi, M.R., Akhlaghi, F. and Soroush, K. (2025) AI-Enhanced Support Vector Machine Framework for Nanoparticle Size and Surface Nanotopography Analysis. Particuology, 106, 156-173. [Google Scholar] [CrossRef
[31] 余建航. 基于粗糙集的几类广义信息系统知识发现与决策方法研究[D]: [博士学位论文]. 哈尔滨: 哈尔滨工业大学, 2020.
[32] Liu, P., Munir, M., Mahmood, T. and Ullah, K. (2019) Some Similarity Measures for Interval-Valued Picture Fuzzy Sets and Their Applications in Decision Making. Information, 10, Article No. 369. [Google Scholar] [CrossRef
[33] Yang, X., Huang, P., An, L., Feng, P., Wei, B., He, P., et al. (2022) A Growing Model-Based OCSVM for Abnormal Student Activity Detection from Daily Campus Consumption. New Generation Computing, 40, 915-933. [Google Scholar] [CrossRef
[34] An, S., Zhao, E., Wang, C., Guo, G., Zhao, S. and Li, P. (2023) Relative Fuzzy Rough Approximations for Feature Selection and Classification. IEEE Transactions on Cybernetics, 53, 2200-2210. [Google Scholar] [CrossRef] [PubMed]
[35] Pan, F., Wang, B., Hu, X. and Perrizo, W. (2004) Comprehensive Vertical Sample-Based KNN/LSVM Classification for Gene Expression Analysis. Journal of Biomedical Informatics, 37, 240-248. [Google Scholar] [CrossRef] [PubMed]
[36] Zhang, R., Wang, L., Cheng, S. and Song, S. (2023) Mlp-Based Classification of COVID-19 and Skin Diseases. Expert Systems with Applications, 228, Article ID: 120389. [Google Scholar] [CrossRef] [PubMed]
[37] Tarakci, F. and Ozkan, I.A. (2021) Comparison of Classification Performance of kNN and WKNN Algorithms. Selcuk University Journal of Engineering Sciences, 20, 32-37.
[38] 周鹏, 伊静, 朱振方, 等. 面向不平衡分类的固定半径最近邻逐步竞争算法(FRNNPC) [J]. 山东大学学报(理学版), 2019, 54(3): 102-109.
[39] Demšar, J. (2006) Statistical Comparisons of Classifiers over Multiple Data Sets. Journal of Machine Learning Research, 7, 1-30.