1. 引言
分类作为机器学习与数据挖掘领域的基础性核心任务,在医疗诊断[1]-[5]、金融风险预警[6]-[8]、工业故障检测[9]-[10]等诸多实际场景中发挥着关键支撑作用,其分类结果的优劣直接决定下游决策的科学性与可靠性。因此,研发适配复杂数据特征、性能优异的分类算法,始终是该领域的研究热点与核心诉求。
在实际应用场景中,数据集往往呈现出属性类型多样化的特征,普遍同时包含数值型属性(如身高、体重、浓度等连续量化指标)、区间型属性(如年龄20~30岁、收入5~8 k等范围化指标)与分类型属性(如性别、职业、类别标签等离散语义指标)。不同类型属性的特征表达逻辑、数据分布规律存在本质差异:数值型属性的核心特征是量化大小差异,分类型属性的核心特征是类别语义一致性,区间型属性则需兼顾范围边界特征与样本落点的相对位置关系。这种属性异质性对相似度度量提出了双重要求:一是需针对不同属性类型设计适配性度量方法,二是需实现多维度相似度的科学整合,以精准反映样本间的整体关联程度。
在分类问题中,对于分类型数据,早期依赖于手工编码(如有序编码[11]、独热编码[12])后使用汉明距离[13];随着可学习嵌入[14]与梯度提升树框架的内置处理[15]出现,距离度量逐渐转向能够捕捉语义关系的低维向量表示。对于区间型数据,早期主要采用中心–半径变换[16]、端点距离[17]或Hausdorff距离[18]将其映射为数值;后续研究发展出基于区间分布的整体建模方法(如区间专用核函数[19]),以更直接地表达区间所承载的不确定性。对于数值型数据,则经历了从经典欧氏距离[20]、适应相关性的马氏距离[21],到深度学习时代通过对比损失与度量学习实现任务自适应的可学习距离[22]。
然而,现有分类器在处理包含数值型、区间型以及分类型属性的混合数据时仍存在明显局限。一方面,多数策略依赖将非数值属性(如分类型、区间型)强制转换为数值形式(如独热编码、中心–半径变换),这一过程不仅可能引入冗余维度或信息失真,更易破坏属性原有的语义结构与不确定性特征;另一方面,现有方法在整合多源相似度时,通常采用线性加权或基于各属性子空间相似度最小值的聚合策略[23],这类融合机制难以捕捉不同属性空间之间相似性判断的非线性交互关系,且其参数配置或策略选择多依赖经验设定或后验优化,缺乏坚实的理论支撑。
针对上述问题,本文提出一种面向属性本征特性的模糊相似度建模范式。具体而言,避免对分类型与区间型属性进行数值化转换,而是分别在其原生空间中定义适配的距离度量:对分类型属性,采用归一化汉明距离以刻画类别一致性;对数值型属性,保留欧氏距离以反映连续量值差异。考虑到切片Wasserstein距离所采用的投影积分机制,能够从多个方向对分布的整体形态进行刻画,每一个投影方向均反映了原始分布在该视角下的累积分布展宽特性,而这一特性恰好构成区间数据不确定性的数学化表征。因此,对区间型属性,则引入切片Wasserstein距离以有效捕捉分布形态与支撑集的不确定性。在各属性类型距离函数的基础上,通过指数映射将各属性子空间的距离转化为相似度,并采用乘积t-范数融合机制构建全局相似度。该设计不仅尊重各类属性的内在表达逻辑,其乘积形式亦隐含“所有属性均需高度一致才能判定样本相似”的强协同假设,从而在无需参数调优的前提下实现多源相似性的自适应耦合。所提方法为混合属性分类任务提供了一种结构清晰、可解释性强且计算高效的相似性度量框架。
本文结构如下:第2节给出了相关理论基础知识;第3节建立了面向混合数据的混合属性模糊相似度;第4节构建了面向混合数据的基于混合属性模糊相似度的改进k-近邻分类器;第5节结合UCI数据集中的13个数据集,验证了所提分类方法的可行性和有效性;第6节为结论。
2. 理论基础知识
2.1. 模糊相似关系[24]
设
为非空论域,令
为条件属性集,
为
的子集。
是
上的模糊关系。对
,如果
满足
1) 自反性:
;
2) 对称性:
,
则称
是
上的一个模糊相似关系。
2.2. t-范数[25]
设
,对任意
,如果
满足:
1) 交换律:
;
2) 结合律:
;
3) 单调性:如果
,则
;
4) 边界条件:
,
则称
为三角范数,简称为t-范数。
常用的t-范数主要有以下4种:
1) Mamdani算子:
(最大的三角范数);
2) 乘积算子:
;
3) Lukasiewicz t-范数:
;
4)
。
2.3. 离散测度下的p-阶切片W距离[26]
设两个
维离散测度
的支撑集为点云
,满足
;
,满足
。
为
维单位球面(所有投影方向集合)。从
均匀采样
个方向
后,各方向下1D投影点云的
阶Wasserstein距离
次幂的平均
次方为
(1)
其中,
代表
沿方向
的1D投影点云,投影值为
;
代表1D投影点云的最优传输成本。求解过程为先对
升序排序,再计算累计权重得到最优传输计划,最后计算运输成本,如算法1所示[27]。
算法1. 基于1D DOT问题的离散测度切片Wasserstein距离计算伪代码
输入:
:离散测度
的支撑集(
);
:离散测度
的支撑集(
);
:投影方向采样数,
:Wasserstein距离的阶数(默认
)。 输出:
:切片Wasserstein距离估计值。 1. 从
维单位球面均匀采样
个方向:
,其中
且
。 2. For
到
做: 2.1. 1D投影:计算点云沿
的1D投影:
,第
个元素为
;
,第
个元素为
。 2.2. 1D离散最优传输问题求解: a) 排序:对
按投影值升序排序,记录排列索引
,满足
,
;排序后投影点
;排序后的权重
。 b) 累计权重计算:初始化
。 对
,执行:
; 对
,执行:
; c) 求解最优传输计划
: 初始化运输计划矩阵
,所有元素都是0; 令
; 如果
或者
,则
; 否则如果
,则
; 否则如果
,则
; 否则如果
,则
, 否则如果
,则
。 |
d) 还原运输计划到原索引:
。 e) 计算1D离散最优传输成本:
。 End for 3. 计算切片Wasserstein距离估计值:
。 4. 返回
。 |
3. 混合属性模糊相似度
传统模糊相似度往往采用相同的范式定义不同属性下两个样本间的模糊相似度[28],没有利用不同类型属性本身包含的信息,一定程度丢失了原始混合数据的信息。鉴于此,本文基于样本属性本身的数据信息,给出了不同类型属性的距离定义以及适配混合属性样本间相似度的定义,创新性地利用乘积t-范数提出了混合属性模糊相似度,以充分利用原始混合数据的信息提高混合数据的可区分性。
定义1 [29] 设
为信息系统(Information System, IS),其中
为非空有限对象集(即论域),
为非空有限属性集,
,
是属性
的值域。
是信息函数,
表示对象
在属性
上的值。对每个
,
,
。
定义2 设
为非空有限对象集(即论域),
为非空有限决策属性集,
为信息系统的非空有限属性集,其中
为数值型属性集,
为区间型属性集,
为分类型属性集。称
为混合信息系统。对
,
,属性值记为
。
混合信息系统中的非空有限属性集为
,设
,属性集
中包含
个样本,将这
个样本按数值型属性、区间型属性和分类型属性排列并重新排序,得到
。假设
属性集中包含
个数值型属性
、
个区间型属性
、
个分类型属性
,
,则在混合信息系统
,
,
,任意
在属性集
下的混合属性模糊相似度定义如下:
定义3 设样本
在
个数值型属性下的值分别为
,令
。样本
在
个数值型属性下的值分别为
,令
。任意
在属性集
数值型属性下的模糊相似度定义为:
(2)
(3)
其中,
,控制模糊相似度的衰减速度。
定义4 设样本
在
个区间型属性下的值分别为
,令
,
,
,
。样本
在
个区间型属性下的值分别为
。令
,
,
,
。任意
在属性集
区间型属性下的模糊相似度定义为:
(4)
(5)
其中,
,控制模糊相似度的衰减速度。
定义5 设样本
在
个分类型属性下的值分别为
,令
。样本
在
个分类型属性下的值分别为
,令
。任意
在属性集
分类型属性下的模糊相似度定义为:
(6)
(7)
其中,
,控制模糊相似度的衰减速度。
,
是指示函数,当条件为真时值为1,否则为0。
定义6 设
,
,
。
,称
(8)
其为
在属性集
下的混合属性模糊相似度,其中
为乘积t-范数。
4. 基于混合属性模糊相似度的k-近邻分类器
由于大部分分类算法(比如支持向量机[30])只能处理数值型数据,对于包含分类型属性和区间型属性的数据要进行数据转换之后才能进行分类,会损失原始数据的信息。因此,本节在保留分类型属性以及区间型属性原始信息的情况下提出了混合属性模糊相似度分类器(Hybrid Attribute Fuzzy Similarity Classifier, HFSC)。
基于混合属性模糊相似度(式8)的定义,本节提出了混合属性模糊相似度的k-近邻分类器,该分类器的伪代码如算法2所示。
算法2. 混合属性模糊相似度分类器(HFSC)
输入:训练集
和测试集
,参数
;
输出:分类准确率。 1. 识别训练集和测试集中每一个属性的类型; 2. 将数值型属性值和区间型属性值进行归一化处理; 3. 对每一个
,
4. 对每一个
,计算 5. 数值型属性模糊相似度
6. 区间型属性模糊相似度
7. 分类型属性模糊相似度
8. 混合属性模糊相似度
9. 结束。 10. 对
进行排序,找到最大
个混合属性模糊相似度对应样本的类别及其决策类,即:
,
,其中mode表示取众数。 11. 最后计算分类准确率。 12. 结束。 |
在算法2中输入的是数据集的训练集、测试集,输出的是分类准确率。首先,对数据集中的属性类型进行识别,区分数值属性、区间型属性和分类型属性。之后,针对测试集中的每一个样本,分别计算其与训练集中所有样本的混合属性模糊相似度,该相似度综合了不同类型属性的模糊匹配程度。其次,利用基于混合属性模糊相似度的k-近邻分类规则进行分类:对于每个测试样本,从训练集中筛选出与其混合属性模糊相似度最高的k个样本,并根据这些样本的类别标签,通过众数投票确定测试样本的所属类别。最后,将所有测试样本的预测类别与真实类别进行比较,统计正确分类的样本比例,从而得到最终的分类准确率。
5. 实验
5.1. 数据集来源
为验证实验效果,选用来自UCI机器学习库(https://archive.ics.uci.edu/)中具有不同属性类型和不同样本数量的13个公开数据集进行实验,数据集描述见表1。区间型数据是采用
方式生成的,
[31]。
Table 1. Dataset description
表1. 数据集描述
NO |
数据集 |
样本数 |
属性数5 |
类别数 |
数据类型 |
1 |
Wine |
178 |
13 |
3 |
数值型 |
2 |
Iris |
150 |
4 |
3 |
数值型 |
3 |
Cancer |
699 |
9 |
2 |
分类型 |
4 |
Sonar |
208 |
60 |
2 |
数值型 |
5 |
Colon |
62 |
2000 |
2 |
数值型 |
6 |
Yeast |
1484 |
8 |
10 |
数值型 |
7 |
Wdbc |
569 |
30 |
2 |
数值型 |
NO |
数据集 |
样本数 |
属性数 |
类别数 |
数据类型 |
8 |
Pima |
768 |
8 |
2 |
数值型 |
9 |
Diabetes Risk |
520 |
16 |
2 |
分类型、数值型 |
10 |
Gall Stone |
319 |
38 |
2 |
分类型、数值型 |
11 |
Ionosphere |
351 |
33 |
2 |
分类型、数值型 |
12 |
ILPD |
583 |
10 |
2 |
分类型、数值型、区间型 |
13 |
HESPE |
145 |
31 |
8 |
分类型、区间型 |
5.2. 数据集归一化
由于大多分类算法基于距离度量进行分类决策,而原始特征(如年龄、收缩压等)具有不同的量纲与取值范围(如年龄通常为30~80岁,而收缩压可到100~200 mmHg),若直接使用原始数值计算距离,取值范围较大的特征将主导距离计算结果,导致模型对小尺度特征不敏感。为消除量纲差异对相似性度量的干扰,确保各数值型以及区间型特征在距离计算中具有可比性,本文对所有数值型及区间型变量采用如下方法进行尺度统一。
对每个数值型属性值
进行最大–最小归一化(Min-Max Scaling):
(9)
设数据集包含
个样本,第
个属性为区间型属性,记为
。对第
个样本
,该属性的取值为一个闭区间
。首先分别计算第
个区间属性下所有样本左右端点的全局最小值
和最大值
,然后分别对第
个样本的左右端点进行最大–最小归一化[32],最后归一化结果为
,其中:
(10)
5.3. 分类性能指标
混淆矩阵[33]是评估分类模型性能的核心工具之一,能够直观呈现模型对各类别样本的分类预测结果。对于二分类任务,其混淆矩阵的具体定义如表2所示。其中,真正类(TP)代表正类(少数类)样本被正确预测的数量,真负类(TN)代表负类(多数类)样本被正确预测的数量;假负类(FN)表示正类样本被错误预测为负类的数量,假正类(FP)表示负类样本被错误预测为正类的数量。
Table 2. Confusion matrix
表2. 混淆矩阵
|
预测类别 |
预测正类 |
预测负类 |
真实类别 |
真实正类 |
真正类(TP) |
假负类(FN) |
真实负类 |
假正类(FP) |
真负类(TN) |
基于混淆矩阵所提供的分类预测细节,可进一步推导得到反映分类算法综合性能的关键评价指标,包括召回率(Recall)、准确率(Accuracy)、精确率(Precision)及F1分数(F1-Score)等。各指标对应的数学计算公式如表3所示:
本文选取F1分数(F1-Score)、受试者工作特征曲线下面积(Area under Curve, AUC)与准确率(Accuracy)作为分类性能的核心评价指标,三者从差异化维度刻画模型的分类效果:其中F1分数是精确率与召回率的调和平均值,可同时兼顾模型对正类样本的“预测可靠性”与“识别覆盖度”,在类别不平衡场景下能更全面地评估少数类的分类表现;AUC指标基于受试者工作特征曲线(ROC曲线)计算,其数值关联模型的真正率与假正率,可综合衡量模型对正负两类样本的分类区分能力;而准确率则表征模型正确分类的样本占总样本的比例,是直观反映模型整体分类正确性的基础指标。
Table 3. Confusion matrix formula
表3. 混淆矩阵公式
度量 |
公式 |
直观含义 |
召回率 |
|
实际的正例中,被正确预测的比例 |
准确率 |
|
预测正确的样本比例 |
续表
精确率 |
|
预测为正例的样本中,实际为正例的比例 |
F1分数 |
|
精确率和召回率的调和平均 |
AUC |
ROC曲线下的面积 |
随机正例得分高于随机负例的概率 |
5.4. 结果分析
为验证本文所构建的HFSC分类器的性能,将其与基于最大正区域的新型分类器(Novel Classifier Based on Maximal Positive Region, MPR) [34]、线性支持向量机(Linear Support Vector Machine, LSVM) [35]、多层感知机(Multi-Layer Perceptron, MLP) [36]、加权k近邻(Weighted k-Nearest Neighbor, WKNN) [37]以及半径k近邻(Radius k-Nearest Neighbor, RKNN) [38]这5种经典基准分类器进行对比实验,所有分类任务均采用统一超参数设置(K = 5)以保证对比公平性。实验运行环境为个人计算机,具体配置如下:操作系统为64位Windows 10,处理器为AMD Ryzen 5 3500U,内存容量为10 GB。具体运算结果见表4。
Table 4. Classification accuracy of each classifier on different datasets
表4. 各分类器在不同数据集上的分类准确率
数据集 |
HFSC |
MPR |
LSVM |
MLP |
WKNN |
RKNN |
wine |
0.9719 ± 0.0281 |
0.9549 ± 0.0354 |
0.9438 ± 0.0505 |
0.9722 ± 0.0373 |
0.9611 ± 0.0434 |
0.9386 ± 0.0631 |
iris |
0.9533 ± 0.0670 |
0.9400 ± 0.0798 |
0.9467 ± 0.0499 |
0.9467 ± 0.0718 |
0.9533 ± 0.0521 |
0.8667 ± 0.0789 |
cancer |
0.9671 ± 0.0158 |
0.9371 ± 0.0295 |
0.9642 ± 0.0072 |
0.9613 ± 0.0203 |
0.7868 ± 0.0549 |
0.7367 ± 0.0411 |
sonar |
0.8081 ± 0.1046 |
0.7260 ± 0.1650 |
0.7788 ± 0.0809 |
0.8024 ± 0.1051 |
0.8319 ± 0.0866 |
0.7600 ± 0.0845 |
yeast |
0.5728 ± 0.0435 |
0.4724 ± 0.0322 |
0.5693 ± 0.0428 |
0.5587 ± 0.0444 |
0.5862 ± 0.0441 |
0.5842 ± 0.0367 |
colon |
0.7762 ± 0.1476 |
0.5190 ± 0.1387 |
0.7476 ± 0.1518 |
0.7595 ± 0.0990 |
0.7786 ± 0.1384 |
0.7738 ± 0.1514 |
Pima |
0.7265 ± 0.0518 |
0.6874 ± 0.0509 |
0.7162 ± 0.0323 |
0.7227 ± 0.0634 |
0.7369 ± 0.0597 |
0.7161 ± 0.0429 |
WDBC |
0.9648 ± 0.0263 |
0.9298 ± 0.0453 |
0.9613 ± 0.0246 |
0.9544 ± 0.0361 |
0.9666 ± 0.0199 |
0.8771 ± 0.0398 |
ionosphere |
0.8548 ± 0.0643 |
0.7863 ± 0.0412 |
0.8490 ± 0.0480 |
0.8547 ± 0.0433 |
0.8462 ± 0.0529 |
0.6839 ± 0.0709 |
diabetes |
0.8904 ± 0.0385 |
0.9288 ± 0.0315 |
0.8865 ± 0.0264 |
0.9096 ± 0.0385 |
0.9615 ± 0.0285 |
0.9442 ± 0.0338 |
gallstone |
0.6398 ± 0.0952 |
0.5956 ± 0.0562 |
0.6265 ± 0.0823 |
0.5860 ± 0.0710 |
0.6743 ± 0.0889 |
0.6210 ± 0.0785 |
HESPE |
0.2843 ± 0.1254 |
0.1571 ± 0.1031 |
0.2681 ± 0.1105 |
0.2490 ± 0.1365 |
0.2402 ± 0.1109 |
0.2644 ± 0.1531 |
ILPD |
0.6995 ± 0.0755 |
0.6604 ± 0.0419 |
0.7136 ± 0.0072 |
0.7067 ± 0.0198 |
0.6778 ± 0.0884 |
0.7079 ± 0.0744 |
Average |
0.7776 ± 0.0680 |
0.7150 ± 0.0654 |
0.7670 ± 0.0549 |
0.7680 ± 0.0605 |
0.7693 ± 0.0668 |
0.7288 ± 0.0730 |
表4和图1展示了所提出的HFSC分类器与5种对比模型(MPR、LSVM、MLP、WKNN、RKNN)在13个异质数据集上的分类准确率。由分类准确率结果可知,HFSC以0.7776的平均准确率取得了最优的整体性能,明显优于其他分类器。具体而言,在Iris、Cancer等数据集上,HFSC取得了最优分类性能,其准确率与标准差指标表明该方法兼具高判别能力与稳定性;并且在包含区间型属性的混合数据集HESPE上,其分类准确率也显著优于所有对比方法。总体来看,HFSC在多数场景下具备显著竞争优势。
Figure 1. Classification accuracy diagram of each classifier on different datasets
图1. 各分类器在不同数据集上的分类准确率图
Table 5. F1-score and AUC value of each classifier on different datasets
表5. 各分类器在不同数据集上的F1分数和AUC值
数据集 |
HFSC |
MPR |
LSVM |
MLP |
WKNN |
RKNN |
F1 |
AUC |
F1 |
AUC |
F1 |
AUC |
F1 |
AUC |
F1 |
AUC |
F1 |
AUC |
wine |
0.9724 |
0.9870 |
0.9546 |
0.9982 |
0.9422 |
0.9995 |
0.9717 |
0.9902 |
0.9605 |
0.9913 |
0.9381 |
0.9502 |
iris |
0.9529 |
0.9902 |
0.9401 |
0.9913 |
0.9453 |
0.9900 |
0.9460 |
0.9967 |
0.9526 |
0.9973 |
0.8629 |
0.8970 |
cancer |
0.9671 |
0.9878 |
0.9359 |
0.9841 |
0.9643 |
0.9936 |
0.9611 |
0.9911 |
0.7032 |
0.8640 |
0.6042 |
0.5797 |
sonar |
0.8055 |
0.9167 |
0.7218 |
0.8122 |
0.7772 |
0.8179 |
0.8012 |
0.8982 |
0.8296 |
0.9229 |
0.7402 |
0.7771 |
yeast |
0.5658 |
0.7592 |
0.4817 |
0.8241 |
0.5463 |
0.8388 |
0.5431 |
0.8180 |
0.5762 |
0.8195 |
0.5669 |
0.8061 |
colon |
0.7532 |
0.8922 |
0.4900 |
0.6583 |
0.6930 |
0.9417 |
0.7230 |
0.8208 |
0.7335 |
0.9083 |
0.7486 |
0.7438 |
Pima |
0.7191 |
0.7747 |
0.6854 |
0.7065 |
0.6627 |
0.8275 |
0.6737 |
0.7477 |
0.7315 |
0.7752 |
0.6963 |
0.7302 |
WDBC |
0.9643 |
0.9870 |
0.9299 |
0.9695 |
0.9606 |
0.995 |
0.9537 |
0.9680 |
0.9664 |
0.9867 |
0.8699 |
0.8165 |
ionosphere |
0.8447 |
0.9204 |
0.7790 |
0.8947 |
0.8420 |
0.8770 |
0.8417 |
0.9017 |
0.8905 |
0.9213 |
0.8011 |
0.5120 |
diabetes |
0.8916 |
0.9574 |
0.9294 |
0.9891 |
0.8873 |
0.9709 |
0.9085 |
0.9708 |
0.9583 |
0.9896 |
0.9401 |
0.9987 |
gallstone |
0.6322 |
0.6820 |
0.5911 |
0.6189 |
0.6149 |
0.7111 |
0.5391 |
0.6150 |
0.6166 |
0.6997 |
0.5299 |
0.6826 |
HESPE |
0.2791 |
0.6806 |
0.1368 |
0.5895 |
0.2246 |
0.6543 |
0.2294 |
0.6204 |
0.1599 |
0.6609 |
0.1679 |
0.5539 |
ILPD |
0.6747 |
0.6310 |
0.6660 |
0.6814 |
0.5943 |
0.7047 |
0.5966 |
0.6811 |
0.5717 |
0.6639 |
0.4508 |
0.7521 |
Average |
0.7710 |
0.8589 |
0.7109 |
0.8244 |
0.7427 |
0.8709 |
0.7453 |
0.8477 |
0.7423 |
0.8616 |
0.6859 |
0.7538 |
![]()
(a)
(b)
Figure 2. F1-score and AUC diagram of each classifier on different datasets
图2. 各分类器在不同数据集上的F1分数和AUC图
针对各分类器在13个数据集上的F1分数与AUC值表现(如表5及图2所示),本文进行了综合对比分析。整体而言,本文提出的HFSC方法在F1分数上表现最优,平均值为0.7710,优于其他对比方法(MPR: 0.7109, LSVM: 0.7427, MLP: 0.7453, WKNN: 0.7423, RKNN: 0.6859),表明其在精确率与召回率的综合平衡上具有显著优势。在AUC指标上,HFSC平均值为0.8589,虽略低于LSVM (0.8709)与WKNN (0.8616),但仍表现稳健,说明其具备良好的类别区分与排序能力。
5.5. 统计检验
为进一步分析6种分类器分类准确率的统计差异性,本节采用Friedman统计量和Nemenyi统计量[39]进行统计检验。这两种统计量分别为
(11)
(12)
(13)
其中
和
分别表示数据集和算法的个数,
表示第
个算法在所有算法中的平均秩次排序,
表示显著性水平,
是给定
的临界值[39]。
基于Friedman检验,本研究拒绝了“所有算法性能相同”的原假设(
),进而采用Nemenyi检验进行后续两两比较。在6种算法、13个数据集条件下,计算得到临界距离CD = 2.0913。CD图(图3)显示,HFSC分类器的平均排名低于其他分类器,表明其性能优于所有对比方法。
Figure 3. Nemenyi test results for six classifiers (significance level α = 0.05)
图3. 6种分类器的Nemenyi检验结果(显著性水平α = 0.05)
5.6. 超参数敏感性分析
本文对HFSC分类器中的k值进行了敏感性分析,各数据集在不同k值下的分类准确率变化如图4所示。从图中可以观察到,在所有数据集上,k为1至3的准确率曲线基本重合且处于较低位置,表明过小的k值会导致模型性能普遍偏低;随着k值增大到4至8,各数据集的准确率显著提升,曲线整体上移并趋于平稳,形成性能高位平台区;而当k值继续增大至9至10时,部分数据集的准确率出现回落,曲线下移,表明过大的k值可能引入噪声或导致模型过度平滑。整体来看,k为4至8是模型性能的稳定区域,其中k = 5在各数据集上的表现均处于该平台区内,既避免了过小k值带来的波动性,也规避了过大k值可能导致的性能衰退,展现出良好的鲁棒性与泛化能力。因此,本文最终选取k = 5作为实验参数。
Figure 4. Parameter sensitivity analysis
图4. 参数敏感性分析
6. 结论
针对包含数值型、区间型与分类型属性的混合数据分类问题,本文提出了一种基于混合属性模糊相似度的分类方法。该方法通过定义融合多类型属性的模糊相似度度量,在有效保留各类数据原始分布与语义信息的基础上,实现了对异构数据的统一相似性评估。基于此构建的混合属性模糊相似度分类器,克服了传统分类模型在处理混合数据时依赖离散化或单一类型假设的局限性。实验结果表明,所提出的HFSC分类器在多个数据集上表现出稳定且具竞争力的分类性能。最后,对参数k进行了敏感性分析,得出k为4至8时是模型性能的稳定区域。
本研究的主要贡献在于提出了一种可解释的混合数据相似度度量框架,并在此基础上构建了高效且稳健的分类模型,为混合属性数据的分类问题提供了新的解决思路。未来工作将集中于相似度度量的自适应优化、面向流数据与半监督场景的拓展,以及与其他深度学习架构的融合研究。
基金项目
河北省中央引导地方科技发展资金项目(246Z1825G)。
NOTES
*通讯作者。