1. 引言
1.1. 任务背景
糖尿病视网膜病变(Diabetic Retinopathy, DR)作为糖尿病最常见的严重微血管并发症,是全球糖尿病人群致盲的首要原因。据《全球糖尿病地图》显示,2024年全球糖尿病患者已达5.887亿,DR的防控形势严峻,其早期症状虽隐匿但发展不可逆,对DR的精准早筛是降低致盲率的关键。传统DR诊断依赖眼科医生人工判读眼底图像,受专业经验、主观判断及医疗资源分布不均影响,漏诊、误诊率较高,难以满足海量患者的筛查需求,亟需自动化诊断技术突破瓶颈。
深度学习为DR自动化筛查提供了新路径,端到端模型可快速客观的分析眼底图像,提升筛查效率。但现有模型仍存短板:DR图像病灶与背景特征混杂,微小病灶易被干扰;数据集类别不平衡导致模型偏向多数类;泛化能力不足,难以适配不同拍摄条件的临床图像。本研究构建高精度、强鲁棒性的CF-ResNet模型,通过多维度算法创新,为DR普惠性早筛提供技术支撑。
1.2. 国内外研究现状
国外在糖尿病视网膜病变(DR)的深度学习领域已形成较为成熟的研究体系,借助Kaggle、EyePACS等公开数据集构建了模型训练的基准环境。国外研究多集中于优化VGGNet、Inception等经典模型,并结合注意力机制提升特征提取的精度。例如Mansour [1]等人基于AlexNet优化的模型在Kaggle数据集上实现了93.18%的准确率。同时,近年来视觉Transformer凭借其全局注意力机制的优势在DR检测中表现突出,且轻量化模型的研究也日益受到关注,以适应设备端部署的实际需求。然而,现有模型在可解释性和跨场景泛化能力方面仍有待优化。
相比之下,国内研究更多聚焦于算法优化与临床实际应用的适配性。例如,赵鑫峰提出的Mca_DR模型融合了动态蛇形卷积与跨轴注意力机制,在Aptos2019数据集上实现了85%的准确率;周凯等人构建的轻量化模型则在APTOS-2019数据集上达到五分类准确率0.8310。国内研究在应对数据不平衡问题上取得了进展,但在多尺度病灶协同提取、复杂噪声抗干扰等方面的优化仍显不足。
2. 数据集获取及处理
2.1. 数据集获取
本研究采用的数据集来源于Kaggle竞赛中的APTOS2019 Blindness Detection数据集,该数据集包含3662张不同病变程度的糖尿病视网膜高清RGB眼底图像。依据糖尿病视网膜病变的严重程度,数据集将图像划分为5个等级,以数字0~4对应具体标签如表1。统计显示,数据分布存在显著不均衡:正常样本占比最高,达到49.3%,而轻度和重度非增殖性病变等样本占比较少,分别为10.1%和5.3%。为提升模型泛化能力,后续我们对数据集进行了数据增强,以均衡各类别图像数量。
Table 1. Classification and clinical manifestations of diabetic retinopathy
表1. 糖尿病视网膜病变等级划分及临床表现
类别标签 |
DR病变等级 |
临床表现 |
0 |
无病变(NO-DR) |
无病变特征 |
1 |
轻度非增殖性病变(Mild NPDR) |
仅出现微动脉瘤 |
2 |
中度非增殖性病变(Moderate NPDR) |
除了微动脉瘤外,出现血点絮状静脉串珠 |
3 |
重度非增殖性病变(Severe NPDR) |
1) 大于2个象限出现静脉串珠 2) 四象限内,每个象限出现20个以上的出血点 3) 至少1个象限出现微血管异常 |
4 |
增殖性病变(PDR) |
玻璃体/视网膜出血/增生新血管 |
2.2. 数据集处理
为削弱原始数据集偏差对实验结果的干扰,并提升图像质量以适配模型特征学习需求,本研究结合眼底图像特性设计了针对性预处理流程,同步融入多元化数据增强策略,具体操作如下。
2.2.1. 基础预处理优化
首先开展图像归一化处理,由于不同设备采集的眼底图像存在明显亮度差异,采用灰色世界算法实现亮度归一化,统一图像光照水平;同时通过二值法裁剪图像边缘黑边,将所有图像统一缩放至512 × 512像素,完成尺寸归一化,消除不同图像的规格差异,为模型提供统一输入格式。针对去噪需求,将原高斯滤波替换为双边滤波,在保留病灶细节的前提下有效滤除高频噪声,避免高斯滤波导致的特征模糊问题。
2.2.2. 预处理步骤有效性验证实验
为明确各预处理步骤对模型性能的影响,设计对照实验,分别测试“仅亮度归一化”“亮度 + 尺寸归一化”“亮度 + 尺寸归一化 + 双边滤波”“完整预处理含对比度受限的自适应直方图均衡化(Contrast-Limited Adaptive Histogram Equalization: CLAHE)”四种方案的模型准确率,结果如表2所示,验证了双边滤波与CLAHE对特征提取的正向作用。
Table 2. Performance comparison of different preprocessing schemes
表2. 不同预处理方案性能对比
预处理方案 |
准确率(%) |
召回率(%) |
F1分数 |
仅亮度归一化 |
78.6 |
76.3 |
0.772 |
亮度 + 尺寸归一化 |
81.2 |
79.5 |
0.801 |
亮度 + 尺寸归一化 + 双边滤波 |
83.5 |
82.1 |
0.827 |
完整预处理(含CLAHE) |
84.8 |
83.5 |
0.833 |
2.2.3. 组合式数据增强优化
为扩充样本多样性以提升模型鲁棒性,设计多维度增强方案:基础增强操作包括随机旋转(−15˚~15˚)、水平翻转、垂直翻转,保持病灶特征的真实性[2];光照与对比度优化采用自适应直方图均衡化(CLAHE)提升病灶与背景对比度,通过伽马校正(γ = 0.8~1.2)平衡图像光照差异;添加轻微高斯噪声增强模型抗干扰能力,采用随机弹性形变模拟眼底图像拍摄时的轻微形变[3],提升模型对图像畸变的适应性;同时考虑到数据集中健康视网膜(类别0)样本占比较高,对此类别不进行增强处理,避免加剧样本分布失衡问题。经上述流程处理后,数据集实现了亮度、尺寸的统一化,病灶特征的清晰化与样本分布的均衡化,为后续模型训练提供了高质量输入。
3. 模型设计
3.1. 基准模型
ResNet50 [4]由5个卷积阶段组成,包含49个卷积层和1个全连接层,其核心创新是残差连接结构,通过恒等映射路径缓解深层网络的梯度消失与退化问题[5]。该模型通过堆叠残差块实现深层特征提取,但其默认的等权特征处理方式难以突出DR图像中的关键病灶特征,且在应对类别不平衡数据时训练效果受限,因此本文以ResNet50为基准,设计CF-ResNet改进模型,通过多维度优化提升DR分级诊断性能。
3.2. CF-RstNet的整体架构
CF-ResNet以ResNet50为主干网络,在其基础上进行四方面核心改进,构建适用于DR分级任务的模型架构:在每个残差块中嵌入CBAM注意力机制,强化病灶特征选择性;将传统交叉熵损失函数替换为Focal Loss,缓解类别不平衡带来的训练偏差;在数据输入阶段融入上述多元化数据增强流程,提升模型泛化能力;在网络第3、4卷积阶段之间新增多尺度特征融合模块(MSFM),适配不同尺寸病变特征提取。模型整体架构分为输入层、特征提取层(含注意力机制与多尺度融合)、分类层及输出层,通过端到端训练实现DR五级分类任务[6],在保持轻量化特性的同时,显著提升病灶识别精度与鲁棒性。
3.2.1. 引入CBAM注意力机制
卷积块注意力模块(CBAM)可以通过通道注意力与空间注意力的双重引导,强化模型对关键特征的感知能力,且计算开销低,可无缝适配ResNet50的残差结构。本研究将CBAM模块嵌入ResNet50的每个残差块,置于卷积层与恒等映射相加操作之间,解决DR图像病灶与背景混杂的核心问题:
1) 通道注意力阶段:采用全局平均池化与最大池化双分支融合策略,相较于单一池化方式能更全面捕获通道特征信息,将池化结果输入2层共享MLP,生成自适应通道权重向量,对病灶相关通道赋予高权重,抑制背景噪声通道干扰,实验验证该设计可使微小病灶特征响应值提升30%以上。
2) 空间注意力阶段:对通道压缩后的特征图进行平均池化与最大池化拼接,采用7 × 7卷积核生成空间注意力图,精准定位微动脉瘤、出血点等病灶的空间位置,同时通过边缘平滑处理,避免注意力聚焦过度集中导致的特征丢失,有效提升病灶区域特征的完整性。
3) 为验证CBAM模块的特征聚焦效果,采用Grad-CAM热力图可视化分析,结果如图1所示。可见引入CBAM后,模型注意力区域(红色高亮部分)从背景组织转移至微动脉瘤、出血点等关键病灶区域,证明该模块能有效引导模型关注诊断相关特征。
Figure 1. Heatmap of feature enhancement effect
图1. 特征增强效果热力图
3.2.2. 采用Focal Loss损失函数
针对我们DR数据集类别不平衡(少数类样本占比最低仅5.3%)导致模型偏向多数类的问题,本研究引入Focal Loss损失函数,通过动态调整样本权重,引导模型聚焦少数类难分样本,相较于传统交叉熵损失与加权交叉熵损失,具备更精准的样本适配能力,计算公式(1)如下:
(1)
其中,
根据数据集样本占比自适应设定为0.1、0.3、0.2、0.2、0.2 (对应类别0~4),针对性提升少数类样本的权重;
取值2,通过指数衰减降低易分样本的权重占比,使模型训练时少数类难分样本的损失贡献占比提升至40%以上。同时,为避免梯度震荡,对损失函数进行平滑处理,将
替换为改进型对数函数,提升训练稳定性,实验验证该损失函数可使少数类样本召回率提升8%以上。
3.2.3. 新增多尺度特征融合模块(MSFM)
(1) 模块设计初衷
DR图像中病灶尺寸差异显著,微动脉瘤直径通常 < 50 μm,而大面积出血范围可 > 1 mm2,原始ResNet50单一尺度特征提取难以全面覆盖该跨度。现有Inception模块侧重并行卷积核的特征组合,但对小病灶的细粒度捕捉不足;ASPP模块通过空洞卷积扩大感受野,却易丢失局部细节。因此,MSFM模块设计核心是平衡细粒度与宏观特征提取,实现全尺度病灶的精准捕获。
(2) 模块结构与实现
1) 多分支特征提取[7]:采用3 × 3、5 × 5、7 × 7三种不同尺寸卷积核并行构建特征分支,各分支均采用“卷积-BN-ReLU”结构。其中,3 × 3卷积核步长设为1,用于聚焦细粒度微小病灶;5 × 5卷积核通过空洞卷积提升感受野,以提取中等尺寸病变特征;7 × 7卷积核结合池化操作,用于捕获宏观病变区域特征。为保证后续融合的一致性,各分支特征图的通道数被统一为128维。
2) 特征融合与筛选:首先通过1 × 1卷积层对三个分支的特征图进行通道整合,将总通道数从3 × 128维降维至256维,以减少参数冗余;随后引入简化版通道注意力机制对融合特征进行二次权重分配,基于特征响应值筛选出对DR分级贡献度前30%的有效特征,从而抑制无效背景特征。模块输出端添加残差连接[8],将融合特征[9]与ResNet50第3卷积阶段的输出特征进行叠加,避免特征丢失并提升模型收敛速度。实验验证,该模块可使多尺度病灶识别准确率提升3.2%。
(3) 模块有效性验证
对比MSFM与Inception、ASPP模块的性能差异,实验结果如表3所示,MSFM在准确率与F1分数上均优于对比模块,证明其对DR多尺度病灶特征提取的适配性。
Table 3. Performance comparison of different multi-scale modules
表3. 不同多尺度模块性能对比
模块类型 |
准确率(%) |
召回率(%) |
特异性(%) |
F1分数 |
Inception模块 |
88.3 |
87.1 |
89.2 |
0.875 |
ASPP模块 |
87.9 |
86.8 |
88.7 |
0.871 |
MSFM模块 |
91.7 |
90.6 |
92.3 |
0.904 |
4. 实验
4.1. 实验设置
实验硬件环境为Intel Core i7-12700H处理器、32GB内存、NVIDIA RTX 3060显卡(8GB显存);软件环境基于Python 3.8,采用PyTorch 1.12深度学习框架,依托CUDA 11.6进行GPU加速训练。
训练参数设置如下:batch size为32,训练轮次为100,初始学习率为0.0001,采用余弦退火策略调整学习率,随着训练轮次增加逐步降低学习率,避免模型陷入局部最优解;权重衰减系数为0.0001,抑制模型过拟合;采用Adam优化器进行参数更新,优化器动量设置为0.9,权重衰减为0.0001。数据集划分严格遵循Patient-level split (按患者划分)原则,先按患者维度将数据集划分为5等份(每等份包含366~367名患者的对应图像),再采用5折交叉验证方案:每次选取1份作为测试集,剩余4份作为训练集,循环5次完成全量数据的验证,确保训练集与测试集无患者重叠。训练过程中采用早停策略,当验证集准确率连续10轮无提升时停止训练,防止模型过拟合。
4.2. 实验评价标准
为全面、客观评估CF-ResNet模型在DR分级任务中的性能,结合医学图像分类的特殊性,选取准确率、召回率、特异性、F1分数四项核心评价指标,各指标的定义、计算公式及临床意义如下:
1) 准确率(Accuracy, Acc):衡量模型整体分类正确性的核心指标,反映模型对所有样本(正常与病变、不同病变等级)的综合判别能力。计算公式如(2)所示:
(2)
其中,TP (True Positive)为真正例(病变样本被正确分类为对应病变等级),TN (True Negative)为真负例(正常样本被正确分类为0级),FP (False Positive)为假正例(正常样本被误判为病变样本),FN (False Negative)为假负例(病变样本被误判为正常样本)。该指标取值范围为[0, 1],越接近1表示模型整体分类效果越优,适用于初步评估模型的综合性能。
2) 召回率(Recall, R):又称灵敏度(Sensitivity),聚焦病变样本的正确识别能力,直接关系到临床诊断中的漏诊风险,是医学图像任务的关键指标。计算公式为如(3)所示:
(3)
该指标衡量所有实际为阳性的样本中,被模型正确识别为阳性的比例,取值范围为[0, 1]。召回率越高,说明模型漏诊率越低,能更精准捕捉早期、微小病变,符合DR早期筛查的临床需求。
3) 特异性(Specificity, Sp):聚焦正常样本的正确识别能力,对应临床诊断中的误诊风险,与召回率协同保障模型的临床可靠性。计算公式如(4)所示:
(4)
该指标衡量所有实际为阴性的样本中,被模型正确识别为阴性的比例,取值范围为[0, 1]。特异性越高,说明模型误诊率越低,可避免将正常样本误判为病变而给患者带来不必要的医疗干预。
4) F1分数(F1-Score):综合精确率(Precision, P)与召回率的调和平均数,用于平衡模型的漏诊与误诊
风险,解决单一指标无法全面反映模型性能的问题。其中精确率计算公式为
,F1分
数计算公式如(5)所示:
(5)
该指标取值范围为[0, 1],越接近1表示模型在精确率与召回率上的表现越均衡,能同时兼顾降低漏诊率与误诊率,更贴合DR临床诊断的实际需求。
5) AUC值:ROC曲线下面积,反映模型区分正负样本的能力,取值范围为[0.5, 1],越接近1表示区分能力越强。
4.3. 消融实验结果
为验证CF-ResNet中各改进模块的有效性及协同作用,我们设计消融实验,以原始ResNet50为基线模型,通过逐一加入CBAM注意力机制、Focal Loss、多元化数据增强、多尺度特征融合模块,构建不同模型变体,并采用5折交叉验证的方式获取实验平均数据,定量分析各模块对模型性能的增益效果[10],消融实验结果如表4所示。
Table 4. Ablation experiment results
表4. 消融实验结果
方法 |
CBAM |
Focal Loss |
数据增强 |
多尺度 |
Acc/% |
R/% |
SP/% |
F1 |
ResNet50 |
|
|
|
|
82.3 |
80.5 |
83.7 |
0.814 |
A |
√ |
|
|
|
85.8 |
84.6 |
86.9 |
0.857 |
B |
|
√ |
|
|
83.6 |
81.4 |
84.7 |
0.823 |
C |
|
|
√ |
|
84.8 |
83.5 |
85.1 |
0.833 |
D |
√ |
√ |
|
|
87.6 |
86.5 |
86.9 |
0.876 |
E |
√ |
|
√ |
|
86.9 |
85.8 |
86.1 |
0.862 |
F |
|
√ |
√ |
|
86.1 |
85.7 |
86.0 |
0.869 |
G |
√ |
√ |
√ |
|
88.7 |
87.4 |
88.9 |
0.889 |
H |
√ |
√ |
√ |
√ |
90.3 |
90.6 |
92.3 |
0.904 |
消融实验结果表明,各改进模块均能对模型性能产生正向贡献,且模块间存在显著的协同优化效果:单独加入CBAM注意力机制后,模型准确率提升3.5个百分点,说明该模块能有效聚焦病灶特征,抑制背景干扰;在此基础上加入Focal Loss,准确率进一步提升5.3个百分点,验证了该损失函数对缓解类别不平衡、提升少数类样本识别精度的有效性;融入多元化数据增强策略后,准确率再提升1.1个百分点,表明通过扩充样本多样性,模型泛化能力与抗干扰能力得到显著增强;最后加入多尺度特征融合模块,准确率提升1.6个百分点,证明该模块能有效捕获不同尺寸病灶特征,完善特征表达。四大模块协同作用,使CF-ResNet模型的综合性能达到最优,验证了各模块设计的合理性与改进策略的有效性。
4.4. 模型性能综合评估
4.4.1. 混淆矩阵分析
CF-ResNet模型的混淆矩阵如图2所示,可见模型对无病变(NO-DR)的识别准确率最高(96%),对轻度非增殖性病变(Mild NPDR)的识别准确率为83%,主要混淆类别为无病变(17%误判),这与Mild NPDR仅存在微动脉瘤这一单一微弱特征相关;中度、重度非增殖性病变及增殖性病变的识别准确率分别为 90%、71%、93%,整体表现出良好的分级区分能力。
Figure 2. Confusion matrix of the CF-ResNet model
图2. CF-ResNet模型的混淆矩阵
4.4.2. ROC曲线与AUC分析
采用One-vs-Rest策略绘制ROC曲线,如图3所示。无病变(NO-DR)的AUC值最高(0.968),表明模型对正常样本的区分能力极强;轻度(0.800)、中度(0.832)、重度(0.730)及增殖性病变(0.796)的AUC值均高于0.7,整体平均AUC为0.825,验证了模型在不同病变等级上的稳定区分能力。
Figure 3. ROC curve of the CF-ResNet model
图3. CF-ResNet模型ROC曲线
5. 结论
本文提出一种基于ResNet50的改进模型CF-ResNet,用于糖尿病视网膜病变的自动分级诊断[11],通过引入CBAM注意力机制[12]、Focal Loss损失函数、多元化数据增强及多尺度特征融合模块[13],构建了兼具高分类精度、强泛化能力与轻量化特性的DR诊断模型。实验结果表明,CF-ResNet在Kaggle测试集上的准确率达90.3%、召回率为90.6%、特异性为92.3%、F1分数为90.4%、平均AUC为0.825,各项指标均优于原始ResNet50及主流模型,消融实验验证了各改进模块的有效性。通过Grad-CAM热力图可视化、混淆矩阵及ROC曲线分析,进一步验证了模型的特征聚焦能力与分级区分能力。同时,模型单张图像推理耗时仅0.06秒,参数量控制在25.8M,兼顾了实时性与轻量化需求。
该模型为糖尿病视网膜病变的自动诊断提供了新的有效方案,能够显著提升筛查效率,缓解医疗资源压力,尤其适用于基层医疗场景的大规模早筛工作,具备重要的临床应用价值与推广前景。未来我们可通过优化微小病灶特征提取、引入域自适应技术、融合语义分割功能等方向,进一步提升模型性能与临床实用性,推动DR智能筛查技术的规模化临床应用。
NOTES
*通讯作者。