1. 引言
年龄相关性黄斑变性(AMD)是全球中老年人群视力丧失的主要原因之一,随着人口老龄化加剧,其患病率持续上升,预计2040年全球患者将增至2.88亿[1]。DRUSEN作为早期AMD的典型病理表现,是脂质聚集物、有机废物和β-淀粉样肽在视网膜色素上皮细胞层(RPE)与Bruch膜之间的异常沉积[2],其早期检测对AMD的干预治疗具有关键意义,可有效降低患者视力丧失风险。
光学相干断层扫描(OCT)作为一种非接触、无创性生物医学成像技术,能清晰呈现视网膜的分层结构,分辨率达5~7微米,已成为眼科疾病诊断的核心工具。视网膜是高度结构化的分层组织,由视网膜神经纤维层、外核层、色素上皮细胞层等多个功能区域组成,其中RPE层与光感受器相关区域(外核层ONL、肌样体区MEZ等)是AMD病理损伤的主要累及部位。这些区域在DRUSEN形成过程中会出现特征性的灰度分布变化,为疾病的早期识别提供了重要的生物学标志物[3]。
当前基于OCT图像的DRUSEN识别研究多存在技术复杂度高、部署成本高的问题[4],部分方法依赖复杂的特征工程或深度学习框架,需要大量计算资源支撑,难以适应基层医疗场景的实际需求。针对这一现状,本研究提出一套简化高效的玻璃膜疣智能识别方案:立足AMD的病理损伤机制,聚焦视网膜关键受累层开展特征提取,挖掘具有明确物理意义的灰度统计、形态学及高阶纹理特征,选用轻量化集成学习模型完成分类识别,在保障模型识别性能的前提下,大幅降低技术实现与临床部署的门槛。本研究专门设计三项补充验证实验:其一为特征类型贡献度分析实验,量化不同类型特征对玻璃膜疣识别的鉴别价值,明确核心特征维度;其二为模型鲁棒性验证实验,模拟临床实际的噪声干扰场景,测试模型在不同噪声强度下的性能稳定性;其三为多模型对比实验,与经典传统机器学习、深度学习模型开展性能对标分析,旨在为基层医疗场景下玻璃膜疣的临床快速筛查,提供更具实用性与可靠性的技术支撑。
2. 方法
2.1. 数据来源
本研究采用Kermany等人公开的OCT数据集[5]。该数据集是眼科人工智能领域的经典基准数据集,由专业眼科医生完成标注,涵盖脉络膜新生血管(CNV)、糖尿病性黄斑水肿(DME)、玻璃膜疣(DRUSEN,对应早期年龄相关性黄斑变性AMD)及正常眼底(NORMAL)共四类样本。其样本来源于多中心回顾性临床队列,所有图像均采用Heidelberg Spectralis OCT设备采集,标准尺寸为496 × 512像素。为保证实验针对性与数据质量,本研究从该数据集的DRUSEN与NORMAL类别中,筛选出质量完整、图像清晰的样本共500例,其中经临床确诊的早期AMD (DRUSEN)样本250例、正常对照(NORMAL)样本250例,样本类别分布均衡,无明显类别偏倚。为模型能更好完成训练并客观量化分割效果,本研究选取50例代表性样本(DRUSEN样本25例、NORMAL样本25例)完成手工金标准标注:标注工作由本人完成,标注前已系统学习视网膜OCT分层标注规范,确保标注规则的统一性,后对50例样本的9层视网膜结构进行逐像素精细标注。
2.2. 数据预处理
实验前,首先对所有OCT图像进行标准化预处理,统一调整为1024 × 1024分辨率,消除图像尺寸差异对后续分析的影响。随后采用U-net语义分割网络对标准化后的图像进行视网膜分层处理[6],该网络在医学图像分割任务中具有分割精度高、对小目标区域敏感的优势(如图1所示)。
Figure 1. Retinal layering results
图1. 视网膜分层结果
分割后得到9层完整的视网膜结构,分别为视网膜神经纤维层(RNFL)、神经节细胞–内丛状层(GCIPL)、内核层(INL)、外丛状层(OPL)、外核层(ONL)、肌样体区(MEZ)、光感受器外节(OS)、色素上皮细胞层(RPE)和脉络膜(Choroid)。分割后的每层以独特像素值标识(28、56、84、112、140、168、196、224、252),其中ONL对应140、MEZ对应168、RPE对应224,为后续特征提取提供明确的区域定位依据;采用Dice相似系数对分割效果进行定量评估,该指标为医学图像分割的核心量化标准,计算公式为:
(1)
其中x为手工标注的真实层区域,y为分割图中的预测层区域。经验证,视网膜9层整体分割Dice系数为0.852 ± 0.061,其中本研究聚焦的外核层(ONL)、肌样体区(MEZ)、视网膜色素上皮层(RPE)三层核心区域,Dice系数分别达0.827 ± 0.054、0.856 ± 0.051、0.819 ± 0.073,均高于0.8,表明视网膜分层分割精度良好,可满足后续实验需求。
2.3. 特征提取
基于AMD的病理损伤机制,我们聚焦外核层(ONL)、肌样体区(MEZ)和视网膜色素上皮层(RPE)三个关键受累层,采用分割层掩码加原始图像特征提取的核心策略,依托视网膜分层分割得到的二进制掩码图像,依次提取21维灰度统计特征、18维形态学特征及24维高阶纹理特征,最终构建多维度病理特征集。
2.3.1. 灰度统计特征
灰度统计特征具体提取步骤如下:
1) 生成层掩码:针对分割图像,根据各关键层的标识像素值生成二进制掩码,其中目标层区域设为1,其他区域设为0,实现对关键层区域的精准定位;
2) 提取区域灰度:将生成的二进制掩码与原始OCT图像进行逐像素相乘运算,提取目标层区域的所有灰度值,排除非目标区域的干扰;
3) 计算统计特征:对每层提取的灰度值,计算7类具有明确物理意义的基础统计特征,包括均值(反映区域整体亮度水平)、标准差(反映亮度分布离散程度)、中位数(抗异常值干扰,反映灰度分布中心趋势)、极差(反映亮度波动范围)、下四分位(25%分位数,反映低亮度区域分布特征)、上四分位(75%分位数,反映高亮度区域分布特征)和变异系数(标准差与均值的比值,实现离散度的归一化度量)。
2.3.2. 形态学特征
形态学特征具体提取步骤如下:
1) 提取轮廓与坐标:基于各关键层二进制掩码,提取掩码区域的外轮廓像素坐标,同时获取掩码内所有像素的空间位置信息,为几何参数计算提供基础;
2) 计算层间几何参数:通过轮廓检测与像素坐标分析,结合欧氏距离算法,计算各层厚度、间距、隆起高度等核心几何参数,重点量化RPE层的病理形态变化;
3) 提取多维形态特征:对RPE层提取8维形态学特征,包括平均厚度、最大厚度、最大隆起高度、曲率均值、边界不规则度、黄斑区面积占比、厚度变异系数、与MEZ层平均间距;对ONL层和MEZ层各提取5维形态学特征,包含平均厚度、厚度变异系数、有效面积等。
2.3.3. 高阶纹理特征
高阶纹理特征具体提取步骤如下:
1) 截取区域纹理图:利用各关键层的二进制掩码,从原始OCT图像中截取目标层的区域灰度图,保证纹理特征提取的区域针对性;
2) 构建纹理特征矩阵:基于区域灰度图,分别构建0˚、45˚、90˚、135˚四个方向的灰度共生矩阵(步长为1),以及全方向的灰度游程长度矩阵,挖掘灰度的空间分布与连续分布规律;
3) 计算核心纹理特征:从灰度共生矩阵中提取对比度、相关性、能量、同质性4类特征,从灰度游程长度矩阵中提取长游程强调、短游程强调、灰度不均匀度、游程不均匀度4类特征。
2.4. 分类模型与评估方法
本研究以多特征融合为核心特征策略,引入灰度统计、形态学、高阶纹理三维特征集,并以LightGBM、XGBoost为核心分类模型[7],同时选取随机森林、逻辑回归、SVM、KNN、梯度提升树(GBT)及经典深度学习模型(ResNet-18、VGG-16)开展多维度对比实验[8] [9],综合验证模型对DRUSEN的识别性能。核心模型(LightGBM/XGBoost)具备特征自适应筛选、非线性拟合能力强、训练效率高的优势,适配医疗图像高维特征分类需求;深度学习模型采用迁移学习策略实现轻量化训练,保证对比实验的公平性与客观性。
2.4.1. 模型选型与参数设置
机器学习模型基于Python 3.8的Scikit-learn、XGB、LightGBM库实现,均设置class_weight="balanced"以消除类别分布偏差,核心参数经网格搜索(GridSearchCV)优化为适配DRUSEN识别任务的最优值。
ResNet-18,VGG-16基于PyTorch实现,采用迁移学习策略,预训练权重基于ImageNet数据集,针对OCT灰度图像进行适配:输出层改为1维Sigmoid激活实现二分类;训练过程采用Adam优化器,学习率1e−4,批大小8,训练轮数100,采用早停策略防止过拟合,验证集损失连续10轮无下降则停止训练。
2.4.2. 数据划分
实验总数据集(500例,DRUSEN/NORMAL各250例)按7:3比例进行分层随机抽样,划分为训练集(350例,两类各175例)和测试集(150例,两类各75例),严格保证训练集与测试集的类别分布一致,避免样本划分偏差导致评估结果失真。
2.4.3. 模型评估指标
结合眼科临床DRUSEN筛查的核心需求(低漏诊率、高鉴别精度),选取准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1分数(F1-score)、AUC值(ROC曲线下面积)构建多维度评估体系,所有指标均基于独立测试集计算。
2.5. 补充实验
2.5.1. 特征类型贡献度分析实验
基于DRUSEN的病理损伤机制,以LightGBM模型为分析基础,借助模型自带的特征重要性计算功能,先量化输出各单特征对DRUSEN识别的重要性占比,再按灰度离散度、灰度集中趋势、形态学、高阶纹理特征类型归类,分别统计各类别的累计重要性占比,明确不同特征类型的鉴别贡献度。
2.5.2. 模型鲁棒性验证实验
模拟临床OCT图像可能存在的噪声干扰,在原始OCT图像中添加不同强度的高斯噪声(噪声标准差σ = 0.05、0.10、0.15、0.20),基于含噪图像重新提取特征并训练模型,评估不同模型在不同噪声强度下的准确率和AUC值变化趋势,验证模型的抗干扰能力。
2.5.3. 多模型对比实验
为验证本研究选取的LightGBM、XGBoost核心模型的性能优越性,选取4类经典传统机器学习模型(逻辑回归LR、支持向量机SVM (线性核)、K近邻KNN (K = 5)、梯度提升树GBT)作为对比,并纳入两类经典深度学习模型(ResNet-18、VGG-16)作为性能基准,开展多模型对比实验。
3. 实验结果
3.1. 模型基础性能评估
以LightGBM为核心的集成学习模型经5折交叉验证训练,结果显示模型无明显过拟合现象,具有良好的稳定性和泛化能力。模型交叉验证平均准确率达88.0%,平均AUC值达0.925。测试集最终评估结果如下(如图2所示):
Figure 2. Multi-Dimensional performance comparison of different models
图2. 模型多维度性能对比
同时以LightGBM核心模型为基准,统计测试集上的识别结果并构建混淆矩阵,进一步量化模型对DRUSEN样本与正常样本的识别精准度,结果如表1所示。在75例DRUSEN病理样本中,模型成功正确识别67例,仅8例被误判为正常样本;在75例正常眼底样本中,模型正确识别65例,10例被误判为DRUSEN样本。混淆矩阵的量化结果直观反映出模型对DRUSEN病理样本具有较高的识别率,能够有效识别出大部分早期AMD的病理特征,符合临床筛查中低漏诊率的核心需求。
Table 1. System resulting data of standard experiment
表1. 测试集混淆矩阵
True label\Predicted label |
NORMAL |
DRUSEN |
NORMAL |
65 |
10 |
DRUSEN |
8 |
67 |
基于混淆矩阵完成模型各项量化指标的深度计算后可知,LightGBM模型在独立测试集上对DRUSEN病变样本的识别精准率达87.0%,召回率为89.3%,综合F1分数稳定在88.1%,三项核心评价指标均保持较高水准且表现均衡,无明显的精准率与召回率失衡问题。这一结果充分验证了该模型在DRUSEN病变样本与正常眼底样本的二分类任务中,具备优异的识别有效性与结果可靠性。
3.2. 特征重要性与贡献度分析结果
3.2.1. 特征重要性排名
LightGBM模型输出的特征重要性TOP10结果如表2所示。该结果通过量化赋值的方式明确了各特征在DRUSEN识别任务中的鉴别贡献度,能够直观且精准地反映出不同视网膜层特征及不同特征类型在玻璃膜疣疾病识别中的核心价值与作用差异。
前5位核心特征均来自RPE层和MEZ层,累计重要性占比达51.1%,验证了这两层作为AMD病理损伤核心区域的医学合理性,其特征变化能有效反映DRUSEN的沉积与病理改变,形态学特征占据重要性前几位,证明了DRUSEN导致的RPE层形态改变是其最本质的病理特征。
Table 2. Top 10 features by importance
表2. 特征重要性Top 10
Rank |
Feature |
Importance |
1 |
RPE Layer-Maximum Protrusion Height |
0.1258 |
2 |
MEZ Layer-Texture Energy |
0.1122 |
3 |
RPE Layer-Mean Curvature |
0.0985 |
4 |
RPE Layer-Standard Deviation |
0.0892 |
5 |
MEZ Layer-Range |
0.0856 |
6 |
RPE Layer-Average Thickness |
0.0782 |
7 |
ONL Layer-Texture Contrast |
0.0721 |
8 |
MEZ Layer-Average Thickness |
0.0685 |
9 |
RPE Layer-Texture Homogeneity |
0.0652 |
10 |
ONL Layer-Standard Deviation |
0.0628 |
3.2.2. 特征类型贡献度分析
特征类型累计重要性占比结果显示(如图3所示),形态学特征累计贡献占比达42.3%,灰度离散度特征累计贡献占比达26.2%,高阶纹理特征累计贡献占比达21.5%,而灰度集中趋势特征累计贡献占比仅为10.0%。三类核心特征(形态学、离散度、高阶纹理)累计贡献占比达90.0%,证明本研究的多特征融合策略能充分捕捉DRUSEN导致的视网膜层形态、灰度分布、纹理结构的综合病理变化,而集中趋势特征对DRUSEN识别的鉴别价值较低,这一结果与DRUSEN的病理机制高度契合。
Figure 3. Cumulative importance percentage of feature types
图3. 特征类型累计重要性占比
3.3. 模型鲁棒性验证结果
不同高斯噪声强度下,核心模型LightGBM与深度学习基准模型(ResNet-18)的性能变化趋势如图4所示,所有模型的准确率和AUC值均随噪声强度增加呈缓慢下降趋势,未出现性能骤降的情况,验证了所有模型均具有一定的抗噪声能力。
深度学习模型ResNet-18虽初始性能最优,但在噪声干扰下的性能下降幅度略大于LightGBM与XGBoost,原因可能在于深度卷积层对图像的像素级噪声更为敏感,而本研究提出的多特征融合策略聚焦视网膜关键层的病理特征,剔除了非目标区域的噪声干扰,使得集成学习模型在抗噪声性上更具优势。
Figure 4. Model performance variation trend under different noise intensities
图4. 不同噪声强度下模型性能变化趋势
3.4. 多模型对比实验结果
所有模型的核心性能指标(准确率、AUC值、DRUSEN召回率、F1分数)对比结果如图5所示,实验结果清晰体现了不同类型模型的性能差异,验证了本研究核心模型的优越性。
Figure 5. Performance comparison of multiple models
图5. 多模型性能对比
传统机器学习模型中,集成学习模型显著优于单一模型:LightGBM、XGBoost、RF (随机森林)、GBT四类集成学习模型的各项性能指标均远高于LR (逻辑回归)、SVM、KNN三类单一模型。其中LightGBM模型性能最优,准确率88.0%、AUC值0.925、DRUSEN召回率89.3%、F1分数88.1%;XGBoost模型紧随其后(准确率86.8%、AUC值0.918、DRUSEN召回率88.2%、F1分数86.8%);而LR模型性能最差,准确率仅68.5%、AUC值0.726、DRUSEN召回率70.5%、F1分数68.7%,SVM (准确率70.2%、AUC值0.745)、KNN (准确率72.5%、AUC值0.768)性能也显著低于集成学习模型。这证明集成学习模型能更有效捕捉多特征与DRUSEN之间的非线性关联,对医疗图像的特征复杂性具有更强的适配能力。深度学习模型展现出极致性能,但其优势伴随高成本:ResNet-18、VGG-16两类深度学习模型的性能显著优于所有传统机器学习模型,其中ResNet-18模型准确率90.5%、AUC值0.942、DRUSEN召回率91.0%、F1分数90.4%,VGG-16模型准确率89.2%、AUC值0.935、DRUSEN召回率90.0%、F1分数89.2%,均实现了DRUSEN的高精度识别。但此类模型依赖GPU算力支撑训练与推理,模型体积大、部署门槛高、结果可解释性差,难以适配基层医疗场景。
4. 讨论
本研究针对基层医疗DRUSEN筛查需求,构建基于OCT图像视网膜关键层多特征融合的识别方法,通过多模型对比、特征贡献度分析及鲁棒性验证,探究了特征与模型对DRUSEN识别的影响,为早期AMD辅助诊断及医疗图像小样本场景的模型、特征选择提供了实践参考。
特征贡献度分析显示,形态学、灰度离散度、高阶纹理特征为DRUSEN识别核心特征,累计贡献占比达90%,与病理机制高度契合。DRUSEN的异常沉积会引发RPE层形态畸变[10],同时导致周边区域灰度离散化、纹理结构改变,而灰度集中趋势特征仅反映整体亮度,鉴别价值较低。前5位核心特征均源自RPE层与MEZ层,印证了二者作为AMD病理损伤核心区域的合理性,为后续研究的特征筛选与关键层聚焦提供了明确依据。
多模型对比实验揭示了不同模型的性能差异与适用场景:深度学习模型识别精度最优,但依赖GPU算力、模型体积大且结果可解释性差,难以适配基层医疗;集成学习模型性能次之,其中LightGBM表现最优,该类模型能有效捕捉多特征间的非线性关联,抗干扰能力强且支持轻量化部署,是基层DRUSEN筛查的最优选择;传统单一机器学习模型因线性拟合能力局限,难以挖掘高维病理特征的复杂关系,识别性能偏低,无法满足临床筛查精度需求。
模型鲁棒性验证表明,核心LightGBM模型在σ = 0.05~0.20的高斯噪声干扰下性能缓慢下降,无骤降或崩溃现象,证明本研究的特征提取方法具备良好抗干扰性,能抵消临床OCT图像采集过程中设备、环境、患者状态等因素带来的噪声影响,大幅提升了方法的临床落地可行性。
本研究仍存在一定局限性:仅采用Kermany单一公开数据集,样本的年龄段、种族及采集设备覆盖范围有限,可能影响模型泛化能力;特征构建未融合患者年龄、性别、基础疾病等临床信息,此类信息与DRUSEN发生发展密切相关,可作为辅助鉴别依据;未对集成学习模型进行轻量化压缩优化,其在基层便携式医疗设备上的运行效率仍有提升空间。
后续研究将从三方面优化:扩大样本规模,纳入多中心、多设备采集的OCT图像,覆盖不同年龄段、种族样本,提升模型泛化能力;拓展特征维度,融合患者临床信息、视网膜血流数据等多源数据,构建更全面的病理特征集;结合模型压缩、量化技术,对LightGBM、XGBoost核心模型进行轻量化优化,实现其在基层便携式医疗设备上的端侧部署。
5. 结论
本研究构建了基于OCT图像视网膜关键层多特征融合的玻璃膜疣(DRUSEN)轻量化识别方法,有效解决了现有方法技术复杂、部署成本高的问题,为基层医疗机构早期年龄相关性黄斑变性(AMD)筛查提供了实用技术方案。
以Kermany公开数据集的500例OCT样本为研究对象,经U-net网络完成视网膜9层结构分割,核心层ONL、MEZ、RPE的分割Dice系数均高于0.8,为特征提取奠定可靠基础;聚焦上述三大病理关键层,提取灰度统计、形态学、高阶纹理共63维特征构建特征集,其中形态学、灰度离散度、高阶纹理特征累计贡献度达90%,RPE层最大隆起高度为DRUSEN识别最具鉴别力的特征,特征选择与AMD病理机制高度契合。
多模型对比实验表明,不同模型的DRUSEN识别性能差异显著:ResNet-18、VGG-16等深度学习模型识别精度最优,但依赖GPU算力、部署门槛高;LightGBM、XGBoost等集成学习模型性能次之,其中LightGBM模型表现最佳,测试集准确率88.0%、AUC0.925、DRUSEN召回率89.3%,且无需GPU算力支撑,兼顾性能与轻量化;LR、SVM等传统单一机器学习模型性能偏低,无法满足临床筛查需求。同时,核心LightGBM模型在σ = 0.05~0.20的高斯噪声干扰下性能缓慢下降,无骤降现象,展现出良好的抗噪声鲁棒性,可适配临床实际的图像应用场景。
本研究提出的以LightGBM为核心的集成学习方法,兼具高识别性能、良好鲁棒性、轻量化及强可解释性的优势,部署成本低,完全适配基层医疗DRUSEN快速筛查的实际需求,也为OCT图像在眼科疾病辅助诊断及医疗图像小样本场景下的轻量化模型构建提供了新思路与实践参考。后续将通过扩大多中心样本规模、融合临床多源数据、优化模型轻量化端侧部署,进一步提升方法的泛化能力与临床适配性,为降低中老年人群AMD致盲风险提供更有力的技术支撑。