1. 引言
心血管疾病涵盖了一系列与心脏和血管系统密切相关的病症,是全球范围内导致死亡的主要原因之一。众多研究显示,心血管疾病引发的死亡率与致残率处于持续攀升的态势,这对全球的医疗体系以及经济系统均造成了极为沉重的负担[1]。据预测,到2035年,与心血管疾病相关的医疗费用以及因心血管疾病导致的生产力损失将会急剧增加。相较于2015年的5550亿美元,这个数字预计会翻倍,达到1.1万亿美元之多[2]。而且,不健康的生活方式和行为习惯正促使心血管疾病的发病率不断上升,这使得具有心血管疾病风险因素的人群数量日益增多。在这样的背景下,早期对心血管疾病进行检测、准确的诊断以及及时有效的治疗,对于心血管疾病的预防和控制而言,无疑是极为关键的举措。
左心室射血分数定义为每搏输出量与心室舒张末期容积的百分比。在心室收缩期间,并非所有心室中的血液都被射入动脉。正常成人静息时,左心室舒张末期容积约为125 mL,右心室约为137 mL,每搏输出量为60~80 mL。每搏输出量与舒张末期容积的百分比称为射血分数,通常认为超过50%为正常[3]。射血分数与心肌的收缩能力有关,收缩能力越强,射血分数越高。射血分数的变化与心力衰竭、心肌梗死和心脏纤维化等常见心血管疾病密切相关。
EchoNet-Dynamic数据集[4]提供了超声心动图视频、左心室收缩末期和舒张末期的标签以及射血分数,允许通过深度学习对这些标签进行分割。这使得可以使用公式1估算射血分数(EF),其中EDV表示舒张末期容积,ESV表示收缩末期容积。
(1)
本研究基于公开的EchoNet-Dynamic数据集的超声心动图视频进行模型训练和优化,以图像分割为技术基础,并通过半监督学习扩展数据集[5]。旨在准确高效地计算射血分数,协助临床医生及时诊断,从而提高患者的生存质量和生活质量,最终减轻全球医疗和经济系统的负担。图1展示了研究的流程。
Figure 1. Workflow of this article
图1. 本文工作流程
2. 材料与方法
2.1. 数据预处理
本研究从斯坦福大学医学院所公开的EchoNet-Dynamic数据集收集到了10,024个带有舒张末期和收缩末期标签的超声心动图视频,其余帧均无标签。将该数据集按照5:2:2的比例划分训练集、验证集和测试集。具体划分情况如下:训练集包含5568组数据,这一集在后续的研究中主要用于模型的训练,通过大量的训练数据让模型学习到数据中的特征和规律;验证集有2228组数据,它在模型训练过程中起着重要的验证作用,有助于评估模型在训练过程中的表现并调整模型参数,防止模型过拟合;测试集同样有2228组数据,其主要功能是在模型训练完成后对其进行最终的测试,从而全面评估模型对新数据的泛化能力。此外,为了使数据格式统一以便于模型处理,将图像数据统一调整为112 × 112像素的形式。图2呈现了左心室收缩末期和舒张末期图像及其各自对应标签的具有代表性的示例,这些示例能够帮助读者更好地理解本研究中数据的特征和标注方式。
Figure 2. Examples of left ventricular images and their labels for end-systolic and end-diastolic phases
图2. 左心室图像及其收缩末期和舒张末期标签示例
2.2. 实验模型
本研究以U-Net [6]架构为基础框架,提出了名为EF-Net的分割模型。U-Net架构是专门为图像分割任务而设计的,其结构呈现出一种对称的形式,由编码器和解码器这两大部分构成。其中,解码器里集成了跳跃连接这一重要机制,它的作用在于融合各个层级的特征信息,进而提升图像分割的精度。U-Net的编码器部分是由卷积层与池化层组合而成的。卷积层通过卷积核在图像上滑动进行卷积操作,能够自动学习图像中的局部特征,而池化层则对卷积层输出的特征图进行下采样操作,在减少数据量的同时保留主要特征信息,两者协同工作,从而从输入图像中有效地提取出高级特征表示。与之相对应的是,解码器部分主要依靠上采样操作和卷积层来发挥作用。上采样操作能够增加特征图的尺寸,逐步将经过编码器处理后得到的低分辨率特征图恢复到与原始输入图像相同的分辨率大小,卷积层在这个过程中则进一步对特征进行处理和优化。在U-Net架构的每一层都运用了跳跃连接。这种跳跃连接方式巧妙地将来自编码器和解码器的特征进行合并,使得模型在重建图像特征的过程中能够保留更多的复杂细节信息,这对于精确的图像分割任务来说是非常关键的。本研究提出的EF-Net的总体架构如图3所示。
Figure 3. The network structure of the EF-Net
图3. EF-Net的网络结构
本研究模型采用多尺度深度监督策略[7],以实现对各类特征的高效学习。在模型的不同深度层次中,较深层次的神经元能够有效提取包含有形状与结构信息的全局特征,这些全局特征对于理解整体图像的语义信息至关重要;相对而言,较浅层次的网络层则侧重于对局部特征的捕捉,而局部特征在描述图像中物体的表面特性方面起着不可或缺的作用。通过在多个分辨率级别设置深度监督层,能够从不同层次与角度获取特征信息,使模型能够更好地适应各种复杂的图像数据情况,进而全面提升模型的性能并增强其泛化能力。
另外,本模型引入了病理特征注意力(PFA)块[8],该模块融合了CBAM [9]和CA [10]这两种注意力机制。这种融合方式使得PFA块在捕捉图像细节信息方面表现出色,同时在计算特征层的权重方面也具备卓越的性能。将PFA块集成到跳跃连接部分之后,能够有效强化网络的分割能力,从而在处理如医学图像分割这类对细节要求较高的任务时,能够取得更好的效果。
2.3. 评估指标
豪斯多夫距离(Hausdorff Distance)是衡量两组点之间相似性的指标,定义如下:给定两组点
和
,这两组点之间的豪斯多夫距离定义为公式2。公式3和4中的
和
分别是从集合A到集合B和从集合B到集合A的单向豪斯多夫距离。豪斯多夫距离分割的边界敏感。
(2)
(3)
(4)
Dice系数(Dice Coefficient)能够量化预测分割结果与真实标签之间的重叠程度,范围从0到1。Dice系数越高,越接近1,表示预测结果与真实标签的对齐程度越高,从而表明模型性能越好。与其他指标相比,Dice系数在在许多语义分割任务中得到广泛应用。
(5)
EF-MAE:平均绝对误差(MAE)是评估预测模型误差的指标,常用于回归问题。它计算模型预测值与真实值之间的平均绝对差异,反映了差异的平均幅度。本研究计算了不同方法获得的射血分数值与数据集中提供的标准射血分数值之间的MAE,并将其命名为EF-MAE。EF-MAE越小,表示预测越准确。
2.4. 实现细节
为了便于模型的可重复性,在表1中列出了模型训练过程中的超参数设置和环境配置。这些配置可以提高模型的准确性和效率,促进其在射血分数估计中的应用,并协助临床诊断。
Table 1. Model hyperparameter configuration and running environment
表1. 模型超参数配置和运行环境
名称 |
值 |
学习率 |
0.001 |
轮数 |
50 |
图像尺寸 |
112 × 112 × 3 |
Batchsize |
32 |
CPU |
Intel Xeon Silver 4210 CPU |
GPU |
NVIDIA RTX 3090 |
优化器 |
Adam |
3. 结果
3.1. 评估指标结果
为了验证方法的有效性,本研究将其与U-Net和SegResNet [11]进行了比较分析。所有网络均在一致的实验条件下采用相同的训练策略运行。表2中的评估结果表明,EF-Net在所有指标上均优于其他模型。此外,半监督训练的使用显著提高了结果的准确性。
Table 2. Model evaluation metrics
表2. 模型评估指标
方法 |
Dice系数↑ |
豪斯多夫距离↓ |
EF-MAE↓ |
U-Net |
0.865 ± 0.049 |
8.650 ± 2.204 |
0.157 ± 0.085 |
SegResNet |
0.865 ± 0.049 |
8.693 ± 2.393 |
0.158 ± 0.084 |
U-Net+PFA |
0.865 ± 0.044 |
8.630 ± 2.365 |
0.150 ± 0.086 |
EF-Net |
0.866 ± 0.050 |
8.606 ± 2.314 |
0.153 ± 0.088 |
EF-Net + semi-supervised |
0.868 ± 0.049 |
8.082 ± 2.412 |
0.147 ± 0.087 |
3.2. 分割结果的可视化比较
尽管所有模型在Dice指标上的平均差异不显著,但可视化比较清楚地显示了EF-Net的优势。如图4所示,SegResNet的分割结果存在明显的噪声,而U-Net的伪影相对较少。射血分数-Net的分割输出是所比较方法中最清晰、最准确的,从而证实了其优于其他方法的分割性能。
Figure 4. Visual comparison of results using different methods
图4. 不同方法结果的视觉比较
3.3. EF-MAE统计分析
为了全面评估不同方法的性能,本文绘制了所有方法EF-MAE结果的箱线图,如图5所示。X轴表示每种方法,Y轴表示绝对误差。箱线图内的黑线表示平均值。评估表明,EF-Net在第一四分位数和平均值方面均表现出优于其他方法的性能。
Figure 5. Statistical analysis results of EF-MAE
图5. EF-MAE的统计结果
4. 讨论
本研究提出的EF-Net通过整合U-Net架构、深度监督机制与病理特征注意力模块,在超声心动图左心室分割任务中展现出稳定的性能优势。实验结果显示,相较于传统U-Net和SegResNet,EF-Net在Dice系数、豪斯多夫距离和EF-MAE等关键指标上均取得改进。这种提升源于两个核心设计:多尺度深度监督策略通过同步学习全局结构特征与局部纹理信息,改善了超声图像分辨率不足导致的边界辨识问题;病理特征注意力模块通过空间与通道注意力协同机制,增强了心肌–心室腔交界区域的特征聚焦能力,这与射血分数计算依赖的解剖结构定位精度密切相关。半监督学习框架的引入使训练样本量扩展,在医学影像标注数据有限的场景中,通过伪标签迭代优化提升了模型对超声图像噪声的适应性。从临床应用角度观察,EF-Net的EF-MAE值表明其计算结果具备辅助诊断的实际可行性。在心力衰竭筛查场景中,该方法可实现舒张末期与收缩末期容积的自动化测量,将传统人工测量耗时从分钟缩短至秒级,同时减少主观评估差异。
当前研究存在两方面局限性:模型训练依赖单一机构的超声数据,未来需通过多中心异构数据验证泛化能力;实时视频分析时的心脏搏动周期相位识别精度可能影响容积计算的时序一致性,后续计划结合心电信号进行多模态优化。总体而言,EF-Net为心血管疾病智能诊断提供了可推广的技术方案,其高效率与精确度的平衡特性有助于提升基层医疗机构的心功能评估效率。
5. 结论
本研究证明了EF-Net在预测射血分数方面的有效性。该模型为心脏检查中的射血分数评估提供了更快、更便捷的方法。与传统预测模型相比,EF-Net在各项指标上均表现出更优的性能。因此,EF-Net在临床实践中具有实用价值,有助于医生加快诊断速度,从而提高患者的生存率和生活质量,同时减轻医疗和经济系统的负担。