1. 引言
肝脏组织病理学诊断是肝脏疾病临床评估的“金标准”[1] [2],通过显微形态学技术对肝活检样本进行组织学分析,可系统评估肝脏纤维化程度、炎症活动度及肝细胞病理改变,在多种肝脏疾病的诊断与鉴别诊断中具有不可替代的重要价值[3]。传统病理诊断主要依赖苏木精–伊红(H&E)染色技术,该技术通过染料与细胞成分的特异性结合,使不同组织结构呈现特征性染色差异,为病理医师提供关键的形态学诊断依据[4]。
近年来,随着全切片数字化扫描技术的快速发展,基于人工智能的计算机辅助病理诊断系统已成为现代病理学研究的重要方向[5]-[7]。作为计算机视觉的核心技术之一,图像分割算法在病理图像分析中发挥着关键作用。其像素级的精确分割能力可实现对肿瘤病灶、异常细胞及病理微环境的精准识别,为组织形态学的定量分析提供可靠的技术支持。目前主流的病理图像分析方法主要利用图像分割任务对病理图像进行组织量化并用于疾病研究[8] [9]。然而,现有研究多集中于单一病灶的识别分析,缺乏对肝脏整体病理微环境的系统性定量评估。
本研究以代谢相关脂肪性肝病(MAFLD)的H&E染色病理图像为研究对象,基于其独特的染色特性构建了一个全新的肝脏病理分割数据集。该数据集基于H&E病理图像染色特点系统标注了七类关键病理结构:1) 红色相的正常肝实质区域;2) 红色相的水变区域;3) 蓝色相的正常细胞核区域;4) 蓝色相的深染细胞核区域;5) 白色相的管腔结构;6) 白色相的脂滴沉积区域;7) 异色染色区域。这些标注全面覆盖了肝脏病理微环境的主要组成成分。在方法学层面,本研究创新性地采用DINO自监督学习框架,以ResNet-50为特征提取主干网络,结合可变形卷积的动态感受野调节能力,构建了改进型DeepLab v3+分割模型。该模型通过自适应空间特征聚合机制,显著提升了肝脏病理微环境的分割精度。
2. 相关工作
2.1. 自监督学习用于病理图像特征提取任务
深度学习技术在医学图像分析领域展现出显著优势,但其广泛应用受限于模型参数量庞大及对大规模标注数据集的依赖。在病理图像分析场景中,标注工作面临标注成本高昂、标注粒度难以统一及标注一致性难以保障等挑战,这严重制约了监督学习方法的有效实施。传统基于自然图像预训练的分割模型在病理图像特征提取中存在表征能力退化现象[10]-[12]。为突破上述瓶颈,研究者提出基于自监督学习的解决方案,通过设计可自动生成监督信号的预训练任务,使模型能够从无标注病理数据中学习语义一致的特征表示,最终仅需少量标注样本微调即可实现优异性能。Cai团队创新性地将SimCLR对比学习框架引入病理图像分析,针对不同放大倍率的病理切片(20×和5×)分别构建Swin-Transformer编码器,成功应用于结直肠癌微卫星不稳定(Microsatellite Instability, MSI)亚型检测[13]。与此同时,Yu团队开发的BEPH病理基础模型则采用掩码图像建模(Masked Image Modeling, MIM)策略[10],在癌症分析与生存预测任务中展现出卓越性能。该模型通过大规模未标注病理数据的自监督预训练,实现了跨癌种、多任务的广泛适应能力,为病理图像智能分析提供了新的方法论框架。
2.2. 基于深度学习的语义分割技术
语义分割作为计算机视觉领域的核心研究方向,旨在实现对图像中每个像素的精确分类,从而完成物体的细粒度识别与场景理解[14]-[16]。传统方法主要基于阈值分割、边缘检测等经典图像处理技术[17],受限于特征表达能力和自动化水平,难以应对复杂场景的分割需求。随着深度学习技术的突破性进展,特别是卷积神经网络(Convolutional Neural Network, CNN)的广泛应用,语义分割领域实现了范式革新。深度学习模型通过多层级特征提取与端到端优化策略,显著提升了分割精度与鲁棒性,推动了该领域的跨越式发展。2015年,Long等人提出的全卷积网络(Fully Convolutional Network, FCN)标志着深度学习在语义分割领域的突破性应用[18]。该模型通过将传统CNN中的全连接层转化为卷积层,实现了任意尺寸输入图像的像素级预测。其核心架构采用编码器–解码器结构:编码器继承预训练分类网络(如VGG-16)的深度特征提取能力,解码器则通过跳跃连接融合多尺度特征,并结合反卷积操作逐步重构空间分辨率,最终生成高精度分割结果。这一里程碑式工作为后续研究奠定了方法论基础。在此基础上,研究者相继提出多个经典模型推动领域发展。U-Net创新性地采用对称的编码器–解码器架构[19],通过密集的跳跃连接机制有效保留空间细节信息,在生物医学图像分割任务中展现出卓越性能。剑桥大学提出的SegNet则优化了解码器设计[20],利用池化索引实现参数高效的非线性上采样策略。DeconvNet通过强化特征重构过程[21],结合反卷积操作进一步提升分割质量。这些代表性工作通过架构创新和优化策略改进,持续推动着语义分割技术的进步。
2.3. 基于深度学习的病理图像分割模型
传统病理诊断高度依赖医生的专业知识和主观经验,尤其在评估复杂疾病(如非酒精性脂肪肝)时,通常采用的半定量评分系统(如NAFLD活动度评分),这类评分系统易受观察者间差异影响,导致诊断结果不一致。近年来,基于深度学习的病理图像语义分割与组织量化技术展现出突破性优势,为病理诊断标准化提供了新的技术路径。
Nicolas Moore团队构建的泛癌计算组织病理学框架[22],通过量化分析28种癌症的组织形态学特征,成功揭示了基因组突变与肿瘤微环境特征的关联性,为肿瘤分子分型提供了组织学层面的佐证。Sushant等人开发的深度学习模型实现了从H&E染色切片中预测30种细胞特异性分子标记物[23],在免疫检查点抑制剂疗效预测中展现出重要应用价值。在非酒精性脂肪性肝炎(NASH)研究方面,Fabian Heinemann团队开发的自动化算法可精准识别并量化气球样变、炎症浸润、脂肪变性及纤维化等关键病理特征[24]。值得注意的是,Pulaski团队提出的AIM-MASH算法通过多中心临床试验数据训练[25],可同步完成脂肪变性分级、气球样变评分、炎症分级及纤维化分期的四维病理评估,其量化结果与病理专家评分具有高度一致性,且检测重复性显著优于人工判读。尽管深度学习病理分析模型在分割精度和诊断效率方面具有显著优势,当前研究仍存在局限性。目前多数模型局限于单一病理特征的孤立分析,难以实现多维度病理特征的协同建模;其次,现有算法在处理多尺度组织学模式(如肝小叶结构重构)时仍存在特征表征能力不足的问题。这些局限性制约了人工智能病理诊断系统的临床转化应用,亟待通过跨模态数据融合与新型网络架构设计加以突破。
3. 研究方法
3.1. 基于DINO自蒸馏框架的预训练模型
ResNet-50自2015年由He等人提出以来[26],其凭借其深度残差结构在图像分类与特征提取任务中展现出卓越性能。该网络通过残差块和跳跃连接的设计,有效缓解了深层网络的梯度消失问题,使模型能够学习更复杂的特征表示。然而,传统基于ImageNet等自然图像预训练的ResNet-50模型在病理图像分析中存在局限性,这主要源于病理图像在纹理结构和颜色分布上与自然场景的显著差异。为解决这一问题,本研究采用DINO自蒸馏框架[27]进行模型预训练。如图1所示。
Figure 1. DINO pre-training framework
图1. DINO预训练框架
该框架通过双分支的教师–学生协同优化机制,利用动态特征对齐实现高效的特征学习。具体而言,学生网络通过最小化交叉熵损失来匹配教师网络输出的特征分布。
(1)
其中
和
分别表示教师网络和学生网络对输入
的预测概率分布。同时,教师网络参数则通过学生网络的指数移动平均(EMA)渐进更新。
(2)
这种设计不仅避免了传统自监督学习中的模型坍塌问题,还通过引入多尺度病理图像增强策略全局视图与局部细节视图协同训练),构建了总损失函数
显著提升了模型对病灶区域的多粒度感知能力。
(3)
该方法的优势在于能够充分挖掘病理图像的本征特征结构,有效缓解医学场景中标注数据稀缺的挑战。
3.2. 可变性卷积
可变形卷积(Deformable Convolution Network, DCN)是一种特殊的卷积,其通过引入一个偏移量预测卷积层,为每个卷积层元素生成水平和垂直方向的偏移量,使卷积核能动态“变形”,聚焦到更相关的区域。这种卷积能够有效实现长距离特征的交互,能够有效处理复杂场景。此外,还引入了调制机制,该调制机制则可以对来自不同空间位置的输入特征幅度进行有效调制,增强模型对特征信息的区分与利用能力。普通卷积操作及可变形卷积操作的公式如下:
(4)
(5)
在上述公式中,
为普通卷积操作后的输出值,
表示卷积核在位置
的权重值,
为采样位置的像素值;
为经可变形卷积操作后的输出值,相较于普通卷积,其加入了
和
两个可学习的参数,
用于改变卷积采样网格的形状,
用于调整输入特征的幅度。
3.3. 基于可变性卷积的Deeplab v3+语义分割模型
根据以上内容,利用DINO自监督框架预训练ResNet-50作为特征提取器,并在Deeplabv3+架构中引入可变形卷积,显著提升了模型对肝脏病理图像中不规则病灶的自适应特征聚合能力。完整的模型框架如图2所示,网络以512 × 512 RGB图像为输入,通过ResNet-50前四个残差块进行特征提取,图像依次经历4×、8×和16×下采样。虽然深层特征具有丰富的语义信息,但分辨率降低导致边界定位精度下降,且单一尺度卷积核难以捕获多尺度上下文关系。为此,我们设计了改进的空洞空间金字塔池化模块(ASPP),通过三个不同空洞率(6/12/18)的3 × 3空洞卷积构建多尺度感受野,并结合全局平均池化增强上下文理解。特别地,引入可变形卷积实现动态感受野调整,有效捕捉非规则几何特征。各分支特征经拼接后通过1 × 1卷积整合为256维特征向量。为进一步优化分割效果,采用特征精修模块将深层语义特征与浅层高分辨率空间细节跨层融合,通过跳跃连接实现细节恢复。最终通过可学习上采样与双线性插值相结合的方式输出像素级分割结果。
Figure 2. DeepLab v3+ model based on deformable convolution
图2. 基于可变性卷积的DeepLab v3+模型
4. 实验结果与分析
4.1. 肝脏病理微环境数据集构造
本文数据集的原始图像主要来源于代谢功能障碍相关脂肪性肝炎(MASH)动物模型的肝脏组织病理切片图像,该动物模型是研究MASH病理生理学特征的重要实验平台,能够系统性地模拟人类MASH疾病发展过程中的关键病理学改变,包括但不限于肝细胞脂肪变性、炎性细胞浸润、纤维组织增生等特征性病理变化,以及这些病理改变与机体代谢紊乱之间的相互作用机制,为深入探究MASH的发病机理和评估潜在治疗策略提供了可靠的实验基础。如表1所示,通过上述建模方法,本研究成功建立了7个批次的实验动物模型,共获取690例啮齿类动物(包括小鼠和大鼠)肝脏组织的H&E染色全切片数字化图像(WSI)。
Table 1. WSI of MASH animal models with different modeling methods
表1. 不同造模方式MASH动物模型WSI
实验类型 |
编号 |
动物种属 |
造模方式 |
造模时间 |
切片数量 |
预实验 |
1 |
C57小鼠 |
高脂高胆固醇饮食 + 果糖饮水 + CCl4腹腔注射 |
2个月 |
118张 |
2 |
C57小鼠 |
胆碱和蛋氨酸缺乏饮食 |
1个月 |
107张 |
3 |
SD大鼠 |
高脂高胆固醇饮食 + 丙硫氧嘧啶 |
1个月 |
107张 |
正式试验 |
4 |
C57小鼠 |
高脂高胆固醇饮食 + 果糖饮水 + CCl4腹腔注射 |
2个月 |
91张 |
5 |
C57小鼠 |
胆碱和蛋氨酸缺乏饮食 |
1个月 |
101张 |
6 |
SD大鼠 |
高脂高胆固醇饮食 + 丙硫氧嘧啶 |
1个月 |
95张 |
7 |
C57小鼠 |
高脂高胆固醇饮食 + 果糖饮水 |
4个月 |
71张 |
为了使模型能够充分理解病理图像的特点,同时减少对大规模数据标注的依赖,本研究采用滑动窗口的方法对MAFLD数据集中的全切片病理图像(WSI)进行预处理。具体而言,在20倍放大倍率下,将每张WSI切分为若干个大小为512 × 512的病理图像块。通过这种方法,最终构建了一个包含331,500张图像块的自监督学习数据集。
对于分割数据集而言,通过病理专家在实验动物模型的肝脏数字病理起片的20倍放大倍率下选取具有典型MASH特征的视野,随后切分成512 × 512大小的病理图像块,由3位病理专家针对H&E染色固有的红、白、蓝三色主色调特征,在H&E图像像素级标注了7种关键组织结构,包括红色相:正常肝染色区域、浅染水变区域;蓝色相:正常胞核区域、深染胞核区域;白色相:管腔空白区域、脂滴;异色病变区域,并由1位资深病理专家进行数据符合。标注工具为ImageJ + Adobe Illustrator。如图3所示为病理图像块和对应的标注mask。
Figure 3. Annotation results of the liver microenvironment
图3. 肝脏微环境标注结果
标注结果中包含了(NAFLD Activity Score, NAS)评分中需要半定量分析的脂肪变性、炎症和肝细胞气球样变的三大指标。其中肝细胞脂肪变性主要表现为肝细胞胞浆内可见空泡样改变,细胞内部结构松散、膨胀甚至消失。炎症的主要表现为肝组织内出现炎性细胞浸润,炎症细胞聚集形成“脂肪性肉芽肿”或“微脓肿”。肝细胞气球样病变的具体表现为肝细胞呈现“气球样”外观,胞浆透明,核偏位。
病理自监督学习数据集全部用于模型预训练,而肝脏病理微环境分割数据集则按照9:1的比例随机划分为训练集和验证集,将数据集数据输入到模型中用于学习训练。
4.2. 实验环境
Table 2. Experimental details during model training
表2. 模型训练过程的实验细节
超参数名 |
自监督预训练 |
监督微调 |
迭代次数 |
100 epoch |
10万次iteration |
初始学习率 |
5 × 10−4 |
0.01 |
学习率调节器 |
adamw |
SGD |
批大小 |
128 |
32 |
本研究中的实验均在Ubuntu20.04操作系统上进行,使用python3.8作为变成语言,采用torch1.11深度学习框架以及利用CUDA 11.3进行加速。本研究采用分阶段训练策略,自监督预训练阶段使用3张NVIDIA RTX 4090-24GB GPU并行训练DINO自监督模型,以学习病理图像的通用表征。该阶段采用ResNet-50作为骨干网络,最终输出一个具备病理学语义理解的预训练模型。监督微调阶段:基于预训练的特征提取器,使用1张NVIDIA RTX 4090-24GB GPU训练基于可变形卷积的DeepLab v3分割模型,以提升模型对组织形态变化的建模能力。两者训练细节如表2所示。
4.3. 评估指标
评价一个算法或模型的质量需要一个客观且正确的指标。在医学图像分割领域,通过具有高度医学理论与实践知识的医生手工标注的样本标签可作为评估参考的金标准,即真实值。而算法或模型的输出结果作为预测值。为评估本文方法与现有的一些方法之间的性能差异,使用Dice相似系数(Dice Similarity Coefficient, DSC) [28]、平均交并比(MeanIntersection over Union, mIoU) [29]综合评估模型的性能。
DSC主要用于衡量分割结果与真实标签之间的相似性,对两者的重叠部分进行评估。对于多类别的语义分割任务,mIoU这一评价指标被广泛使用,它的定义为目标类的预测值与真实值的交集与并集之比。两者公式如下:
(6)
(7)
其中,A和B表示预测结果和真实标注的结果,
表示两者相交的面积,
表示两者区域的并集。在本任务中,使用IoU、Dice、Mean IoU以及Mean Dice作为评估指标。
4.4. 实验结果分析
本章提出的基于可变性卷积的Deeplab v3+模型与当前广泛使用的语义分割算法(包括DeepLabv3+和U-Net)进行了系统的对比实验研究。为确保实验的公平性,所有对比模型均采用相同的数据增强策略处理后的数据集进行训练,并在统一的实验平台上进行测试评估。如表3和表4所示的实验结果对比表明,本研究所提出的模型在各项评价指标上均显著优于对比模型(表中加粗数字表示最优结果)。特别值得注意的是,该模型在识别细粒度目标区域时表现出更强的鲁棒性和准确性,这主要得益于其创新的可变性卷积结构能够更好地捕捉图像的局部细节特征。
Table 3. Comparison of segmentation IoU metrics across different models
表3. 不同模型分割IoU指标对比
组织区域 |
Deeplab v3+ |
U-Net |
可变形Deeplab v3+ |
背景 |
0.76 |
0.74 |
0.82 |
脂肪变性 |
0.57 |
0.54 |
0.66 |
正常细胞核 |
0.69 |
0.67 |
0.78 |
炎性细胞核 |
0.56 |
0.51 |
0.67 |
肝实质 |
0.75 |
0.74 |
0.84 |
水性样变 |
0.46 |
0.43 |
0.55 |
异色 |
0.69 |
0.67 |
0.60 |
为了系统评估不同模型在肝脏微环境分割任务中的性能差异,图4展示了各模型的对比分割结果可视化分析。实验结果表明,在组织结构复杂、边界模糊的肝脏区域,传统分割模型(如UNet和原始DeeplabV3+)存在明显的局限性。这些模型在组织学特征相似区域的分类任务中易产生误判,并表现出明显的边界断裂现象,导致分割结果的拓扑结构完整性受损。相比之下,本研究提出的基于可变形卷积改进的DeeplabV3+模型展现出显著优势:不仅能够更好地保持肝脏组织的形态学连续性,在复杂微环境下的分割精度更接近金标准(ground truth),而且对亚结构边界的识别能力具有显著提升。
Table 4. Comparison of Dice metrics across different models
表4. 不同模型Dice指标对比
组织区域 |
Deeplab v3+ |
U-Net |
可变形Deeplab v3+ |
背景 |
0.86 |
0.84 |
0.86 |
脂肪变性 |
0.73 |
0.70 |
0.76 |
正常细胞核 |
0.82 |
0.80 |
0.87 |
炎性细胞核 |
0.73 |
0.69 |
0.79 |
肝实质 |
0.86 |
0.85 |
0.90 |
水性样变 |
0.63 |
0.60 |
0.68 |
异色 |
0.82 |
0.80 |
0.81 |
肝脏微环境分割任务具有特殊的挑战性,不仅需要准确区分炎症细胞浸润区域与脂滴沉积区域,还需要对水变区、正常肝实质等微观结构实现亚像素级的分割精度。本文提出的改进DeeplabV3+模型通过引入可变形卷积模块,实现了局部纹理特征与全局空间语义信息的自适应融合。这种创新架构设计使模型在维持肝脏宏观解剖结构准确性的同时,对微米级组织边界的几何变化表现出更强的鲁棒性和敏感性,从而为肝脏病理学的定量分析提供了更可靠的计算工具。
Figure 4. Prediction results of different models
图4. 不同模型预测结果
5. 结论
本研究针对肝脏病理微环境分割中多尺度特征建模不足、标注数据稀缺及复杂边界分割精度受限的问题,提出了一种融合自监督学习与可变形卷积的改进型DeepLab v3+模型。通过构建首个基于代谢相关脂肪性肝病(MAFLD)的H&E染色图像像素级标注数据集,系统标注了脂滴沉积、炎性细胞核等7类关键病理结构,为肝脏微环境定量分析提供了标准化基准。方法层面,采用DINO自监督框架对ResNet-50进行病理图像预训练,缓解模型对大规模标注数据的依赖;在DeepLab v3+的ASPP模块中引入可变形卷积,通过动态调整感受野实现局部细节与全局语义信息的自适应融合,并结合特征精修模块优化亚微米级边界分割。实验表明,改进模型在仅需少量标注数据的条件下,显著优于传统U-Net与原始DeepLab v3+,肝实质区域分割精度达0.84 (IoU)与0.90 (Dice),炎性细胞核分割指标提升11%~16%。本研究通过小样本学习与多尺度特征协同建模,为肝脏病理诊断提供了高精度计算工具,同时验证了自监督学习与可变形卷积在医学图像分析中的潜力,为人工智能辅助病理诊断的临床转化提供了技术范式。
NOTES
*通讯作者。