下颌管分割的进展:从传统方法到AI驱动的临床应用
Progress of Mandibular Canal Segmentation: From Traditional Methods to AI-Driven Clinical Applications
摘要: 下颌管(MC)是口腔颌面部区域的重要解剖结构,其精准分割对于下颌第三磨牙拔除术、牙种植术中下牙槽神经保护具有重要的临床意义。然而,由于下颌管体积小、边界模糊、个体差异大,使得传统方法在CBCT影像上的分割精度有限。近年来,基于深度学习的方法显著提升了下颌管自动分割的准确性和泛化能力。本文系统综述了下颌管分割的研究进展,涵盖传统方法、基于三维卷积神经网络的方法、基于Transformer的方法,以及半监督与弱监督学习策略。并展望了该领域的未来应用潜力,以期为MC自动分割的进一步发展及临床转化提供参考。
Abstract: The Mandibular Canal (MC) is an important anatomical structure in oral and maxillofacial regions, and its accurate segmentation is critical for mandibular third molar extraction and the protection of the inferior alveolar nerve in dental implant surgery. However, due to its small volume, blurred boundaries, and significant anatomical variability among individuals, traditional methods show limited segmentation accuracy on CBCT images. Recently, deep learning-based methods have significantly improved the accuracy and generalizability of automated MC segmentation. This paper systematically reviews the progress in MC segmentation, covering traditional methods, approaches based on three-dimensional convolutional neural networks (3D CNNs), Transformer-based methods, and semi-supervised or weakly supervised learning strategies. Additionally, the potential future applications in this field are discussed, aiming to provide references for further development and clinical translation of automated MC segmentation.
文章引用:杨璨璟, 邱叶. 下颌管分割的进展:从传统方法到AI驱动的临床应用[J]. 人工智能与机器人研究, 2025, 14(3): 708-718. https://doi.org/10.12677/airr.2025.143069

1. 引言

下颌管[1] (Mandibular Canal, MC)是一条走行于下颌骨内部的骨密质管道,包绕下牙槽神经、动脉和静脉,其中下牙槽神经支配下颌各牙,其终末支自颏孔穿出,称为颏神经,负责下唇及颏部软组织的感觉功能。在下颌第三磨牙拔除术[2]、牙种植术[3]、正颌手术[4]甚至后牙根管治疗[5]等操作中,若损伤该神经,可能导致短暂或永久性的感觉功能障碍,影响术后生活质量[6]。由于下颌管具有较大的个体差异性,包括位置、走向、形态以及穿越下颌骨的方式等,这种解剖变异性使得手术中精确定位下颌管变得尤为重要。对下颌管的准确定位不仅关系到手术安全,也是口腔数字化诊疗中个性化规划的基础。

2. 下颌管自动分割的现状与挑战

在下颌管分割任务中,人工分割方法至今仍被广泛采用。该方法通常由放射科医生在CBCT图像上逐层观察,并手动勾画其走行路径,因其精度较高、解剖一致性良好,被普遍视为该任务的“金标准”。然而在实际应用中,人工分割仍然存在以下问题:

1) 耗时且低效:完整标注一例下颌管通常耗时30~60分钟不等,操作过程繁琐,效率低下,难以满足大规模数据处理的需求。

2) 主观性强,依赖经验:下颌管标注的质量高度依赖医生的经验与判断能力。初学者或非专科人员往往难以准确追踪其走行路径,分割质量可能较差。

3) 医生间一致性低:不同医生对下颌管位置的判断存在一定主观差异,尤其在走行弯曲或低对比度区域,更易出现分歧,从而影响分割结果的可重复性。

人工分割所依赖的基础影像为锥形束CT [7] (Cone Beam Computed Tomography, CBCT)扫描。由于其低辐射剂量、高分辨率、三维成像能力以及获取便捷的优势,被广泛应用于口腔临床术前规划中,为精准评估下颌管位置提供了重要的影像支持。然而,CBCT图像本身的成像特性也为下颌管的自动识别与分割带来了诸多挑战,主要体现在以下几个方面:

1) 低对比度与伪影干扰:由于下颌管与周围骨组织密度接近,图像对比度较低,边界模糊,部分区域难以分辨。同时,CBCT可能存在金属伪影和运动伪影,进一步干扰下颌管的识别。

2) 设备差异导致的泛化问题:不同CBCT设备在视野范围(FOV)、扫描层厚、图像分辨率等参数上存在较大差异,且CBCT缺乏统一的Hounsfield Unit (HU)标准,导致不同设备对下颌管的呈现存在差异,增加了模型适配不同数据的难度。

3) 类别不平衡与解剖细节受限:下颌管在CBCT中占比极低、个体差异较大且存在解剖学变异(如分叉或前环结构),容易导致自动分割中出现结构断裂、中断或误识别等问题。

为应对上述挑战,研究者已提出多种自动化分割方法,主要包括传统图像处理方法和基于深度学习的方法。其中,深度学习方法,尤其是以卷积神经网络(Convolutional Neural Networks, CNNs)为代表的架构,在医学影像分割领域取得了显著成果,成为推动下颌管自动分割研究的重要方向。

3. 下颌管自动分割方法的研究进展

3.1. 传统图像处理方法

由于下颌管整体走行相对规则,模型驱动的方法(如统计形状模型)以及基于模板的方法(如模板匹配)通常表现更为稳定和有效。相比之下,基于阈值或边缘检测的方法受限较多,适用性相对较差。

Rueda等人[8]提出一种基于主动外观模型(AAM)结合半自动标注的分割方法,在二维CT切片上手动标注解剖特征点,引导统计模型逐步拟合颌骨及神经管,实现半自动化结构识别。该方法在215张CT切片上验证,平均定位误差为4.76 mm,具备一定解剖拟合能力,其主要局限在于初始化过程劳动强度大、耗时长。此后,Kainmueller等人[9]提出结合统计形状模型(SSM)与Dijkstra最短路径算法的三维自动分割方法。该方法首先通过SSM初步拟合下颌骨与神经管结构,再利用Dijkstra算法优化路径,在106例CBCT数据上评估的下颌管定位误差为右侧1.0 ± 0.6 mm、左侧1.2 ± 0.9 mm。相比Rueda等人依赖二维切片手动初始化的方法,该方法提升了自动化程度,并增强了三维结构建模的连续性,但仍依赖特定训练集,模型适应性较弱。随后,Kim等人[10]基于三维全景体积重建与纹理增强,提出一套自动检测颏孔和下颌孔的方案,并结合线性追踪与快速行进法(Fast Marching, FM)完成下颌管分割。该方法无需人工干预,具备较高精度,但对图像质量敏感,若存在下颌管结构缺失则性能下降,且计算开销较大。

为此,Abdolali等人[11]在Kainmueller研究的基础上提出结合条件统计形状模型(conditional SSM)与快速行进法的分割策略。首先通过多尺度低秩分解提升CBCT图像质量,随后以颏孔和下颌孔位置为约束构建条件SSM,初步拟合神经管结构,最后借助优化后的速度函数,利用FM追踪路径。该方法在120例CBCT数据上验证优于传统SSM和Dijkstra方法,在起止点区域的定位误差均低于1 mm,显示出较好的分割精度。但其建模过程高度依赖颏孔与下颌孔的准确定位,若该部分出现误差将影响整体路径追踪结果,对解剖变异和复杂病例的适应性仍有限。

总体来看,传统图像处理方法在图像质量较好、结构连续的场景中可实现一定的分割精度,但普遍依赖灰度特征与解剖先验,难以适应CBCT图像中的噪声、中断与个体差异。多数方法仍需人工设置参数或初始化关键点,自动化程度低,结果稳定性和泛化能力不足,难以应对复杂临床需求,推广性有限。

3.2. 深度学习方法

卷积神经网络(Convolutional Neural Networks, CNNs)是深度学习中最具代表性的架构之一,通过局部感受野、权值共享和池化操作提取局部特征并建模多尺度信息,在医学影像分析中得到广泛应用。全卷积网络(Fully Convolutional Networks, FCNs)在此基础上发展,取消了传统分类网络中的全连接层,实现了像素级输出,成为医学图像分割任务的基础框架。面向CBCT中下颌管分割的二维网络模型(如U-Net、SegNet)和三维网络模型(如3D U-Net、nnU-Net),多以FCN架构为基础演变,衍生出多种结构优化策略,以提升分割精度与空间连续性。部分研究还引入了半监督或弱监督学习策略,以探索缓解人工标注稀缺与数据获取成本高的问题。近年来,Transformer结构作为新兴应用方向,逐步扩展至CBCT下颌管分割,凭借其全局建模能力,在低对比度区域的特征提取与空间结构建模方面展现出良好的潜力。

3.2.1. 基础网络结构与改进策略

在早期研究中,二维网络模型因其结构简单、参数量小、训练稳定,被广泛应用于像素级医学图像分割任务。其核心思路是从CBCT体数据中提取矢状面切片,构建二维图像序列后逐帧识别下颌管区域。其中,U-Net [12]是最具代表性的架构之一,整体采用对称的编码–解码结构:编码器通过卷积和池化提取高层次特征,解码器通过上采样逐步恢复空间分辨率。为保留细节信息,U-Net在每个上采样层与对应的下采样层之间直接拼接特征图,经过卷积融合后传递至下一层,提升了小目标结构及边缘区域的识别能力。整体架构如图1所示。

Figure 1. Schematic diagram of U-Net network structure

1. U-Net网络结构示意图

在U-Net架构基础上,Faradhilla等人[13]针对下颌管分割中的类别不平衡问题,提出了残差全卷积网络(Residual Fully Convolutional Network, RFCN)和双辅助损失机制(Dual Auxiliary Loss, DAL)。RFCN在编码路径中引入残差连接,并以步长卷积(Strided Convolution)替代传统池化操作。DAL包含区域损失与边界损失,并采用了Focal Loss以平衡正负样本比例,同时强化下颌管主体区域与边缘轮廓的特征学习。实验结果显示,RFCN在两个数据集上分别获得91.4%和86.8%的Dice系数,但模型训练过程中需要手动调节损失权重。Wang等人[14]基于U-Net网络,在编码路径引入残差模块(Residual Block),通过恒等映射(Identity Mapping)缓解梯度消失,提升特征传递效率;在编码末端加入空洞空间金字塔池化(ASPP)模块,利用不同扩张率卷积提取多尺度上下文信息;同时结合空间注意力机制(Spatial Attention Module),通过最大池化与平均池化建模局部显著性,突出关键区域特征;损失函数采用Dice Loss与Focal Loss的组合,改进后的网络平均Dice指标达到0.899,显著优于所对比的传统2D网络(如U-Net、SegNet)。

尽管上述基于2D U-Net的改进方法在评估指标上取得了较高的Dice系数,但其性能提升主要依赖于单张切片内局部特征的对齐。由于CBCT图像是三维体数据,而二维卷积仅在单张切片上提取特征,无法捕捉体素间纵向和横向的连续关系,模型难以从整体上准确建模下颌管的三维走行形态。当下颌管走行弯曲剧烈、断面变化明显或结构边界模糊时,模型容易出现预测断裂、路径中断或偏移的问题。相比之下,三维网络模型能够充分提取空间特征,捕捉跨切片的连续性与整体结构信息,在建模下颌管这种细长、走行弯曲的三维解剖结构时展现出更明显的优势。

3D U-Net作为医学图像分割中应用最广泛的三维网络架构,也成为下颌管分割任务的主流选择。该网络由Çiçek等人[15]提出,在二维U-Net的基础上,将卷积核、池化核与上采样操作全面扩展至三维体素块,在三维空间中同时提取矢状面、冠状面和轴状面特征。Kwak等人[16]曾系统比较了二维网络模型(2D U-Net和2D SegNet)与3D U-Net在CBCT下颌管分割中的表现,实验结果显示,3D U-Net在准确率(Accuracy)与平均交并比(mIoU)等指标上均明显优于二维网络模型。作者指出,尽管三维卷积在计算资源消耗上高于二维模型,但在捕捉下颌管的复杂弯曲走行方面展现出更强的整体建模能力。

早期研究多直接采用原始3D U-Net架构,作为最早将3D U-Net应用于CBCT下颌管分割的研究,Jaskari等人[17]在标准3D U-Net的基础上,在下采样与上采样模块中引入了残差连接,训练时采用32³体素块的随机采样以减轻计算负担,结果在主测试集上Dice系数分别为0.679和0.677,整体性能显著优于传统SSM方法,验证了深度学习方法在三维CBCT数据中分割下颌管的可行性,然而,由于训练数据大多为粗标注(固定管径4 mm插值生成路径),模型在边界细节建模上存在一定不足,同时小尺寸patch的训练策略限制了对下颌管全局上下文信息的捕捉。同样,Dhar等人[18]基于3D U-Net,采用下颌管中心线作为训练标签。训练后,将模型输出的初步结果通过骨架化提取中心线,并进一步修复断裂和错误分支,最终还原出连续完整的下颌管路径。在30例CBCT测试集中,模型取得了0.62 mm的平均曲线距离(MCD)和0.70的mIoU,尽管中心线标注无法直接提供完整体积信息,但对于提升路径连贯性具有明显优势。由于不同CBCT设备和人群在成像特性与解剖结构上存在差异,Järnstedt等人[19]基于3D U-Net,使用1103例多中心、多设备、多人种的CBCT数据进行训练与评估,重点验证模型在异质性数据下的泛化性能。为了优化分割连贯性,他们在预测结果后处理阶段引入骨架化与启发式连接,筛选并修正下颌管路径,同时提出对称平均曲线距离(SMCD)作为新评价指标。结果显示,模型在跨设备测试中仍保持稳定性能,且在路径连贯性上达到或超过多位放射科专家标注的一致性水平。Oliveira-Santos等人[20]则扩展了下颌管变异结构–前环(AL)的分割任务。为了增强网络的泛化能力,他们收集了来自不同CBCT设备的数据,样本特意涵盖了有牙列、无牙区患者,以及不同下颌管皮质化程度(完全皮质化、部分皮质化或无皮质化)的情况。实验显示,在含AL的样本中,下颌管分割的平均Dice系数为0.792,在无AL样本中为0.789,两组差异无统计学意义(p > 0.05)。

随着3D U-Net在下颌管分割中的应用深入,原始架构逐渐暴露出性能不足的问题,部分研究在此基础上进行了结构优化,如Du等人[21]提出了基于3D U-Net并结合注意力机制的Attention-3D U-Net架构。为降低标注成本,他们采用中心线拟合与区域生长的方法快速生成体素级标签,并以固定颏孔和下颌孔为参考裁剪ROI,提升训练效率;在网络设计中,引入scSE注意力模块(spatial and channel squeeze and excitation)和加权二元交叉熵(BCE)损失函数,其中scSE模块由sSE和cSE两部分组成,分别在空间与通道维度自适应调整特征响应,通过强化关键区域和特征通道,有效提升下颌管区域的表达能力。但由于采用小patch训练,整体空间建模能力仍受限,这是深度学习分割中常见的问题。为解决传统3D U-Net在下颌管分割中易出现断裂与边界不连续的问题,Jeoun等人[22]提出了Canal-Net (连续性感知上下文网络)。该方法以3D U-Net为基础,在解码路径中引入了双向卷积长短时记忆网络(ConvLSTM)模块,用于捕捉局部时空特征,同时采用多任务学习框架,在三维体积分割的基础上引入多平面投影损失(Multi-Planar Projection Loss, MPL),进一步强化整体结构的连续性建模。通过局部与全局特征的协同优化,Canal-Net有效提升了下颌管低可见度区域的追踪完整性,显著减少分割断裂的问题。但由于网络复杂度增加,Canal-Net推理需要较大的显存和计算资源。Zhao等人[23]提出基于Frenet坐标变换(Frenet Coordinate Transformation)的方法,通过沿下颌管中心线构建局部正交坐标系(切向量、法向量、副法向量),标准化三维路径的排列,从而提取规整的下颌管子体积。这一变换有助于消除原始CBCT影像中因下颌管弯曲导致的形态复杂性,提升了后续网络分割的准确性与连贯性。该方法在CBCT下颌管分割任务中取得了Dice 0.865 ± 0.035的优异性能,整体在分割准确率与推理效率上均优于nnU-Net (Dice 0.844)。

鉴于下颌管区域狭小且在整张CBCT图像中占比极低,直接在高分辨率全体积上建模面临较大挑战。为此,部分研究采用了多阶段分割策略,以降低计算负担并提升精度。Lahoud等人[24]首先使用标准3D U-Net在整张CBCT图像上进行粗分割,初步定位下颌管的大致区域后裁剪出局部ROI,并输入第二个3D U-Net进行精细分割,最终模型在236例CBCT数据上取得0.774的Dice系数。这种两阶段方法相比直接在高分辨率全体积建模,有效降低了计算负担,同时平均推理时间仅为21.26秒,显示出良好的推理效率。不过,粗分割阶段的误差可能在细分阶段进一步放大,且ROI裁剪的参数选择对最终分割结果存在一定影响。同样,Usman等人[25]基于1010例大规模CBCT数据,首先通过直方图动态窗宽窗位(Dynamic Windowing)预处理增强下颌管区域对比度,随后使用深度监督注意力U-Net粗定位下颌管,再结合多尺度输入残差U-Net (MSiR-UNet)细化边界。该方法取得了0.751的Dice系数,分割精度仍有提升空间。Lin等人[26]同样采用了一个粗分割模型和一个细分割模型,两者均基于3D U-Net架构。为提升特征复用能力,网络引入了密集跳跃连接(Dense Skip Pathway),通过将多个编码层特征传递至解码端,在编码–解码过程中实现更丰富的特征融合。同时,深度监督结构(Deep Supervision)被引入以加速模型收敛;此外,为改善梯度流动性,卷积模块被替换为Bottleneck结构。实验结果显示,该方法在测试集上取得了DSC 0.875、95% HD 0.442 mm的性能,显著提升了CBCT下颌管分割的准确性与泛化能力。然而,该方法存在参数量较大且仅基于单中心数据训练的局限性,未来工作可聚焦于多中心验证及模型轻量化部署。Ni等人[27]在预处理阶段,首先通过2D U-Net在重建的二维全景图中粗略识别下颌管的大致位置,结合MPR (多平面重建)确定三维ROI。随后,利用引入了残差单元(Residual Block)的3D U-Net网络在ROI内进行粗分割;在粗分割结果的基础上,提取下颌管中心线,并沿中心线生成一系列局部Patch,各Patch分别输入第二个3D U-Net进行精细分割,最终汇总局部分割结果,得到完整的下颌管三维分割。该方法在625例多中心CBCT数据上进行了评估,在外部测试集中取得了DSC 0.960、HD95 0.288 mm的优异结果,在他们的实验条件下达到了当前先进水平。

3.2.2. 基于Transformer分割框架的优化

Transformer架构通过自注意力机制有效捕获长距离依赖关系,相较传统卷积神经网络(CNN),在理解整体上下文信息方面展现出显著优势。近年来,许多研究者将Transformer应用于主要人体器官的分割任务,并取得了良好成效。例如,Hatamizadeh等人[28]提出了UNETR模型,首次在医学影像分割中采用Vision Transformer (ViT)作为编码器,显著强化了全局特征建模能力;随后,Hatamizadeh等人[29]进一步提出了Swin-UNETR,引入局部窗口注意力(Window Attention)与滑动机制(Shifted Window),在保持全局感知能力的同时,提升了局部细节特征提取效果,在脑肿瘤等医学影像分割任务中表现出优异性能。然而,现有的Transformer分割方法主要聚焦于体积较大的器官,对于体素尺度较小、结构细长的下颌管结构,仍面临分割精度不足的问题。针对这一挑战,Lv等人[30]在Swin-UNETR框架的基础上进行了针对性改进,整体网络结构如图2所示,编码器部分继续采用四层Swin Transformer提取全局特征;解码器部分遵循传统U-Net结构,并在每一解码阶段引入深度残差卷积(DRC)模块以加强特征提取,同时结合像素级特征融合策略,提升对下颌管细粒度结构的感知能力。该方法最终取得了0.844的Dice系数。然而,与CNN网络相比,该模型在收敛速度方面较慢,且在下颌孔与颏孔区域的细节分割存在不足。

Figure 2. Schematic diagram of network architecture of the mandibular canal segmentation based on Swin-UNETR improvement proposed by Lv et al. [30]

2. Lv等人[30]提出的基于Swin-UNETR改进的下颌管分割网络架构示意图

3.2.3. 半监督与弱监督学习探索

在数据标注稀缺的情况下,研究者们曾尝试引入半监督与弱监督学习策略,以减少对精细标注的依赖。通过利用未标注或弱标注数据降低专家参与的需求,尤其针对医疗影像样本获取难、标注成本高的临床环境。Lim等人[31]在半监督训练中,首先用少量手工标注数据预训练模型,随后通过伪标签生成与主动学习筛选,逐步扩展训练集。虽然在一定程度上降低了人工标注需求,但由于伪标签中不可避免的误差累积,最终模型在内部和外部测试集上的分割精度(Dice分别为0.58、0.55和0.43)仍未达到理想水平,限制了方法的实际应用效果。Cipriano等人[32]在传统3D U-Net架构的基础上引入了位置信息编码模块,提出了Positional PadUNet。并结合深度标签传播技术,将2D稀疏标注自动扩展为3D密集标签,降低了人工干预需求。实验在公开CBCT数据集中进行评估,所得Dice系数达0.79。由于下颌管分割对像素级准确性要求极高,自监督或弱监督方法在实际应用中容易引入误差累积,影响分割质量。随着Cipriano等人[33]发布包含347例稀疏标注和91例密集标注的新数据集,全监督深度学习训练逐渐成为可行选择,研究重心也随之转向了网络结构与训练策略的优化。

4. 总结

本文整理了基于深度学习的CBCT图像的神经管分割方法。表1汇总了近年来代表性模型的架构类型、数据规模以及关键指标(如Dice、IoU)等内容。

通过系统梳理CBCT下颌管分割领域的研究进展可以发现,基于三维卷积神经网络(如3D U-Net及其改进型)的方法在分割准确性和模型稳定性方面仍占据主导地位,适用于标准影像下的下颌管自动提取。针对下颌管细长走行特性,基于Transformer架构的混合网络(如Swin-UNETR)通过强化全局特征建模,提升了边界连续性和小结构识别能力,但训练复杂度高,对数据规模与计算资源要求大,限制了在临床快速部署的可行性。

Table 1. Comparison of automatic mandibular canal segmentation methods

1. 下颌管自动分割方法对比

类别

文献

网络结构

数据集

结果

基于二维U-Net架构

Faradhilla et al. [13]

2D U-Net + 残差连接

5例CBCT的 矢状面切片

Dice: 0.914 (一)

Dice: 0.868 (二)

Wang et al. [14]

YOLOv5s + 2D U-Net

1024例CBCT

IoU: 0.82%

Kwak et al. [16]

2D U-Net,

2D SegNet,

3D U-Net

102例CBCT

共49,094张2D影像

mIoU: 0.58

mIoU: 0.49

mIoU: 0.41

基于标准3D U-Net

Jaskari et al. [17]

3D U-Net

637例CBCT

Dice: 0.679 (左)

Dice: 0.677 (右)

Dhar et al. [18]

3D U-Net

187例CBCT

mIoU: 0.70

Järnstedt et al. [19]

3D U-Net

1132例CBCT

SMCD: 0.46 mm

Oliveira-Santos et al. [20]

3D U-Net

219例CBCT

Dice: 0.792

IoU: 0.659 (1)

Dice: 0.789

IoU: 0.654 (2)

基于3D U-Net扩展与优化

Du et al. [21]

Attention-3D U-Net

40例CBCT

Dice: 0.86

IoU: 0.75

Jeoun et al. [22]

Canal-Net

50例CBCT, 五折交叉验证

Dice: 0.87

IoU: 0.80

Zhao et al. [23]

3D U-net + Frenet

84例CBCT

Dice: 0.865

IoU: 0.774

基于多阶段分割策略

Lahoud et al. [24]

Two-stage 3D U-Net

235例CBCT

Dice: 0.77

IoU: 0.64

Usman et al. [25]

3D U-Net + MSiR-UNet

1010例CBCT自建

91例CBCT公共

Dice: 0.751

mIoU: 0.795

Lin et al. [26]

Two-stage 3D U-Net + Dense Skip + Bottleneck

220例CBCT

Dice: 0.875

Ni et al. [27]

2D U-Net + Two-stage 3D Res-UNet

625例CBCT

Dice: 0.952

IoU: 0.912 (内)

Dice: 0.960

IoU: 0.924 (外)

基于Transformer架构

Lv et al. [30]

Swin Transformer + U-Net解码器

91例CBCT

256例2D稀疏标注

Dice: 0.844

IoU: 0.731

半监督与弱监督 学习策略

Lim et al. [31]

3D nnU-Net

138例CBCT

Dice: 0.58

Cipriano et al. [33]

Positional PadUNet

347例CBCT

Dice: 0.79

近年来,针对传统3D U-Net分割中存在的断裂与细节缺失问题,研究者们提出了多种改进策略,包括残差连接、密集跳跃路径、注意力机制、多尺度特征提取(如ASPP模块)等;同时,多阶段粗到细分割框架(如Two-stage 3D U-Net)有效提升了小结构区域的精细建模能力。部分研究还探索了通过Frenet坐标标准化路径形态、半监督学习缓解标注成本等方向,推动了技术多样性的发展。另外,从已有文献来看,绝大多数研究通过Dice系数(DSC)作为主要评价指标,用于量化预测结果与真实标注的重叠程度。但需要指出的是,这些结果大多是在各自构建的私人数据集上得到的,且各研究的数据来源、扫描设备、标注标准和测试方法并不统一。因此,不同研究中Dice系数的高低,更多反映的是模型在特定数据集上的拟合能力,难以直接横向比较方法的优劣。

5. 展望

从整体趋势来看,现有研究虽然在分割准确率上已取得显著进展,但在临床可用性与实际部署方面仍存在诸多挑战。例如,三维网络虽提升了空间建模能力,但带来计算开销;多阶段结构可优化边界细节,但对数据充分性提出更高要求;数据多样性和公开数据集的逐步建设,正在不断提升模型的泛化能力与复现标准。如何在“准确性”、“适应性”、“可部署性”之间实现更优平衡,已成为下一阶段研究的重点。未来可从以下几个方向深入探索:

1) 提升训练数据的临床代表性。当前多数模型仍依赖影像质量较高、结构清晰的CBCT数据,难以覆盖实际临床中常见的伪影干扰、解剖变异等复杂情况,并且大部分研究仍局限于单中心或小规模数据集。未来应采集多中心、多设备、多病理状态(例如金属植入体、颌骨部分缺损、骨质疏松)的数据,以增强模型在真实临床环境下的适应能力和鲁棒性。

2) 兼顾模型性能与部署可行性。基于Transformer的分割模型在捕捉长程依赖关系和保持下颌管结构连续性方面展现出明显优势,但由于模型参数量大、推理速度慢,在临床需要快速反馈的应用场景(如术前规划、实时术中辅助)中仍存在实际应用障碍。结合近年来医学图像分割领域对轻量化设计的关注,未来研究可考虑从两方面入手:一是探索高效Transformer变体(如对Swin-UNet进行架构优化),在保持特征建模能力的同时,降低计算负担;二是引入结构化剪枝、动态知识蒸馏等模型压缩技术,以进一步缩减模型规模,提升推理速度。

3) 增强模型的可解释性与交互能力。当前大部分方法以全自动分割为目标,但在临床实际中,医生往往希望能直观看到模型是依据哪些影像特征作出的判断,并且在必要时对分割结果进行简单快速的修正。未来研究可考虑引入注意力图或特征可视化技术,帮助医生理解模型关注的区域。同时,可以开发支持交互操作的分割系统,例如允许医生通过点击、框选等方式快速标记错误区域,并在几轮交互后得到优化的分割结果。通过提高分割结果的可审查性和可调整性,有望增强模型在临床应用中的可信度和实用性。

4) 加强数据共享与评估标准建设。目前CBCT下颌管分割领域仍缺乏规模足够大、来源多样的公共数据集,不同研究使用的数据在数据筛选、扫描参数、标注标准等方面存在较大差异,导致模型性能评估难以统一,且不同方法间的结果对比缺乏客观性。未来,应鼓励多中心协作,建立覆盖不同设备型号、病理状态与解剖变异的数据资源,统一标注与测试流程,并推动数据开放共享,从而提升研究的可复现性和算法评估的公正性。

5) 探索多结构联合分割,辅助判断局部解剖关系。在临床操作中,仅识别下颌管往往难以全面评估其与邻近牙齿或骨组织的空间关系,尤其在智齿拔除、牙种植及下颌骨手术等场景中。未来研究可尝试基于多任务学习框架,联合分割下颌第三磨牙、下颌骨、髁突等关键结构,为术前评估提供更全面的图像支持。

参考文献

[1] Phillips, C.D. and Bubash, L.A. (2002) The Facial Nerve: Anatomy and Common Pathology. Seminars in Ultrasound, CT and MRI, 23, 202-217.
https://doi.org/10.1016/s0887-2171(02)90047-8
[2] Barreiro-Torres, J., Diniz-Freitas, M., Lago-Mendez, L., Gude-Sampedro, F., Gandara-Rey, J. and Garcia-Garcia, A. (2010) Evaluation of the Surgical Difficulty in Lower Third Molar Extraction. Medicina Oral Patología Oral y Cirugia Bucal, 2010, e869-e874.
https://doi.org/10.4317/medoral.15.e869
[3] Juodzbalys, G., Wang, H. and Sabalys, G. (2011) Injury of the Inferior Alveolar Nerve during Implant Placement: A Literature Review. Journal of Oral and Maxillofacial Research, 2, e1.
https://doi.org/10.5037/jomr.2011.2101
[4] Agbaje, J.O., de Casteele, E.V., Salem, A.S., Anumendem, D., Lambrichts, I. and Politis, C. (2016) Tracking of the Inferior Alveolar Nerve: Its Implication in Surgical Planning. Clinical Oral Investigations, 21, 2213-2220.
https://doi.org/10.1007/s00784-016-2014-x
[5] Pogrel, M.A. (2007) Damage to the Inferior Alveolar Nerve as the Result of Root Canal Therapy. The Journal of the American Dental Association, 138, 65-69.
https://doi.org/10.14219/jada.archive.2007.0022
[6] Ziccardi, V.B. and Zuniga, J.R. (2007) Nerve Injuries after Third Molar Removal. Oral and Maxillofacial Surgery Clinics of North America, 19, 105-115.
https://doi.org/10.1016/j.coms.2006.11.005
[7] Angelopoulos, C., Scarfe, W.C. and Farman, A.G. (2012) A Comparison of Maxillofacial CBCT and Medical CT. Atlas of the Oral and Maxillofacial Surgery Clinics, 20, 1-17.
https://doi.org/10.1016/j.cxom.2011.12.008
[8] Rueda, S., Gil, J.A., Pichery, R. and Alcañiz, M. (2006) Automatic Segmentation of Jaw Tissues in CT Using Active Appearance Models and Semi-Automatic Landmarking. In: Lecture Notes in Computer Science, Springer, 167-174.
https://doi.org/10.1007/11866565_21
[9] Kainmueller, D., Lamecker, H., Seim, H., Zinser, M. and Zachow, S. (2009) Automatic Extraction of Mandibular Nerve and Bone from Cone-Beam CT Data. In: Lecture Notes in Computer Science, Springer, 76-83.
https://doi.org/10.1007/978-3-642-04271-3_10
[10] Kim, G., Lee, J., Lee, H., Seo, J., Koo, Y.-M., Shin, Y.-G., et al. (2011) Automatic Extraction of Inferior Alveolar Nerve Canal Using Feature-Enhancing Panoramic Volume Rendering. IEEE Transactions on Biomedical Engineering, 58, 253-264.
https://doi.org/10.1109/tbme.2010.2089053
[11] Abdolali, F., Zoroofi, R.A., Abdolali, M., Yokota, F., Otake, Y. and Sato, Y. (2016) Automatic Segmentation of Mandibular Canal in Cone Beam CT Images Using Conditional Statistical Shape Model and Fast Marching. International Journal of Computer Assisted Radiology and Surgery, 12, 581-593.
https://doi.org/10.1007/s11548-016-1484-2
[12] Ronneberger, O., Fischer, P. and Brox, T. (2015) U-Net: Convolutional Networks for Biomedical Image Segmentation. In: Lecture Notes in Computer Science, Springer, 234-241.
https://doi.org/10.1007/978-3-319-24574-4_28
[13] Faradhilla, Y., Suciat, N., et al. (2021) Residual Fully Convolutional Network for Mandibular Canal Segmentation. International Journal of Inventive Engineering and Sciences, 14, 208-219.
https://doi.org/10.22266/ijies2021.1231.20
[14] Wang, Y. and Feng, H. (2022) Method for Automatic Mandibular Canal Detection on Improved U-Net. 2022 International Conference on Image Processing, Computer Vision and Machine Learning (ICICML), Xi’an, 28-30 October 2022, 206-209.
https://doi.org/10.1109/icicml57342.2022.10009837
[15] Çiçek, Ö., Abdulkadir, A., Lienkamp, S.S., Brox, T. and Ronneberger, O. (2016) 3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation. In: Lecture Notes in Computer Science, Springer, 424-432.
https://doi.org/10.1007/978-3-319-46723-8_49
[16] Kwak, G.H., Kwak, E., Song, J.M., Park, H.R., Jung, Y., Cho, B., et al. (2020) Automatic Mandibular Canal Detection Using a Deep Convolutional Neural Network. Scientific Reports, 10, Article No. 5711.
https://doi.org/10.1038/s41598-020-62586-8
[17] Jaskari, J., Sahlsten, J., Järnstedt, J., Mehtonen, H., Karhu, K., Sundqvist, O., et al. (2020) Deep Learning Method for Mandibular Canal Segmentation in Dental Cone Beam Computed Tomography Volumes. Scientific Reports, 10, Article No. 5842.
https://doi.org/10.1038/s41598-020-62321-3
[18] Dhar, M.K. and Yu, Z. (2021) Automatic Tracing of Mandibular Canal Pathways Using Deep Learning. arXiv: 2111.15111.
https://doi.org/10.48550/arXiv.2111.15111
[19] Järnstedt, J., Sahlsten, J., Jaskari, J., Kaski, K., Mehtonen, H., Lin, Z., et al. (2022) Comparison of Deep Learning Segmentation and Multigrader-Annotated Mandibular Canals of Multicenter CBCT Scans. Scientific Reports, 12, Article No. 18598.
https://doi.org/10.1038/s41598-022-20605-w
[20] Oliveira-Santos, N., Jacobs, R., Picoli, F.F., Lahoud, P., Niclaes, L. and Groppo, F.C. (2023) Automated Segmentation of the Mandibular Canal and Its Anterior Loop by Deep Learning. Scientific Reports, 13, Article No. 10819.
https://doi.org/10.1038/s41598-023-37798-3
[21] Du, G., Tian, X. and Song, Y. (2022) Mandibular Canal Segmentation from CBCT Image Using 3D Convolutional Neural Network with ScSe Attention. IEEE Access, 10, 111272-111283.
https://doi.org/10.1109/access.2022.3213839
[22] Jeoun, B., Yang, S., Lee, S., Kim, T., Kim, J., Kim, J., et al. (2022) Canal-net for Automatic and Robust 3D Segmentation of Mandibular Canals in CBCT Images Using a Continuity-Aware Contextual Network. Scientific Reports, 12, Article No. 13460.
https://doi.org/10.1038/s41598-022-17341-6
[23] Zhao, H., Chen, J., Yun, Z., Feng, Q., Zhong, L. and Yang, W. (2023) Whole Mandibular Canal Segmentation Using Transformed Dental CBCT Volume in Frenet Frame. Heliyon, 9, e17651.
https://doi.org/10.1016/j.heliyon.2023.e17651
[24] Lahoud, P., Diels, S., Niclaes, L., Van Aelst, S., Willems, H., Van Gerven, A., et al. (2022) Development and Validation of a Novel Artificial Intelligence Driven Tool for Accurate Mandibular Canal Segmentation on CBCT. Journal of Dentistry, 116, Article ID: 103891.
https://doi.org/10.1016/j.jdent.2021.103891
[25] Usman, M., Rehman, A., Saleem, A.M., Jawaid, R., Byon, S., Kim, S., et al. (2022) Dual-Stage Deeply Supervised Attention-Based Convolutional Neural Networks for Mandibular Canal Segmentation in CBCT Scans. Sensors, 22, Article 9877.
https://doi.org/10.3390/s22249877
[26] Lin, X., Xin, W., Huang, J., Jing, Y., Liu, P., Han, J., et al. (2023) Accurate Mandibular Canal Segmentation of Dental CBCT Using a Two-Stage 3D-UNet Based Segmentation Framework. BMC Oral Health, 23, Article No. 551.
https://doi.org/10.1186/s12903-023-03279-2.
[27] Ni, F., Xu, Z., Liu, M., Zhang, M., Li, S., Bai, H., et al. (2024) Towards Clinically Applicable Automated Mandibular Canal Segmentation on CBCT. Journal of Dentistry, 144, Article ID: 104931.
https://doi.org/10.1016/j.jdent.2024.104931
[28] Hatamizadeh, A., Tang, Y., Nath, V., Yang, D., Myronenko, A., Landman, B., et al. (2022) UNETR: Transformers for 3D Medical Image Segmentation. 2022 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), Waikoloa, 3-8 January 2022, 1748-1758.
https://doi.org/10.1109/wacv51458.2022.00181
[29] Hatamizadeh, A., Nath, V., Tang, Y., Yang, D., Roth, H.R. and Xu, D. (2022) Swin UNETR: Swin Transformers for Semantic Segmentation of Brain Tumors in MRI Images. In: Lecture Notes in Computer Science, Springer, 272-284.
https://doi.org/10.1007/978-3-031-08999-2_22
[30] Lv, J., Zhang, L., Xu, J., Li, W., Li, G. and Zhou, H. (2023) Automatic Segmentation of Mandibular Canal Using Transformer Based Neural Networks. Frontiers in Bioengineering and Biotechnology, 11, Article 1302524.
https://doi.org/10.3389/fbioe.2023.1302524
[31] Lim, H., Jung, S., Kim, S., Cho, Y. and Song, I. (2021) Deep Semi-Supervised Learning for Automatic Segmentation of Inferior Alveolar Nerve Using a Convolutional Neural Network. BMC Oral Health, 21, Article No. 630.
https://doi.org/10.1186/s12903-021-01983-5
[32] Cipriano, M., Allegretti, S., Bolelli, F., Pollastri, F. and Grana, C. (2022) Improving Segmentation of the Inferior Alveolar Nerve through Deep Label Propagation. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, 18-24 June 2022, 21105-21114.
https://doi.org/10.1109/cvpr52688.2022.02046
[33] Cipriano, M., Allegretti, S., Bolelli, F., Di Bartolomeo, M., Pollastri, F., Pellacani, A., et al. (2022) Deep Segmentation of the Mandibular Canal: A New 3D Annotated Dataset of CBCT Volumes. IEEE Access, 10, 11500-11510.
https://doi.org/10.1109/access.2022.3144840