1. 引言
医疗健康行业中人工智能技术的引入和发展应用十分重要,早期人工智能在医疗领域的探索出现在上世纪70年代,利兹大学开发的AAPHelp是记载人工智能系统在医疗领域最早的应用 [1] 。近年,随着机器学习与深度学习的发展,计算机视觉技术在医学图像分析中得到了广泛的应用。
伴随着现代人工智能相关技术的发展,基于大规模数据标注的深度学习方法在医学影像分析领域得到大规模的运用,深度学习技术已经成功地运用于临床医学的各个分支领域,例如检测胃癌 [2] 和乳腺癌 [3] ;肿块或正常乳腺组织分类 [4] 、肺结节分类 [5] ;肝脏 [6] 的分割等研究,且准确率达到95%以上,U型对称网络(U-Net)凭借其强的非线性表达能力、利用来自较低分辨率图像的全局信息和来自较高分辨率图像的局部信息等优势在医学影像分割中被广泛运用。
尽管现代医疗系统在诊断和治疗疾病方面取得了显著进展,但仍面临诸多挑战。其中,诊断准确性、效率以及医疗资源分配不均 [7] 是尤为突出的问题。医生的主观判断、繁重的数据分析工作以及有限医疗资源的分配,都可能导致误诊、漏诊,甚至延误治疗。特别是在处理复杂疾病和分析大量医学影像数据时,这些问题更为显著。
为了解决这些问题,本研究提出了一种基于人工智能的自动识别病症系统。该系统利用深度学习技术,对医学影像和病例数据进行自动化分析,旨在提高诊断的准确性和效率。通过skip connection和注意力机制,我们的系统能够更好地融合上下文信息,捕捉疾病的细微特征。此外,系统的可扩展性和便携性使其能够在资源有限的地区提供高质量的医疗服务,从而改善医疗资源分配不均的问题。
2. 核心算法设计
2.1. 数据集来源
DRIVE数据库的建立是为了能够对视网膜图像中血管的分割进行比较研究。视网膜血管分割和视网膜血管形态属性的描绘,如长度、宽度、曲折度、分支模式和角度,用于糖尿病、高血压、动脉硬化和脉络状新生血管等各种心血管和眼科疾病的诊断、筛查、治疗和评估,在DRIVE数据原有的33张图片的基础上,标注同类视网膜图像扩充数据样本共200张 [8] 。数据集展示如下图1。

Figure 1. Presentation of the DRIVE dataset
图1. DRIVE数据集展示
LiTS是Liver Tumor Segmentation数据集,是一个用于肝脏和肝癌分割的医学影像数据集。该数据集由纽约大学Tandon工程学院的研究人员开发,包含131个肝脏CT扫描图像和对应的分割掩模 [9] 。如下图2所示。
每个患者包含一个肿瘤,并且手动标注了盘状肝脏区域、肝动脉、门静脉、肝脏肿瘤等重要目标区域。其中,盘状肝脏区域是指肝脏整体的区域,肝动脉和门静脉是指这些血管的位置,肝脏肿瘤是指肝癌的位置。
胸部X光分割数据(肺部和心脏标签),来自Kaggle社区的比赛数据由医学成像信息学会(SIIM)标注的SIIM-ACR气胸细分数据集,一共有101张胸片,101个nii格式的标签数据,标签数据中2是肺部,3是心脏,0是背景 [10] 。展示数据如图3所示。

Figure 3. SIIM-ACR pneumothorax segmentation dataset
图3. 胸部X光分割数据展示
2.2. 分割模型设计
U-Net [11] 网络模型的特点是将图像输入和输出进行对称连接,同时通过跳跃连接来引入低层次特征并进行细节保留。该模型被广泛用于医学图像分割,如肺部CT图像、神经元、血管等的分割任务。
U-Net网络模型主要组成部分包括编码器和解码器。编码器由一系列的卷积和池化层组成,用于提取图像的高级特征。解码器则由一系列的反卷积和跳跃连接组成,用于恢复图像的尺寸,并通过跳跃连接引入低层次特征,并进行细节保留,网络模型如图4所示。

Figure 4. U-Net network model presentation
图4. U-Net网络模型展示
U-Net网络模型的训练过程使用交叉熵损失函数 [12] ,并结合数据增强、Dropout [13] 等技巧来增强模型的鲁棒性。在实际应用中,U-Net网络模型已经被证明在医学图像分割领域具有优秀的性能,特别是对于小目标分割和细节保留方面优于其它模型。
为了进一步提升Unet网络在图像分割任务中的性能,我们对其原始结构进行了创新性设计。在Unet的基础上引入了一种新颖的注意力机制。该机制能够动态地聚焦于图像中的关键特征,从而提高网络对像素级细节的理解能力。具体操作上,我们在Unet的编码器和解码器之间加入了一个注意力模块,该模块实现不相关的区域被抑制,目标区域被关注。经过实验验证,我们提出的改进Unet结构在多个基准数据集上均取得了性能提升。改进后模型如图5所示。
在我们提出的改进型Unet网络结构中,我们引入了一个新的注意力模块,该模块在传统的skip connection之前发挥作用。通过下采样操作获得的中间特征图与通过上采样操作恢复的相应特征图共同参与计算,以确定注意力权重。这些权重随后被应用于下采样特征图,以此强调对特定区域的关注,提升网络对细节的捕捉能力。处理完注意力权重后的特征图与未经过权重调整的特征图随后被拼接(concat)在一起,形成一个融合了上下文信息的特征序列,进一步提取特征并缩小空间维度。注意力机制模块结构图如下图6所示。
在评价指数上,我们使用了L2Decay实现L2权重衰减正则化,用于模型训练,防止模型对训练数据过拟合。
在损失函数上,使用了DiceLoss [14] 与Focal Loss [15] 共同作为损失函数。(X表示真实分割图像的像素标签,Y表示模型预测分割图像的像素类别,
近似为预测图像的像素与真实标签图像的像素之间的点乘,并将点乘结果相加,|X|和|Y|分别近似为它们各自对应图像中的像素相加。)
DiceLoss可以缓解样本中前景背景(面积)不平衡带来的消极影响。Dice Loss训练更关注对前景区域的挖掘,即保证有较低的FN,,但会存在损失饱和问题,为解决此问题我们同时使用Focal Loss解决计算机视觉任务中前景–背景不平衡的问题。
2.3. 数据验证及指标评价
K折交叉验证(K-fold cross-validation) [16] 是一种评估模型性能的统计学方法,通过将训练数据划分为多个子集(K个),并在每个子集上进行训练和测试,来评估模型在不同数据集上的表现。
在数据验证时,使用K折交叉验证用于模型调优,找到使得模型泛化性能最优的超参值并在全部训练集上重新训练模型,使用独立测试集对模型性能做出最终评价。评估模型在不同数据集上的泛化能力,避免过拟合现象发生。原理如下图7所示。

Figure 7. Schematic diagram of K-fold cross validation
图7. K折交叉验证示意图
我们在不同的数据集上验证模型的效果,具体情况如下表1所示。

Table 1. Evaluation metrics of U-Net network model on different datasets
表1. 在不同数据集上U-Net网络模型的评价指标
3. 系统架构设计
3.1. 总体功能模块设计
本平台使用者身份有用户和管理员。通过不同的使用平台来划分不同的用户功能,用户使用微信小程序进入用户界面,在小程序内实现医学影像器官分割、在线问诊等相关服务,管理者则通过PC网页端对用户进行管理,管理用户基本信息、分割图像情况、以及问诊情况等操作,系统功能模块图如图8所示。

Figure 8. System functional module diagram
图8. 系统功能模块图
用户功能详细阐述如表2所示。

Table 2. User function detail table
表2. 用户功能详述表
管理员功能详细阐述如表3所示。

Table 3. Detailed list of administrator functions
表3. 管理员功能详述表
3.2. 页面结构设计
页面结构主要面向用户界面设计,在用户的视觉引导、使用观感中起重要的作用,是评判开发程序的重要指标之一。交互性较好、且页面美观、符合用户的使用逻辑的页面不仅可以提升用户体验,还可以增加用户黏度,防止用户流失。
本系统前端页面结构设计合计10个页面。其中一级界面5个,二级界面5个,下面对各个页面功能简单描述,如表4、表5所示。

Table 4. Table of roles for level 1 pages
表4. 一级页面作用表

Table 5. Table of roles for secondary pages
表5. 二级页面作用表
3.3. 核心功能设计
1) 医疗影像分割功能。此功能须在用户登录后才能进行操作,在用户登录进入系统后,点击对应项目的入口模块进入分割页面,在微信小程序前端页面上传图片,生成临时链接,并在页面展示临时上传的图像。用户点击提交后,以文件的形式上传到服务器指定路径,并调用预训练权重得到分割图片,透明化处理后与原图叠加,保存图像路径到数据库,同时以Json的格式返回图像路径,在前端展示给用户,用户可以根据自己需要决定是否保存图片。医疗影像分割功能时序图如图9所示。

Figure 9. Timing diagram of medical image segmentation function
图9. 医疗影像分割功能时序图

Figure 10. Timing diagram of the line inquiry function
图10. 线问诊功能时序图
2) 在线问诊功能。在线问诊模块提供用户实时基本的疾病回答,用户在问诊界面输入问题症状或医疗建议,通过Json方式携带字符串向服务器发起请求,服务器解析携带信息,调用openAI获取问题回答,保存问题及回答并携带问题回答反馈给用户,在线问诊功能时序图如图10所示。
4. 核心功能展示
4.1. 医疗影像分割功能
医疗影像分割功能将医学影像中的结构、组织或病变区域分离出来,以便进行诊断、治疗和研究。在此方面功能模块中,用户可以上传医学CT图片,上传后服务器响应使用U-Net算法预训练权重通过对上传的图像进行分割,将分割后的结果图与原图叠加以文件路径的形式反馈给用户,并初步提供疑似病变区域以及初步的诊断结果。用户通过文件路径可以在线查看下载分割后的图片,如图11所示。

Figure 11. Effect of medical image segmentation interface
图11. 医疗影像分割界面效果图
4.2. 在线问诊功能
在线问诊模块提供用户在线就医的平台,用户在问诊界面输入症状以及用药建议等相关问诊问题,以Json的格式上传到服务器,服务器解析Json,使用Davinci-003模型,实现生成式文本问答,完成智能问诊,将参考结果返回给用户,如下图12所示。

Figure 12. Effect of online consultation function
图12. 在线问诊功能效果图
5. 总论
本研究开发了一种基于人工智能的医疗辅助诊断系统,其核心目标在于提升医疗诊断过程的精确度和效率。该系统依托深度学习技术,融合了上下文信息处理和注意力机制,以捕捉疾病的微小细节。在数据集的选择上,我们使用了DRIVE、LiTS和SIIM-ACR等医学图像数据集来进行模型的训练和验证。在模型设计上,我们采用了U-Net网络结构,并通过引入注意力机制对其进行了优化,使其能够动态地关注图像中的关键区域。根据实验数据,改进后的模型在多个医学图像分割任务中表现出色。未来,我们计划对系统的鲁棒性进行进一步测试,并将其推广至乡镇医院和卫生所,以期减少由于医生主观判断、繁杂的数据分析工作以及医疗资源分配有限等因素所导致的误诊、漏诊和治疗延误等问题。
NOTES
*通讯作者。