1. 引言
人工智能(Artificial Intelligence, AI)是一门研究如何使计算机能够模拟、理解和执行人类智能任务的学科。其是使用机器来模拟人类某些特有的思维过程和智能行为,以此来增强人类在各项工作中的能力和效率[1]。近年来,AI的理论和技术日益成熟,其应用领域也在不断扩大。随着“互联网+医疗健康”模式的不断推进,AI技术在医学领域的应用越来越成熟[2]。
脂肪性肝病(Fatty Liver Disease, FLD),简称脂肪肝,是各种原因引起的以肝细胞弥漫性脂肪变为病理特征的一种临床综合征。在临床上,脂肪肝可分为非酒精性脂肪性肝病(Nonalcoholic Fatty Liver Disease, NAFLD)和酒精性脂肪性肝病。NAFLD是目前世界上最常见的肝脏疾病,也是肝脏相关发病率和死亡率的主要原因[3]。据2016年世界卫生组织估计,超过19亿成年人(占成年人口的39%)超重,6.5亿人(占成年人口的13%)肥胖。在中国,FLD正严重威胁国人的健康,成为仅次于病毒性肝炎的第二大肝病(根据《2019年中国肿瘤登记年报》显示,中国脂肪肝的人数已经超过2亿),发病率在不断升高,且发病年龄日趋年轻化。轻度FLD患者可无临床症状,通过饮食调节并加以锻炼可以得到逆转,而重度FLD患者病情发展较为凶险,可演变为脂肪性肝炎,甚至发展为肝硬化以及肝细胞肝癌。临床中35%~65%的NAFLD患者会出现明显的肝纤维化症状,3%~15%的NAFLD患者最终会发展为肝硬化[4]。因此,FLD的早预防、早发现、早治疗显得尤为重要。
2. 方法学
为全面、系统地综述人工智能(AI)在脂肪性肝病图像诊断领域的研究进展,本研究遵循PRISMA-ScR指南进行文献检索与筛选。
2.1. 检索策略
系统检索了包括PubMed、Web of Science,以及CNKI (中国知网)在内的中英文数据库。结合主题词和自由词,构建检索式。核心检索词包括:(“artificial intelligence”OR“AI”OR“deep learning”OR“machine learning”OR“computer-aided diagnosis”OR“CAD”) AND (“fatty liver”OR“steatosis”OR“NAFLD”OR“NASH”OR“fatty liver disease”) AND (“imaging”OR“ultrasound”OR“computed tomography”OR“CT”OR“magnetic resonance imaging”OR“MRI”OR“pathology”OR“histology”) AND (“diagnosis”OR“detection”OR“quantification”OR“classification”)。检索时限设定为2010年1月至2024年12月。
2.2. 筛选流程
根据检索式获得初步文献记录,去除重复文献。由两位研究者独立阅读标题和摘要,排除明显不相关的研究(如仅涉及动物实验、无AI应用、非影像/病理诊断等)。对通过摘要筛选的文献获取全文,由两位研究者独立评估是否符合纳入标准:第一,研究对象为人类FLD (NAFLD/AFLD);第二,研究内容聚焦于应用AI技术(机器学习、深度学习等)处理超声、CT、MRI或病理图像进行FLD的诊断、分级、定量或风险预测;第三,提供明确的AI方法描述和性能评估结果。排除标准包括:第一,非原创研究(如评论、社论、无新数据的综述);第二,仅使用传统图像处理或统计学方法,未涉及AI算法核心;第三,研究数据不完整或无法获取全文。两位研究者筛选结果出现分歧时,通过讨论或咨询第三位研究者解决。
2.3. 质量评价
鉴于纳入研究类型多样(包括技术开发、诊断准确性研究、算法验证等),本研究采用描述性方法评价研究质量,重点关注以下五点:第一,研究设计(前瞻性/回顾性,单中心/多中心);第二,数据集特征(样本量大小,来源,公开性,标注质量);第三,AI模型细节(算法类型,输入数据,训练/验证/测试集划分,性能指标报告完整性);第四,对比参考标准(如组织病理学、MRI-PDFF等)的合理性;第五,结果的可重复性与潜在偏倚(如数据泄露风险)。
2.4. 排除清单
在标题/摘要筛选阶段,因不符合FLD图像AI诊断主题被排除的文献数量最多。在全文筛选阶段,排除的主要原因包括:AI模型仅用于图像分割等预处理,未直接用于FLD诊断或量化核心任务;缺乏独立的测试集验证或性能评估过于简单;数据量过小或研究设计存在明显缺陷。
3. 人工智能在脂肪性肝病图像上的应用
近年来,计算机辅助检测(Computer-Aided Detection, CAD)在医学图像识别领域迅速发展[5]。其强大的异常区域识别能力可显著提高病变检出率。AI的发展除了人们熟知的机器学习外,由于算法的不断进步,硬件的升级以及大型数据库的建立,深度学习(Deep Learning)在最近十年同样得到了飞速的发展。尽管深度学习在概念上与经典机器学习类似,但其模型通常包含数以千计乃至更多的可学习参数,具备更强的特征提取与模式识别能力。这一特性决定了深度学习在未来的医学研究中将具有巨大潜力。
鉴于我国FLD患者基数庞大、疾病异质性高,且诊断过程中存在医生主观性差异,引入AI技术实现规范化诊断至关重要。AI不仅能有效提升FLD的诊断准确性,还能对确诊患者进行精准分类,从而为不同严重程度的患者提供个体化的预防和治疗策略,最终有助于减轻整体医疗负担。
3.1. 超声图像
超声在FLD的筛查过程中有着较高的地位。然而超声检查存在诊断医生的主观性,可能会影响FLD诊断的准确性,不同操作者及同一操作者多次测量超声结果符合率仅为72%和76% [6]。Han等[7]开发了两种独立的一维卷积神经网络(CNN)算法,分别用于NAFLD的诊断和脂肪分数的估计。这项研究以MRI质子密度脂肪分数(PDFF)作为参考标准,开展了基于超声射频信号相关的深度学习,开发了NAFLD诊断分类器(MRI-PDFF ≥ 5%)和预测MRI-PDFF的脂肪分数估算器。这些算法在102名参与者的测试组中表现出良好的性能。该分类器对于NAFLD的识别能力为96%,而脂肪分数估算器预测的脂肪分数值与MRI-PDFF高度相关(r = 0.85)。其中预测的脂肪分数在MRI-PDFF ≤ 18%的受试者上具有高度相关性(r2 = 0.79)。Yang等[8]通过提取和输出特定的超声诊断特征来开发和验证深度学习系统,以提高深度学习系统检测NAFLD的可解释性和临床相关实用性。该研究表明2S-NNet对重度NAFLD的检测准确性和灵敏度分别为91.6%和95.0%,对中重度NAFLD的检测准确性和灵敏度分别为89.4%和76.5%,对存在NAFLD的检测准确性和灵敏度分别为90.5%和90.5%。测试集中2S-NNet的表现优于五个FLD指数(AUROC值:0.84~0.93 vs 0.54~0.82)。Zhu等[9]通过将浅层卷积神经网络(CNN)与基于像素级特征的差分图像块相结合,能够有效地将FLD超声图像中的图像块与差分图像相结合,从而提高FLD超声图像的分割精度。由此可见,通过AI从超声图像中诊断FLD具有很高的潜在实用性。
3.2. CT图像
CT可以对FLD进行定性和定量评估,相对于超声检查存在的主观性以及磁共振检查的高费用,低剂量的CT检查更符合开展大规模FLD筛查工作的要求。CT诊断FLD的依据为肝脏密度的普遍降低,肝/脾CT值之比小于1.0。Graffy等[10]通过使用三维卷积神经网络,将全自动肝脏分割算法应用于连续无症状成人的非增强腹部CT检查。该模型实现了肝脏脂肪含量的自动检测,其客观数据与手动测量结果十分匹配(散点图显示了在5265次扫描的子队列中,自动与手动测量的非增强CT肝脏衰减具有良好的一致性(r2 = 0.934)。Huo等[11]提出了一种基于感兴趣区域(Region of Interest, ROI)的自动肝脏衰减测量(Automatic Liver Attenuation ROI-based Measurement, ALARM)的方法。这种方法包含了基于深度卷积神经网络的肝脏分割和ROI的自动提取。将深度卷积神经网络与形态学相结合,可在五分钟内计算出肝脏衰减的程度。使用ALARM方法测量的肝脏衰减结果与手动测量的衰减结果高度相关。Lin等[12]基于光子计数探测器CT (PCD-CT)的前瞻性多队列研究克服了传统能量积分探测器CT因扫描协议(管电压、辐射剂量)导致的CT值偏移问题。PCD-CT通过标准化CT值实现了跨协议的肝脏脂肪精准定量,其推导的脂肪分数(CTFF)与MRI-PDFF高度一致,且不受扫描参数或患者体型影响。通用转换公式(MRI PDFF = −0.58 × CT值 + 43.1)为临床提供了一种稳定、高效的替代方案,尤其适用于机会性筛查和运动耐受差的患者。其得到的标准化数据可训练泛化性更强的AI模型,消除机构间设备差异对模型性能的影响。为未来开发跨中心、跨协议的通用脂肪肝定量AI工具提供高质量输入数据。AI在CT图像上定量诊断FLD具有较高的优势,未来将会对FLD患者的治疗提供指导性建议。
3.3. MRI图像
MRI检查具有无电离辐射,多参数、多序列、多方位成像的优势,并且能够全面提供形态学特征。利用AI与MRI相结合,可以辅助医生提高病灶的检出率并快速高效地进行疾病诊断[13]。同时,能够有效预测患者的治疗效果,有助于精准化医疗的开展。MRI-PDFF (磁共振质子密度脂肪分数)是一种精确、精密、可重复和可量化的生物标志物,可用于肝脂肪变性的无创量化诊断。MRI-PDFF能够准确和精确地定量评估肝脏脂肪,具有较高的观察者内和观察者间重现性[14]。在一项纳入1100例慢性肝病患者的荟萃分析中,该研究以组织学作为参考标准来评价MRI-PDFF评估肝脂肪变性的准确性。MRI-PDFF用于分类组织学脂肪变性1级、2级和3级的AUROC值分别为0.98、0.91、0.92 [15]。通过MRI图像定量肝脏脂肪具有较高的准确性。借助AI对肝脏MRI图像进行脂肪变性区域的自动识别并定量诊断,为患者后续的治疗提供更加精准的个体化治疗方案。
3.4. 病理图像
病理检查仍是诊断FLD的金标准。然而其存在有创性、不可避免的取样误差和观察者间的再现性问题[16]。因此,利用AI软件来对采集到的病理图像进行一个系统化的分析,将大大提高病理检查的准确性。目前,AI与数字病理学(Digital Pathology, DP)相结合是一个新兴的研究领域,有可能彻底改变临床实践和治疗试验的肝活检组织学分析[17]。AI与DP的结合可以自动检测、定位、量化和评分组织学参数,并有可能减少脂肪性肝炎在临床试验中评分变异性的影响[17]。针对非酒精性脂肪性肝炎(NASH)所开发的几款DP/AI工具可以定量分析NASH的关键组织学特征,并且能够以准确、可重复的方式对肝活检进行分级和分期,同时还能提供治疗引起的变化的连续指标[18]。Munsterman等[19]开发了一种自动化数字系统来量化全量影像(Whole Slide Imaging, WSI)中的肝脂肪变性。对HE染色的肝组织切片进行数字化扫描,并人工标注脂肪变性区域。该算法可生成脂肪变性比例面积,其正确分类脂肪变性的AUC高达0.970。肝组织WSI上脂肪变性的准确量化,有利于后期在FLD的治疗疗效临床试验中充分发挥作用。
4. 面临的挑战
人工智能在FLD图像诊断中面临多重挑战:第一,算法可解释性不足。当前AI算法普遍存在可解释性瓶颈,难以清晰阐明数据特征与最终诊断结论之间的因果关联。第二,图像采集缺乏标准化。肝脏图像的获取过程存在显著的标准化问题。不同层级医院使用的成像设备型号、参数设置各异,导致图像质量存在差异,直接影响后续分析的可靠性与一致性。第三,对高质量大数据的依赖。无论采用何种AI图像分析技术,构建真正强大的诊断系统都高度依赖海量的高质量标注数据作为训练和验证的基础。第四,模型泛化性与鲁棒性验证需求。AI模型在投入临床应用前,必须在涵盖不同人群特征、多种设备类型以及大规模真实世界数据的环境中,进行严格的泛化性和鲁棒性评估。综上所述,在FLD领域构建一款具有广泛适用性的标准化图像诊断AI模型,仍然面临许多挑战。
5. 未来研究方向
尽管AI在FLD图像诊断中展现出巨大潜力,但其临床转化仍面临诸多挑战。针对这些挑战,未来研究应重点关注以下四个方向:第一,构建标准化多中心共享数据库,克服图像采集标准化不足和数据孤岛问题的根本途径在于建立大规模、高质量、多中心的FLD影像与病理图像数据库。这将需要制定统一的图像采集协议和质量控制标准;建立跨机构的数据共享机制与伦理框架;对数据进行专业、一致的标注(如基于标准化的脂肪变性、炎症活动度、纤维化评分系统)。此类数据库是训练和验证具有强泛化能力AI模型的基础。第二,应用联邦学习技术:在保护数据隐私和满足法规要求的前提下,联邦学习是实现多中心数据协作的关键技术路径。其允许模型在各参与机构本地数据上训练,仅交换模型参数而非原始数据。未来研究需探索适用于不同影像模态的联邦学习框架在FLD诊断和量化任务中的有效性、效率及安全性,以解决对高质量大数据依赖与数据隐私之间的矛盾。第三,发展可解释人工智能模型,提升AI模型的可解释性和透明度是获得临床信任的关键。未来研究应致力于:开发和集成可解释技术,使模型能够直观展示其作出诊断(如脂肪变性分级、NASH识别)或量化结果的图像区域依据;设计本身具有可解释性的模型架构;验证AI结果与临床医生认知或已知病理特征的相关性。这将有助于理解模型决策逻辑,发现潜在偏差,并辅助医生进行决策。第四,探索AI驱动的个性化风险预测与疗效评估:超越单一的诊断和量化,未来研究应深入探索AI如何整合多模态影像数据、临床信息和组学数据,构建更精准的个体化FLD进展风险预测模型(如向NASH、纤维化、肝硬化进展的风险)以及对治疗(生活方式干预、药物)反应的早期评估模型,为精准预防和治疗策略提供支持。
6. 总结与展望
随着人们生活水平的提高,肥胖症和酗酒人数的增多以及慢性病毒性肝炎得到了较好的控制,FLD逐步代替病毒性肝炎成为目前全世界范围内最常见的肝脏疾病。虽然早期的脂肪肝存在一定的自限性,然而由于脂肪肝发病缺少临床症状,公众对其缺乏认知,其所带来的危害往往较为隐匿。
人工智能在FLD图像诊断中的应用研究日趋增多,特别是其在超声、CT、MRI图像方面将对FLD筛查、诊断工作起到重要作用。而AI辅助能够在FLD的组织病理学诊断中更快、更精准。FLD根据多种图像信息的AI整合分析,必将得出更深层次的精准诊断,有利于FLD的风险分层及治疗反应的监测。
基金项目
绍兴市人民医院、绍兴市肿瘤功能分子成像与介入诊疗重点实验室,编号:2020ZDSYS01。
NOTES
*通讯作者。