基于脑结构特征和认知行为特征的阿尔茨海默症分类诊断
Classification Diagnosis of Alzheimer’s Disease Based on Brain Structural Characteristics and Cognitive Behavioral Characteristics
DOI: 10.12677/aam.2024.137290, PDF, HTML, XML,    科研立项经费支持
作者: 温森森, 陈玉龙, 王 瑜, 霍京京*:河北工程大学数理科学与工程学院,河北 邯郸
关键词: 阿尔茨海默症特征选择机器学习分类诊断Alzheimer’s Disease Feature Selection Machine Learning Classification Diagnosis
摘要: 阿尔茨海默症是一种多发于老年人的神经退行性疾病,由于病程不可逆且无法治愈,因而及时发现该病早期阶段并采取针对性的治疗措施具有重要意义。本文基于脑结构特征和认知行为特征,辅以人口统计学特征和生物标志物,对阿尔茨海默症进行三分类和五分类诊断。将数据进行预处理后,采用随机森林对特征重要性进行排序,依据排序结果和各特征组合在机器学习模型中的表现,分别选取出15个、21个特征,用于训练随机森林、梯度提升树、CatBoost、LightGBM、XGBoost等机器学习模型。结果显示,LightGBM和XGBoost分别在阿尔茨海默症的三分类和五分类诊断中表现出优异性能,分类准确率分别为99.25%和95.94%,F1-分数分别为99.25%和95.92%。经过五折交叉验证可知,上述模型的性能和稳定性都比较出色。最后,对比两次诊断选取出的特征,为今后阿尔茨海默症的诊断提出部分建议。
Abstract: Alzheimer’s disease is a kind of neurodegenerative disease which mainly occurs in the elderly. Because the course of the disease is irreversible and incurable, it is of great significance to find the early stage of the disease and take targeted treatment measures. In this paper, the three-classifi- cation and five-classification diagnosis of Alzheimer’s disease are performed based on brain structural characteristics and cognitive behavioral characteristics, supplemented by demographic characteristics and biomarkers. After the data is pre-processed, Random Forest is used to sort the importance of features. According to the sorting results and the performance of each feature combination in the machine learning models, 15 and 21 features are selected respectively for training machine learning models such as Random Forest, GBDT, CatBoost, LightGBM and XGBoost. The results show that LightGBM and XGBoost have excellent performance in the three-classification and five-classification diagnosis of Alzheimer's disease, with classification accuracy of 99.25% and 95.94%, and F1-score of 99.25% and 95.92%, respectively. After the five-fold cross validation, the performance and stability of the above models are excellent. Finally, the characteristics selected from the two diagnoses are compared, and some suggestions are put forward for the future diagnosis of Alzheimer’s disease.
文章引用:温森森, 陈玉龙, 王瑜, 霍京京. 基于脑结构特征和认知行为特征的阿尔茨海默症分类诊断[J]. 应用数学进展, 2024, 13(7): 3052-3064. https://doi.org/10.12677/aam.2024.137290

1. 引言

阿尔茨海默症(Alzheimer’s disease, AD)是一种起病隐匿且进展缓慢的神经退行性疾病[1]。这种疾病多发于65岁以上的老年人,主要表现为记忆和语言障碍、视觉听觉受损、认知功能下降和性格发生变化等。目前全球有超过5500万人患有AD,因其死亡人数也在逐年增加[2]。该病的发展阶段依次如下:认知正常(Cognitively normal, CN)、主观记忆抱怨(Subjective memory complaint, SMC)、早期轻度认知障碍(Early mild cognitive impairment, EMCI)、晚期轻度认知障碍(Late mild cognitive impairment, LMCI)和AD。轻度认知障碍(Mild cognitive impairment, MCI)是指上述EMCI和LMCI两个阶段,被认为是AD重要的过渡阶段,每年大约有10%至15%的MCI病人转换为AD [3]。迄今为止,还没有药物能有效治愈AD,因此,及时发现AD早期阶段并采取针对性的干预和治疗措施,有助于减缓疾病进程,降低AD的致死率。近年来,对于AD的诊断主要依靠神经心理学测验、神经影像学检查、生物标志物检测和基因检测等。综合分析以上结果需要医生具备一定的专业素养,并且耗时耗力。

随着人工智能的不断发展,计算机辅助AD的早期诊断技术开始兴起。机器学习因其可以从大量的医疗数据中学习特征和标签之间的复杂关系而被广泛运用到AD的分类中,研究人员通常使用手工方法提取特征,再采用机器学习中的各种算法进行分类。Klöppel等人[4]将大脑的灰质密度投射到高维空间中以实现体素级别的特征提取,采用支持向量机对CN和AD患者进行分类,其诊断准确率为89%。Li等人[5]选取大脑皮层顶点体积和与之相关的形态学信息作为特征,采用线性支持向量机对两组数据的CN和MCI进行区分,其准确率分别为76%和80%。Silveira等人[6]使用PET图像将大脑划分为116个感兴趣区域(Regions of interest, ROI),从中提取特征,采用提升法组合多个分类器,在AD和MCI的检测中得到的准确率分别为90.97%和79.63%。Wang等人[7]首先计算ROI之间的相关系数,然后采用正则化的线性判别分析对数据进行降维,最后构建AdaBoost模型实现AD和MCI诊断。刘茜等人[8]运用支持向量机递归特征消除和线性判别分析相结合的方式提取90个脑区的灰质体积作为特征,并利用支持向量机进行AD分类诊断,在CN和AD、AD和SMC、CN和SMC三种情况下的平均准确率分别为94%、100%和93.6%。杨邦坤等[9]使用内核局部Fisher判别分析算法对sMRI图像中部分与大脑有关数据进行特征提取,并利用基于核支持向量机算法进行分类,该方法对CN和AD、CN和MCI两种情况的判别准确率均达到95%以上。李彩和范炤[10]将L1正则化逻辑回归方法与人口统计学特征、简易智力状态检查量表相结合分析sMRI图像,提取面积和体积等形态学指标作为特征,并运用支持向量机进行分类,该方法对CN和AD的分类准确率为97.66%。刘德华等人[11]选用阿尔茨海默病影像学倡议数据库中CN、EMCI、LMCI和AD的数据,结合随机森林的特征重要性排序和基于分类精度的序列前向选择方法,进行特征选择,将选出的特征代入L1正则化逻辑回归、支持向量机、BP神经网络、随机森林中自动化识别出最优分类模型,给出其对AD病程进行两两分类的效果。

综上所述,对于运用机器学习实现AD分类诊断,研究人员提取的特征大多为脑结构特征,进行的诊断方向也基本为二分类诊断,但这种情况所提取的特征较为单一,忽略了患者其他诊断信息;且对AD的分类诊断不够细致,不利于临床精准用药治疗。本文将基于脑结构特征和认知行为特征,辅以人口统计学信息及生物标志物等特征构建AD的分类诊断模型,实现AD的三分类诊断和五分类诊断。

2. 实验数据

2.1. 数据来源与分析

本文所使用的数据来自2022年数维杯国际赛C题。该数据集包含2425例受检者,其中男性有1155例,女性有1270例,年龄在50至92岁之间。超九成的受检者并非西班牙裔或拉丁裔,并且绝大多数受检者为白人。该数据集主要包括51个特征以及两种诊断结果,将这些特征进行分类,主要分为脑结构特征、认知行为特征、人口统计学特征和生物标志物四类,结果如表1所示。

Table 1. Feature classification result

1. 特征分类结果


脑结构特征

认知行为特征

人口统计学特征

生物标志物

数目

7

30

6

8

来源

MRI图像

量表测试

问询或填表

基因诊断、PET图像、脑脊液检查

其中,脑结构特征主要包括颅内容积(ICV)、脑室(Ventricles)、内嗅皮层(Entorhinal)等7个区域结构的量化值;认知行为特征主要包括临床痴呆评分总和(CDRSB)、阿尔茨海默症认知功能评价量表(ADAS-cog)得分、简易智力状态检查量表(MMSE)得分等30个量表得分;人口统计学特征包括年龄(AGE)、种族(PTETHCAT)、血统(PTRACCAT)等6个基本信息;生物标志物主要包括载脂蛋白Eε4等位基因数目(APOE4)以及β-淀粉样蛋白(ABETA)、氟代脱氧葡萄糖(FDG)等7种检测物含量。

数据集中两种诊断结果是指基线诊断结果(DX-bl)和随访诊断结果(DX)。基线诊断结果是患者首次来访进行诊断的结果,包括CN、SMC、EMCI、LMCI和AD五种类型,共计2425条数据;随访诊断结果是距离患者首次或上一次来访至少六个月后的诊断结果,包括CN、MCI和AD三种类型,共计16,222条数据。本文将基于以上两种诊断结果的诊断记录进行AD的三分类和五分类诊断。

2.2. 数据预处理

在进行分类诊断之前,需要对数据进行预处理,具体过程如图1所示。

Figure 1. Data preprocessing procedure

1. 数据预处理过程

首先,对列进行处理,删除缺失值大于50%特征和不重要的特征(如患者编号、数据收集研究协议等)。其次,对行进行处理,删除没有诊断结果的诊断记录。再次,对具有少量缺失值的数据按其诊断结果所在类别进行填充,对于数值型数据使用其所在类别的均值进行填充,对于分类数据使用其所在类别的众数进行填充。最后,将数据集中的分类数据转化为数值型数据,以便于后续的特征选择。经过数据预处理后的各类特征情况如表2所示。

Table 2. Characteristics before and after preprocessing

2. 预处理前后特征情况


三分类

五分类

原始数据

脑结构特征

7

7

7

认知行为特征

14

29

30

人口统计学特征

6

6

6

生物标志物

1

5

8

总数

28

47

51

原始数据集主要包含51个特征,在经过数据预处理后,用于三分类的随访诊断记录保留了28个特征,而用于五分类的基线诊断记录保留了47个特征,特征个数的差异主要体现在认知行为特征和生物标志物这两类特征。

3. 实验方法

3.1. 特征选择

特征选择作为机器学习中的关键环节,旨在通过剔除与学习任务不相关或冗余的特征,从原始数据集中选择出最具代表性和预测能力的特征,以降低模型的复杂性,提高模型的性能和可解释性。本文使用随机森林算法,分别对预处理后基线诊断记录和随访诊断记录中的特征进行重要性排序,结合特征类别和相关医学知识找到最适合进行AD三分类和五分类诊断的特征。

3.2. 分类模型

3.2.1. 随机森林

随机森林(Random forest, RF)是2001年Leo Breiman和Adele Cutler提出的一种基于决策树的集成学习方法,它通过组合多个决策树来进行分类和预测,每个决策树之间没有关联。在分类问题中,随机森林以决策树作为基学习器,并通过投票的方式选取最终的分类结果[12],即所有决策树预测最多的分类结果作为随机森林的最终结果。随机森林的构建过程如下:

1) 从训练集中有放回地随机抽取样本,构建每个决策树的训练集。

2) 对于每个决策树的每个节点,在一个随机的特征子集中选择最优的特征来进行节点划分。

3) 根据选择的特征,递归地构建决策树,直到满足停止的条件。

4) 重复以上步骤,创建多个决策树。

5) 根据这些决策树的预测结果进行投票,得到最终分类结果。

3.2.2. 梯度提升树

梯度提升树(Gradient boosting decision tree, GBDT)是1999年Friedman提出的一种迭代的决策树集成算法,它由多个决策树组成,是被公认的泛化能力较强的算法。它对每棵决策树分配不同的权重以训练模型,并在每一步迭代中,通过计算上一次模型的负梯度来改进模型,然后在残差减少的梯度方向上建立新的决策树[13]。GBDT的迭代思路是通过计算残差的梯度来弥补模型的不足。GBDT的核心在于累加所有决策树的结果作为最终结果,所以GBDT中的决策树都是回归树,而不是分类树。回归树在分枝时会穷举每个特征的每个阈值来找到最好的分割点,以最小化均方误差作为衡量标准。

3.2.3. XGBoost

XGBoost (Extreme gradient boosting)是2014年华盛顿大学的博士生陈天奇提出的一种基于GBDT的集成学习算法,该算法不仅学习效果优良,而且训练速度高效,广泛应用于多个领域且具有显著效果。XGBoost是大规模并行的开源提升树工具包,比常见的工具包快10倍以上。与GBDT最大的不同,XGBoost的目标函数由损失函数和正则化项两部分构成。在训练过程中,XGBoost采用二阶泰勒展开式近似损失函数,并通过最小化损失函数来求解最优的树结构和叶子节点的值,引入正则化项控制模型的复杂度,有效防止模型过拟合[14]。在寻找最佳分割节点时,XGBoost采用完全搜索式的精确贪心算法,选择增益最大的特征来分裂,开启多线程进行,大大提高了运行速度。XGBoost的并行,不是每棵树可以并行训练,而是特征维度的并行。

3.2.4. LightGBM

LightGBM (Light gradient boosting machine)是2017年微软亚洲研究院(MSRA)提出的一种基于GBDT的高效、可扩展的集成学习算法,主要用于解决GBDT算法在处理海量数据时计算效率低下的问题[15]。与XGBoost相比,LightGBM的优势在于训练速度更快、内存消耗更低、准确率更好以及分布式支持。LightGBM主要有以下4个方面的改进:

1) 基于梯度的单边采样算法:仅保留梯度大的样本,并且对梯度小的样本进行随机抽样,在计算增益时给梯度小的样本引入常数进行平衡,减少复杂度。

2) 互斥特征捆绑算法:将互斥特征进行融合绑定,在尽可能小的特征损失下降低特征数量。

3) 直方图算法:将连续的特征离散化,构造直方图统计信息,以有限的遍历次数找到最佳分裂点。

4) 基于最大深度的Leaf-wise的垂直生长算法:设置最大分裂深度,只对增益最大的叶子节点进行分裂以减少同层叶子一起分裂的误差。

3.2.5. CatBoost

CatBoost (Categorical Boosting)是2017年俄罗斯的搜索巨头Yandex开发的一种基于GBDT的自适应增强学习算法,能够高效合理地处理类别型特征,通过其独特的策略和优化技术,提高算法的准确性和泛化能力[16]。该算法对数据集进行随机排列,计算相同类别值的样本的平均标签值时,将这个样本之前的样本的标签值纳入计算,既降低过拟合又保证全部数据集都可用于学习。该算法包含了对类别型特征的空值处理、ordered TS编码、特征组合处理方式,避免了传统方法中需要进行大量的数据预处理和特征工程的问题。此外,在CatBoost算法中,梯度的计算是基于整个训练数据集的,而不是基于单个样本的,有助于减少梯度估计的偏差和解决预测偏移的问题。

3.3. 模型评估

K折交叉验证是一种常用的评估机器学习模型性能和泛化能力的方法。在K折交叉验证中,原始数据集随机地被平分成K个不重叠子集,然后轮流使用其中的K − 1个子集作为训练集用以训练模型,剩余的一个子集作为测试集用于评估上述模型性能。迭代结束后,计算所有测试集评估指标的平均值作为该模型性能的最终估计[17]。K折交叉验证的优势在于充分利用数据集中的所有样本,提高了模型稳定性和可靠性,通过多次迭代可以减少单次划分数据集所带来的随机误差。在实际应用中,五折交叉验证和十折交叉验证较为常见。本文采用五折交叉验证,通过计算平均准确率和方差来评估模型性能。

混淆矩阵是机器学习中用于总结分类模型预测结果的表格,它可以提供模型在各个类别上的性能概览。混淆矩阵中的元素可以用于计算评估指标,如准确率、精确率、召回率、F1-分数等,这些指标可以进一步了解模型在各个类别上的性能表现,并且根据评估结果可以对模型进行改进和优化。

4. 实验结果

4.1. 特征选择结果

4.1.1. 三分类诊断的特征选择结果

随访诊断结果包括CN、MCI和AD三种类型,其诊断记录用于AD的三分类诊断任务中。在对随访诊断记录进行数据预处理后,利用随机森林算法将剩余28个特征进行重要性排序,结果如图2所示。

Figure 2. Three-classification feature importance ranking

2. 三分类特征重要性排序

在AD的三分类诊断中,种族(PTETHCAT)在28个特征中重要性得分最高,达到了0.6989。与种族密切相关的特征——血统(PTRACCAT),其重要性排序位次也比较高,居于第七位。脑结构特征在AD三分类特征重要性排序中位次普遍较高,与智力和记忆等认知能力相关的颅内容积(ICV)位于第3位,能够反映大脑老化过程的脑室(Ventricles)位于第5位,负责短时记忆的海马体(Hippocampus)位于第6位,命名性语言中枢的颞中回(MidTemp)位于第8位,全脑(WholeBrain)位于第9位,与面孔等识别有关的梭状回(Fusiform)位于第10位,作为刺激记忆开关的内嗅皮层(Entorhinal)位于第13位。此外,认知行为特征的重要性得分有高有低,重要性较高的是临床痴呆评分总和(CDRSB)和逻辑记忆延迟回忆(LDELTOTAL)测试得分,分别排在第2位和第4位。

年龄与AD的发病密切相关,有研究表明,随着年龄的不断增长,患者得AD风险会逐年上升[18]。鉴于此,将年龄(AGE)所在位次设定为起始特征个数,并在此基础上依次增加其他特征。通过不断训练机器学习模型,观察各模型在测试集上的准确率和F1-分数以比较模型性能。表3展示了以8:2划分训练集和测试集最优模型情况(部分)。

Table 3. Three-classification optimal model (part)

3. 三分类最优模型(部分)

特征数

最优机器学习模型

准确率

F1-分数

12

LightGBM

0.9912

0.9912

13

CatBoost

0.9912

0.9912

15

XGBoost

0.9912

0.9912

在特征数为12、13和15时,LightGBM、CatBoost和XGBoost模型分别表现出了较为优异的性能,它们的准确率和F1-分数都可以达到99.12%。但观察特征重要性排序(图2),以上数目的特征仅包含脑结构特征、认知行为特征和人口统计学特征,缺乏生物标志物。为平衡特征类别,将预处理后用于三分类的随访诊断记录中唯一的生物标志物——APOE4加入,以8:2划分训练集和测试集,重新逐次训练机器学习模型,通过准确率和F1-分数比较模型性能,部分结果见表4

Table 4. Adding APOE4 three-classification optimal model (part)

4. 加入APOE4三分类最优模型(部分)

特征数

最优机器学习模型

准确率

F1-分数

11 + 1

XGBoost

0.9916

0.9916

12 + 1

LightGBM

0.9916

0.9916

13 + 1

LightGBM

0.9921

0.9921

14 + 1

LightGBM

0.9925

0.9925

15 + 1

XGBoost

0.9912

0.9912

加入APOE4这一特征后,不仅弥补了生物标志物的缺失,并且最优机器学习模型对AD三分类诊断的准确率和F1-分数都有一定的提升。其中,特征重要性得分排在前14位的特征,在添加APOE4后,其最优机器学习模型LightGBM的准确率达到99.25%,F1-分数也达到99.25%。较未添加APOE4,特征数目为12、13和15所训练出的最优机器学习模型,分类准确率和F1-分数提高了0.13%。综上所述,选取特征重要性排序前14位的特征和APOE4进行进一步的分析,相关特征类别情况见表5

Table 5. Three-classification features category situation

5. 三分类特征类别情况


原始数据

预处理后

特征选择

脑结构特征

7

7

7

认知行为特征

30

14

4

人口统计学特征

6

6

3

生物标志物

8

1

1

总数

51

28

15

4.1.2. 五分类诊断的特征选择结果

基线诊断结果包括CN、SMC、EMCI、LMCI和AD五种类型,其诊断记录用于AD的五分类诊断任务中。在对基线诊断记录进行数据预处理后,利用随机森林算法将剩余47个特征进行重要性排序,结果如图3所示。

Figure 3. Five-classification features importance ranking

3. 五分类特征重要性排序

在AD的五分类诊断中,种族(PTETHCAT)在47个特征中重要性得分最高,达到了0.4894,说明它的重要程度较高,这与AD三分类诊断的特征重要性排序显现出的结果一致。血统(PTRACCAT)在重要性排序中的位次下降至14位,但其重要性得分与三分类相差不大。脑结构特征的重要性得分有所下降,位次也有所降低。内嗅皮层(Entorhinal)位次最高,居于第18位,颞中回(MidTemp)位次最低,居于第30位。认知行为特征在AD五分类诊断中的重要性有所提高,特征重要性排序前10位中有7位是认知行为特征。此外,由于基线诊断记录的缺失值较少,生物标志物在AD分类诊断中的重要性开始显现。在AD五分类特征重要性排序中,β-淀粉样蛋白(ABETA)、氟代脱氧葡萄糖(FDG)、tau蛋白(TAU)及高度磷酸化的tau蛋白(PTAU)这些生物标志物的位次较高,分别位于第3、9、12和13位。

以年龄所在位次作为起始特征数量,逐步增加一个特征,按照8:2划分训练集和测试集,不断训练机器学习模型,通过比较各模型在测试集上的准确率和F1-分数来选定最优分类模型。表6展示了五分类最优模型情况(部分)。

Table 6. Five-classification optimal model (part)

6. 五分类最优模型(部分)

特征数

最优机器学习模型

准确率

F1-分数

19

XGBoost

0.9549

0.9548

20

XGBoost

0.9571

0.957

21

XGBoost

0.9594

0.9592

22

XGBoost

0.9594

0.9592

23

XGBoost

0.9571

0.957

当特征数为21和22时,XGBoost模型在AD五分类诊断中表现出优异的性能,其分类准确率达到了95.94%,F1-分数达到了95.92%。通过查阅在五分类特征重要性排序中位于第22位的EcogSPVisspat问卷,能够发现该问卷内容与位于第10位、第11位和第19位的EcogSPMem、EcogSPTotal和EcogSPOrgan等问卷内容具有重合的情况。因此,最终选定位于特征重要性排序前21位的特征进行下一步的分析,相关特征类别情况见表7

Table 7. Five-classification features category situation

7. 五分类特征类别情况


原始数据

预处理后

特征选择

脑结构特征

7

7

3

认知行为特征

30

29

11

人口统计学特征

6

6

3

生物标志物

8

5

4

总数

51

47

21

4.2. 不同机器学习算法分类结果

4.2.1. 三分类模型诊断结果

随访诊断记录进行特征选择后,保留了15个特征,将这15个特征和随访诊断结果组成新的数据集,按照8:2划分训练集和测试集,选用随机森林、梯度提升树、CatBoost、LightGBM、XGBoost等机器学习算法进行CN、MCI和AD之间的三分类诊断,结果如表8所示。

Table 8. Three-classification model diagnosis results

8. 三分类模型诊断结果


准确率

召回率

精确率

F1-分数

交叉验证的平均准确率

交叉验证的方差

随机森林

0.9894

0.9894

0.9895

0.9894

0.9794

0.009

梯度提升树

0.9833

0.9833

0.9833

0.9833

0.9776

0.009

CatBoost

0.9912

0.9912

0.9912

0.9912

0.9776

0.0101

LightGBM

0.9925

0.9925

0.9925

0.9925

0.9789

0.0092

XGBoost

0.9908

0.9908

0.9908

0.9908

0.978

0.0099

观察各模型的评价指标,可以发现上述模型的准确率、召回率、精确率和F1-分数均在98%以上,说明基于随机森林重要性排序并结合特征类型所选取的15个特征在AD三分类诊断中的效果较好。对比以上模型,不难看出LightGBM的分类效果最好,其准确率、召回率、精确率和F1-分数均达到99.25%,进一步采用五折交叉验证评估模型性能,发现各模型交叉验证的平均准确率都在97%以上,方差在0.01左右,说明各模型性能较好且比较稳定。

Figure 4. LightGBM confusion matrix

4. LightGBM混淆矩阵

选取最优的AD三分类诊断模型LightGBM,绘制混淆矩阵(见图4)。通过计算,可以得到该模型对各类别诊断的精确率分别是:AD的诊断精确率为99.37%;CN的诊断精确率为99.49%;MCI的诊断精确率为99.02%。也就是说,该模型能够通过选取的15个特征,实现较为精确的AD的三分类诊断。

4.2.2. 五分类模型诊断结果

基线诊断记录经过特征选择后,保留了21个特征,将其与基线诊断结果组成新的数据集,以8:2划分训练集和测试集,选用随机森林、梯度提升树、CatBoost、LightGBM、XGBoost等机器学习算法进行CN、SMC、EMCI、LMCI和AD之间的五分类诊断,结果如表9所示。

Table 9. Five-classification model diagnosis results

9. 五分类模型诊断结果


准确率

召回率

精确率

F1-分数

交叉验证的准确率

交叉验证的方差

随机森林

0.9549

0.9549

0.9558

0.9547

0.9295

0.0342

梯度提升树

0.9458

0.9458

0.9477

0.9458

0.9363

0.0314

CatBoost

0.9526

0.9526

0.9543

0.9525

0.9345

0.0392

LightGBM

0.9503

0.9503

0.9511

0.9501

0.9386

0.0287

XGBoost

0.9594

0.9594

0.9604

0.9592

0.9363

0.0305

表9可知,上述模型的准确率、召回率、精确率和F1-分数均在94%以上。对于AD五分类诊断而言,XGBoost的分类效果最好,其准确率、召回率、精确率和F1-分数都是最高的,分别为95.94%、95.94%、96.04%和95.92%。进一步采用五折交叉验证评估模型性能,发现各模型交叉验证的平均准确率都在93%左右,方差在0.03左右,可以看出模型的性能和稳定性具有一定保证。与AD三分类诊断相比,各模型评估指标略有下降,推断是诊断类别增多导致的。

Figure 5. XGBoost confusion matrix

5. XGBoost混淆矩阵

选取最优的AD五分类诊断模型XGBoost,绘制混淆矩阵(见图5)。通过计算,可以得出该模型对各类别诊断的精确率分别是:AD的诊断精确率为98.70%;CN的诊断精确率为95.56%;EMCI的诊断精确率为91.03%;LMCI的诊断精确率为97.64%;SMC的诊断精确率为95.77%。说明基于随机森林特征重要性排序并结合医学知识选取的21个特征,对于症状相对明显的LMCI和AD阶段诊断较为精确;对于症状较轻的CN和SMC阶段诊断精确率可以达到平均水平;而对于EMCI阶段,会常将其误诊成SMC、AD和CN,导致诊断精确率的降低,这与EMCI阶段发病症状的不确定性有关。

5. 结论与建议

以往AD分类诊断大多集中于二分类研究,并且侧重于脑结构特征。本研究主要基于脑结构特征和认知行为特征,辅以人口统计学特征和生物标志物实现对AD的三分类和五分类诊断。采用随机森林算法对特征重要性进行评估,根据评估结果和各特征组合在机器学习模型中表现性能,结合医学知识及特征类型,分别筛选出15个和21个特征进行AD的三分类和五分类诊断,分类准确率分别最高可达99.25%、95.94%,F1-分数可以达到99.25%、95.92%。在AD三分类诊断中,所选取的特征主要集中在脑结构特征,约占所选取特征总数的46.7%,认知行为特征约占选取特征的26.7%。但在五分类中,认知行为特征更为重要,约占选取特征的52.4%,脑结构特征所占比例下降至19.0%。这说明当对AD进行简单分类诊断时,可以主要以MRI图像所显示的结果(指文中所提到的七个区域的量化值)为主要诊断依据,对于认知行为方面的问卷评估应尽量精简,以临床痴呆评分总和(CDRSB)和逻辑记忆延迟回忆(LDELTOTAL)测试为主。如果进一步对AD进行更为细化的诊断时,则需要增加对认知行为方面的评估,主要包括日常认知功能问卷(Ecog)、蒙特利尔认知评估量表(MOCA)、社会功能活动问卷(FAQ)等。不容忽视的是,人口统计学特征中的种族、血统和年龄在两次分类诊断中都起到了不小的作用。此外,生物标志物的存在有助于提高AD诊断的准确率,并且随着分类的细化,β-淀粉样蛋白、氟代脱氧葡萄糖、tau蛋白及高度磷酸化的tau蛋白等生物标志物在AD的分类诊断中更为重要。

基于上述研究可以发现,随着AD分类诊断的细化,需要通过更多的问卷对认知行为进行评估。但由于目前现有各类问卷的制定机构、考量方式、量化准则等不同,不同问卷中的个别问题难免存在着相似或重复的现象,这将大大延长患者的就诊时间。此外,在实际诊疗中医生核对多份问卷工作量相对较大,难免发生疏漏。如果能够根据以上特征选择结果,将多份问卷内容整合成一份,分别设计适用于考量三分类和五分类认知行为的问卷,这将大大减少患者就诊时间,减轻医生工作量,并且对AD的分类诊断具有一定的现实意义。

基金项目

河北省自然科学基金面上项目(A2020402006)。

NOTES

*通讯作者。

参考文献

[1] Hahn, K., Myers, N., Prigarin, S., Rodenacker, K., Kurz, A., Förstl, H., et al. (2013) Selectively and Progressively Disrupted Structural Connectivity of Functional Brain Networks in Alzheimer’s Disease—Revealed by a Novel Framework to Analyze Edge Distributions of Networks Detecting Disruptions with Strong Statistical Evidence. NeuroImage, 81, 96-109.
https://doi.org/10.1016/j.neuroimage.2013.05.011
[2] Thies, W. and Bleiler, L. (2012) 2012 Alzheimer’s Disease Facts and Figures Alzheimer’s Association. Alzheimers & Dementia, 8, 131-168.
https://doi.org/10.1016/j.jalz.2012.02.001
[3] Mitchell, A.J. and Shiri‐Feshki, M. (2009) Rate of Progression of Mild Cognitive Impairment to Dementia—Meta‐ analysis of 41 Robust Inception Cohort Studies. Acta Psychiatrica Scandinavica, 119, 252-265.
https://doi.org/10.1111/j.1600-0447.2008.01326.x
[4] Kloppel, S., Stonnington, C.M., Chu, C., Draganski, B., Scahill, R.I., Rohrer, J.D., et al. (2008) Automatic Classification of MR Scans in Alzheimer’s Disease. Brain, 131, 681-689.
https://doi.org/10.1093/brain/awm319
[5] Li, S., Yuan, X., Pu, F., Li, D., Fan, Y., Wu, L., et al. (2014) Abnormal Changes of Multidimensional Surface Features Using Multivariate Pattern Classification in Amnestic Mild Cognitive Impairment Patients. Journal of Neuroscience, 34, 10541-10553.
https://doi.org/10.1523/jneurosci.4356-13.2014
[6] Silveira, M. and Marques, J. (2010) Boosting Alzheimer Disease Diagnosis Using PET Images. 2010 20th International Conference on Pattern Recognition, Istanbul, 23-26 August 2010, 2556-2559.
https://doi.org/10.1109/icpr.2010.626
[7] Wang, Z., Zheng, Y., Zhu, D.C., Bozoki, A.C. and Li, T. (2018) Classification of Alzheimer’s Disease, Mild Cognitive Impairment and Normal Control Subjects Using Resting-State Fmri Based Network Connectivity Analysis. IEEE Journal of Translational Engineering in Health and Medicine, 6, 1-9.
https://doi.org/10.1109/jtehm.2018.2874887
[8] 刘茜, 王瑜, 付常洋, 等. 基于特征选择的阿尔茨海默症辅助诊断[J]. 中国医学物理学杂志, 2020, 37(5): 656-660.
[9] 杨邦坤, 汪乐生, 聂颖, 等. 基于机器学习的阿尔兹海默症初期行为辨识方法[J]. 生物医学工程研究, 2021, 40(2): 121-125.
[10] 李彩, 范炤. 基于机器学习的阿尔兹海默症分类预测[J]. 中国医学物理学杂志, 2020, 37(3): 379-384.
[11] 刘德华, 殷国盛, 范炤. 基于特征选择下机器学习对阿尔茨海默病的分类[J]. 中国医学影像学杂志, 2023, 31(2): 167-174.
[12] 方匡南, 吴见彬, 朱建平, 等. 随机森林方法研究综述[J]. 统计与信息论坛, 2011, 26(3): 32-38.
[13] Friedman, J.H. (2001) Greedy Function Approximation: A Gradient Boosting Machine. The Annals of Statistics, 29, 1189-1232.
https://doi.org/10.1214/aos/1013203451
[14] Chen, T. and Guestrin, C. (2016). XGBoost: A Scalable Tree Boosting System. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco, 13-17 August 2016, 785-794.
https://doi.org/10.1145/2939672.2939785
[15] Ke, G., Meng, Q., Finley, T., et al. (2017) LightGBM: A Highly Efficient Gradient Boosting Decision Tree. Proceedings of the 31st International Conference on Neural Information Processing Systems, Long Beach, 4-9 December 2017, 3149-3157.
[16] Prokhorenkova, L., Gusev, G., Vorobev, A., et al. (2018) CatBoost: Unbiased Boosting with Categorical Features. 32nd Conference on Neural Information Processing Systems, Montréal, 3-8 December 2018, 6639-6649.
[17] Rodriguez, J.D., Perez, A. and Lozano, J.A. (2010) Sensitivity Analysis of K-Fold Cross Validation in Prediction Error Estimation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 32, 569-575.
https://doi.org/10.1109/tpami.2009.187
[18] Citron, M. (2002) Alzheimer’s Disease: Treatments in Discovery and Development. Nature Neuroscience, 5, 1055-1057.
https://doi.org/10.1038/nn940