1. 引言
阿尔茨海默症(Alzheimer’s Disease, AD) [1] 是一种常见的神经退行性疾病,目前随着科学技术的快速发展,AD的病理生理学越来越清晰。AD患者的大脑以淀粉样蛋白斑和神经原纤维缠结的形式积聚异常蛋白(Aβ和tau),最终导致神经元丧失 [2]。甚至在记忆力消退症状出现之前,AD会引起脑的某些变化发生 [3],而且这些变化通常发生在包括颞叶和海马的脑区中 [4]。这里所指的变化通常是脑区发生萎缩,这种不可避免的萎缩可以作为神经变性的有价值的标志物 [5]。这种有价值的标志物可以通过先进的科学仪器获取,如磁共振成像(MRI)测量和正电子发射断层扫描(PET) [6] 等,它可以精确测量脑部结构,尤其是在海马和其他AD相关区域,通过扫描痴呆患者的大脑,能够分辨出大脑中有没有患痴呆、心血管或者脑肿瘤等疾病,并且在PET扫描中,可以反映大脑葡萄糖代谢的变化 [7],除成像数据外,遗传变异也与AD相关 [8],并且已经进行了全基因组关联研究(GWAS),以鉴定单核苷酸多态性(SNP)与成像数据之间的关联 [9],Hao [10] 等人探讨了SNPs与MRI衍生的措施与AD的存在之间的关联,并鉴定了信息丰富的SNPs以指导疾病的解释。
在神经影像方面,基于MRI、PET等神经影像图像数据,通常通过特征提取、特征降维等手段,使用逻辑回归 [11]、随机森林 [12]、支持向量机 [13] 等机器学习方法对提取到的特征进行建模,可以实现MCI转化预测以及AD、MCI、HC间的分类,但是在以往基于机器学习方法的研究中,常常需要先人工勾选出AD患者中变化较明显的大脑区域,然后利用机器学习方法对这些区域的形态学特征进行分析,训练模型获得对病人状态的预测结果,这种方法虽然能取得不错的效果,但仍存在很大的局限性。首先,人工提取ROI是根据已有的临床或实验经验,选取那些在AD被试与正常老化被试中存在较大差异的区域,由于阿尔茨海默症的生物标志物目前尚不明确,人工选取ROI中可能会漏掉一些目前还没发现的有用的区域;其次,人工进行特征提取可能会受到人为因素干扰而产生疏漏,影响AD早期诊断结果;另外,人工划分感兴趣区域需要耗费大量时间成本和人力成本。而现阶段在遗传数据用于AD诊断研究方面,通常基于AD已被证实相关的基因位点数据进行挑选,这种人工挑选方式同样具有局限性,不能有效地将AD相关的全部SNP数据挑选出来,进而影响诊断结果。
近年来的许多研究表明,随着深度学习和机器学习的发展,融合来自多种模态数据的信息将增强AD诊断的性能,但迄今为止,以前的大多数工作都集中在分析成像和遗传数据之间的相关性 [14],而将两者结合用于AD诊断却很少受到关注 [15],基于以上存在的问题,研究通过深度学习方法自动提取MRI图像特征并结合SNP数据提出一种基于概率分类器加权的多模态AD分类模型用于AD的诊断。
2. 相关工作
2.1. 残差网络
研究表明CNN通过加深网络结构可提高网络的特征自动学习和表示能力,使得图像特征信息可以通过多层网络传到末端,从而提高分类效果,但当更深层次的网络能够开始收敛时,一个退化问题已经暴露出来:随着网络深度的增加,精度达到饱和,然后迅速退化,如文献 [16] 中所述,这种退化并不是由过度拟合引起的,向适当深度的模型中添加更多的层会导致更高的训练误差。在医学图像的采集过程中,标注的成本高,无法满足训练深度学习模型所需的大量标注样本数之要求,更深层次的网络也会产生这种退化问题,因此,在监督学习中,构建出基于小样本数据进行分类的网络体系结构仍然非常重要 [17]。而残差网络 [18] 的提出主要用于解决网络退化的问题,本文所使用残差模块结构如图1所示,由2个卷积层(Convolution Layer, Conv),2个归一化层(Batch Normalizatoin, BN),2个非线性函数层(Rectified Linear Unit, Relu)构成。
2.2. 多模态集成学习
多模态融合 [19] 指机器从文本、图像、语音、视频等多个领域获取信息,实现信息转换和融合,从而提升模型性能的技术,是一个典型的多学科交叉领域,已逐步成为研究热点。多模态融合方式常见的有:数据水平融合、中间融合、决策水平融合。数据水平融合是将来自不同模态的数据集合并成一个单一的数据集再输入到模型中;中间融合是将来自不同模态的数据先转化为高维特征表达,再与模型的中间层进行融合;决策水平融合是将不同模态数据分别训练好的分类器输出打分(决策)进行融合;多模态集成学习是在决策水平层面上通过集成学习的方法把MRI分类模型与SNP分类模型进行集成从而获得比单个学习器更好的学习效果。
3. MRI与SNP的多模态集成模型
本文提出一种基于MRI和SNP数据的改进的概率分类器加权集成框架,总体结构如图2所示。首先在数据预处理方面,获得的图像数据集后用SPM12软件进行预处理,接着进行二维上的切片,获得的SNP数据使用PLINK软件进行GWAS分析进行全基因组关联分析得到SNP位点数据,预处理好的图像数据和SNP数据分别构造分类器模型,最后进行两种模态分类器的集成。
Figure 2. The overall structure of the recognition model based on the fusion of MRI and SNP is proposed in this paper
图2. 本文提出的融合MRI与SNP的识别模型总体结构
3.1. MRI基分类器
3.2.1. MRI数据预处理
本文利用SPM12软件的CAT12工具包(http://dbm.neuro.uni-jena.de/cat/)进行图像预处理操作。预处理操作主要包括去头骨、配准到MNI标准空间、图像平滑,其处理流程中所用到的参数均使用CAT12工具包中的默认参数。经过SPM12软件处理后,得到的所有图像大小均为121 * 145 * 121,空间分辨率为1.5 mm。随后对每个MRI图像进行灰度归一化,使每个受试者的图像体素值在0~1之间。本文MRI基分类器的训练数据要求是二维图像,所以需要对三维的MRI图像进行切片处理,预处理过后的MRI图像大小为121 × 145 × 121。预处理总流程图如图3所示。
3.2.2. MRI分类器
本文使用的MRI分类模型总体结构如图4所示,预处理完的MRI图像每一个位置切片构建一个基分类器进行训练,训练完的基分类器根据验证集数据测试性能,根据结果进行排序,挑选出三个优质分类器。
其中所使用的基分类器本质上是一个典型的CNN模型,在Wang等 [23] 提到的8层CNN结构基础上结合残差网络模型组成,它由4个卷积层(Convolution Layer, Conv),2个残差模块(Resnet block)以及2个全连接层(Fully Connected Layer, FC)组成,除第1层卷积层外,后三层卷积层以及残差模块都进行池化(pool)操作,采用softmax函数将最后一层全连接层的两个神经元输出映射到0~1之间实现二分类,其结构如图5所示。
Figure 4. Overall structure of MRI classification model
图4. MRI分类模型总体结构图
Figure 5. Structure of MRI based classifier
图5. MRI基分类器结构
3.2. SNP基分类器
3.2.1. SNP数据预处理
SNP原始基因数据以PLINK [20] 软件的标准数据格式将受试者信息和基因信息存储在后缀名为.bim、.fam、.bed的三个文件中,本文使用GWAS对SNP原始基因数据进行预处理降低SNP数据的维度,大大降低了计算的复杂程度,减少了冗余信息所造成的识别误差,提高了识别的精度,得到的SNP位点数据进行编码成0,1,2 (AA-0,Aa-1,aa-2)得到SNP数据集。预处理流程如图6所示,其过程具体如下:
1) 根据杂合率筛选
在基因型数据中,每两个字符表示一个SNP的基因型,如GG、GC,其中GG属于纯合型,GC属于杂合型。根据遗传学规律,在自然群体中,不同样本的杂合基因频率是相近的,可以根据此规律剔除不符合该规律的异常被试数据。
2) 根据位点缺失率筛选
位点缺失率是反映样本基因型数据质量的一个重要指标,如果一个样本的位点缺失率太高,则表明该样本数据质量差,需要剔除以免影响后续分析。
3) 根据位点信息缺失率筛选
位点信息缺失率是指在所有的被试中,某个SNP的信息缺失率。如果某个SNP的信息缺失率太高,则说明该SNP的数据质量差,不适于用于后续分析,需删除该SNP信息。
4) 根据Hardy-Weinberg平衡筛选
Hardy-Weinberg平衡定律也称遗传平衡定律,是群体遗传中的重要法则。一个群体在理想情况(不受特定的干扰因素影响,如非随机交配、天择、族群迁移、突变或群体大小有限),经过多个世代,基因频率与基因型频率会保持恒定并处于稳定的平衡状态。
5) 根据连锁不平衡性筛选
连锁不平衡是指分属两个或两个以上基因座或等位基因上存在非随机的组合。如果某两个基因在遗传过程中不是完全独立遗传的,那它们之间就存在连锁不平衡现象。实际中,常用r2表示SNP的连锁不平衡强度,r2越大,连锁不平衡现象越强,相关SNP的独立性越弱。在进行GWAS分析时希望最终找出的SNP是独立性较强的SNP,因此通过连锁不平衡删除连锁现象较强的SNP(每组连锁的SNP中会留下一个SNP作为代表)。
6) 根据个体独立性筛选
需要尽量保持数据的独立性,样本间如果具有较近的亲缘关系或数据采集时同一个样本的数据被采用了多次,将会导致SNP的分布并非自然状态,使分析结果产生偏差。亲缘系数又称血缘系数,将群体中个体之间基因组成的相似程度用数值来表示即为血缘系数,它可以反映两个个体间的遗传相关程度。
7) 关联分析
在GWAS中,表型的选择有两种方式,第一种是线性的表型,如果身高、体重、智力等;第二种是二元的表型,比如患病和未患病,患病为0,未患病为1。当待分析的表型是二元性状时,通常使用逻辑回归模型进行分析;当待分析的表型是线性性状,通常使用普通线性回归模型。本文使用逻辑回归模型进行分析得到每个SNP与表型的相关显著性p值,根据p值挑选出相关性高的SNP进行编码成0,1,2构成数据集。
3.2.2. SNP分类器
SNP分类器中的分类模型可以使用各种分类器,如随机森林(Random Forest, RF)、支持向量机(Support Vector Machine, SVM)、K最近邻(K-Nearest Neighbor, KNN)等分类算法。本文中的SNP分类器采用基于决策树的集成模型进行分类,所使用的集成模型算法为梯度提升决策树(Gradient Boosting Decision Tree, GBDT)、引导聚集算法(Bootstrap aggregating, Bagging)、自适应提升算法(Adaptive Boosting, Adaboost) (简称为GBA)。
梯度提升决策树算法是一种迭代多颗决策树来共同决策的算法,该算法将损失函数的负梯度在当前模型的值作为残差的近似值,然后用残差近似值拟合出一个回归树,最后将所有树得到的结果进行累加进而得到最终的结果。
引导聚集算法是一种并行集成学习方法,通过自助采样法即均匀、有放回地随机产生多个训练子集,然后基于每个训练出多个个体学习器,最后将这些个体学习器进行结合构成最终分类器。
自适应提升算法是一种迭代算法,通过同一个训练集训练不同的弱分类器,然后将这些弱分类器集合起来,构成一个更强的最终分类器。
总体结构如图7所示。
Figure 7. Overall structure of SNP classification model
图7. SNP分类模型总体结构图
3.3. 基于概率分类器加权的集成学习
MRI分类器与SNP分类器的集成,因为分类器的结果相差过大,传统的投票法的集成方式并不适用,本文所使用的集成学习策略基于文献 [21] 所提出的概率分类器加权集成方案,设集合
表示有n个基分类器,共有k个类别标签即
,则
,其中
表示所属第i个类别的概率,起始值为0。
设输入测试数据样本为x,对于样本x,第i个类别概率为:
(1)
(2)
其中wj表示基分类器Mj的权重,该值为基分类器的性能指标,在训练阶段结束后由验证集数据对分类器的性能评估表示,该性能评估使用基分类器的准确率,
表示输入数据样本x后基分类器Mj类别标签为Ai时的概率,由于SNP分类器与MRI分类器结果相差过大,使用sigmoid函数对其权重进行平滑处理。
设输出结果为样本类别标签y,则y的值计算为:
(3)
(4)
其中c表示类别概率为最大值的是第c个类别标签。
4. 实验与分析
4.1. 数据集
本文选择的所有数据均来自于阿尔茨海默病神经成像(ADNI)数据库(adni.loni.usc.edu),该数据库可在网站(https://ida.loni.usc.edu/login.jsp?project=ADNI ADNI)上公开获取。ADNI数据库主要致力于尽可能早的发现AD疾病的前期阶段并采取治疗措施以及探究生物标记物、跟踪疾病历程的识别方法等。ADNI数据库免费为全世界的科研人员提供数据。
本文从ADNI数据库中下载了760名受试者的MRI图像数据以及相应的SNP原始基因数据,用于划分训练集、测试集和验证集。其中患有阿尔茨海默症(记为AD)的受试者人数有171人,正常对照组(记为HC)的受试者人数有214人,具有认知障碍且会转变为AD (记为MCIc)的受试者人数有115人,具有认知障碍且不会转变为AD (记为MCInc)的受试者人数有250人。受试者详细信息如表1所示。
Table 1. Details of 760 subjects
表1. 760名受试者详细信息
4.2. 实验环境及参数设计
本文的实验硬件环境为CentOS7.4,64位操作系统,92G内存,CPU为E5-2640 2.00GH。本文将AD的早期识别诊断分为三个不同的二分类问题:AD vs. HC、MCIc vs MCInc、MCIc vs HC。每个二分类实验都将按照第2节中的算法流程构建本文所提出的识别模型。每个二分类实验均采用5折交叉验证的方法来划分训练集和测试集,即每个二分类实验都会训练5次,5次实验的平均分类准确率用于评估模型整体的性能,而验证集不参与训练过程,主要用于MRI基分类器的排序以及通过分类器的性能评估以获得集成过程各分类器的权重。
4.3. 实验结果
在表2方法对比实验中,本文所提出的残差网络模型与另外两种AD早期诊断方法进行比较,以此来说明模型的优越性,其详细实验结果如表2所示。
Table 2. “Method-Comparison”—Comparison of accuracy
表2. “方法对比”—准确率对比
表2中PCA + SVM代表文献 [22] 提出的基于主成分分析(Principal Component Analysis, PCA)和支持向量机(Support Vector Machine, SVM)的诊断模型;二维卷积神经网络(two Dimensional Convolutional Neural Network, 2DCNN)代表文献 [23] 提出的2DCNN诊断模型,2DResnet代表本文所使用的残差网络模型。
从表2的结果可以看出,2DResnet和文献 [22] 对应实验的准确率有所提升,标准差减小了二分之一左右,表明模型的稳定性有了极大提升。另外,本文模型不需要对MRI进行灰质、白质分割,不需要用其他方法预选分类特征,简化了实验流程,避免了人工选取特征带来的人工成本和潜在疏漏。本文残差模型还可以更有效地利用MRI中各体素点的空间位置所包含的隐藏信息,而PCA + SVM模型只用到体素点的灰度值;2DResnet与文献 [23] 提出的2DCNN模型相比,三组分类实验的分类准确率均有提升,其中MCIc vs. MCInc这组实验提升较大,且5次实验结果的标准差更小,表明使用残差结构可以有效提升AD早期诊断模型的准确率和稳定性。
表3方法对比实验中对比的是本文所提出的多模态集成模型与单模态模型间的准确率,以此来说明多模态集成模型的优越性,其详细实验结果如表3所示。
Table 3. “Method-Comparison”—Comparison of accuracy
表3. “方法对比”—准确率对比
表3中MRI代表本文所使用的残差网络模型,SNP代表的是本文所使用的SNP模型,MRI+SNP代表本文所提出的多模态AD分类模型,由表3结果科研看出在集成SNP数据后,三组实验的结果与单模态MRI的结果相比都有所提升,说明SNP数据能够对AD诊断起到辅助作用。
5. 结束语
本文针对阿尔茨海默症的早期诊断识别问题,基于MRI和SNP数据提出一种决策层面上的概率分类器加权集成模型,在使用本文所提出的集成模型后,识别模型在准确率和稳定性方面与单模态的模型相比均有不同程度的提高,对疾病的计算机辅助诊断具有一定的临床应用价值,但仍旧存在一些不足。在今后的研究中,将继续对构建基分类器和集成学习融合方法进行改进,以期望进一步提高模型分类准确率和稳定性,并尝试使用深度学习模型寻找与AD疾病相关的生物标志物。
基金项目
国家自然科学基金项目(61772143,61300107);广州市科技计划项目(201804010278)。
参考文献