基于不完整标签的增强低秩表示用于预测阿尔茨海默病进展
Enhanced Low-Rank Representation with Incomplete Labels for Predicting Alzheimer’s Disease Progression
摘要: 本文提出了一种名为基于不完整标签的增强低秩表示(ELRRIL)模型,用于解决神经影像数据中不完整标签样本和噪声问题,进而提高阿尔茨海默病(AD)进展预测的准确性。我们的方法利用矩阵分解技术,将不完整的认知评分矩阵分解为两个组成部分:一方面,通过增强的流形正则化恢复的无缺失值的认知评分矩阵,该正则化能够捕捉局部标签相关性;另一方面,基于噪声的稀疏假设,通过ℓ1范数控制的错误分量。最后,我们使用低秩回归模型,将恢复的矩阵作为目标,提高对噪声和异常值的鲁棒性,并引入了ℓ2,1范数作为稀疏正则化项来识别重要的神经影像特征。实验结果表明,ELRRIL模型在特征选择和预测性能方面均优于现有的先进方法。
Abstract: In this paper, a new model called Enhanced Low Rank Representation with Incomplete Labels (ELRRIL) is proposed to solve the problem of incomplete label samples and noise in neuroimage data, thereby improving the accuracy of predicting the progression of Alzheimer’s disease (AD). Our method uses matrix decomposition techniques to decompose the incomplete cognitive score matrix into two components: one is the missing value-free cognitive score matrix recovered by enhanced manifold regularization, which can capture local label correlations; The other is the error component controlled by the ℓ1 normbased on the sparse assumption of noise. In addition, we develop a low-rank regression model that targets the recovered matrix to improve robustness to noise and outliers, and introduce the ℓ2,1 norm as a sparse regularization term to identify important neuroimage features. Experimental results show that the ELRRIL model is superior to the existing advanced methods in feature selection and prediction performance.
文章引用:张凌聪, 杜宇萌. 基于不完整标签的增强低秩表示用于预测阿尔茨海默病进展[J]. 应用数学进展, 2024, 13(7): 3392-3399. https://doi.org/10.12677/aam.2024.137324

1. 引言

阿尔茨海默病(AD)是一种复杂的遗传性神经退行性疾病,主要影响65岁以上的老年人。据阿尔茨海默病协会报告,AD已成为美国老年人的第五大死因[1]。全球范围内,受AD影响的人数已达到4700万。目前,AD的诊断主要依赖于患者的临床症状和医生的经验,这常常导致晚期诊断。因此,开发一种有效的早期诊断方法对于患者的治疗和康复至关重要。

认知功能评估工具包括多个认知领域的测试项目,这些测试项目对于诊断和病因分析具有重要作用。其中,迷你精神状态检查(MMSE)和阿尔茨海默病评估量表–认知部分(ADAS-Cog)是最常用的两种评估工具[2],它们覆盖了定向、记忆、注意、计算、语言能力等多个方面。然而,由于时间限制,这些评估通常只能反映当前的认知状态,而无法预测未来的认知轨迹。

考虑到神经影像数据维度的高度和特征选择的复杂性,研究者们已经开发了多种特征学习方法。例如,多任务特征学习(MTFL) [3]和图形嵌入技术[4]。我们的工作旨在通过一个低秩矩阵恢复框架来解决不完整标签样本的问题,并将图学习嵌入特征选择过程中,以提高学习到的相似性矩阵的质量。我们的方法通过分解原始评分矩阵,并确保恢复的评分矩阵在局部保持相似性,从而解决了不完整标签的问题。我们的创新主要包括:提出了一种新的低秩稀疏回归学习方法;引入了一种增强的图嵌入方法以减少数据冗余并提高抗噪声能力;将图学习和低秩回归融合在一个框架中,处理不完整标签问题;并开发了一种高效的迭代算法来优化提出的模型。我们在ADNI数据集上的实验表明,我们的方法在多种场景下的性能和鲁棒性都优于现有方法。

2. 模型建立

在实际的临床实验中,由于个人原因,受试者可能会错过认知评分的评估,而常规的线性回归模型只能回归具有完整认知评分的目标受试者,因此无法使用具有不完整认知的受试者。这种现象会增加过拟合的可能性。为了解决上述限制,我们将包含缺失值的目标矩阵 Y R n×c 分解为两部分,其中Z表示最终恢复的完整认知评分矩阵,E表示误差矩阵。基于误差矩阵稀疏性的假设,我们在E上加上 l 1 范数惩罚项,将线性回归模型扩展为:

min Z,E,W ZXW F 2 +α W 2,1 +β E 1 s.t.Y=Z+E (1)

然而,神经影像数据在采集和预处理过程中经历了多种噪声来源,导致图像模糊并干扰分割。这可能导致某些脑区域的分割不准确,从而污染相关特征。使用低秩表示(LRR) [5]有助于在嘈杂的数据中识别出底层子空间结构,从而更清晰地洞察整体数据结构,同时减轻复杂噪声的影响。保持局部数据流形结构对于增强表示的判别能力至关重要,同时捕捉全局数据结构。因此,式(1)可以重新表述为:

min Z,E,W ZXW 2 +α W 2,1 +β E 1 s.t.Y=Z+E (2)

为了更好地保持投影后的局部结构[6],使得恢复后的认知分数接近于正确的认识分数,我们将图嵌入到模型中,然而大多数相似图构造的方法是直接根据原始特征计算欧氏距离来得到相似图,矩阵

A R n×n 为相似图矩阵, a ij = e X i X j 2 σ ,这可能引入不必要的噪声,得到的图并不是最优的。为了克服

传统图嵌入的缺点,我们将学习一种新的自适应相似图,图的学习被集成到优化过程中,得到最终的模型ELRRIL:

min Z,E,W,S ZXW +α W 2,1 +β E 1 +γtr( Z T L s Z )+λ SA F 2 s.t.Y=Z+E,S1=1,S0

其中 L s 是拉普拉斯矩阵,它的定义是 L s =D ( S T +S )/2 D是对角矩阵, d ii = j ( s ij + s ji )/2

3. 优化算法

本节中我们展示如何求解提出的模型,首先我们引入变量 K=ZXW ,对核范数进行松弛后,将(3)改写为:

min Z,E,W,S,K,R,H R F 2 + H F 2 +α W 2,1 +β E 1 +γtr( Z T L s Z )+λ SA F 2 s.t.Y=Z+E,K=ZXW,S1=1,S0

接下来我们采用交替方向乘子法(ADMM) [7]求解目标函数(4),首先写出(4)的增广拉格朗日函数:

L=( R F 2 + H F 2 )+α W 2,1 +β E 1 +γtr( Z T L s Z )+λ SA F 2 + μ 2 ( YZE+ C 1 μ F 2 + KZ+XW+ C 2 μ F 2 + KRH+ C 3 μ F 2 ) 1 2μ ( C 1 F 2 + C 2 F 2 + C 3 F 2 )  s.t.S1=1,S0

其中 μ>0 是一个惩罚参数, C 1 , C 2 , C 3 是增广拉格朗日乘子。接下来,我们通过以下步骤来更新每次迭代中的所有变量。

(步1)求解K,固定其他变量,则K-子问题可以写作:

min K KZ+XW+ C 2 μ F 2 + KRH+ C 3 μ F 2

K求导,令其为0,可以得到:

K= M 1 + M 2 2 ,其中 M 1 =ZXW U 2 /μ M 2 =RH U 3 /μ

(步2)求解Z,固定其他变量,则Z-子问题可以写作:

min Z μ 2 ( YZE+ C 1 μ F 2 + KZ+XW+ C 2 μ F 2 )+γtr( Z T L s Z )

容易得到:

Z= ( 2γ L s +2μI ) 1 μ( M 3 + M 4 ) ,其中 M 3 =YE U 1 /μ M 4 =K+XW U 2 /μ

(步3)求解E,固定其他变量,则E-子问题可以写作:

min E β E 1 + μ 2 YZE+ U 1 μ F 2

通过软阈值算子,可以得到闭式解:

E= S β μ ( YZ+ U 1 /μ ) ,其中 S η ( x )=sign( x )max( | x |η,0 )

(步4)求解W,固定其他变量,则W-子问题可以写作:

min W α W 2,1 + μ 2 KZ+XW+ C 2 μ F 2

G是具有第i个对角线元素为 g ii = 1 2 W i 2 的对角矩阵,问题等价于:

min W αtr( W T GW )+ μ 2 tr( X T XW W T 2 M 5 T XW ).

其中 M 5 =ZK U 2 /μ ,对W求导可以得到:

W=μ ( 2αG+μ X T X ) 1 X T M 5 .

(步5)求解R,固定其他变量,则R-子问题可以写作:

min R 1 2 R F 2 + μ 2 KRH+ C 3 μ F 2 .

不难得到:

R=μ( K+ C 3 μ ) H T ( I+μH H T ) 1 .

(步6)求解H,固定其他变量,则H-子问题可以写作:

min R 1 2 H F 2 + μ 2 KRH+ C 3 μ F 2 .

不难得到:

H=μ ( I+μ R T R ) 1 R T ( K+ C 3 μ ).

(步7)求解S,固定其他变量,则S-子问题可以写作:

min S i=1 n j=1 n ( s ij a ij ) 2 + γ 2λ i=1 n j=1 n s ij | z i z j | 2 2 .

存在向量 e i ,它的第j个元素为 e ij = | z i z j | 2 2 ,我们写出它的拉格朗日函数:

= 1 2 | s i ( a i γ 4λ e i ) | 2 2 η( s i 11 ) β i s i ,

由KKT条件,可以求得最优解:

s i = ( a i γ 4λ e i +η ) + .

最后拉格朗日乘子的更新如下:

U 1 = U 1 +μ( YZE )

U 2 = U 2 +μ( KZ+XW )

U 3 = U 3 +μ( KPQ )

停止标准定义为: YZE <ε KZ+XW <ε KPQ <ε

4. 实验

4.1. 数据处理和实验设置

在这一部分,我们将首先介绍数据集和比较的方法。然后描述我们的实验设置和实验结果。我们使用从ADNI数据库获得的两个数据集ADNI-1和ADNI-2进行实验分析。这些数据集包括三类受试者:阿尔茨海默病(AD)患者、轻度认知障碍(MCI)患者和正常对照组(NC),表1是受试者的详细信息。所有受试者都有基线MRI扫描,但某些时间点可能缺少认知得分,在表2中将缺失的认识得分。MRI预处理是使用SPM12中的CAT12工具箱[8]在MATLAB 2021a上进行。MRI数据经过降噪、插值、偏场不均匀性校正和仿射配准处理。然后,去除非脑部元素,例如颅骨。最后,我们根据自动解剖标记(AAL)图谱将每个受试者的灰质MRI图像划分为90个感兴趣区域(ROI),并计算每个ROI的灰质体积作为特征。

接下来,我们将我们的框架与一些传统框架方法进行比较,包括:SVR,LASSO [9],L2PSC [10],LRL [11],FSLCLC [12],RLDAGP [13]需要注意的是,SVR不随所选特征的数量变化,以此作为基准。我们使用均方根误差(RMSE)和相关系数(CC)来评估结果的质量。在计算这些指标之前,我们将认知得分标准化,使其范围在0到1之间。我们使用线性核的SVR模型来评估从每个算法中选择的特征。SVR模型的默认值在训练和测试期间都使用。特征数量从2到20,以2为增量,因为更大的值不会显著提高性能。我们使用五折交叉验证来评估所有方法。所有样本均分为五部分,其中一个部分用于测试,其余用于训练。对于半监督方法(SFSGL, GSFS、和FSLCLC)和我们的LSFSIL,训练集中的所有样本都用于训练。而对于其他方法,仅使用具有完整认知得分的样本进行训练。接着,我们使用SVR模型进行预测,评估每个方法选择的特征的性能。为了公平比较,我们使用所有方法的完整标记样本来训练SVR模型。然后,用训练好的SVR模型来预测测试集中每个样本的得分,并平均每个折叠的结果。这个过程重复10次,以避免由于数据集随机划分引起的偏差。

4.2. 实验结果

图1展示了不同方法的RMSE和CC在筛选特征数量变化时的变化趋势。首先,任何方法的结果都是直接回归SVR,因为原始高维特征不可避免地包含冗余和噪声,这也证明了特征选择的必要性。其次,

Table 1. Demographic information of the subjects in this study

1. 本研究对象的人口统计信息


Normal

MCl

AD

Gender

52/44

112/74

45/39

Age (mean ± std)

74.07 ± 5.88

73.62 ± 7.64

74.32 ± 7.52

Edu (mean ± std)

15.5 ± 2.3

14.2 ± 2.5

14.1 ± 3.1

ADAS-Cog (mean ± std)

8.9 ± 4.3

18.1 ± 7.0

28.2 ± 9.6

MMSE (mean ± std)

28.5 ± 1.3

26.9 ± 2.1

23.1 ± 2.8

CDR-SB (mean ± std)

0.0 ± 0.1

1.8 ± 1.0

4.2 ± 1.7

Table 2. The number of subjects with three types of cognitive scores at four time-points

2. 在四个时间点有三种认知得分的受试者人数

Class

ADAS-Cog

MMSE

CDR-SB

BL

M06

M12

M24

BL

M06

M12

M24

BL

M06

M12

M24

NC

96

94

91

89

96

94

91

89

96

94

91

89

MCl

186

180

174

159

186

180

174

160

186

180

176

163

AD

84

79

75

63

84

79

76

64

84

79

75

63

性能不会随着所选特征数量的增加而变得更好。所有方法的最佳性能基本在8到12个特征之间,CC最高,RMSE最低。这表明在选择最佳特征子集后,进一步增加所选特征的数量可能会引入冗余和噪声特征,这可能模糊了MRI特征与认知之间的关系,从而降低预测性能。最后,不仅最佳特征集,而且我们的方法在大多数特征集中表现都比其他方法更好,这是因为我们所选择的特征更重要,并且与阿尔茨海默病有更强的相关性。这是因为我们的方法不同于其他简单构建图方法,而是将图学习融合到优化过程中。

(a) (b)

Figure 1. Prediction performance of all feature selection methods on the ADNI dataset as the number of selected features changes

1. 随着所选特征数量的变化,所有特征选择方法在ADNI数据集上的预测性能

4.3. 消融实验

我们进行了消融研究,以评估模型中不同组件的作用。提出模型的几个变体如下:

ELRRIL-W:这是没有在W上施加 l 2,1 范数的ELRRIL变体。

ELRRIL-E:这是没有在E上施加约束的ELRRIL变体。

ELRRIL-G:这是没有图Laplacian正则化的ELRRIL变体。

ELRRIL-A:这是没有自适应相似性图的ELRRIL变体。

表3中,我们列出了ELRRIL和各种变体的均方根误差(RMSE)和相关系数(CC)值。不难发现,ELRRIL的性能优于这些变体。与ELRRIL-W相比,ELRRIL使用 l 2,1 范数使W的行稀疏,并通过稀疏表示进行特征选择以提高性能。由于ELRRIL-E1的误差矩阵E没有约束,现有的临床评分可能会受到误差矩阵中相应元素的影响。与ELRRIL-G和ELRRIL-A相比,Laplacian正则化项引导相似的受试者具有相似的认知得分,将其整合到优化过程中,以获得自适应图,从而降低原始特征空间中噪声的影响。

Table 3. RMSE and CC values of ELRRIL and its variants

3. ELRRIL及其变体的RMSE和CC值

Method

RMSE

CC

ELRRIL-W

0.1675

0.3013

ELRRIL-E

0.1648

0.3541

ELRRIL-G

0.1515

0.5184

ELRRIL-A

0.1497

0.5265

ELRRIL

0.1492

0.5279

4.4. Top10特征

我们分析了由ELRRIL方法选择的顶级脑区。在所有交叉验证中出现频率最高的脑区在图2中显示。用于诊断阿尔茨海默症的关键脑区包括海马、杏仁核、角回和中颞叶。Ball [14]等人对海马结构进行了定量形态学评估,结果支持了这样一个假设,即阿尔茨海默症老年痴呆中高级认知功能的下降归因于海马结构的变化。Poulin [15]等人发现,在阿尔茨海默症的早期临床阶段,杏仁核萎缩的程度与海马的萎缩程度相当,并且与疾病严重程度相关。Penniello [16]等人证明了左角回负责阿尔茨海默症中写作障碍的功能性神经解剖。这些结果证实了我们研究结果与先前研究的一致性,并说明了ELRRIL在识别与认知障碍相关的重要特征方面的有效性。

Figure 2. Top 10 features identified by ELRRIL

2. ELRRIL识别的Top 10特征

5. 结论

在本文中,我们引入了带有不完整标签的增强低秩表示(ELRRIL)模型,旨在解决阿尔茨海默病(AD)进展预测中神经影像学数据中不完整标签和噪声所带来的挑战。通过利用新的矩阵分解方法,ELRRIL有效地处理不完整的认知评分,并识别信息丰富的神经影像学特征,以预测AD的进展。我们贡献是多方面的。首先,我们开发了一种新的方法来管理不完整的标记MRI数据,确保所有可用样本中包含有价值的信息。其次,增强图嵌入的集成增强了模型对噪声和数据冗余的鲁棒性,保持了数据内部局部结构的完整性。第三,通过融合图学习和低秩回归,我们有效地解决了标签不完整的挑战,保证了恢复的认知评分矩阵的可靠性。最后,通过对ADNI数据集的严格实验,我们验证了ELRRIL在各种情况下优于现有最先进的方法,突出了其在提高阿尔茨海默病研究中认知评估的准确性和全面性方面的潜力。

NOTES

*通讯作者。

参考文献

[1] Alberdi, A., Aztiria, A. and Basarab., A. (2016) On the Early Diagnosis of Alzheimer’s Disease from Multimodal Signals: A Survey. Artificial Intelligence in Medicine, 71, 1-29.
https://doi.org/10.1016/j.artmed.2016.06.003
[2] Association, A. (2019) 2019 Alzheimer’s Disease Facts and Figures. Alzheimer’s & Dementia, 15, 321-387.
https://doi.org/10.1016/j.jalz.2019.01.010
[3] Lai, Z., Xu, Y., Chen, Q., et al. (2014) Multilinear Sparse Principal Component Analysis. IEEE Transactions on Neural Networks and Learning Systems, 25, 1942-1950.
https://doi.org/10.1109/TNNLS.2013.2297381
[4] Cano, S.J., Posner, H.B., Moline, M.L., Hurt, S.W., Swartz, J., Hsu, T. and Hobart, J.C. (2010) The Adas-Cog in Alzheimer’s Disease Clinical Trials: Psychometric Evaluation of the Sum and Its Parts. Journal of Neurology, Neurosurgery & Psychiatry, 81, 1363-1368.
https://doi.org/10.1136/jnnp.2009.204008
[5] Drucker, H., Burges, C.J., Kaufman, L., Smola, A. and Vapnik, V. (1996) Support Vector Regression Machines. Advances in Neural Information Processing Systems, 29, 157-286.
[6] Huang, J., Nie, F., Huang, H., et al. (2013) Supervised and Projected Sparse Coding for Image Classifiction. Proceedings of the AAAI Conference on Artificial Intelligence, Bellevue, 14-18 July 2013, 438-444.
https://doi.org/10.1609/aaai.v27i1.8691
[7] Naseem, I., Togneri, R. and Bennamoun, M. (2012) Robust Regression for Face Recognition. Pattern Recognition, 45, 104-118.
https://doi.org/10.1016/j.patcog.2011.07.003
[8] Yang, M., Zhang, L., Yang, J., et al. (2012) Regularized Robust Coding for Face Recognition. IEEE Transactions on Image Processing, 22, 1753-1766.
https://doi.org/10.1109/TIP.2012.2235849
[9] Tibshirani, R. (1996) Regression Shrinkage and Selection via the Lasso. Journal of the Royal Statistical Society Series B: Statistical Methodology, 58, 267-288.
https://doi.org/10.1111/j.2517-6161.1996.tb02080.x
[10] Chen, Z., Wu, X.J. and Kittler, J. (2019) A Sparse Regularized Nuclear Norm Based Matrix Regression for Face Recognition with Contiguous Occlusion. Pattern Recognition Letters, 125, 494-499.
https://doi.org/10.1016/j.patrec.2019.05.018
[11] Qian, J., Yang, J., Xu, Y., et al. (2020) Image Decomposition Based Matrix Regression with Applications to Robust Face Recognition. Pattern Recognition, 102, Article 107204.
https://doi.org/10.1016/j.patcog.2020.107204
[12] Wang, C., Saar, V., Leung, K.L., Chen, L. and Wong, G. (2018) Human Amyloid Peptide and Tau Co-Expression Impairs Behavior and Causes Specific Gene Expression Changes in Caenorhabditis Elegans. Neurobiology of Disease, 109, 88-101.
https://doi.org/10.1016/j.patcog.2020.107204
[13] Wolk, D. and Vaishnavi, S. (2016) Mild Cognitive Impairment and Alzheimer’s Disease. International Neurology, 133, Article 1391.
https://doi.org/10.1002/9781118777329.ch39
[14] Ball, M., Hachinski, V., Fox, A., Kirshen, A., Fisman, M., Blume, W., Kral, V., Fox, H. and Merskey, H. (1985) A New Definition of Alzheimer’s Disease: A Hippocampal Dementia. The Lancet, 325, 14-16.
https://doi.org/10.1016/S0140-6736(85)90965-1
[15] Poulin, S.P., Dautoff, R., Morris, J.C., Barrett, L.F., Dickerson, B.C., Initiative, A.D.N., et al. (2011) Amygdala Atrophy Is Prominent in Early Alzheimer’s Disease and Relates to Symptom Severity. Psychiatry Research: Neuroimaging, 194, 7-13.
https://doi.org/10.1016/j.pscychresns.2011.06.014
[16] Penniello, M.J., Lambert, J., Eustache, F., Petit-Taboué, M.C., Barré, L., Viader, F., Morin, P., Lechevalier, B. and Baron, J.C. (1995) A Pet Study of the Functional Neuroanatomy of Writing Impairment in Alzheimer’s Disease: The Role of the Left Supramarginal and Left Angular Gyri. Brain, 118, 697-706.
https://doi.org/10.1093/brain/118.3.697