1. 引言
肠道微生物群在调节宿主营养代谢、免疫稳态及屏障功能中发挥关键作用,其结构与功能的失衡已被广泛证实与多种慢性疾病密切相关[1] [2]。因此,肠道微生物组被视为揭示疾病发生机制、实现早期诊断与动态监测的重要生物资源[3] [4]。
随着高通量测序技术的发展,宏基因组学、元转录组学和代谢组学等多组学手段能够从物种组成、基因表达、代谢产物等方面系统性地解析微生物生态系统[5] [6],这些数据为理解炎症性肠病(IBD) [7] [8]、糖尿病(T2D) [9]和结直肠癌[10] [11]等复杂疾病的发病机制提供了关键线索。然而,实际应用中,多组学数据往往面临样本不完全匹配、不同模态间数据缺失、高维稀疏以及样本量有限等挑战[12],这些问题严重制约了跨组学信息的有效融合与生物学意义的深入解析。
传统的数据填补或样本剔除策略虽然能够一定程度上缓解上述问题,但易导致信息失真或统计效能下降。现有主流多组学整合方法,如MOFA+ [13]、联合潜变量模型[14]和基于图卷积网络的MoGCN [15],通常假设输入数据完整,难以有效应对实际研究中常见的不完整数据结构。深度学习模型如ProgCAE [16]和TMO-Net [17]虽然在微生物分类任务中表现出良好性能,但其对缺失模态的鲁棒性仍不足。近年来,掩码学习(masked learning)策略在自然语言处理[18]和计算机视觉[19] [20]等领域展现出强大的表示学习与缺失数据建模能力,为多组学整合提供了新思路,但其静态掩码机制在训练过程中缺乏灵活性,限制了模型对复杂生物数据的学习效率。
为了解决上述问题,本文提出一种基于动态掩码的多组学整合模型(IMMO-integration)。该模型基于自编码器(AE),引入随训练进程自适应调整的动态掩码机制,结合共享解码结构与加权重构损失,旨在提高对不完全微生物多组学数据的鲁棒表征学习与高效重构能力。通过在炎症性肠病多组学数据库(IBDMDB) [8]和斯坦福大学个体化医疗项目(IPOP)糖尿病[9]相关多组学数据集上的实验验证,本研究展示了IMMO-integration在重构性能与下游分类任务中的优越表现,为其在精准医学领域的应用奠定了基础。
2. 数据来源与预处理
研究所用数据源自炎症性肠病多组学数据库(IBDMDB) (https://www.ibdmdb.org)的不完整多组学数据集[20],该数据集可预测炎症性肠病(IBD)状态,包含三组学观察:宏基因组学(mg)、代谢组学(mb)和元转录组学(mt)。由于原始数据特征维度过大且缺失过多,为确保数据质量便于后续建模,在实验中首先对其进行清洗和标准化处理,经预处理后,数据集的样本重叠情况及标签信息如表1所示。
Table 1. Sample overlap and label distribution across omics modalities
表1. 不同组学样本重叠情况及标签信息
Datasets |
Samples |
NonIBD |
IBD |
IBD_common |
324 |
88 |
236 |
bol_tra_common |
795 |
195 |
600 |
tra_bio_common |
324 |
88 |
236 |
bol_bio_common |
470 |
123 |
347 |
tra_bol_all |
1588 |
414 |
1174 |
tra_bio_all |
1020 |
243 |
777 |
bol_bio_all |
1661 |
425 |
1236 |
IBD_all |
1664 |
426 |
1238 |
除炎症性肠病数据集外,本研究还整合了斯坦福大学个体化医疗项目(http://med.stanford.edu/ipop.html)数据集,该数据集涵盖了代谢组学、蛋白质组学、肠道微生物16S测序)以及RNA测序丰度。主要用于研究与糖尿病相关的生物标志物。经预处理和特征过滤后,每个组学的具体信息如表2所示。
Table 2. Sample overlap and label distribution in the diabetes dataset
表2. 糖尿病数据集样本重叠情况及标签信息
Datasets |
Total Samples |
Diabetes/Pre-diabetes |
Control |
Common Samples |
606 |
479 |
49 |
RNA_Proteomics Common |
805 |
629 |
79 |
RNA_bolomics Common |
820 |
646 |
82 |
Proteomics_bolomics Common |
903 |
698 |
94 |
RNA_Proteomics All |
1008 |
782 |
101 |
All |
1140 |
906 |
105 |
3. 实验设置
3.1. 实验环境设置
实验环境设置如表3所示。
Table 3. Experimental environment setup
表3. 实验环境设置
软件包 |
版本号 |
TensorFlow |
2.8.0 |
Scikit-learn |
1.0.2 |
Pandas |
1.3.5 |
NumPy |
1.21.2 |
Matplotlib |
3.4.3 |
SciPy |
1.7.1 |
3.2. IMMO模型架构设计
模型框架如图1所示。模型采用分阶段处理架构。
在进行数据预处理后,通过动态掩码[19]生成策略为所有组学生成随epoch演化的随机掩码,有效提升模型对数据缺失场景的适应能力;随机掩码之后通过独立编码网络提取各组学深层特征,利用批归一化与随机失活技术增强特征鲁棒性;中端构建跨模态融合模块,将异构特征映射至同一潜在空间;后端设计共享式解码器,通过联合重构机制实现多模态数据同步恢复。训练过程引入加权重构损失与自适应学习率策略,结合梯度裁剪与早停机制,在保证优化稳定性的同时促进跨模态特征均衡学习。
该框架通过动态掩码扰动与参数共享的协同优化,显著提升了多组学表征的可解释性,为复杂生物系统的深度解析提供了新方法。具体实施过程包括以下要点。
Figure 1. Overall framework of IMMO
图1. IMMO基本框架
(1) 动态掩码机制
在深度学习模型训练中,掩码技术被广泛应用于数据增强、正则化以及处理缺失数据等场景[21]。动态掩码策略即为在训练过程中,输入特征的一部分将被随机掩码(即设置为零),并且保留概率P(t)随着epoch指数增长,公式如下:
(1)
这里,P0是初始保留概率,r是增长率,t表示训练epoch数,并且存在一个最大上限Pmax。这意味着随着训练的进行,保留概率逐渐增加至一个预设的最大值,从而确保模型逐步暴露于更完整的数据中,同时保持其对不完整数据的鲁棒性。在每个epoch开始时,针对每种组学模态独立生成一个二进制动态掩码矩阵M(t),其中每个元素遵循伯努利分布:
(2)
指第i个样本的第j个特征是否被保留(=1)或被掩码(=0)。初始保留概率P0。对于不同的组学模态是特定的,反映了各组学数据集的结构特性。
为了综合考虑固有的缺失值和训练过程中产生的随机掩码,在损失计算期间使用的最终有效掩码定义为:
(3)
这里Mtrue是原始数据矩阵,通过与掩码矩阵进行逐元素乘法实现掩码。此机制确保只有在动态掩码方案下未被掩码且实际存在的数据才参与到损失计算中。
(2) 编码结构设计
IMMO-integration采用多分支独立编码器架构,分别为各组学模态构建各自的全连接编码网络。每个编码器由多个全连接层构成,每层后接非线性激活Swish函数,定义为:
(4)
表示sigmoid函数,接下来对每个小批量数据进行标准化处理,批归一化定义为:
(5)
其中
和
为批内均值与方差,
、
为可学习参数。
各编码器输出的低维潜在向量经进一步压缩后映射至共享潜在空间。该过程通过一个额外的全连接层实现维度对齐,最终形成一个融合多组学信息的紧凑表征。
(3) 解码结构设计
解码阶段作为编码过程的逆映射,目标是从共享潜在表示中重构原始多组学数据空间。模型采用共享解码器架构,包含若干全连接层,每层同样集成Swish激活、批归一化与Dropout机制,以保障梯度流动顺畅并抑制过拟合。解码器最后一层使用线性激活函数,输出维度等于所有组学特征维度之和,生成对原始输入的连续值预测。通过最小化重构误差,模型学习从潜在空间到输入空间的可逆映射,从而增强潜在表示的信息密度与生物学可解释性。
(4) 隐藏层定义与非线性变换
模型中所有隐藏层均为全连接结构,第l层输出定义为:
(6)
其中
和
分别为权重矩阵与偏置向量。
(5) 损失函数设置
在模型训练与潜在空间重构任务中,采用加权均方误差作为核心损失函数与重构性能度量指标,以应对不同组学间维度差异大及生物学重要性不同的问题。其定义如下:
(7)
其中N 是组学模态的数量,
是分配给第i个模态的权重,
是第i个模态的数据点数量,M(x)是一个二值掩码,用于指示数据点x是否被观测到:1表示存在(观测到),0表示缺失。
3.3. 参数调优
为选择模型的最优超参数,本研究采用基于高斯过程的贝叶斯优化(Gaussian Process-based Bayesian Optimization)。实施过程中将贝叶斯优化的目标函数即为模型损失函数。优化过程重点调整了六类关键超参数,包括潜在空间维度、编码器中Dropout层的失活率、优化器初始学习率、动态掩码机制中的初始特征保留概率以及学习率指数衰减因子和各组学模态在加权重构损失中的权重分配。
经过50轮贝叶斯优化迭代,算法收敛于一组稳定的超参数配置,最终确定的最优参数组合如表1所示。进一步分析发现最优解倾向于采用较高的初始特征保留概率(initial_p = 0.9)和较慢的学习率衰减(decay_rate = 0.99)。这在理论上是合理的:较高的初始保留率有助于模型在训练早期充分利用可观测数据,稳定编码器的初始化状态,避免因信息严重缺失而导致梯度不稳定。但在实际实验设置中,本研究将动态掩码机制的初始保留概率设定为0.75,而非贝叶斯优化推荐的0.9。这一调整并非对优化结果的否定,而是基于对IBD多组学数据特性的所作出的策略性选择。原始整合数据集中存在高达约60%的跨组学缺失值,且缺失模式呈现非随机性,若采用initial_p = 0.9进行训练,则模型在初始阶段所面对的“人工缺失”强度远低于真实数据中的缺失水平,可能导致其对实际缺失机制的建模能力不足,进而削弱在真实应用场景下的泛化性能。为此,我们主动将初始保留概率下调至0.75,使训练初期的掩码强度更贴近真实数据的观测稀疏性。这一设定有效增强了模型对高缺失率场景的鲁棒性,并促使编码器在早期即学习到更具恢复能力的潜在表示。后续的消融实验(见4.1节)进一步验证,相较于静态掩码或过高保留率的动态策略,p = 0.75在重构误差、下游分类准确率及潜在表示的生物学一致性等多维度指标上均表现出更优的综合性能。潜在维度最终确定为110,表明该维度足以捕获多组学数据的核心变异模式,同时避免过度参数化。损失权重最优组合赋予代谢组数据最高权重,反映出其在IBD表型关联中可能具有更强的判别能力,这与已有研究中代谢物作为功能输出端更贴近表型的结论一致。具体超参数调优过程如表4所示。
Table 4. Hyperparameter optimization process
表4. 超参数调优过程
Hyperparameter |
Range |
Optimal Value |
latent_dim |
[32, 128] |
110 |
dropout_rate |
[0.1, 0.5] |
0.47329 |
initial_learning_rate |
[0.0001, 0.01] |
0.00183 |
initial_p |
[0.3, 0.9] |
0.9 |
decay_rate |
[0.9, 0.99] |
0.99 |
loss_weights |
[0.3_0.3_0.4, 0.4_0.3_0.3,0.5_0.25_0.25] |
0.3_0.3_0.4 |
4. 实验结果
4.1. 降维重构动态掩码VS静态掩码
为充分验证动态掩码的有效性,本研究对比了静、动态掩码的训练损失函数。此处设置静态掩码的固定掩码概率为0.75。两种掩码的损失函数如图2所示。从损失函数的变化来看,动态策略在前10个epoch损失下降61.5%,静态同期下降34.3%,整个过程中动态策略持续优化至72 epochs,静态掩码在24 epochs提前终止,且动态掩码在后期训练过程中仍能保持较快下降速度,表明模型在动态遮挡模式下能够更有效学习数据特征,在IBD预测任务中展现出独特的优势。
4.2. 隐藏表示预测分类结果
为理解肠道微生物组与IBD之间的具体机制联系,在对原始多组学数据进行整合以后,将隐藏层用于预测样本是否为IBD。三种组学数据共选择了6种有监督的学习方法,分别为深度神经网络(DNN)、支持向量机(SVM)、随机森林(RF)、梯度提升树(GBDT)以及线性判别分析(LDA)和弹性网络(ElasticNet)。
Figure 2. Training curves comparing dynamic and static masking strategies
图2. 动态掩码VS静态掩码损失函数变化图
六种方法分类结果的AUC如表5所示,神经网络(DNN)展现出卓越的非线性建模能力,其AUC指标在大部分数据集显著优于其它方法,在bol_bio_commo数据集达到0.976的峰值。虽然支持向量机(SVM)在个别数据集上表现更优,但在其余数据集出现显著波动(0.864~0.962),却易受特征冗余干扰。
传统线性模型包括线性判别分析(LDA)与岭回归(Ridge Regression)在实验中显现出明显局限性,其平均AUC均低于0.885,故鉴于神经网络(Neural Network)的AUC指标均高于其它方法,将神经网络作为预测方法。
Table 5. Predictive performance AUC from different methods
表5. 不同方法在隐藏层上预测AUC
Datasets/Model |
SVM |
GBDT |
Neural Network |
LDA |
Ridge Regression |
RF |
IBD_common |
0.962 |
0.945 |
0.952 |
0.871 |
0.906 |
0.967 |
bol_tra_common |
0.864 |
0.868 |
0.935 |
0.849 |
0.853 |
0.832 |
tra_bio_common |
0.962 |
0.949 |
0.960 |
0.871 |
0.906 |
0.954 |
bol_bio_common |
0.961 |
0.926 |
0.976 |
0.937 |
0.950 |
0.946 |
tra_bol_all |
0.911 |
0.913 |
0.960 |
0.868 |
0.869 |
0.933 |
tra_bio_all |
0.916 |
0.904 |
0.934 |
0.892 |
0.894 |
0.936 |
bol_bio_all |
0.882 |
0.913 |
0.947 |
0.873 |
0.873 |
0.924 |
IBD_all |
0.885 |
0.912 |
0.929 |
0.859 |
0.861 |
0.932 |
为评估动态掩码机制在多源异构数据整合中的有效性,本研究不仅采用隐藏层表示(Latent_110)作为输入进行预测,还以原始数据作为对照组进行实验。如图3、图4所示,分别展示了基于隐藏层特征与原始数据在不同数据集上的模型预测性能(AUC值)。结果表明,在八组不同数据组合中,Latent_110模型AUC有六组显著高于原始数据,实现了性能提升,体现出其在提升预测性能方面的优越性。且使用原始数据直接建模时,各模型AUC波动较大,尤其在复杂数据集上表现不稳定;相比之下,基于隐藏层特征的模型展现出更高的鲁棒性,进一步验证了动态掩码降维在提取关键信息以及增强跨模态特征融合方面的有效性。
Figure 3. Comparison of model performance on different datasets (raw data)
图3. 不同数据集上模型性能的比较(原始数据)
Figure 4. Comparison of model performance on different datasets (Latent_110)
图4. 不同数据集上模型性能的比较(Latent_110)
图3、图4显示了随着组学类型数量的减少,各类有监督的学习方法AUC的变化。图中显示随着组学类型数量的减少,虽然各种有监督学习方法AUC均有所下降,但如图5,折线图较为平缓,尤其是神经网络和随机森林。神经网络在所有类别中都保持了相对稳定的性能,其在2类组学中的平均AUC为0.955,与完整3类组学数据的0.993相比,差异不足4%;即使在许多仅含1类组学数据的IBD_all中,仍能保持0.933的AUC值,显著优于传统LDA方法。这表明它对不完整数据具有鲁棒性。这表明使用模型降维整合后的神经网络方法能够充分利用样本数据,避免因数据缺失导致的信息损失。
Figure 5. Model performance with incomplete multi-omics data
图5. 不完整多组学数据下的模型性能
4.3. 潜在表征的生物学可解释性与特征归因分析
为深入理解模型预测背后的生物学逻辑,我们采用基于梯度的归因方法,系统评估了各组学特征对IBD分类的贡献程度。
Figure 6. Top 10 most important features and attribution scores across the three omics layers
图6. 三组学的前10重要特征及归因得分
如图6所示,在微生物组层面,Prevotella copri的归因得分最高(0.073),显著高于其他物种,多个拟杆菌属成员(如Bacteroides stercoris、B. vulgatus和B. fragilis)以及以产丁酸著称的Faecalibacterium prausnitzii同样表现出较强的归因信号。这些菌种在维持肠道屏障完整性、调节宿主免疫反应等方面已有广泛报道,其重要性进一步证实了模型捕捉到的生物学相关性。转录组层面的高贡献特征则集中于若干与氧化还原平衡和能量代谢相关的基因。例如,源自Bacteroides fragilis的超氧化物歧化酶(SOD)和过氧化物还原酶均显示出较高的归因值,说明肠道微生物可能通过调控局部氧化应激状态参与疾病进程。此外,精氨酸脱亚胺酶(arginine deiminase)等参与氨基酸代谢的酶类也被识别为关键因子,说明微生物在病理条件下可能发生代谢重编程。代谢组特征的单个归因值相对较低(最高约为0.007),但排名靠前的代谢物如C18n_QI851和C18n_QI711多属于脂质类化合物,且在多个样本中稳定出现。这一模式反映了宿主与微生物共同作用下脂质代谢通路的系统性扰动。
5. 总结
本研究针对微生物多组学数据中普遍存在的样本不完全匹配、模态缺失及高维稀疏性等挑战,提出了一种基于动态掩码的多组学数据整合模型IMMO-integration。该模型通过引入随训练进程自适应调整的动态掩码机制,增强了对不完整输入数据的鲁棒性,避免了传统静态掩码可能导致的局部最优与泛化能力下降问题。结合参数共享的解码结构与加权重构损失函数,模型实现了跨组学特征的有效融合与均衡学习,在保证数值稳定性的同时提升了潜在表示的生物学可解释性。
在IBDMDB数据集上的实验结果表明,动态掩码策略显著优于静态掩码方案,训练损失持续下降至收敛,且在下游IBD状态预测任务中,基于潜在特征的神经网络分类在大部分数据子集上AUC超过0.93,部分达到0.99,验证了该模型在特征提取与判别建模方面的优越性能。进一步在斯坦福IPOP糖尿病相关多组学数据集上的外部验证显示,模型在不同疾病背景下仍保持稳定的分类表现,AUC最高达0.898,证明其具备良好的跨数据集泛化能力。
IMMO-integration为不完全多组学数据的整合分析提供了一个高效、稳健且可扩展的计算框架。其不仅能够有效应对现实研究中常见的数据缺失问题,还能生成具有强判别力的低维表征,支持后续的生物标志物挖掘与疾病机制研究。此外,期望未来能够进一步拓展该模型至更多组学类型,并探索其在纵向多时点数据建模中的应用潜力,助力精准医学的发展。