1. 引言
单细胞RNA测序(scRNA-seq)技术的革命性突破为生命科学研究开辟了新纪元。该技术通过对单个细胞转录组的高通量测序,实现了对复杂生物系统中细胞异质性的精细化解析[1]。在发育生物学领域,该技术已成功绘制出斑马鱼胚胎细胞分化的动态图谱;在肿瘤研究中,其揭示了肿瘤微环境中免疫细胞的多样性特征。然而,该技术产生的数据具有显著的高维特性(通常包含数千个基因表达特征)、极端的稀疏性(零值比例超过80%)以及复杂的技术噪声(批次效应、捕获效率差异等),这些特性给后续的生物信息学分析带来了严峻挑战。传统的聚类分析方法在处理此类数据时暴露出明显局限性。以K-means [2]为代表的线性聚类算法,依赖于研究者对特征空间的先验假设,难以捕捉基因表达网络的非线性关系。层次聚类虽然能够揭示数据的层次结构,但计算复杂度高且容易受噪声干扰。近年来兴起的深度学习方法为解决该问题提供了新路径。基于自编码器的深度嵌入聚类模型(DEC)通过构建端到端的特征学习框架,在多个数据集上展现出优于传统方法的性能。
2. 研究现状
单细胞RNA测序(scRNA-seq)技术的突破性进展使得在单个细胞水平解析基因表达谱成为可能,为揭示细胞异质性、发育轨迹及疾病机制提供了关键手段。然而,scRNA-seq数据固有的高维度、稀疏性及技术噪声严重制约了细胞亚群的精准识别。传统聚类方法(如K-means、层次聚类)依赖人工特征工程与先验假设,难以捕捉复杂的非线性特征关系;而基于深度学习的聚类模型(如深度嵌入聚类,DEC)虽能自动提取特征,却常因噪声干扰导致潜在空间重叠,影响聚类效果。因此,如何构建兼具去噪能力与特征关联性建模的深度聚类框架,成为当前研究的核心挑战。
近年来,自编码器(AE)与变分自编码器(VAE)因其强大的特征重构能力被广泛应用于单细胞数据分析。然而,现有方法在两方面存在局限:其一,去噪过程多依赖简单重构损失,难以区分噪声与真实生物变异;其二,特征交互建模多采用全连接层,缺乏对全局关联的显式建模。针对上述问题,本文提出一种创新性深度聚类框架,其核心贡献如下:
1) 深度去噪网络与InfoNCE对比损失的融合:在深度去噪自编码器(DAE)中引入InfoNCE对比损失,通过最大化干净特征与去噪特征的互信息,增强模型对噪声的鲁棒性。相较于传统均方误差(MSE)损失,InfoNCE通过正负样本对比学习,有效保留数据内在结构,抑制过平滑问题。
2) 多头自注意力机制与模糊聚类的协同优化:在深度聚类网络(CN)中嵌入多头自注意力层,通过并行注意力头捕获特征间多尺度依赖关系,并结合模糊K-means算法动态更新隶属度矩阵。该设计不仅提升了特征表示的判别性,还缓解了聚类中心初始化敏感性问题。
本文在多个单细胞数据集上进行了广泛验证。结果表明,相较于其他模型,本文模型在聚类效果上均显著优于现有方法。本研究不仅为单细胞数据分析提供了新的技术路径,其模块化设计思路还可扩展至多组学数据整合领域,具有重要的理论价值与应用前景。
3. 材料和方法
3.1. 数据集
在本文中,我们考虑在常用的数据集上进行比较,然后通过实验来证明本研究模型的有效性和价值。总共在五个包含不同人类和小鼠组织的数据集上评估了该模型,其中Lawlor [3]和Muraro [4]是两个包含未知细胞类型的数据集,Bmcite [5]和Bhattacherjee [6]是两个包含超过10,000个细胞的数据集。这些数据集的详细信息如表1所示。
Table 1. Details of the scRNA-seq dataset
表1. scRNA-seq数据集的详细信息
No. |
Dataset |
Cell Source |
Cells |
Original |
Cell Types |
1 |
Kolodziejski |
Mouse |
704 |
38,653 |
3 |
2 |
Lawlor |
Human |
638 |
26,616 |
8 |
3 |
Muraro |
Human |
3072 |
19,059 |
11 |
4 |
Bhattacherjee |
Mouse |
24,822 |
21,000 |
8 |
5 |
Bmcite |
Mouse |
30,672 |
17,009 |
5 |
3.2. 预处理
我们借助Python包SCANPY [7]对原始的单细胞RNA测序(scRNA-seq)数据开展预处理工作。scRNA-seq数据呈现为矩阵形式,矩阵的每一行对应一个细胞,每一列对应一个基因,并且每个细胞所对应的基因数量是相同的。为了减少无用基因对模型计算过程以及聚类准确性的不利影响,我们会针对每个数据集,去除那些在超过95%的细胞中计数都为零的基因。之后,对数据进行归一化处理,使其平均值为0且方差为1。归一化操作能够让数据处于统一的尺度上,有利于后续的分析。完成归一化后,再对数据进行对数变换,对数变换可以有效压缩数据的动态范围,使数据分布更加符合分析要求。经过上述预处理步骤后,我们会挑选出前2500个高度可变的基因,将这些基因的数据作为SCINNO模型的输入数据。这些高度可变的基因往往蕴含着更多关于细胞状态和功能的关键信息,有助于提升模型的性能和分析的准确性。
3.3. 模型结构
SCINNO的整体流程如图1所示。SCINNO模型由加入了InfoNCE对比损失函数的深度去噪网络和加入了多头自注意力机制的深度聚类网络组成。
Figure 1. Diagram of the model structure of SCINNO
图1. SCINNO的模型结构图
Figure 2. Flowchart of DN
图2. DN的流程图
Figure 3. Flowchart of CN
图3. CN的流程图
深度去噪网络的具体结构如图2所示。深度聚类网络的具体结构如图3所示。
SCINNO模型通过深度去噪网络(DN_Innovative)与深度聚类网络(CN_Innovative)的协同设计,实现了单细胞数据从噪声抑制到精准聚类的端到端优化。DN_Innovative模块采用双路径编码策略,在原始基因表达矩阵中注入均匀噪声(幅度0.3的随机扰动)生成噪声数据,分别通过共享权重的编码器提取干净特征与噪声特征。其中,干净路径直接编码原始数据,噪声路径学习含噪输入的鲁棒表示,二者通过重构损失(MSE)强制解码器恢复原始表达谱,同时引入对比损失(InfoNCE)最大化干净与噪声特征间的互信息,迫使模型忽略技术噪声、聚焦生物学信号。CN_Innovative模块则基于多头自注意力机制建模基因间的全局依赖关系,将去噪后的特征映射到多头子空间(4头),通过并行计算注意力权重捕捉不同基因组合的共表达模式(如细胞周期相关基因簇),生成更具判别性的融合特征。在此基础上,动态模糊聚类算法为每个细胞计算与各簇中心的软隶属度,采用指数衰减函数(模糊因子γ = 2.0)优化概率分配,并通过加权平均迭代更新簇中心位置,有效处理细胞状态的连续过渡与边界模糊问题。端到端训练将重构误差、对比对齐与聚类紧密度目标统一为联合损失函数,通过反向传播同步优化编码器、注意力层与聚类中心参数,避免了传统分阶段流程中特征学习与聚类目标的割裂,从而在抑制噪声传播的同时增强聚类判别性能,最终实现高噪声单细胞数据的高精度亚群解析。
3.4. 数学原理和公式
3.4.1. 噪声输入机制和双分支编码器
给定原始基因表达向量
(维度由高可变基因筛选确定),通过均匀分布噪声生成增强视图:
(1)
控制噪声幅度,通过网格搜索验证其对模型鲁棒性的平衡效果(过大破坏语义,过小降低抗噪性);噪声项
的每个元素独立服从均匀分布,即每个维度的噪声值在
内随机生成,
是全1向量,确保噪声均匀施加到所有基因维度;
表示均匀分布,生成与原始数据匹配的噪声。
共享权重的编码器
分别处理干净数据
和噪声数据
,生成潜在特征:
(2)
是编码器的权重矩阵,将输入从高维基因空间映射到512维潜在空间;LeakyRelu激活函数缓解梯度消失问题,允许少量负值信息通过。
3.4.2. 信息对比损失(InfoNCE Loss)
对批次内样本计算归一化相似度,最大化正样本对
的互信息:
(3)
是批次大小,平衡计算效率与负样本数量;
是温度参数,调节相似度分布尖锐度(值越小,相似度越集中,实验验证其最优性);
表示L2归一化后的特征,消除幅值对相似度的影响。
3.4.3. 双路径重构损失
强制编码器保留原始数据的可逆性:
(4)
解码器结构:
(5)
重构损失确保潜在特征
和
保留原始数据的全局结构;共享解码器权重
迫使双路径特征空间对齐。
3.4.4. 多头自注意力机制
将潜在特征
分解为
头,生成注意力增强特征
:
,
,
(6)
(7)
(8)
是各头的投影矩阵,学习不同子空间的关联模式;
缩放点积结果,防止梯度爆炸;
将拼接后的多头输出映射回原维度。
3.4.5. 模糊聚类损失
基于注意力增强特征
,计算软隶属度和聚类损失:
(9)
(10)
制隶属度衰减速率(值越大,样本越倾向于单一类别);
是模糊指数,调节隶属度软硬程度(
时退化为硬聚类);
是熵正则项系数,防止所有样本隶属同一类别的退化解;
是可学习的聚类中心,表示细胞类群的原型特征。
3.4.6. 总优化目标
联合对比学习、重构与聚类损失,动态平衡优化方向:
(11)
控制对比损失权重,避免过度扭曲特征空间;
强化聚类损失的主导作用;训练初期以重构损失为主,后期逐步增加聚类损失权重。
3.5. 评价指标
3.5.1. NMI
归一化互信息(Normalized Mutual Information, NMI) [8]:
是互信息(Mutual Information),
和
分别是聚类结果
和真实标签
的熵。
互信息(MI)是衡量两个聚类结果之间的依赖关系,计算公式为:
:样本同时属于聚类
的第
类和真实标签
的第
类的概率;
和
:样本分别属于聚类
的第
类和真实标签
的第
类的概率。
熵是衡量聚类结果或真实标签的不确定性:
归一化:将互信息除以两个熵的算术平均,使结果范围在[0, 1]之间。值越接近1,表示聚类结果与真实标签的一致性越高。
3.5.2. ARI
调整兰德指数(Adjusted Rand Index, ARI) [9]:
其中:
是兰德指数(Rand Index);
是兰德指数的期望值。
兰德指数(RI):计算样本对在聚类结果和真实标签中的一致性比例:
其中,
:在聚类和真实标签中均被分到同一类的样本对数;
:在聚类中被分到同一类,但在真实标签中被分到不同类的样本对数;
:在聚类中被分到不同类,但在真实标签中被分到同一类的样本对数;
:在聚类和真实标签中均被分到不同类的样本对数。
调整:通过减去随机情况下的期望值
并进行归一化,使结果范围在[0, 1]之间;
:完全一致;
:随机水平;
:比随机更差。
列联表法简化计算:
其中:
是聚类类别
和真实标签
的共同样本数,
是聚类类别
的样本数,
是真实标签
的样本数,
是总样本数。
4. 结果与讨论
4.1. 聚类效果比较
为了评估SCINNO (结果图中名为Innovative)的聚类性能,我们在五个真实的scRNA-seq数据集上运行SCINNO模型来获得聚类效果。这些数据集的标签信息都是通过大量的生物实验获得,同时与多种具有默认参数的单细胞聚类方法进行比较,包括Celltree [10]、SHARP [11]、SIMLR [12]、Seurat [13]、scENA [14]和SCGAE [15]。此外,我们通过两个常用的聚类指标(NMI, ARI)来评估每个聚类模型,来展示我们的模型性能。详细的指标值如下图4所示,从图中我们可以看到,SCINNO模型对每个数据集的整体效果优于其他对比方法。具体来说,SCINNO在每个数据集上实现了最佳的NMI和ARI值。
Figure 4. Clustering performance of SCINNO and other clustering methods
图4. SCINNO和其他聚类方法的聚类性能
4.2. 聚类效果可视化
为了更清楚地显示SCINNO模型的聚类效应,我们使用T-SNE将真实数据集投影到2D空间中,更直观地展示预测效果。如图5所示,一个点代表一个细胞,不同的颜色代表不同的细胞类型。从图中可以看出,在Muraro、Bmcite和Bhattacherjee数据集上,SCINNO预测的不同颜色簇具有明显的边界,可以清晰地区分类别。
Figure 5. Visualization of the clustering effect of the SCINO model on the datasets
图5. SCINNO模型在数据集上的聚类效果可视化
4.3. 消融实验
为了验证InfoNCE对比损失函数和多头自注意力机制对模型性能具有贡献,我们分别关闭InfoNCE对比损失函数和多头自注意力机制,来和SCINNO模型进行模型效果对比。从图6可以看出,当分别关闭InfoNCE对比损失函数和多头自注意力机制时,模型性能都有所下降,这也说明了这两者对模型效果的提升是有重要贡献的。
Figure 6. Ablation experiments of the SCINNO model
图6. SCINNO模型的消融实验
4.4. 讨论
在本文中我们提出了一种基于深度模型的聚类方法——SCINNO,该方法的核心架构包含两个关键模块:DN_Innovative模块通过噪声注入模拟技术噪声,构建干净与噪声数据的双路径编码网络,结合重构损失(MSE Loss)和对比损失(InfoNCE Loss)实现去噪特征学习;CN_Innovative模块则通过多头自注意力机制增强特征交互,结合动态模糊聚类优化样本与聚类中心的软分配关系。模型通过端到端联合训练,将特征学习、去噪和聚类目标统一优化,总损失函数包含重构误差、对比对齐和聚类目标的综合约束。我们的模型具有这几个优势:一是通过噪声对比学习对齐干净与噪声数据的潜在空间(z_clean vs z_noise),提升模型对测序误差等技术噪声的鲁棒性;二是引入多头自注意力捕捉基因调控网络的非线性关系,突破传统线性降维方法的局限性;三是采用动态模糊聚类策略优化样本隶属度矩阵,显著提高对重叠簇和稀有细胞类型的识别能力;四是通过端到端训练避免分步方法的误差累积,确保特征学习与聚类目标的深度适配。我们的模型的聚类效果相比于其他模型取得了显著的提升,为单细胞数据的聚类分析提供一种强有力的工具。
尽管SCINNO模型已取得显著进展,但其架构与算法仍存在可优化空间,具体方向包括:当前DN_Innovative模块采用固定幅度的均匀噪声(如0.3)模拟技术噪声,然而实际单细胞数据中噪声类型复杂多样(如dropout、批次效应、测序深度差异)。改进方向:基于细胞表达特征(如稀疏性、基因表达均值)自适应调整噪声幅度。例如,高稀疏细胞(dropout较多)可注入更高强度噪声,迫使模型学习更强的抗噪能力或者是结合均匀噪声、高斯噪声与掩码噪声(模拟dropout),通过多模态噪声注入提升泛化性。
5. 结语
未来的研究我们可以进行多模态的数据融合,结合空间转录组、单细胞ATAC-seq等多组学数据,构建多维度特征空间。也可以考虑引入时序分析技术追踪细胞状态转变,揭示发育过程或疾病进展中的关键调控节点以及开发自适应超参数优化工具,减少人工干预。同时,建立统一的质量控制标准和基准测试平台,提升算法可比性。总之,我们后续仍会在单细胞测序方面继续努力,开发出更优秀、更好的模型来应用于生物医学的研究之中。