1. 引言
肝癌(HCC)作为原发性肝癌的主要类型,是全球范围内导致癌症死亡的主要病因之一。其高发病率和死亡率对⼈类健康构成了严重威胁,每年新增病例超过100万,且死亡⼈数几乎与新发病例数相等,使其成为癌症相关死亡的第三大原因。HCC的发生发展与慢性肝脏疾病密切相关,尤其是与肝纤维化的关系尤为密切。肝纤维化是慢性肝脏疾病的重要共同病理生理特征,也是肝癌的重要前兆。当肝脏受到长期损伤或感染时,肝脏会启动修复机制,但持续的损伤会导致纤维化过程失控,进而引发肝硬化并最终可能发展为HCC。
肝癌与不同病因引起的慢性炎症和纤维化有关,包括乙型肝炎和丙型肝炎以及酒精性和非酒精性脂肪肝。慢性未消退的炎症与持续性肝损伤和并发再生有关,并导致纤维化、肝硬化和最终肝癌的连续发展。尽管各种病因因素之间存在内在差异,但肝癌起源的一个共同点是由实质细胞死亡和由此产生的炎症级联反应激活的伤口愈合反应持续存在。因此,鉴定导致从慢性肝损伤转变为肝纤维化和肝癌的基本炎症信号通路可以描绘新的预测性生物标志物和靶点,以识别和治疗慢性肝炎症患者。
2. 文献综述
2.1. 炎症与炎性细胞因子
肝脏在面对如肝炎病毒、脂肪堆积、酒精摄入和胆汁淤积等损害时,会自然产生炎症作为自我保护和修复的手段。然而,这种炎症反应当肝星状细胞被激活时会导致肝纤维化[1]。同时,肿瘤微环境也受到细胞因子和趋化因子的深刻影响,这些分子能够通过激活不同的下游效应因子调控免疫和炎症环境[2]。值得注意的是,核因子κB (NF-κB)活化介导的炎性细胞因子的产生在肝脏的炎症–致癌轴中起重要作用[3]。一些炎性细胞因子如IL-1、IL-6和TNF-α在肝纤维化和肿瘤微环境中起到了双重作用。它们既可以作为抗肿瘤的免疫响应因子,也可以促进肿瘤的生长和存活[2]。
2.2. 炎症中的IKK-NF-κB通路在肝细胞中的作用
核因子κB(NF-κB)是一种转录因子,参与许多细胞过程,包括免疫信号传导、炎症、增殖、细胞凋亡和发育。NF-κB通路已成为炎症信号转导的范式,其传导中的受体近端激酶是炎症和癌症的潜在治疗靶点[4]。许多刺激通过IκB激酶(IKK)依赖性磷酸化激活NF-κB,导致IκB降解,进而导致了IKK-NF-κB通路的失活,而IKK-NF-κB通路的失活以及炎症诱导的NF-κBp65磷酸化可能会引起肝细胞增殖[5]。Vucur M [6]等人也提到NF-κB信号传导失活的肝细胞中的坏死体激活导致坏死性凋亡加速执行,限制了警报蛋白的释放,从而防止了炎症和肝癌发生,这种瘤内NF-κB坏死性凋亡特征与人类肝癌发生的不良预后相关。
2.3. IGF信号传导和癌症的关系
胰岛素样生长因子(IGF)对各种癌症的生长和存活至关重要,可抑制细胞凋亡并促进细胞周期进程、血管生成和转移活动。研究表明,IGF信号通路不仅是恶性转化的驱动因素,而且与维持肿瘤血管生成有着复杂的关系,阻断IGF信号轴可以抑制肿瘤生长和血管生成[7]。Solarek W [8]等人发现IGFs是肾癌细胞生长和迁移的刺激因子,可能在细胞水平上影响肾癌的肿瘤发生和进展。同时,Qiao XR [9]等人提出IGF2沉默减弱了巨噬细胞中NF-KB的表达,同时通过阻断IGF2/IGF2R信号的传导可以抑制NF-κB介导的炎症反应。Wang YC [10]的研究表明,IGF2的过表达使得巨噬细胞中NF-κB的表达显著上调,而NF-κB激活可以通过诱导促炎相关基因的转录,在炎症性疾病中起关键作用[11]。
3. 研究方法
3.1. 差异分析
为解决微阵列实验中差异表达基因的识别问题,本文采用Smyth G K提出的线性模型结合经验贝叶斯方法,通过方差收缩提升小样本数据分析的稳定性[12]。
a. 数据预处理
在进行差异分析之前,需要对微阵列或高通量测序数据进行预处理。若基因表达矩阵的最大值超过50,表明数据未经log转换,因此需要对原始荧光强度进行log2转换以稳定方差并近似正态分布:
(3.1)
其中,
为探针i在样本j的原始荧光强度,
是经过转换后的表达矩阵。
同时,实验数据中可能存在多个探针对应同一个基因的情况。为确保分析结果的唯一性,通常对重复基因名进行去重。常见的去重方法是计算同一基因名对应的多个探针的表达值均值,公式如下:
(3.2)
其中,
是去重后的基因表达值,
为与基因g对应的探针k的表达值,
为与基因g对应的探针数量。
b. 线性模型
完成数据预处理后,样本分组(如HBV与normal)构建设计矩阵
,并对每个基因的表达值拟合线性模型:
(3.3)
其中,
是第i个基因的表达值,
是设计矩阵,
是待估计的回归系数,
是误差项。
c. 经验贝叶斯检验
调用limma包的eBayes函数,通过经验贝叶斯方法将基因特异性残差方差
向全局先验方差
收缩,计算后验方差:
(3.4)
其中,
为先验自由度,
为基因的残差自由度。在收缩方差的基础上,对回归系数
的标准误进行平滑化,构造修正后的
统计量:
(3.5)
其中
为效应估计值,为设计相关方差缩放因子。
d. 差异基因筛选
最后根据基因的对数倍数变化(logFC)与P值筛选显著差异表达基因。通过差异分析本文有效提高了小样本差异分析的统计稳定性和准确性,为后续网络分析和功能富集提供了可靠的候选基因。
3.2. 加权基因共表达网络分析
加权基因共表达网络分析(Weighted Gene Coexpression Network Analysis, WGCNA)是一种集成了网络构建、模块检测、模块和基因选择、拓扑特性计算和数据模拟等功能的方法,能够分析大型高维数据集并识别具有生物学意义的共表达模块[13]。WGCNA相关网络促进了基于网络的基因筛选方法,可用于识别候选生物标志物或治疗靶点。这些方法已成功应用于癌症、小鼠遗传学、酵母遗传学和脑成像数据分析[14]-[17]等各种生物学环境。
a. 网络构建
在网络构建阶段,WGCNA通过计算基因间的相关性来构建基因共表达网络。通常,使用皮尔逊相关系数来度量基因表达的相似性:
(3.6)
其中,
表示第i个基因在第k个样本中的表达值,
是基因i在所有样本中的平均表达值。
计算得到的相关系数矩阵反映了基因对之间的相关性。为了提高网络的鲁棒性和可靠性,WGCNA进一步对这些相关性加权,通过加权相关性矩阵来构建加权邻接矩阵,权重为基因间相关性的幂函数:
(3.7)
其中,
是一个预设加权指数,通常设定在6到20之间。加权矩阵中的每个元素反映了基因之间的共表达强度,通常使用一个加权指数(例如
值)来调整基因间的相关性强度。这个加权矩阵不仅考虑了基因之间的线性相关性,还通过调整加权系数,强调了网络中高度相关基因之间的关系。
为了进一步捕捉基因共表达网络的拓扑结构,WGCNA计算了拓扑重叠矩阵(TOM),TOM值反映了基因间的共享邻域结构:
(3.8)
其中,
是加权邻接值,
和
是基因i和j的连接度,即与其他基因的相关性之和。TOM矩阵的高值表明基因间不仅高度相关,而且在网络结构中紧密相连。
b. 模块检测
构建网络后,WGCNA使用无监督聚类将高度共表达的基因分组到同一模块。模块检测可以使用层次聚类、K-means聚类等多种方法识别模块基因。一般情况下,WGCNA使用层次聚类算法,基于基因之间的拓扑重叠度量(如TOM值),将基因分成不同的模块。为了确定模块的数量和边界,WGCNA采用了一些标准,如模块的最小基因数(通常设定为30个基因),以及模块之间的最小距离。每个模块通过其模块特征基因(ME)来代表该模块的表达模式。模块特征基因是该模块所有基因表达的加权平均值,通常通过主成分分析(PCA)来提取。
(3.9)
其中,
是基因i在模块k中的相关性,
是基因i的表达值,
是模块k中基因的数量。模块特征基因可以用来衡量整个模块的表达模式,并将这些模块与表型(如疾病状态、临床特征等)进行关联。
c. 模块和基因选择
模块和基因选择的目的是从所有检测到的模块中选择与表型最相关的模块,进一步识别与特定生物学现象或疾病相关的基因。每个模块特征基因(ME)可以与表型变量(如疾病状态或临床特征)进行相关性分析。由此,通过计算模块特征基因与表型的相关性,可以选择出那些与表型高度相关的模块。
在这一阶段,WGCNA还可以进行基因选择,即从每个模块中挑选出与模块特征基因具有较高相关性的基因。这些基因通常在模块中发挥关键作用,可能是网络的“核心基因”。通过与表型变量的关联分析,可以进一步筛选出具有生物学意义的基因,作为候选基因进行实验验证或进一步的功能分析。
d. 拓扑特征计算
拓扑特性计算用于揭示网络的整体结构和每个基因在网络中的重要性[18] [19]。WGCNA通过计算基因的连接度来表示基因与网络中其他基因的关系强度,以评估基因在网络中的重要性。基因i的连接度
定义为:
(3.10)
其中,
是基因i和基因j之间的加权相关性。高连接度的基因通常在网络中起到核心作用,可能是潜在的关键基因。此外,WGCNA还会计算模块内部的基因密度、模块间的关联强度等拓扑特性,用于评估模块的稳定性、紧密度及其与其他模块的关系。
e. 数据模拟
数据模拟阶段通常用于验证网络构建的稳定性和可靠性。通过引导法等方法,可以对原始数据进行重采样,构建多个数据子集,并评估网络分析结果的稳健性。引导法通过多次抽样产生数据变体,以此来测试所识别模块的稳定性和重现性。此外,WGCNA还可以通过模拟假设数据集来验证其识别模块的能力。例如,可以生成随机的基因表达数据来模拟网络并测试WGCNA是否能够准确地恢复基因间的共表达关系和模块结构。这种数据模拟不仅可以帮助评估结果的可靠性,还可以用于比较不同方法在网络构建中的表现,从而增强分析的科学性和信度。
4. 研究结果
4.1. 数据集来源
基因表达数据库(GEO)是由美国国立生物技术信息中心(NCBI)创建并维护的一个公共数据库,收录了来自不同物种、实验条件和疾病模型的大规模基因表达数据,涵盖了基因组学、转录组学、表观遗传学等多个研究领域。本文中用于分析IGF2R基因表达特征的GSE36376数据集均检索并下载自GEO数据库,该数据集聚焦于肝细胞癌(Hepatocellular Carcinoma, HCC)的转录组学研究,样本均来源于人类肝组织且经过严格的质量控制与标准化处理,能够真实反映临床样本的基因表达状态。具体而言,该数据集包含193例正常肝组织(Normal)样本和240例肝细胞癌(HCC)样本,总计433个独立样本,样本量充足且分组明确,为对比分析IGF2R基因在正常肝组织与HCC组织中的表达差异、探究其在HCC发生发展中的作用提供了可靠的临床数据基础。
4.2. 差异分析结果
在设定筛选标准为|log2FC| > 0.5且p < 0.05的条件下,共获得11,611个上调基因、1752个下调基因,以及7574个在两组间表达无显著变化的基因。结果显示,正常肝组织与HCC组织之间存在广泛的转录组重塑,提示肿瘤发生过程中伴随大规模基因表达变化。为更直观展示差异基因的整体表达模式,绘制了差异表达结果的热图,如图1所示。
Figure 1. Volcano plot of differential expression analysis
图1. 差异分析火山图
4.3. 加权基因共表达网络分析
差异分析结果显示,IGF2R在肝细胞癌组织中相比正常肝组织显著上调,提示其可能在肝癌发生发展过程中发挥重要作用。为进一步探究其表达模式及生物学关联性,基于全部样本构建了WGCNA共表达网络,如图2所示。在软阈值为11的条件下,共识别到13363个差异基因并将其划分为4个共表达模块。其中,MEturquoise模块与肝癌表型呈现最显著的正相关(r = 0.88, p = 1e−142),共包含832个基因。进一步计算模块成员度(MM)和基因显著性(GS)后,共有335个基因的MM与GS均大于0.5,提示其在模块中具有较高的重要性。
此外,以更严格的筛选标准(MM > 0.8且GS > 0.8)进一步识别核心驱动基因(hub genes)时,turquoise模块中筛选出一组关键基因。MM-GS散点图显示,IGF2R在该模块中具有较高的模块成员度和临床显著
(a) (b)
(c) (d)
Figure 2. WGCNA analysis: HCC-GSE36376. (a) Soft threshold determination; (b) Gene clustering tree; (c) Module-trait relationships; (d) Scatter plot of module membership (MM) versus gene significance (GS)
图2. WGCNA分析:HCC-GSE36376。(a) 软阈值测定;(b) 基因聚类树;(c) 模块与临床性状相关性;(d) MM与GS的散点图
性,位于模块的高影响力区域,表明其不仅在肝癌中高度上调,同时也可能作为关键驱动因子参与与肝癌进展相关的共表达网络调控。
5. 结论
本文基于GEO大型转录组数据集GSE36376,从差异表达分析与加权基因共表达网络分析(WGCNA)两个层面系统性揭示了IGF2R在肝癌(HCC)中的表达特征及其潜在功能。差异分析结果显示,IGF2R在HCC组织中相较正常肝组织显著上调,提示其可能参与肝癌的发生发展。随后构建的WGCNA网络进一步证实,IGF2R所在的MEturquoise模块与肝癌表型呈最强正相关(r = 0.88),表明该模块在HCC的表型变化中发挥关键作用。
在更严格的筛选阈值(MM > 0.8 且 GS > 0.8)下获得的核心基因集中,IGF2R具有显著的模块成员度与表型相关性,位于共表达网络中影响力最高的区域。这些结果表明,IGF2R不仅在表达水平上显著上调,更可能作为关键驱动因子参与调控与肝癌进展密切相关的功能模块,从而在HCC的发展中发挥重要的生物学作用。
基金项目
中央引导地方科技发展资金项目:236Z2401G;河北省自然科学基金项目:H2025202001。